现在学术界的一个时髦词汇就是“大数据”,好像大数据是万能的,真的是那样吗? 大数据的产生有这样几个途径: (1)长期积累大量标本,准确纪录临床病症,并用现代化技术对标本进行描述。收集标本的目的是通过比较,在众多标本之间的异同中找到疾病诊断的机会; (2)使用高通量技术(比如高通量测序),对少量标本进行纵深分析,获得综合数据。通过比较,在标本内部(和标本之间)找到疾病特异性的诊断指标; (3)充分利用超级电脑的运算和储存能力,在高通量实验的基础上,产生和临床相关的大数据; (4)没有长期积累的大标本库,不用高通量技术,不用超级电脑,就凭一张超能说的嘴。 标本,历来是医学科研各种炼金术的起点,无论是研发诊断还是治疗,都离不开第一手临床资料,都离不开标本。遗传性疾病靠收集家系标本,通常是几个家系就能判 定治病突变,尤其是有了现代测序技术以后,全基因组测序可以很快找到治病突变;可是对那些类似高血压,肿瘤这种“多基因病”就比较难对付了。光有大标本还不够,还要有高通量技术,甚至有了高通量技术也不能解决问题(参考GWAS的误区)。质变(基因突变导致的遗传病)需要小标本,量变就需要大标本了。怎样才能完成由量变到质变的转化?这才是大学问。 单单有高通量技术也不代表有高质量的大数据。“垃圾近,垃圾出”就是对单有技术没有高质量标本的所谓“大数据”的一个经典描述。 如何巧妙地结合大标本,高通量技术,和超级电脑的运算能力,这是我们需要专研的,冷静思考的。 大数据很容易被用来忽悠人,因为懂电脑的不多,一说大数据,人们马上想到程序员,服务器,等IT行业的专有名词,这对学生物医学的来说是一个门槛。其实,那些口头上吹出来的大数据也很好识别,不妨问几个关键问题: (1)标本哪里来?临床数据是否全?是否有知情同意书?标本采集者是否经过培训? (2)标本积累了多久?冰箱和液氮罐在哪里?冰箱耗电和液氮填充的纪录在哪里? (3)高通量技术平台是哪个?什么时候开始做的? (4)运算能力如何?计算机房在哪里?计算机房的耗电纪录在哪里? (5)程序员有几个,有什么样的经历? 大标本,大数据,听起来好像是只有有钱人才能玩的起的游戏。之所以有人拿大数据来忽悠,就是因为一听到大数据人们不免肃然起敬,于是马上就有了“档次”,就“入流”了。 有价值的大数据靠三个要素:大量的高质临床标本;先进的高通量检验技术;和数据处理硬件,软件及生物信息学人才。因为缺少诚信,加上大家都抢论文的第一作者,这三方面高档次的合作机会在国内就变得少上加少了。
|