韩健：大数据，大忽悠？

千姿百态 · 发表于 2013-12-1 07:30

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

现在学术界的一个时髦词汇就是“大数据”，好像大数据是万能的，真的是那样吗？

大数据的产生有这样几个途径：

（1）长期积累大量标本，准确纪录临床病症，并用现代化技术对标本进行描述。收集标本的目的是通过比较，在众多标本之间的异同中找到疾病诊断的机会；

（2）使用高通量技术（比如高通量测序），对少量标本进行纵深分析，获得综合数据。通过比较，在标本内部（和标本之间）找到疾病特异性的诊断指标；

（3）充分利用超级电脑的运算和储存能力，在高通量实验的基础上，产生和临床相关的大数据；

（4）没有长期积累的大标本库，不用高通量技术，不用超级电脑，就凭一张超能说的嘴。

标本，历来是医学科研各种炼金术的起点，无论是研发诊断还是治疗，都离不开第一手临床资料，都离不开标本。遗传性疾病靠收集家系标本，通常是几个家系就能判定治病突变，尤其是有了现代测序技术以后，全基因组测序可以很快找到治病突变；可是对那些类似高血压，肿瘤这种“多基因病”就比较难对付了。光有大标本还不够，还要有高通量技术，甚至有了高通量技术也不能解决问题（参考GWAS的误区）。质变（基因突变导致的遗传病）需要小标本，量变就需要大标本了。怎样才能完成由量变到质变的转化？这才是大学问。

单单有高通量技术也不代表有高质量的大数据。“垃圾近，垃圾出”就是对单有技术没有高质量标本的所谓“大数据”的一个经典描述。

如何巧妙地结合大标本，高通量技术，和超级电脑的运算能力，这是我们需要专研的，冷静思考的。

大数据很容易被用来忽悠人，因为懂电脑的不多，一说大数据，人们马上想到程序员，服务器，等IT行业的专有名词，这对学生物医学的来说是一个门槛。其实，那些口头上吹出来的大数据也很好识别，不妨问几个关键问题：

（1）标本哪里来？临床数据是否全？是否有知情同意书？标本采集者是否经过培训？

（2）标本积累了多久？冰箱和液氮罐在哪里？冰箱耗电和液氮填充的纪录在哪里？

（3）高通量技术平台是哪个？什么时候开始做的？

（4）运算能力如何？计算机房在哪里？计算机房的耗电纪录在哪里？

（5）程序员有几个，有什么样的经历？

大标本，大数据，听起来好像是只有有钱人才能玩的起的游戏。之所以有人拿大数据来忽悠，就是因为一听到大数据人们不免肃然起敬，于是马上就有了“档次”，就“入流”了。

有价值的大数据靠三个要素：大量的高质临床标本；先进的高通量检验技术；和数据处理硬件，软件及生物信息学人才。因为缺少诚信，加上大家都抢论文的第一作者，这三方面高档次的合作机会在国内就变得少上加少了。