立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 2862|回复: 0

[产业观察] 大数据时代的生物医学

[复制链接]
发表于 2014-4-3 07:30 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×

编者按:近期,英国医学研究理事会(MRC)拟投资3 200万英镑资助首批5大项目,来提高医学生物信息学的能力、产能,改善核心基础设施。这项“医学生物信息学计划”预计总投资5 000万英镑,将通过建立耦合复杂生物数据和健康记录的新方法,来解决关键的医学难题。

1 生物医学领域的数据量极速增长

本世纪以来,随着高通量测序的技术发展和逐步应用,生命科学领域的数据量正在极速增长,而对于海量数据的分析和应用需求日益迫切。尤其是随着新一代测序技术的发展,更大数量级的基因组数据产出日渐增加(从GB、TB级到PB、EB级)——每台高通量的测序仪每天可产生约100 GB的数据——大规模的基因组数据的分析和管理正在成为推动生命科学创新的源泉。

而且,大数据还不仅仅来源于高通量的基因组测序。生命科学的快速进步,以及生物技术与信息技术的融合,使得大数据贯穿从基础研究到药物开发到临床诊疗到健康管理的所有环节。在基础研究领域,除高通量测序产生的数据外,转录组、代谢组、蛋白质组等领域也正在极速增长,而生物学表型、代谢过程、致病基因等的分析都亟需将不同类型的数据加以整合,从中挖掘出更具价值的内容。

2 大数据正在深刻影响生物医学研究

在上述背景下,生命科学的基础研究正在发生重大转变,标志着生物学从实验科学向以数据驱动为主、实验为辅的理论科学的转变正在逐步形成,而这种模式的转变也在深刻影响着新药研发——即便是在小规模的研究中,靶标发现、化合物筛选等的密集过程的数量也已经在TB级以上,而更大数量级的数据分析,或许也将带来研发模式的变革。

在临床诊断方面,临床数据采集、存储、管理和应用相关的医疗信息技术快速发展,而不少医疗机构也正在逐步适应这一潮流。以美国德州大学安德森肿瘤中心为例,所支持的TB级以上数据,包括肿瘤的病理学的研究、流行病学,对于病因的精准预测和模型研究等。

而在用户端,大数据时代的到来,还源于健康管理、移动医疗应用的日益广泛。例如,微软2007年发布的HealthVault目标是用于实现个人和家庭的健康管理,而其数据则可从便携设备、第三方机构等导入,通过提供开放接口等支持应用集成。再如,在部分发达国家,开源的远程医疗平台日渐流行,如MocaMo-bile的功能主要包括身体诊断(如宫颈癌筛查、儿童期疾病诊断、皮肤诊断)、术后观察、应急反应(车祸现场的评估)和Moca benefits(现场筛查、诊后)等,并支持语音、图像、文本,据称,视频功能也在不久的将来实现。

个性化的健康服务与健康网络,如果能与基础数据、研发数据和诊疗数据有机地整合,其挖掘和分析的价值将不可估量,而这或许也将真正地支撑起个性化医疗、个性化用药,意味着“精准医疗”时代的到来。

3 信息技术与生物医学的融合

然而,就目前而言,大数据对于生物医学而言,仍然是机遇和挑战并存——只有做到信息技术和生物医学的结合更加紧密,才能充分地利用好海量数据,从而解决复杂疾病等人类面临的共同挑战。

例如,人群中基因组的相似性超过99.99%,要开展复杂疾病的全基因组关联分析,仅样本数量就往往达千份以上。要在其中发现环境因素、遗传因素对于疾病的影响,已是十分困难——生物学数据具有多维性质,即使理清血压、血糖等多种不同类型的临床和数字化信息之间关联就已经十分困难,更何况很多背景噪音可能会对此带来多方面影响。

仅仅从理论上看,上述过程至少需要云计算技术来实现数据的传输、分析、共享和关联等,需要异构源数据整合和互操作技术,需要可视化工具才便于人们理解复杂数据。只有这样,才能实现基础数据、研发数据、诊疗数据和个性化健康管理数据的“无缝”衔接和分析。

为此,已有不少企业和研究机构开展了这方面的开发,例如IBM开发了基于Hadoop进行全基因组关联分析的R语言包BlueSNP,全基因组关联分析中对每个位点或每组位点的分析推送到Hadoop计算节点上完成。此外,还有不少此类企业获得了风险投资的青睐,如Counsyl、Benchling、Practice Fusion、ElationEMR、DNA Nexus、Medisas、Comprehend Systems、Flatiron等。然而,即便是对于大数据分析平台而言,目前的发展也仍然只是一个开端。

4 数据标准的重要性

除了技术的挑战外,另一个挑战就是数据标准(包括科研电子病例标准、随访信息管理标准、实验室信息管理标准、生物信息分析平台、组学数据标准、药物临床试验信息标准、样本标准等)的缺乏,这往往使得研究者无从切入。例如,不同类型生物样本库的存在,以及搜集样本的类型和保存方式的不同,其所承担的功能和架构、工作流程、基础设施建设和设备配备等情况也会不同,使得数据标准很难建立。

即使是在信息技术和生物医学都极为发达的美国,不同系统、机构之间的数据共享和分析也面临着这一障碍。美国劳伦斯伯克利国家实验室基因组科学部主任鲁宾曾指出“理想状态下的目标是建立统一的电子病历系统,这些信息应该有统一的标准,但现实并非如此,各个医院存储的数据标准不同,而且不同系统存储的信息也不一样”。为此,在“奥巴马医改(Obamacare)”的政策中,就包括把问诊、处方以及治疗电子化,使所有的医院全部实现电子录入——即便如此,对于标准化而言,也仍然只是刚刚开始。

来源:生物360


楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表