从1到1000,从1000到百万从1900年孟德尔遗传定律被重新发现,到摩尔根的连锁和交换定律,再到1953年沃森(James D. Watson)和克里克(Francis Crick)发现DNA双螺旋结构,在不远的近现代科学史中,人们逐渐揭开自然界丰富多彩生物多样性背后的遗传与演化规律,建立了一套完整的学科体系。所有物种都有共同的起源,个体随机产生变异信息,通过定向的自然选择作用,再稳定遗传给下一代,以适应不断变化的外界环境,并由此进化出地球上所有的生命,包括人类。基因,作为整个遗传过程的基本单元,本质上就是一段具有功能性的DNA或者RNA的序列,它存储着生命体的所有信息,与我们每个人的生老病死都息息相关。 人的基因信息,是一本“无字天书”,我们要读懂这一本书,首先要知道书中的每个字是什么。不仅如此,我们还需要能够这些字连起来,知道每一句话是什么意思。这样才有可能真正了解生命的奥秘。基因测序技术,就是弄懂DNA序列的排布情况。1990年开始,由包含中国在内的六国科学家们,用10年时间,花费30亿美金来破译人类的遗传信息。2000年6月26日,美国总统克林顿与英国首相布莱尔共同宣布人类基因组计划工作草图完成,2001年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被国际人类基因组测序联盟和塞雷拉基因组的科学家分别公开发表于《自然》与《科学》杂志。 但是人类基因组测序还不能算是“完成”了,部分区域序列还无法进行测序。同时,单个的参考基因组也不能代表所有人群的遗传特点。在完成第一个人类基因组测序工作后,2007年,第一个黄种人的基因组;2008年,千人基因组计划也都相继启动和完成。科学家们从1到1000,继续在探索人类基因遗传的奥秘。2010年,英国科学家宣布UK10K项目,希望通过1万人的基因序列和个人健康信息结合,来更好理解低频的基因突变与人类疾病之间的关联关系。这也是之后各国大型人群的基因组学研究的一个通用思路,如何从百万级别的基因和表型数据中,去发现更多的疾病发生机理,诊断方法和治疗措施。 精准医学计划与“全民”基因组时代 从重大事件的时间进程来看,基因组学是一个完全崭新的前沿领域。DNA理论发现60多年,测序技术发明40多年,以高通量,低成本的NGS测序技术为代表的商业应用可能才10多年的时间。DNA测序的价格从人类基因计划时的30亿美金,到现在低于600美金一个人。测序技术的进度,不仅帮助基础科学继续前进,也催生了基因组医学研究和应用的快速发展。 2016年,时任美国总统的奥巴马宣布了精准医疗计划(Precision Medicine Initiative),该计划致力于治愈癌症和糖尿病等疾病,目的是让所有人获得健康个性化信息。2月8日,白宫官网发布了精准医疗计划的相关细节。该计划将加快在基因组层面对疾病的认识,并将最新最好的技术、知识和治疗方法提供给临床医生,使医生能够准确了解病因、针对性用药。同年,我国科技部也发布了“精准医学研究”国家重点专项,以我国常见高发、危害重大的疾病及若干流行率相对较高的罕见病为切入点,实施精准医学研究的全创新链协同攻关,构建百万人以上的自然人群国家大型健康队列和重大疾病专病队列。 进入2019年,这一趋势更加明显。9月11日,英国政府宣布与四家全球领先制药公司及一家慈善机构达成战略合作,将共同提供2亿英镑巨额资金,支持对英国生物生物样本库(UK Biobank)共计50万名参与者的全基因组测序项目。该项目将探索基因如何与人类生活方式及生活的环境相结合从而导至疾病,并旨在通过遗传学研究改善人类健康状况,并为全球科学界了解、诊断、治疗以及预防癌症、心脏病、糖尿病、关节炎、痴呆以及慢性肾病等重大疾病提供宝贵的数据资源,最终推动全球个体化医学的发展。12月10号,阿联酋更是公布了全球最全面的全民基因组计划——“阿联酋全民基因组计划”,目标是运用大规模人群基因组数据,为阿联酋人民建立可预测、可预防和个性化治疗的全民医疗卫生体系。 写在2020年,展望未来10年,“全民”的基因组时代正在加速到来,它必然将全方位的加深我们对于生命科学的理解,为人类疾病的预防、诊断和治疗提供全新的技术手段,诞生一个庞大的生命经济产业。根据统计,全球用于罕见病,癌症的全基因组测序的样本数,在未来几年内可能很快就超过10亿级别的规模。这对于任何从事这一领域的科学家、研究机构、政府和企业来说,面临行业的浪潮,都是巨大的机遇,也必然是巨大的挑战。 除了测序,我们还需要什么样的能力 美国的精准医学计划的介绍材料中,对于项目的背景做一个解释说明。为什么是现在,我们可以开展百万人规模的大型基因组研究项目。其中提到了三个必要条件,也可以从侧面来回答我们哪些是需要去解决的问题:
以英国UK Biobank的50万全基因组测序项目为例,未来2年内就可以完成所有的50万份样本全基因组测序,每个样本按照100G文件大小来计算,原始数据预计50PB。不仅是基因数据,项目还包含了10万的影像数据,关联的50万人医疗健康记录、生化指标,10万人每周的活动数据,8万的眼睛测量数据,以及一系列在线的调查问卷结果。只是对于原始基因数据进行变异检测,粗略估计就需要近亿计算核时,更是要结合所有的数据,来研究如何在未来几年改进疾病的预防和治疗。也只有综合大批量样本数据,才能让单个基因或者多个基因组合、环境因素、生活方式,和一系列疾病的关系和模式变的更清楚。最终,这些数据还会在2022年会面向全世界所有的申请者开放使用。 不难看出,在“全民”基因组时代,我们需要前沿的生物信息(BT)和信息技术(IT)来共同为项目的执行提供高效的基础设施平台。这些是传统硬件方式难以为继的地方,我们需要考虑架构良好,能够提供规模,速度以及多样化的分析环境需求的解决方案,云计算正是最佳选择。相较于测序技术的快速发展,基因用户还在探索如何去充分利用现代化的云环境,来加速我们的基因组学研究。 UK Biobank在先期5万人的项目数据分析中,选择通过与Seven Bridge和谷歌云合作来提供大容量的数据传输,计算和存储服务。我们来看这样的组合能够提供什么的必需能力:
所以,除了通过测序来获取大量样本的基因序列信息外,我们更需要有先进的工具和平台来管理和挖掘这些数据背后的价值。并且在测序成本不断下载,甚至趋近于“免费”时,数据计算和分析的重要性会越来越大。工欲善其事,必先利其器。在面对未来样本数据大爆发时,我们就需要从云计算的角度去考虑构建安全可靠、经济高效,敏捷弹性和智能化的“新基础设施”。 在阿里云上我们看到的趋势 早在2015年,阿里云就已经开始为基因行业客户提供存储和计算服务。过去几年时间,我们与科技服务、临床诊断、健康检测、科研院所、政府机构和软件工具提供者建立了广泛且深入的合作关系,并且积累了丰富的经验。 从客户的视角出发,在基因测序行业发展过程中,其自身的IT基础设施存在诸多限制:
基因行业同时具备数据密集型和计算密集型的业务特点,云计算的出现有利于我们来帮助生物学家、医生们来解决这些底层的IT问题,只需要专注在数据或者业务本身即可。从众多客户的经历来看,我们看到了以下转变的趋势。 转变使用模式 基因行业客户,从个人用户到政府的基因组学机构,规模差异很大。在过去几年时间内,出于成本、业务、管理、开发等等因素的考虑,可能使用的方案,从单台服务器,到大型高性能计算集群,SaaS平台都有,种类多样。但是随着业务规模增大和分析速度下降,云计算以其弹性扩展,按需付费的最大优势,成为所有方案演化的方向或必不可少的组成成分。对于初创型的公司,可以完全基于云环境的各种产品和服务,0成本、敏捷快速的构建自己云原生的业务系统。对于已有大型集群的客户,可以通过混合云的方案,来最大化利用本地资源,同时又利用云的弹性来消化业务高峰,避免再采购资源。 重视数据资产 基因公司都应该是大数据公司。随着自身业务的开展,内部积累的样本数据也是越来越多。在达到千万级别的显著规模,如何利用样本数据去构建知识库,建立变异基线,开发和优化临床应用,是每个用户都需要考虑的重要问题。将基因数据,表型数据集中存储到阿里云上,构建统一的企业基因数据湖,使用阿里云DLA,EMR,PAI等丰富的分析产品生态来进行多来源,多种类,多维度的数据查询和高级分析工作。而不是自己使用初级的程序脚本读取文件解析,或者搭建维护一套难以满足真实生产需要的复杂系统。通过完整方法论和工具来进行数据治理和数据智能分析会是基因的核心竞争力之一。 标准化与自动化 基因公司都在进入精细化管理模式。在海量样本面前,难以通过更多的人工分析来跟上业务增长。同时在保证业务质量,满足外部评审要求等情况下,分析流程的标准化、模块化及自动化成为大家的共同的方向。与此同时,借助标准化,更能够清晰样本的存储和分析成本。通过阿里云存储阵列,函数计算,对象存储,批量计算这样的产品组合,可以实现数据下机之后自动上云,自动调用标准的WDL流程分析,并且最终交付到指定位置,等待释放,整个过程分析结果可重复,操作记录可审计,成本完全透明可控。这样的用户场景,和围绕这一过程的自动化生产系统和云平台,也必然会越来越多。 然而必须看到的是,将信息技术和生物技术结合,利用云计算和大数据的技术,来促进生物科研和产业的发展,还有很长的路要走。相较于国产测序仪进步,能够直接为阿联酋的项目提供测序服务,我们还必须在基因数据工具和平台上加快能力建设,才能匹配像UK Biobank这样的大型项目的实际需要,充分发挥基因大数据的价值。 阿里云基因行业解决方案 基因行业客户需要的从来不是,也不应该是存储、计算、网络等基础资源。我们需要从基因测序的不同场景来考虑用户从样本到报告的需求是什么,再提出完整的解决方案。不仅仅是阿里云本身,更需要行业上下游合作伙伴一起来构建完整的应用生态。同时,阿里云是全球基因组学与健康联盟(GA4GH)的成员,Cloud Work Stream小组成员,生物信息云计算产业促进会会员,我们也不断的从数据共享,行业标准的角度来为社区提供服务。 我们可以从三个角度,来谈谈阿里云的基因行业解决方案,我们为“全民”基因组时代准备的“新基础设施” 数据 通过阿里云,基因数据可以快速流动,不管是从测序中心,还是到下游客户,借助阿里云遍布全球的数据中心和高速网络的基础设施,可以在线交付数据。更重要的是,阿里云的众多的上下游共同的用户群体,已经形成了基因行业的“局域网”,更是确保能够双方的连通性。 我们为用户提供多种方式来传输和分发基因数据,并为不同规模的用户提供长期、经济、可负担的存储方案,保证数据安全和自动生命周期管理。用户业务数据可以沉淀到企业的基因数据湖中,并且利用阿里云多种分析产品进行机器学习、深度学习等进行数据挖掘。 阿里云对基因数据的存储和传输都提供严格的加密措施。用户可以使用服务端加密、客户端加密以及BYOK的方式来对基因数据进行加密。通过数据安全产品为帮助生物医学数据进行去身份化操作,同时满足包括HIPAA,GDPR在内的全球性行业监管法规需要。 计算生物信息流程是由一系列有依赖的分析步骤组成的,由分析引擎解析后,变成可运行的任务,再由后端的作业调度软件来执行。传统用户这三部分的组成,通常是由自定义的流程规则,以及对应的解析程序,加上SGE,SLURM这类的HPC集群作业调度软件来实现的。 阿里云支持GA4GH联盟下的流程语言标准(CWL/WDL),只要是符合标准的流程,都无需改动,可以在阿里云上直接执行。作为Broad的解析引擎Cromwell官方支持的计算后端,可以使用包括Call-Cache中断恢复在内的任意高级特性。与传统模式相比,流程的标准化、可迁移性和可重复性都得到大幅度提升,并且解决了对外标准不统一的问题。 阿里云计算产品EHPC,ACK,批量计算,作为WDL流程的底层执行引擎,都能充分发挥云计算的优势。对于用户来说,完全按照使用量来付费,并且可以在不增加成本的基础上,快速扩展规模以加快分析速度,节省时间。结合包月,按量,竞价等多种灵活的付费方式,用户也能节省大量成本。同时,针对与用户不同功能需求和部署要求,三个计算产品也更有优势,方便用户选择。 对于大规模并发作业下存在的典型IO阻塞问题,阿里云提供了包括数据预取,多级缓存在内的多种优化措施。保证业务规模可以线性增长,不受底层存储限制。 应用 阿里云联合生态合作伙伴,将以云服务的方式来提供行业最新的软件工具。用户可以直接使用,而不是考虑如何购买,安装和配置的问题。 不管是bcl2fastq, 二代测序,还是三代测序,阿里云现在都提供一些的分析加速服务,在保证结果不变的情况下,为分析降低成本,提高效率。 为帮助国内生信开发者更好的开发基因行业专属应用,基因行业近期推出公共数据集项目,大家可以申请免费访问,无需跟以前一样从不同的网站去搜索,下载和存储。更多关于数据集内容,可以点击查看原文,欢迎大家使用。 在这里,跟大家说一声:新年快乐! 那个很多行业前辈向我们描述过期待过的未来已经到来,虽然依然坎坷,2020大家继续一起努力! |