将基因数据和“云计算”技术的融合将成为解决PB、ZB量级的基因大数据问题的一个突破口。该模式目前已很好地被华大基因和阿里云的合作所阐释。
随着二代测序技术的不断发展及基因组测序成本的不断下降,个人基因数据将在未来几年产生爆发性的增长。据悉,中国在2016年上半年将把“精准医疗”纳入国家十三五规划重点项目,百万人群的健康、医疗基因大数据将逐一部署。届时PB、ZB量级的基因大数据将摆在我们面前,那么如何应对将成为整个行业首要面对和解决的问题。将基因数据和“云计算”技术的融合将成为解决该问题的一个突破口。该模式目前已很好地被华大基因和阿里云的合作所阐释。
华大基因在生物信息学方面的积累已处于国际领先水平,尤其在基因组序列拼接、基因组变异识别等方面有着独到之处。为了将积累多年的基因组分析方法和软件让更多的人去受益,华大基因在2015年4月发布了BGI Online平台。该平台被定义为基因组数据分析云计算平台,其拥有强大的分析能力和极高的安全性,可以为各种类型、规模的行业机构提供基因数据存储、自动化分析、数据传输、生物信息方法开发和共享服务,同时为基因研究行业内的客户提供更便利、更有效的解决方案。BGI Online集成了高性能计算服务器,大规模存储和安全网络互联这些基础设施。用户可以用应用程序中的组合在BGI Online上分析,选择他们希望运行的应用,提供其输入数据,并在系统中创建一个作业,来执行实际的数据分析,是第一个使用国内公有云完成的平台建设。 如果说华大基因方面为基因组数据提供了各类分析手段,那么基因数据的传输、数据存储、数据安全及计算资源等“后勤保障”问题就需要依靠阿里云来解决,二者的结合便成就了功能强大的BGI Online平台。 首先,对于基因数据传输来说,以往的传输方法非常落后,时间很长,很多情况下采用“移动硬盘邮寄”的方式来传送基因数据,这不仅延长了时间,对数据的安全性方面也造成了一定的隐患。而阿里云提供的云服务便可以很好的解决这个问题。其中,专线内部数据高速上传、互联网BGP高带宽可供全球客户高速、安全地上传基因数据。 其次,基因组大数据的分析和解读需要大规模计算资源做保证,与此同时,基因数据需要长期保存,为以后的分析、新型药物研发等提供数据支持。目前很多基因组研究机构通过购买大量的服务器建立自己的机房,来提高数据分析和存储能力。然而,由于基因数据经常是阶段性的产生,在实际运行中很多服务器处于闲置状态。另外,服务器都具有一定的使用年限,期限一过将进行报废处理。除此之外,场地、维护人员以及电费等也需要消耗大量的财力和物力。如何经济、高效地解决基因大数据分析和存储,是很多机构面临的首要问题。BGI Online采用的阿里云弹性数据分析平台可以实现计算资源的弹性扩展,同时方便部署基因数据分析工具,完成对基因组数据的分析和解读,无需要提前准备计算资源,在没有计算任务时也无需花费额外的成本支出。这样便很好地解决了上面这一系列的问题,使从事基因组研究及应用的个人或机构以极低的成本顺利完成大规模基因数据的处理工作。 最后,对于基因数据而言,从小的方面来说其涉及到个人隐私,从大的方面来看,关系到国家安全。防止基因数据的泄露,以及灵活安全的访问权限成为数据平台核心的问题。大多数国内的基因行业客户将基因数据上传到云端通常会考虑本土云提供商,且从云产品的丰富程度和云平台的稳定上线运营时间上来说,阿里云在这些方面均遥遥领先竞争对手。鉴于此,华大基因的BGI Online平台有了阿里云的“后勤”保障,安全性问题得到了很好的解决。此外,在安全性的保障下,实现基因数据项目的状态监控、权限管理以及实时记录也成了阿里云的特色服务。对于系统资源和用户来说,BGI Online提供了一种基于项目的组织形式。它支持像审计日志、计费、报表等会计核算功能,管理员可以对系统资源进行必要的管理操作。 说到这里,让我们从计算专业的角度来系统汇总阿里云为华大基因提供了哪些云服务,具体包括OpenAPI、VPC混合云、包月ECS、按量付费ECS、RDS、Ali DNS、CloudWatch、OSS、OAS、SSD云盘、SSD临时磁盘、SLB、云盾、安骑士、并且根据项目搭建了Ceph服务、Chef服务、万兆专线VPC接入服务。值得一提的是,针对BGI Online平台特点,所有云产品均提供完善的API,操作全部通过API即可完成。 BGI Online平台不仅是华大基因与阿里云的一次完美合作,更是基因大数据与云计算的一次成功碰撞,真正意义上实现了“让基因数据在云端飞舞”。基于阿里云提供的丰富云产品,使基因测序分析解读平台的搭建变得更加快速、高效。随着精准医疗时代下基因大数据的激增,阿里云提供的云计算服务有效降低了下游成本、大大推动了我国基因产业的蓬勃发展。 来源:测序中国 作者:阿里山
|