2016年11月4日,基因组云计算技术开发者大会(GCTA)在第11届国际基因组学大会(ICG)上正式公布了历时6个月的全球公开竞赛结果。
此次大赛由今年4月份成立的“中国生物信息云计算产业联盟”倡导发起,集聚华大基因、阿里云、英特尔、百度开放云、华为等单位的技术开发力量,通过汇聚BT(生物技术)产业和IT(信息技术)行业精英,共同解决基因组学数据大规模存储和计算等方面所面临的挑战。
[backcolor=rgba(226, 86, 27, 0.6)][backcolor=rgba(226, 86, 27, 0.74902)]如何降低数据存储空间,是基因技术当前难题
经过十多年的发展,基因测序技术无论是技术还是成本控制上都有了很大的进步,基因组学的技术和知识已经慢慢渗透进寻常百姓的生活中。全世界产出的DNA数据正在激增,研究者们正面临着越来越普遍的海量数据的存储、传输等问题,而生物信息学的研究需要所有的压缩解压都必须是无损的,这样才能得到更加可靠准确的分析结果。
但是全基因组数据分析的速度却不能满足大家的需要。如何有效降低DNA数据的存储空间已经成为了一个急需解决的难题,基因技术领域需要更加优秀的数据压缩方案。
此次大赛主要聚焦两个项目:
1、数据存储问题:FASTQ数据的高倍数无损压缩,即将一个原始FASTQ格式的150GBDNA测序数据文件无损压缩至原来的1/15。
目前一般的压缩格式(gz,bz2等)只能将DNA的测序数据(FASTQ格式,或称fq格式)压缩至原来的30%左右。但fq数据有着自己固定的格式形式,DNA测序数据也只有4种碱基,由A,C,G,T这四个字母表示,其本身能够针对其数据上的特点实现更高倍数的压缩。
2、分析计算问题:高效的人类全基因数据分析,30分钟完成55x人类全基因组数据标准分析。
人的基因组为3G,用于全基因组测序数据分析时,需要测序深度为50x或者更高,使用常见的生物信息分析工具和方法(bwa+picard+GATK),时间基本需要10个-20个小时,这对于日益增长的人类基因组数据来说是远远不能满足数据解读的速度需求的。当前基因组数据分析的最大瓶颈是,数据的解读速度远不及数据的产出速度,全基因组数据分析是人类基因组数据解读中最基本的一个步骤。
项目瞄准生物信息云计算中最重要的两个问题——压缩和计算。只有高效的压缩才便于大规模向云端传输数据,降低云端存储成本;只有高效的计算才能充分体现云端弹性计算应有的优势。解决好这两个问题,就能站在技术制高点上,推动生物信息云计算行业的发展。
[backcolor=rgba(226, 86, 27, 0.6)][backcolor=rgba(226, 86, 27, 0.74902)]双料王,人和未来的两项成绩均刷新世界纪录
在众多BT和IT行业精英中,人和未来脱颖而出,成为本届大赛最大的黑马。人和未来CTO宋卓博士代表GTX团队领取了奖杯和证书。人和未来在数据压缩和计算加速两个项目上的成绩均刷新了世界纪录,同时保持了最低的计算成本,将全基因组的计算分析带入百元(16$)时代。
人和未来CTO宋卓博士代表GTX团队领取奖杯和证书
在压缩存储比赛中,人和未来实现了高达1/18的压缩率。与行业默认标准gzip相比,计算时间为其1/6且压缩后文件大小为其1/4,即压缩效率是gzip性能的24倍。 在这样的极高倍率压缩技术的支持下, 使用百兆网络,就能达到以千兆速度上传数据的效果, 使得大规模测序数据上云成为可能。 此外,若按照AWS云每gb云存储成本0.03美金/月计算。该高倍率压缩技术将能让每1000人的测序数据云存储,每月节省1.1万美金,大幅降低云存储成本。
该技术突破,作为一项重要的基础性工作,为整个行业的基因信息计算上云铺平了道路。
不仅如此,人和未来在计算加速比赛的成绩也刷新了世界记录:400G(55x)全基因组数据分析,利用AWS上的300台机器,将分析时间从单台服务器的30个小时,缩短为19分钟,机时费用仅为$16,将全基因组计算带入百元时代。对比单台标准服务器,数据分析速度提高了90倍,可节约75%的云计算机时费用。不得不说,黑马年年有,这次确实亮瞎了眼。更难能可贵的是,这是一家生物公司。
基因测序技术日渐普及,基因检测的核心竞争力已经不仅限于测序产生数据的能力,大数据、高性能计算、机器学习这些IT领域里面的热词和标签会出现在越来越多的基因检测公司身上。BT与IT的结合,相信能实现技术创新,用科技的力量推动和加快精准医疗的发展,对全行业发展具有重大意义。
来源:动脉网 作者:周梦亚
|