5月10日,人类遗传学研究迎来了又一里程碑:首个人类泛基因组参考(human pangenome reference)草图在最新一期《自然》上发布! 这份草图结合了来自47个不同祖源的个体遗传信息,比现有的单一参考基因组序列(GRCh38)新增1.19亿个碱基对,并计划在未来扩展到350个人。 此次研究人员利用了最新测序技术和算法工具,长读长测序技术也在其中发挥独特优势帮助填补了以往参考基因组序列中缺失的序列。 这份泛基因组参考草图的问世,意味着我们将更全面、更准确地了解全世界人类的基因组多样性。未来基因组学研究或许迎来一个新的发展期。 最新一期《自然》封面专题(图片来源:Darryl Leja/NHGR) 01 人类科学史伟大工程的腾飞自30多年前,人类基因组计划(Human Genome Project, HGP)首次提出,随着测序技术的飞速发展,从破译“生命天书”的人类基因组图谱,到试图“书写”生命密码的基因组合成,人类对生命的认识不断实现跨越。 让我们一同先回顾这项人类科学史上伟大工程发展历程上的精彩历史时刻: 1990年 人类基因组计划(Human Genome Project, HGP)正式启动,被誉为生命科学的“登月计划”。 2001年 人类基因组计划(Human Genome Project)发布了第一版人类参考基因组工作草图。 2003年 人类基因组计划的测序工作基本完成,获得了占人类基因组90%以上的序列。 2022年 依托长读长测序技术的发展,帮助获得更完整的基因组序列,填补了人类基因组最后8%的空白。 “端粒到端粒”联盟(T2T)建出了第一个完整的人类参考基因组(被命名为T2T-CHM13)。 上述这些都是单个参考基因组的不断升级。原有参考基因组序列的一个重要局限在于,它是由大约20个志愿者的遗传数据拼凑组成的一套基因组,大部分参考序列(约70%)实际上只来自一个志愿者。
此次,顶尖学术期刊《自然》以专题形式发布首个人类泛基因组参考草图问世的系列报道(包含3篇论文),另有第4篇论文发表于《自然-生物技术》。 在这一专题合集中,人类泛基因组参考联盟(Human Pangenome Reference Consortium)提出了首个人类泛基因组参考草图的构建和使用方法,并报告了使用该图谱获得的两项新发现。 02 为什么需要更多样化的参考基因组或许大家会好奇,此前更多提到的是人类基因组参考序列,泛基因组参考序列究竟是什么、有什么用? 泛基因组概念最早于2005年在细菌中提出,2007年在研究植物如玉米中单拷贝序列和LTR中应用。直到2014年,在三代测序技术的助力下,植物泛基因组也迎来了黄金发展期。同年,首篇植物大豆的泛基因组发表,开启了植物泛基因组研究历程,随后玉米、水稻、甘蓝、芝麻、向日葵和番茄等物种的泛基因组研究相继发表在各大期刊。 随着多种植物参考基因组的不断公布及同种不同个体植物基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种的多样性,这导至了泛基因组概念的产生。 泛基因组参考序列比传统的参考序列数据更加丰富,不仅可以获得多个个体基因组,完善该物种的基因集,还可以获得种群甚至个体特有的DNA序列和功能基因的信息,为系统进化分析及功能生物学研究奠定基础。 事实上,参与构建新人类泛基因组参考的个体最初就是作为“1000基因组计划”的一部分进行招募的,该计划是一个国际性合作,旨在改善不同人群的基因组变异目录,因此研究人员筛选出了不同族群的个体基因组数据,用来更准确地反映全球各种族群之间的遗传变异。因此47人中当然考虑了中国人的遗传特征。 图片来源:ErnestodelAguila lll,国立卫生研究院国家人类基因组研完所 (https.//wwwgenome.gov). 不光是样本容量更丰富,数据也得到了进一步整合分析。以往的人类基因组中存在大量重复序列和其他难以读取的区域。 此次,此次研究人员利用了最新测序技术和算法工具,长读长测序技术也在其中发挥独特优势帮助填补了以往参考序列中缺失的序列,这让研究人员更好地理解了人类基因组的多样性,并且发现了以前未被发现的基因变异与人类健康之间的关系。 新的泛基因组参考便提供了更多样化、也更准确的标准。研究人员通过复杂的算法,将组装完成的单个基因组序列集合编译为图形结构。如果过去的参考基因组只是一根线,现在的人类泛基因组参考是多个基因组序列的多线并行图。在碱基完全相同的区域,它还是单线形式;而存在人群差异的序列部分,线条则从一根“分化”出地铁轨道般交错的多根,提供了更广泛的参考选择。 泛基因组管状图谱,图片来源:Darryl Leja 人类泛基因组参考联盟的主要研究者之一、德国海因里希海涅大学(Heinrich Heine University)的Tobias Marschall教授指出:“人类泛基因组参考是我们已经等待了十年的一个里程碑,这是在测序技术和生物信息学方面取得了诸多创新后才得以达成的。” 03 泛人类基因组草图亮点新草图参考纳入了T2T的完整基因组序列,还拓展了多样性上的新维度,结合来自不同祖源的47个个体的遗传信息,比现有的单一参考基因组序列(GRCh38)新增1.19亿个碱基对和1115个基因重复(一个DNA区域里含有一个基因重复的变异)。 47位自愿者来自世界各地,图片来源网络 与原先的人类基因组草图相比,此次公布的泛基因组草图,检测到结构变异的数量增加了104%,为人类基因组遗传多样性提供了更完整的图景。 除了结构变异的检测率提高外,检测较小的遗传变异(例如只有一个或数个碱基差异)时,使用泛基因组参考的准确性也有34%左右的提高。 这为人类基因组遗传多样性提供了更完整的图景,也更能代表人类这个物种的遗传多样性,应用这一参考图谱能极大提高对人类基因组中变异体的检测。 最新的泛基因组参考图谱还有一项重大突破。我们的染色体成对存在,一套遗传自母亲,一套遗传自父亲,而泛基因组参考包括的单倍型信息——来自47个人的94套基因组序列,可以在分析一个人的基因组时更准确地区分出来自父母的不同染色体。这也将帮助我们更好地理解各种基因和疾病的遗传方式。
在很多学者看来,新草图的公布不仅会在未来基因组学研究中起到很大的促进作用,同时将促进罕见病的诊断、个性化医学、药物开发以及生物技术创新等领域的发展。 04 下一个里程碑人类泛基因组参考联盟的研究人员介绍,目前,这些成果只是人类泛基因组前景中的一个过渡阶段。该计划还在继续采样,目标是在未来再纳入350名个体的遗传信息,尤其是目前还未纳入的人群代表,以便扩大多样性和增强不同人群之间的平衡性。 他们计划在2024年发布人类泛基因组参考的最终版本,力求代表人类这个物种尽可能多的DNA序列。但这个大计划还存在一些挑战,比如说需要更多样化的取样。 覆盖全球范围的泛基因组(图片来源:Darryl Leja) 王艇教授指出,这不是一个项目的结束,而是一个新领域的开始,以便更有意义地将人类多样性纳入生物学、生物医学和临床科学。新的人类参考基因组将继续增长、扩大和打磨,从而更准确地描绘我们这个物种的生命蓝图——这需要全世界的努力。
参考资料: [1] Wen-Wei Liao et al., (2023) A draft human pangenome reference. Nature Doi: https://doi.org/10.1038/s41586-023-05896-x [2] Mitchell R. Vollger et al., (2023) Increased mutation and gene conversion within human segmental duplications. Nature Doi: https://doi.org/10.1038/s41586-023-05895-y [3] Andrea Guarracino et al., (2023) Recombination between heterologous human acrocentric chromosomes. Nature Doi: https://doi.org/10.1038/s41586-023-05976-y [4] Glenn Hickey et al., (2023) Pangenome graph construction from genome alignments with Minigraph-Cactus. Nature Biotechnology Doi: https://doi.org/10.1038/s41587-023-01793-w [5] Arya Massarat et al., (2023) A collective human reference genome. Nature [6] Human pangenome reference will enable more complete and equitable understanding of genomic diversity. Retrieved May 10, 2023 from https://www.eurekalert.org/news-releases/988471 [7]新的里程碑!《自然》重磅专题:首个人类泛基因组草图公布【学术经纬】 |