导读 在过去的二十余年中,人类参考基因组序列已成为遗传学和生物医学研究和应用的基础。但目前并没有任何一个单一的参考序列可以代表全球种群的基因组多样性。随着长读长测序技术和计算方法的进步,从大量不同基因组中捕获缺失变异的泛基因组构建已经成为可能。 人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)最近基于全球47个种群样本构建了人类泛基因组参考草案,但其中东亚种群样本代表性仍然不足,特别是只有三个南方汉族样本被纳入HPRC参考,这显然无法代表中国这样一个人口14.4亿的地区的族群基因组多样性。中国人群拥有丰富的遗传多样性,除汉族外,还有55个官方承认的少数民族和相当数量的未被承认的少数民族。目前仅有的两项关于中国泛基因组的研究也仅限于汉族样本的短读长测序数据。因此,迫切需要建立一个高质量的泛基因组参考,以更好地代表中国人群的巨大基因组多样性。近日,复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授、复旦大学陆艳副研究员等联合研究团队在Nature发表文章“A pangenome reference of 36 Chinese populations ”,报道了中国人群泛基因组联盟(Chinese Pangenome Consortium,CPC)第一阶段的成果,涵盖了来自58个核心样本的116个高质量从头组装基因组数据,这些样本代表了中国36个不同民族的群体。这是首个中国人群专属的泛基因组参考图谱,与HPRC泛基因组图谱相比,在中国人群特有的复杂变异解析方面具有显著优势。CPC泛基因组图谱为GRCh38增加了1.89亿个碱基对的常染色体多态性序列和1367个蛋白质编码基因重复,确定了1590万个小变异和78072个结构变异(SV),其中约590万个小变异和34223个SV只在CPC数据中发现。 文章发表在Nature 整体而言,研究人员从代表36个中国少数民族和8个语言群体的CPC核心样本中组装了58个平均深度为30.65x的二倍体片段,并进一步结合了5个高覆盖率Oxford Nanopore Technologies长读长测序样本,5个已发表的中国人群基因组片段,以及2个来自中国中部的汉族样本。CPC核心样本显示了大量的遗传多样性,覆盖了中国大多数少数民族。研究团队开发了一个分析流程,对新测序的PacBio HiFi样本进行基因组组装、质量控制和组装优化。结果显示,由于性染色体的大小差异,116个组合的平均基因组长度为3.01Gb,其中93.1%的组合基因组长度大于GRCh38。116个基因组片段的中位contig N50平均为35.63Mb,8.62%基因组片段的contig N50值大于GRCh38参考基因组。组装结果的比对分析发现,其覆盖了96.54%的GRCh38参考基因组和93.59%的T2T-CHM13参考基因组。通过对未被映射的区域进行注释,研究发现约84%的未映射序列是卫星重复序列。图1. CPC项目58个核心样本的组装,来源:Nature 接下来,研究人员注释了每个基因组中相对于GRCh38的拷贝数变化(CNV)。在全套基因组的分析中,至少有一个基因组的拷贝数增加了1367个蛋白质编码基因。在每个组装基因组中平均观察到53个拷贝数增加的基因,13.39% 的CNV基因在整个CPC泛基因组中出现频率超过5%,57.86% 的CNV基因仅出现在单个单倍型中。研究还发现在CPC泛基因组中有1079个重复基因,这些基因在HPRC基因组中没有被发现。此外,在HPRC序列中也检测到来自CPC序列的288个重复基因,其中123个基因与4个HPRC东亚样本共享,278个基因与其余40个非东亚HPRC样本共享。在这些共享基因中,CPC泛基因组中有多个基因的频率高于HPRC基因组。图2. CPC泛基因组中CNV的鉴定,来源:Nature 在一个典型的泛基因组参考中,来自一个群体的基因组数据可以组织成一个基于边缘的序列变异图。因此,研究团队利用Minigraph-Cactus流程构建了CPC泛基因组的变异图,其中单倍型组合表示为由序列节点组成的不同路径,发现变异图中共添加了194.67Mb的非参考序列。为了分析CPC泛基因组图谱中东亚种群贡献的先前未确定信息,研究人员构建了一个合并的Minigraph-Cactus图,包括CPC中所有116个组装和HPRC中的94个组装基因组。研究确定了仅在CPC序列中发现的5850863个小变异和34223个SV,其中每个样本包括170307个小变异,每个单倍型携带543个SV。此外,研究人员估计了CPC特异性SV的位置分布。与HPRC特异性SV和其他SV类似,大多数CPC特异性SV位于染色体的着丝粒区和端粒区。通过对不同区域HPRC组装中存在的CPC特异性SV和其他SV数量进行了单侧Fisher精确检验,发现223个热点区域CPC特异性SV与其他SV相比显著富集,涉及807个蛋白质编码基因,富集了氧运输和血红蛋白结构等生物学功能。图3. CPC泛基因组图和CPC特异性变异分析,来源:Nature 长读长测序技术和基于泛基因组图谱的分析方法使人们能够探索以前难以在NGS数据中定位的大型复杂SV,从而为这些复杂位点与生理功能或疾病的关联研究提供遗传基础。研究发现,上述部分CPC特异性富集SV与部分东亚流行疾病密切相关。一个显著的例子是位于16号染色体短臂端粒附近的α-珠蛋白基因簇,包括5个功能基因和2个假基因。研究人员根据α-珠蛋白基因(HBA1或HBA2)和ζ-珠蛋白(HBZ或假基因HBZP1)的拷贝数变化确定了6个主要单倍型。除了在CPC和HPRC中发现的涉及α-珠蛋白拷贝数变化的缺失(Z2A1)和重复(Z2A3)外,研究还发现了两个CPC特异性SV:一个涉及5个珠蛋白基因的20 kb缺失(Z2A0)和一个涉及ζ-珠蛋白基因的10kb重复(Z3A2和Z3A3)。两个α-珠蛋白都缺失的长缺失被广泛报道为东南亚缺失,主要分布在中国南部和东南亚。因此,在CPC泛基因组图中精确定位复合SV在α-珠蛋白基因簇上,可为未来贫血相关研究提供潜在参考。图4. CPC泛基因组图中复杂SVs的可视化,来源:Nature 这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。研究团队使用PacBio HiFi长读长测序技术对58份CPC核心序列进行了平均深度为30.65×的测序。分析结果表明,CPC泛基因组在很大程度上匹配或超过了GRCh38的连续性和基本水平精度。CPC核心片段对GRCh38也有很好的覆盖,增加了1.89亿碱基对的常染色质多态性序列和1367个蛋白质编码基因重复。因此,CPC第一阶段的数据可以作为中国人群的全面泛基因组参考,并有望更好地捕捉亚洲血统人群的基因组多样性。该研究的进一步分析还证实了高质量的群体特异性组装对于遗传和医学应用的必要性。与HPRC泛基因组相比,CPC泛基因组提高了东亚样本短读长测序序列的比对率。1. Gao, Y., Yang, X., Chen, H. et al. A pangenome reference of 36 Chinese populations. Nature (2023).https://www.nature.com/articles/s41586-023-06173-72. Wang, T. et al. The Human Pangenome Project: a global resource to map genomic diversity. Nature 604, 437–446 (2022).3. Nurk, S. et al. The complete sequence of a human genome. Science 376, 44–53 (2022).
|