迄今最完整的人类基因组测序结果发布在 Science，相比之前有哪些突破？会带来哪些价值？

空白派 · 发表于 2024-9-1 06:57

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

来源：知乎
本周，《科学》杂志同时上线的6篇论文中，一个名为“端粒到端粒”联盟（T2T）的国际科研团队宣布完成了最新的人类参考基因组（被命名为T2T-CHM13），包括所有22条常染色体和X染色体的无缝组装。其序列包含30.55亿对碱基，不仅在过去的基础上增加了近 2亿碱基的遗传信息——相当于一条人类染色体包含的信息，还纠正了过往基因组序列上的许多错误，并解锁了人类基因组中结构最为复杂的一些区域。

新的里程碑！《科学》封面重磅：迄今最完整的人类基因组测序结果公布

原文地址：https://www.zhihu.com/question/525349983

大力水手 · 发表于 2024-9-1 06:58

一共没有几个答案，超过20%在扯生物武器。
且不说开发针对人种的基因武器这种黑科技人类水平还不太行，就算行这是西方人测了自己的基因组数据发表了，这种送人头的事儿该担心的不是西方人么？
这种研究和老百姓最相关的价值就是为人类攻克各种疾病打基础。
活在被纷争笼罩的分裂的社会，在政治势力操弄下怀疑和畏惧造福人类的科技进步，这是中世纪的剧本，不该是21世纪的。

长长的路 · 发表于 2024-9-1 06:59

从1990年至今，我们一直在接近完整的人类基因组。昨天，在发表于《科学》杂志的6项新研究中，科学家破解了最为关键的测序难题，获得了完整的人类基因组序列，或许能将我们对人类的生长发育和疾病的了解，推向新的高度。

人类的细胞里，通常有23对染色体。如果仔细观察这些染色体，你会发现组蛋白和缠绕在其上的DNA。我们的DNA由ATCG4种碱基排列而成，生命的密码就藏在其中。人类的基因组包含大约30亿个碱基对，排列极其复杂，但有规律，因为人与人基因组的相似性高达99.9%。多年来，科学家们一直想要借助其中的规律了解人体工作的原理，特别是与疾病相关的机制。
1986年，《科学》杂志上刊登了一篇由诺贝尔生理学或医学奖得主雷纳托·杜尔贝科（Renato Dulbecco）撰写的文章。他认为，癌症研究已经来到一个关键的节点：要么零碎地挖掘一些关键的癌症基因，要么测定一个特定物种完整的基因组。而想要攻克人类的癌症，测定人的基因组、了解参与关键的生理学和病理学过程的各个基因是必不可少的。
同年，杜尔贝科和其他科学家联合发起了人类基因组计划（Human Genome Project）——对人类的核基因组进行完整测序。1990年，这项计划正式启动，被誉为生命科学领域的“登月计划”。又过了14年，也就是2004年，首个人类基因组测序结果发表，但基因组上仍有大约2亿个碱基未知，占全部序列的8%。这些未知序列当中包含很多高度重复的碱基序列，受限于当时的技术难以破译。
从那以后，科学家们陆续发布了越来越完整的人类基因组序列。到2017年，图谱上的缺口已经不足1000个，但人类基因组依然不够“完整”。
如今，一个由近100名研究人员组成的国际性的科学组织——端粒到端粒（T2T）联盟，在《科学》杂志上发表了6篇论文，表示他们测出了那些高度重复的DNA序列，并获得了迄今为止最完整的人类基因组T2T-CHM13，其中包括30.55亿个碱基对，由22条常染色体和X染色体无缝组装而成。此时，基因组的缺口仅剩5个，这项研究也被认为是首个完整的人类基因组测序。

相比于2017年发布的基因组GRCh38，T2T-CHM13包含的基因组更完整。图片来源于研究论文

突破难题

为了获得完整的基因组，团队首先要解决测序中的一个难点：人体内的大多数细胞都包含两个基因组——一个来自父亲，一个来自母亲。当研究人员将DNA片段组装起来时，父本和母本的序列会混合在一起，无法确定某一个基因组中实际发生的变异。
因此，研究团队使用了一个匿名的细胞系，这个细胞系来自20多年前从一位女性子宫里切除的异常生长物。那位女性经历了妊娠失败——精子进入一个没有染色体的卵细胞。如果受精卵中只有精子的遗传物质的话，就无法长成一个胚胎，但依然可以复制，尤其是在精子携带X染色体的时候。
异常的受精卵有个好处，就是只包含一个基因组，23对染色体都是分别相同的。华盛顿大学的遗传学家、协助领导人类基因组计划的罗伯特·沃特斯顿（Robert Waterston）说，这对填补基因组中的缺口有很大的帮助，因为测序仪不再需要解决父母染色体不一样的问题了。
除此之外，还有一个更重要的难点，就是高度重复的序列。在进行基因组测序时，科学家通常需要将DNA切成较短的片段再逐一测序，然后将测序结果拼凑起来。但遇到大量高度相似的序列时，研究者便难以确定它们之间的排列顺序。因此，科学家需要借助更加先进的技术，每次测量更长的DNA序列，来减少拼凑的需求。
于是，T2T联盟的科学家使用了多项前沿的测序技术，包括可一次读取10万个碱基的纳米孔测序设备（nanopore device）和一个更加精确但每次只能读取约1万个碱基的测序仪等。团队把这些手段用在一起，几乎消灭了所有的基因组难题，只剩下5个缺口，总共大约1000万个未知碱基。另外，由于那个细胞系中只有常染色体与X染色体，Y染色体的碱基序列还需要详细解析。
首次确定的序列

此次，研究团队为基因组填补了大约2亿个碱基，主要位于着丝粒区域和近着丝粒染色体的短臂区域，还有许多长度超过1000个碱基的大段重复序列。这些序列中包含1900 多个基因，大部分是已知基因的拷贝，但也包括182个新基因。
研究团队在着丝粒上发现了一段特别的序列，它可以和一种名叫动粒（kinetochore）的蛋白复合物结合，而动粒参与调控染色体的移动，也参与染色体的分裂过程。一旦这个序列发生变异，就可能影响细胞内的基因表达，从而导致癌症。

4种类型的染色体，其中从左到右第3个为近着丝粒染色体。这类染色体的短臂非常短。图片来源于Vedantu

科学家也发现，着丝粒区域出现了异常高水平的变异。他们分析，着丝粒以及附近区域呈现出“分层扩散”的演化模式，即存在着不断重复但有突变的序列，新的序列会和旧序列连接，而旧的序列被新的序列挤到边缘，慢慢缩短。
除此之外，5条近着丝粒染色体的短臂区域的测序结果显示，这些短臂区域中包含了编码核糖体RNA的基因的多个拷贝，一共400份。更重要的是，短臂区域的变异水平也比较高，并有大量的重复序列，如可移动的转座子等。研究团队认为，短臂区域很可能是基因演化的热点区域，因为停留在那里的基因拷贝可以自由变异并获得新的功能。

图中右侧为染色体，它含有两条姐妹染色单体，它们的连接处为着丝粒。图片来源：National Human Genome Research Institute

科学家们十分重视基因组中的重复序列，并给它们编排了目录。在这些序列当中，碱基上的化学修饰可能和许多疾病有关，例如一些神经障碍和发育障碍等。并且那些疾病的出现，通常和某些重复序列的拷贝数量变化有关。
后续的计划

毫无疑问，这个新的人类基因参考图谱将会对基因组分析产生重大影响。它将能更好地支持个性化医疗、人群基因组分析和基因组编辑。欧洲分子生物学实验室的副主任、生物信息学家尤恩·伯尼（参与了人类基因组计划，没有参与这些研究）表示：“即使是5年前，我们也没有想到能做到这一点，更不用说10年前了。这些研究工作极为出色。”基因编辑公司Inscripta的基因组学家迪安娜·丘奇（Deanna Church）认为，这些此前未知的DNA区域让我们对基因组有了更多新的了解。
虽然这些新的研究工作使基因组测序达到了一个新的里程碑，但人类基因组测序仪器并没有完全下班。由于使用的细胞系没有Y染色体，T2T联盟的科学家获取了哈佛大学系统生物学家列昂尼德·佩什金（Leonid Peshkin）的基因组，并对他的一条Y染色体进行了测序。此前，佩什金博士的基因组已经被研究得相对充分了，只是还没有得到完整的基因组序列。好消息是，近日，T2T联盟在推特上宣布他们已经确定了Y染色体上缺失序列的正确排列形式。想必离解析出完整的Y染色序列也不远了。
除此之外，人类基因组计划联合负责人、贝勒医学院的遗传学家理查德·吉布斯（Richard Gibbs）说：“还有一些工作要做。”包括他在内的许多研究人员都强调，现在需要从更多样化的人群中获取完整的基因组序列，来寻找染色体短臂中可能存在的变异，以及获取其他测序难度比较高的区域的变异，因为这些都有可能和疾病或别的性状有关。
此外，他们还有一个新目标——从不同种族或血统的人中提取350个基因组（目前已破译了70个基因组）。这些基因组是人类泛基因组参考联盟（Human Pangenome Reference Consortium）的一部分，它们的测序更有挑战性，因为每一对染色体都是彼此不同的。最终，科学家希望给每一个基因组，都找出端粒到端粒的完整序列。

撰文 | 栗子、clefable
参考链接：
https://www.science.org/content/article/most-complete-human-genome-yet-reveals-previously-indecipherable-dna
https://www.science.org/toc/science/current
https://www.science.org/doi/10.1126/science.abj5089
https://www.science.org/doi/10.1126/science.abk3112
https://www.science.org/doi/10.1126/science.abl4178
https://www.science.org/doi/10.1126/science.abo5367
https://www.science.org/doi/10.1126/science.abj5089

检验之星 · 发表于 2024-9-1 07:00

这是取了一个葡萄胎的单倍基因组做的，没测 Y 染色体，测了 22 个常染色体与 1 个 X 染色体的 3054815472bp 核 DNA、16569bp 线粒体 DNA，相比历史序列增添或纠正了 238 Mbp。下一步应当先测定 Y 染色体。
解析了异染色质，修正了一些错误，发现了 182 个新的多外显子蛋白质编码基因，展示了高精度长读长测序技术的有效性。将这称为“突破”主要是象征意义上的“首次测得完整序列”，这部分序列对人的性状的影响有限。占基因组 92% 的常染色质及其所含的约 20000 个基因在过去二十年里搞出了什么成果，你环顾四周就知道了。
异染色质和重复序列的特征可以用来追溯人类的演化、古人类的迁移等。新发现的基因里也有相当重要的功能，或许还有相关的疾病。还有更多基因受到重复序列的影响。
我建议你不必要求特殊的“价值”，将世界上的谜又解开一个本身就是价值。

虎威将军 · 发表于 2024-9-1 07:00

Science 特刊6篇长文齐发——历时20载，进一步完善人类基因组

BioArt编辑部持续更新

图片

今天新一期Science杂志，以特刊的形式发布了人类基因组计划完成的系列报道，一共六篇研究围绕人类近全基因组从端粒到端粒组装分析完成、表观遗传转录基因组分析、重要重复序列的解读分析等进行了一一介绍。
同期Science配发了Deanna Church教授的评述：A next-generation human genome sequence。

图片

20年前，Science和Nature首次分别发布了Celera基因公司和人类基因组计划（HGP）分别完成的人类基因组序列，这些基因组不完整，很多错误。而后，人类基因组计划完成了大部分序列组装，并在其后数次更新，现在人类基因组版本为GRCh38.p14 (GRCh38)。

GRCh38缺失了人类基因组约8%的序列，有上百万碱基未知，被字母“N”表示；有169段重要的重复序列未能成功拼接；还有相当一部分序列难以分析组装。具有重要生物功能的染色体近端着丝粒的短臂、着丝粒和数个重复的常染色质区域也未能解析，只能以模式序列代表。这些信息和人类众多疾病息息相关，受限于测序技术，这些重要序列的解读组装未能实现。

图片

Summary of the complete T2T-CHM13 human genome assembly

此次完成的人类基因组T2T-CHM13为单倍体，测序样本来源于葡萄胎衍生的细胞株，保证了所有测序来自于完全一致的单倍体。排除了二倍体等位基因变化，样本间差异的影响，序列的解读组装准确性大大提高。GRCh38版本的很多偏误得到纠正，还有大量未知的重要序列解析。BioArt将陆续介绍这6篇研究成果。

图片

本次发布的基因组序列仍然有缺憾之处：由于测序样本来自于单倍体衍生的细胞株，T2T-CHM13没有Y染色体序列，科学家将在后续解决这一问题。基于上个版本GRCh38有许多的重要基因组注释需要整合进T2T-CHM13，这是利用基因组序列的关键。基因组Consortium将进行更多人基因组的分析解读，这些信息将更好地帮助我们了解自身，服务科研。

附六篇研究论文截图，详细介绍BioArt会陆续发布。

图片

图片

原文链接：
https://www.science.org/toc/science/current

<hr/>人类基因组计划（Human Genome Project，HGP）最初由美国政府牵头，由美国、英国、日本、法国、德国以及中国超过20所大学和的研究中心联合进行的生物合作项目。该项目1990年正式启动，并于2003年宣布完成较为完整的基因组组装。这一项目有着深远的影响，让我们能够从全基因组的角度、通过进行多种多样的基因操作深入理解人体内那些精妙的生物学过程。

图片

图1 人类基因组计划的标志

但2003年所得到的是一个非最终版本，只覆盖了基因组中常染色质的部分，而非常重要的异染色质区域尚未完成。但异染色质区域在当时未完成是可以理解的，异染色质区域高度凝缩，测序难以完成；同时该区域也充满重复序列，因此也很难对测序结果进行组装。针对剩余8%的基因组，端粒到端粒T2T联盟（Telomere-to-Telomere）联盟的提供了人类基因组完整的30.55亿碱基对序列T2T-CHM13，包括除了Y染色体之外所有染色体的“无缝衔接”组装的基因组，纠正了之前多个参考文献中的错误装配，对2亿个碱基序列进行介绍，其中包括1956个预测基因（Science 特刊，6篇长文齐发｜已历20载，进一步完善人类基因组）。这一完整的基因组计划包括着丝粒卫星阵列、重复区域和所有五个近端着丝粒染色体的短臂，同时也对这些基因组区域的功能以及基因变异进行了研究。

一、人类基因组之“更上一层楼”计划总论

为了完成基因组的最后剩余区域，科学家们利用PacBio HiFi和Oxford Nanopore超长测序的互补方面来组装均匀纯合CHM13hTERT细胞系中的人类基因组。由此产生的T2T-CHM13参考装配弥补了这20多年来人类基因组中8%的空白，最终汇总为The complete sequence of a human genome。

图片

首先作者们对一个完整的葡萄胎（Complete hydatidiform mole）进行了深度测序，包括30个PacBio循环共识HiFi测序、120个Oxford Nanopore超长读测序、100个Illumina PCRFree测序、70个Illumina Arima Genomics Hi-C测序、BioNano光学图谱以及单细胞DNA模板链测序，从而实现了的组装高度重复的为向心粒卫星阵列，并进行了基因组的组装（图2）。

图片

图2 高分辨率人类基因组组装

CHM13中的最复杂基因组区域组装是人类rDNA阵列及其周围序列，其中具有45kbp的近相同重复序列，并以大型串联重复序列排列，嵌入端粒染色体的短臂中。为了组装这些高度动态的基因组区域并克服序列重复所带来的局限性，作者们构建了识别重复序列的方法，将其分割为单个rDNA单元进行组装。进一步的，作者们对所得到的组装基因组序列进行评估和优化。为此，作者们所有可用的主要测序数分别据映射到CHM13基因组组装之中，从而得到最终版本，实现了人类基因组端粒到端粒的组装版本T2T-CHM13v1.1。

二、人类基因组之“更上一层楼”计划促进人类基因组变体的认识

在得到了人类的基因组端粒到端粒的组装T2T-CHM13v1.1后，作者们进一步利用该完整基因组促进对于单核苷酸多态性以及基因组插入、删除等特征的认识，题为A complete reference genome improves analysis of human genetic variation。

图片

在基因组样本汇总后，作者们发现了超过100万个高质量的基因组变体（图3），这一发现为人类进化以及生物医学的发现提供了新的平台和机会。该端粒到端粒的新基因组数据库对以前的一些错误注释进行了修正，也对一些不准确的区域进行了调整。使用该基因组作者们得到了更为全面的基因组变体，为全球不同基因组研究提供了的高质量的参考模型。

图片

图3 人类基因组完整计划揭示更多基因组变体

三、类基因组之“更上一层楼”计划揭开着丝粒的前世今生

异染色质区域中的“最后一公里”难题是着丝粒。为了在细胞分裂过程中忠实地将遗传物质分配给子细胞，纺锤体纤维必须通过着丝粒的结构与DNA结合。人类着丝粒中存在大量串联重复序列，这些序列通常跨越每条染色体上的数百万个碱基对。这些重复序列的功能知之甚少，由于卫星区域的规模和重复性，以前的基因组测序工作无法生成完整的卫星区域组装，限制了研究它们的组织、变异和功能的能力。为此，端粒到端粒人类全基因组测序计划通过高精度的测序，绘制了重复区域，揭示出了这些卫星阵列不同尺度上的组织和进化模式，题为Complete genomic and epigenetic maps of human centromeres。

图片

作者们的工作通过详细的研究对不同染色体上着丝粒的序列进行了研究，同时发现发现了全基因组范围内人类着丝粒通过分层扩张进化，进一步地通过实验对重复序列与着丝粒蛋白之间的相互作用进行了刻画，另外也对着丝粒区域的表观遗传特征等进行了揭示（图4）。

图片

图4 着丝粒的前世今生
此外，还有另外三篇文章主要完善了人类表观基因组和重复序列。包括来自Johns Hopkins大学的 Winston Timp团队发表题为 Epigenetic patterns in a complete human genome 的文章；来自Connecticut大学的Rachel J. O’Neill团队发表题为From telomere to telomere: The transcriptional and epigenetic state of human repeat elements的文章；来自华盛顿大学的Evan E. Eichler团队发表题为Segmental duplications and their variation in a complete human genome。这些文章探索了以前基因组中未阐明的区域，包括近端染色体短臂、节段重复基因和人类着丝粒在内的重复序列，构建了完整的从端粒到端粒的人类基因组合集T2T-CHM13，包含了2.25亿附加的碱基对序列，全面研究基因组结构，拓宽了人类表观基因组，这为以前缺失的8%人类基因组生成完整的表观基因组。这一成就为解析这些基因组元件的作用奠定了基础。

图片

图片

作者用短读长测序技术，作者确定了3-19%的表观遗传富集位点。但是短读长的测序方法无法正确解析基因组中高度相似的序列，包括片段重复或大型重复阵列。利用长读长测序技术，作者可以锚定到侧翼或者不常见的独特区域，从而解决这些区域的表观遗传模式。T2T-CHM13组装的长读取甲基化CpG位点的数量增加了10%，这解决了以前难处理的基因组区域的表观遗传模式。作者利用这一技术获取了不同发育时间点的长读长甲基化组，共分析了超过99%的基因组CpG。

图片

关于重复序列，作者开发了人类重复序列更新目录。最终作者总共发现了43个以前未知的重复序列，并阐释了19个复杂的复合重复结构。使用纳米空技术构建的精准核连续测序和CpG甲基化位点长读长测序，作者评估了高密度卫星重复系列以及以前无法解析的着丝粒区域。

图片

作者在T2T-CHM13中分析发现了5100万额外的人片段重复的碱基对。估计人类基因组7%是由片段重复组成。结合甲基化分析，作者发现多达三分之二的重复基因在表观遗传上是处于沉默状态。片段重复在甲基化谱和转录水平上表现高度一致。

图片

作者们利用改进的完整基因组组装和长读长表观遗传学，完善了以前未解决的基因组区域，开创了在完整人类基因组中探索表观遗传学的先河。完整的人基因组数据可以为更全面彻底的分析被低估的遗传模式提供坚实的基础。

人类基因组的就像是一本的读不完的书，里面包含人类发展和进化的全部秘密。为了揭开这些秘密，科学家们计划进一步深耕人类基因组中的秘密，并希望建立更多的实验工具，为人人类的健康谋福祉。
原文链接：

转载须知 BioArt原创文章，欢迎个人转发分享，未经允许禁止转载，所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利，违者必究。

检验之星 · 发表于 2024-9-1 07:00

时隔二十一年，人类基因组测序领域迎来了新的里程碑：一份更完整的、无间隙的人类参考基因组。
在此次发表的一系列成果中，研究人员着重分析了基因组中的重复片段在人类演化、遗传多样性的形成以及疾病中的重要作用。
<hr/>人类的基因组常被比作是一本书写生命的“天书”，只有A、T、C、G四种“字母”——代表构成DNA的四种碱基，但字数多达60亿个，分布在23对染色体中，无穷的组合蕴含着人类进化、生老病死的无数奥秘。
21世纪之初，人类基因组序列的第一版草图问世，尽管并不完整，却已经在生物医学领域产生了深远的影响，为临床研究、药物开发和医疗实践的发展提供指引。

图片来源：123RF图片

本周，《科学》杂志同时上线的6篇论文中，一个名为“端粒到端粒”联盟（T2T）的国际科研团队宣布完成了最新的人类参考基因组（被命名为T2T-CHM13），包括所有22条常染色体和X染色体的无缝组装。其序列包含30.55亿对碱基，不仅在过去的基础上增加了近 2亿碱基的遗传信息——相当于一条人类染色体包含的信息，还纠正了过往基因组序列上的许多错误，并解锁了人类基因组中结构最为复杂的一些区域。

▲《科学》杂志以封面报道和专题的形式介绍了人类基因组测序新成果（图片来源：《科学》杂志官网）

填补最后8%的空白

由于当时的测序技术所限，第一版人类基因组测序草图中留有许多空白。2013年完成的新版本并经过2019年的更新后，人类基因组测序结果中仍有数百万个碱基由字母“N”表示，代表着该位置的实际碱基未知。更重要的是，占人类基因组大约8%的生物学重要区域处于未探明的状态。
为了填补最后的空白，来自几十个研究机构的近100名科学家组成了大型团队“T2T联盟”，也就是对每条染色体从一端的端粒到另一端的端粒进行测序。随着此次研究成果的集中发表，用团队领导人之一、华盛顿大学Evan Eichler教授的话说，我们在生命天书中“读到了以前从未读过的章节”。

▲相比先前的人类参考基因组（GRCh38），此次的新版本T2T-CHM13填补了所有原先的空白，在过去未解决的基因组区域内，每个样本中发现了数十万个变异，为理解进化和生物医学新发现提供机会（图片来源：参考资料[2]）

读取基因组时，科学家首先将所有DNA切成数百到数千个字母长的片段，由测序机器读取每个片段中的字母，然后科学家们试图以正确的顺序组装片段，就像玩一个超级复杂的拼图。
这个过程中的一大挑战是，基因组中的某些区域由大段重复字母组成，就像拼图中有些板块由看起来一样的碎片组成，而这些区域往往具有重要的生物学特征，某些情况下还与人类疾病有关。另一个难点是，绝大多数细胞内包含两套基因组，分别来自父亲和母亲。当研究人员试图组装DNA片段时，两套基因组的序列混合在一起，就掩盖了两者本身具有的差异。

▲这项研究汇集了近百名科学家挑战人类基因组的完整测序

研究团队找到了一种只含单个基因组的细胞系来消除上述等位基因多样性的问题。这种特殊的细胞系来自所谓的葡萄胎，是一种异常胚胎，受精后仅保留一个亲本的基因组副本。
攻克难关的关键进展还离不开测序技术的重大飞跃。基于具有革命性突破的长读长测序技术，研究者可以解码更长的序列，甚至一次准确读取多达百万级的碱基对也不成问题。
解锁最复杂的区域

此次解锁的新序列大约90%来自染色体的着丝粒。在形成精子或卵子的减数分裂过程中，着丝粒是成对染色体分离时附着的地方。这个区域结构独特，包含长段重复序列，而且DNA和蛋白质似乎在这一区域缠绕得格外紧凑。
在T2T提供完整序列后，人类第一次有机会对着丝粒及其周围序列的作用一探究竟。
根据他们的分析，着丝粒以及附近区域有各种序列堆叠现象，通常是一段新序列覆盖在旧序列上。这一过程可以保证着丝粒与关键的动粒结构紧紧结合。动粒是着丝粒两侧的特化结构，参与染色体的移动过程。

▲着丝粒是一个包含高度重复 DNA 序列的区域，比较这些序列揭示了突变在数百万年中积累的位置，反映了每个重复序列的相对年龄（图片来源：参考资料[4]；Credit：Nicolas Altemose, UC Berkeley）

旧序列会存在一些随机突变和缺失，说明这一段区域已经被弃用；新序列中突变和甲基化都更少，说明正在被使用。而着丝粒中含有大量重复长度的DNA序列，大约为171个碱基，这些重复单元会共同形成更大的重复结构并串联多次，构成了着丝粒中的重复序列区域。
着丝粒的重复序列在不同人之间同样会存在差异。其中一篇论文比较了全世界1600人的着丝粒序列后发现，非洲大陆以外的人，着丝粒（尤其是X染色体上的着丝粒）倾向于分成两大簇，还有一些有意思的突变会出现在有非洲人血统的人身上。未来，科学家或许能通过解析着丝粒序列来追溯人类的谱系，对人类的演化史探索有重要意义。

▲新研究揭示了人类着丝粒基因组序列的演化机制（图片来源：参考资料[4]）

最后得到完整测序的区域

在此次发表的一系列成果中，研究人员着重分析了基因组中的重复片段在人类演化、遗传多样性的形成以及疾病中的重要作用。
重复片段（segmental duplication）是基因组中反复出现的、序列相似性超过90%以上的大段序列。无论是物种内还是物种之间的演化过程中，大多数的遗传变异都出现在重复片段区域，这里是产生新基因和新基因功能发生适应性变化的关键。但由于结构的复杂性，这里也是人类基因组中最后得到完整测序的区域。

▲更完整的人类基因组测序结果加深我们对重复片段的理解（图片来源：参考资料[3]）

现在，基于最新的完整人类基因组测序结果，科学家终于能够以更综合的视角审视人类的重复片段。在这类区域，科学家找到了182个全新的蛋白质编码基因，并且帮助我们理解一系列重要的演化与医学难题。
例如，比较人类与其他灵长类动物的测序结果，研究发现了与人类前额叶皮层扩张相关的基因TBC1D3，这将有助于重现古人类演化的历史。而在不同人类个体间，在重复片段区域编码脂蛋白的LPA基因，其数量与心血管疾病风险高度相关……
基于这项研究，我们能够全面理解重复片段的组织、表达与调控，并提升基因注释与基因分型。

▲详细描绘了人类基因组中重复序列的转录和甲基化状态，为功能研究奠定基础（图片来源：参考资料[6]）

在另一项研究中，康涅狄格大学Rachel O&#39;Neill教授领导的团队揭示了重复序列的转录与表观遗传状态。重复序列包含移动遗传元件，它们可以移动至基因组的其他区域。研究指出，一些多次重复的片段所包含的基因，能在很大程度上解释人类的遗传多样性。
除了从基因组的角度揭示特定重复序列对人类的影响，这项研究还从局部（例如着丝粒中）分析了重复序列的转录图景、描绘了甲基化的情形。这些结果将帮助我们理解转录在基因组稳定性以及染色体分离机制中的作用。
O&#39;Neill教授表示，接下来他们计划对更多不同人群进行基因组测序，从而更全面地理解人类多样性、疾病机制，以及我们与其他灵长类近亲的关系。
新的起点

“生成真正完整的人类基因组序列代表了一项令人难以置信的科学成就，为我们的DNA蓝图提供了第一份全面视图，”美国国家基因组研究所主任Eric Green博士评论说。
《科学》杂志的专题则这样总结：最新的人类参考基因组代表着“重要的一步，表明可以组装代表所有人类的模型，这将更好地支持个体化医疗、人口基因组分析和基因组编辑。”

参考资料：
[1] Sergey Nurk et al., (2022) The complete sequence of a human genome. Science. Doi: 10.1126/science.abj6987
[2] Sergey Aganezov et al., (2022) A complete reference genome improves analysis of human genetic variation. Science DOI: 10.1126/science.abl3533
[3]Mitchell R. Vollger et al., (2022) Segmental duplications and their variation in a complete human genome. Science https://doi.org/10.1126/science.abj6965
[4] Complete genomic and epigenetic maps of human centromeres. Science(2022), DOI: 0.1126/science.abl4178
[5] A. Gershman et al., Epigenetic patterns in a complete human genome. Science 376, eabj5089 (2022). DOI: 10.1126/science.abj5089
[6]S. J. Hoyt et al., (2022) From telomere to telomere: The transcriptional and epigenetic state of human repeat elements Science DOI: 10.1126/science.abk3112
[7] Complete human genome deciphered for the first time. Retrieved Apr. 1, from https://www.eurekalert.org/news-releases/946948▎药明康德内容团队编辑
本文来自药明康德内容团队，欢迎转发，谢绝转载到其他平台。
免责声明：药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的，文中观点不代表药明康德立场，亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导，请前往正规医院就诊。
⤵️喜欢我们的内容，欢迎关注@药明康德！或者点赞、评论、分享给其他读者吧！

图文播报

迄今最完整的人类基因组测序结果发布在 Science，相比之前有哪些突破？会带来哪些价值？

登陆有奖并可浏览互动！

发表回复

官方推荐 /3

个人中心