现代基因测序有哪些已经确定无疑，但普通人还不知道的结论？

奋斗的小鸟 · 发表于 2024-9-1 16:46

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

来源：知乎
类似完颜是琅琊王氏这种。

原文地址：https://www.zhihu.com/question/624489884

乔帮主 · 发表于 2024-9-1 16:55

使用短读长片段也能对复杂基因组进行测序和从头组装。
可能非本专业的小伙伴听起来有点不像人话？大概就是如果你想获得一本书的复制版，比起一句句老老实实抄一本出来，不如弄一百本胡乱撕碎然后拼起来表现好！怎么样，挺离谱的吧。
嗯……这个也很难说是结论，只是大家能放心用当前大部分的二代测序结果进行进一步的研究，得建立在信任它的基础上。其实……也不一定说是确定无疑，毕竟现在砸钱坚持用sanger或者转向三代测序的大佬也多得很，而且也有一些特定场景下它表现并不好。但鉴于这东西是生信的内功入门心法，来来回回地聊，也总是常看常新，所以在此借楼分享下，尽量科普，用人话讲点基本概念^ ^欢迎大家交流批评斧正~
咱现在最通用的测序技术是二代测序。那是不是还有一代三代测序呀？先说说三代测序，因为这基本上是最符合人直觉的方法了，大概就是把长长的DNA分子用个小元件顺着‘捋一遍’，捋到不同的核苷酸就亮不一样的灯，这种方法虽然测不了整条长度，但断了就拼起来就好了。另一个也算符合直觉的是Sanger在1977年发明的测序法，这个一代测序法很朴素地用化学反应和跑胶这些很基础的操作，却聪明地实现了DNA测序。就是如果让DNA合成分别停在ATCG这些地点，会生成不一样长度的分子，然后我们比较这些分子把长短排个序，就能知道哦，这个地方先是A，哦，再长一点点的是G，再长点的是C……这一段的序列就这么都能推出来了。感兴趣的小伙伴可以自己搜搜细节。

Sanger测序的示意图

不过嘞，这个方法可是费时费力啊，比较几十个还好，比较几百个呢，几千个呢？跑过胶的同学都知道做个电泳有多难，一代测序的每段序列都是靠这么一个个胶板去测的，想想是不是就很恐怖。而且人类基因组有多大呀——3.1个G！3后面跟了9个0，这得测到猴年马月去？所以意义重大的人类基因组计划测了十三年之久。而现在，整个人类基因组的测序大概只需要1天时间。至于成本，当年花费30亿美元的项目，现在华大基因的标价好像只有1300元左右呢。
那这个颠覆性的二代测序技术到底有什么神奇之处[1]？通俗来讲：先疯狂复制一大堆DNA分子，再丧心病狂把长链全打成短短的小片段，然后用非常擅长测小片段的技术，把这些碎末末都测出来（技术细节也暂时略过了，网上非常细致的讲解和演示动画都很多）。问题是这真的靠谱吗？——在有计算机和生物信息学的时候，非常靠谱！让我们回到开头时候提到的这个有点反直觉的结论：使用短读长片段也能对复杂基因组进行测序和从头组装。
这这就是生物信息学中非常基础但也非常重要的一个部分内容：基因组从头组装（de novo assembly）。还是让我们稍微看看最符合直觉的一代测序：由于我们是一小段一小段去测的，那每次我们都和上一次测的有几个碱基的重叠，就可以把它们顺利拼接起来了。那咱现在面对的是满地没头没尾的短片段，可咋办？没关系，让我们擅长大量运算的计算机使用数学魔法！
基因组的组装可以用图抽象成一个数学问题[2]，图由是一组节点再加上节点之间的边组成的。当我们进行基因组组装时，我们先把已经挺小的片段拆成更小的片段作为节点，由于每个片段的长度为k，所以一般被叫做k-mer，如果在我们拆的时候两个片段是连接着的，就给他们添加一个有向边。没错，我们确实是把已经又多又碎的片段拆得更多更碎了！然而，这样可以让我们通过寻找k-mer之间重叠的方式，来把更多的序列连接在一起，把这些分别连接的小片段“捋”在一起，整合好之后就是完整的序列了。

长度为10的序列被拆成5个6-mer

好吧，这好像听起来还是个不小的挑战，没关系，这依然是个图论中经典的数学问题：即找到一个恰好访问图的所有节点一次的循环（称为哈密顿循环问题）。但是如果看做哈密顿循环问题的话，关注点更多是在于节点之间，而在基因组组装中重叠信息可能更为关键。所以我们转向了 de Bruijn 图，通过连接节点来寻找访问图中所有边一次的路径。想象一只蚂蚁想要比访问整个图，比起走过所有节点一次，它现在更想访问每个边一次，感兴趣的小蚂蚁可以去搜搜哥尼斯堡七桥问题和欧拉循环。在计算机的帮助之下，我们的算法可以在有几十亿节点的巨大图中高效地找到欧拉循环，因为对于计算机科学来说，这样的计算是非常轻松而且常用的策略啦。

de Bruijn ，k = 4 和由数字 0 和 1 组成的 2 字符字母表。该图具有欧拉循环且按照蓝色编号边的顺序给出欧拉循环，拼写循环字符串为0000110010111101

一边总结一下上述过程一边聊聊应用时候的情况，以最经典的工具Velvet为例[3]，Velvet将每个读段分解为k聚体，然后构建de Bruijn图，遵循不同路径找到图中的不同序列。此后，比较关键的是要简化图表，也就是“捋”在一起的这个整合部分。比如当图中存在两个相连的节点且没有任何分支时可以将这两个节点合并，或者把一些高度相似的路径合并。Velvet使用了动态规划策略，让计算更快。此外，Velvet还引入了一些防止错误的方法。

Velvet是一个比较标准的工具，更适用于小型基因组，现在也有很多支持多线程处理复杂基因组的工具。也有针对不同使用场景的一些其他工具等等。总而言之，正是有了这些好用的工具才能让二代测序这个看起来有点反直觉的测序技术脱颖而出，成为便宜大碗的好方式。其实其中使用的计算机工具可能从人家那边看起来都是小菜一碟了，但是在合理的数学描述和抽象，以及跨学科的结合之下，却帮基因组研究解决了一个关键的难题。

继续前进 · 发表于 2024-9-1 17:02

商朝王室的基因应该是c南支，通过对孔子家族以及一些世家大族以及春秋时宋朝的后裔的分子检测得出的，包括周朝是N系，所以，创造中华民族伟大历史的原始股东是老亚洲人和新亚洲人

乔帮主 · 发表于 2024-9-1 17:06

人种没有生物学意义 —— 大家都是串串，分不出黑白黄。
Dr.Hu：不同人种外观差别那么明显，为什么科学家却说人种划分没有生物学基础？

图文播报

现代基因测序有哪些已经确定无疑，但普通人还不知道的结论？

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心