立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 935|回复: 5

[讨论] 基因组测序为什么没完没了?

[复制链接]
发表于 2024-9-12 19:31 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2024-9-12 19:31 | 显示全部楼层
对不同群体、不同个体、不同细胞,进行DNA测序、RNA 测序,那自然是没完没了的
但是参考基因组测序为啥没完没了,可以讨论一下
@Tang Boyun 给了已发表的动物参考基因组列表,我刚在专栏《生信笔记》里整理了 2000年至今发表的所有植物参考基因组,一共 335个
张旭东:2000 - 2018,335个已发表植物基因组汇总


从 10年的 5 个到 17年69个,今年已经发表了 68 个,还会增加
12年左右,测序物种迅速增多,主要是二代测序成熟的结果。但是现在想想,这么多物种被测序,尤其是很多不那么重要的物种,每个至少 200万起步,很多人质疑是不值得的。得到的不是染色体水平的序列,只是几百甚至几千条 scaffold。不客气的说,很多基因组都是垃圾,没啥用。
到了15年,这种水平的文章已经很难发表了,所以你看到只有 24 个。也许这背后还有很多没发表出来,或者决定补测三代数据。
到了16年,PacBio 开始大量应用到动植物基因组组装(之前价格贵,主要要用在小基因组);17年、18年NanoPore 技术成熟;再加上光学图谱、Hi-C 。可以说所有所有物种都能被组装到染色体水平了。
这个时候,再回头看看当年拼接出来的“垃圾”,简直不能忍,所以第一波测过的物种又被拉出来重新测序,注意是完全重做,不是修修补补。这就是你看到的这两年的第二波高潮。

你比如苹果的基因组,一共三个版本
你比较一下前两个版本和 2017年版本的N50,就知道之前的是不是垃圾,就知道为啥都第三次了,还能发到 NG 。



以上是数据,我们预测一下未来

  • 未来的两三年,这个高潮还将持续,所有重要物种的参考基因组都会被测序或者重新测序,而且都能发高水平的文章。
  • 这波高潮过了就过了,短期内没有下一波。因为这波的基因组都装到了染色体水平,修修补补就可以了,没有必要推倒重来。就像人的基因组,只是修修补补。
回复 支持 反对

使用道具 举报

发表于 2024-9-12 19:31 | 显示全部楼层
目前已有序列数据(并不是完整基因组数据)的动物分布:


其实很多物种的基因组还没测,目前不存在测了又测,所以这个问题我把范围缩减在:为何人的基因组测了又测上。
首先要明白,一个基因组拼完后,得到结果的质量,就和圣斗士一样,是分等级的。当然因为逼格比较高,所以最高是白金级的,青铜什么的就不能算了。(目前一千美元能测的,应该算钢铁圣斗士。。。)


GRCh38,也就是目前科研上使用的最新版本的人参考基因组,上图看上去数据很完美,但在指导医疗实践上是有问题的,因为它是来源于混合样本,并不能反映任何一个人的单倍型基因组。比如,MAPT(微管相关蛋白)区域,与神经退行性疾病(e.g.帕金森)高度相关的区域,在这种关键区域上,混合样本测得的DNA序列没什么意义。
所以,现在老外搞了个“精准参考基因组”计划(中文名我瞎起的,英文名叫
Reference Genomes Improvement Project)。选取有代表性的人种:


计划采用的路线是用PacBio数据de novo组装,配合BioNano Irys光学图谱来搭脚手架。最后用细菌人工染色体+PacBio来补洞。



这里稍微解释下,为何测高质量的个人基因组需要de novo,而不是resequencing:因为每个人各自都携带有自身独特的、正常的结构变异,使用resequencing也就是比对现成的参考基因组,那么这部分信息毫无疑问会丢失掉。这也是结构变异相关研究比较难做的地方,比如研究癌症,那么最好的对照不是其他正常人,而是自身的正常组织,比如癌与癌旁。
参考资料:
The evolution of animal genomesProject - The Elizabeth H. and James S. McDonnell III Genome Institute at Washington University

-------------------------------------------------更新---------------------------------------------------------------
Q: de novo 是不是更贵?
价格由选用的技术与所需数据量决定。当然de novo对数据质量、数量、读长、算力都要求更高。
可以把测序拼基因组当成是拼图游戏,有参考基因组,就是拼图的时候,你已经知道最后要拼成的图是啥样子了,也就是可以大致确定手上的碎片是在哪个位置。而无参考基因组,就是拼的时候,并不知道最后结果是什么样子。
拼图游戏的难点在于,图形是否有很多碎片都是同一个样子的(一个基因组是否有许多短重复序列),如果这些碎片完全相同(测序仪读长小于重复序列长度时),你是无法将这些碎片唯一定位到最后的拼图里的。
回复 支持 反对

使用道具 举报

发表于 2024-9-12 19:32 | 显示全部楼层
1、不同物种要进行新的测序,现在已测序的物种相当来说还不算多吧
2、对同一个物种重测序,我想你要问的是这个吧。因为即使同一个物种,比如人,个体间还是有差异的,不然为什么人和人之间不一样呢?这些差异在genome上的表现有SNPs、indel(插入缺失)、SV(结构变异)、CNV(拷贝数变异)。这些差异有些导致的是正常的人之间的差异,比如不同的肤色不同的体格,有些则导致的是基因疾病,具体例子我就不多说了,这个网上一搜一大把。如果不进行重测序,你怎么能检测到这些差异呢
话说回来,物种的单个体测序只是为了得到该物种genome的一个reference,真正有实际意义有研究价值的是后面的重测序,因为有对比有差异才能更好的知道基因的作用
回复 支持 反对

使用道具 举报

发表于 2024-9-12 19:33 | 显示全部楼层
我认为这里所说测序应该分成几部分:研究性测序;应用性测序
研究性测序:比如某个物种的基因组图谱,针对某个疾病的群体研究等
应用性测序:比如测个人基因组对疾病进行预测

为什么一直测,应该有下面几个原因:
1. 首先是遗传信息的决定作用。所有表型都是遗传和环境的共同作用,但遗传是根本,环境是起影响作用;遗传信息里,作为大多数物种遗传物质的DNA当然应该首要关注。所以要测基因组。地球上如此多的物种,目前尚有大量物种未被测序,所以还一直在测啊测(当然,研究目的就有譬如:开发物种本身经济价值,进化研究等)
2. 同一物种的个体,是有异质性,也就是有个体差异的,正因为这种差异,才会有进化,对有经济价值的物种也才有育种的可能。所以,这就要对同一物种不同个体(即群体)进行测序,这也就是为什么测了5个人后,还测百人,测千人,现在还要测百万人
3. 健康诊断,目前已经有分子诊断、基因诊断,而基因组诊断则是更全面,更本质的诊断(当然目前还有一系列问题没有解决),所以将来会出现人人基因组的局面,那时会是:每个人都在测啊测。

当然,还有一些技术上的原因,开始以为测10个基因组就可以解决问题了,但现在发现测100个都还不够,所以就测了一个又一个。

个人理解,请各位不吝指教
回复 支持 反对

使用道具 举报

发表于 2024-9-12 19:33 | 显示全部楼层
因为有这么多的生物,每个生物体的基因组都不一样。再加上表观遗传学之类的东西,相同的DNA,最终的结果也不一样,于是就测啊,测啊~~~
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表