大家还记得前段时间都教授让千颂伊同学去学习16S分析吗?(点击这儿回顾)没错,小千同学已学成归来,为了考察学习成果。都教授问了千颂伊几个问题。 OTU就是按照序列97%相似性进行筛选得到的一类核苷酸序列。 每个样本对应的reads数量差距较大,为避免因样品数据大小不同而造成分析时的偏差,在样品达到足够测序深度的情况下,需对每个样品进行随机抽平处理,获得统一的基数,从而准确预测OTU的丰度。 哈哈,这个问题难不倒我。每个OTU中存在多种相似性在97%以上的read片段,每种read条数不等,做物种比对时,通常选择reads数量最多的核苷酸序列。 嗯,嗯,那个,那你有没有偷学到宏基因组测序的知识?作为微生物测序研究的常用手段,16S等扩增子测序与宏基因组测序经常被拿来比较。we all know宏基因组可深入到基因水平进行代谢研究,但二者还有哪些本质区别?为何宏基因组如此火热?你,真的都懂吗?是否有些疑问埋藏在心里很久,却始终找不到满意的答案呢?没关系,今天小锐就带大家感受一下撕名牌的畅快,将所有疑难通通out掉。16S rDNA基因存在于所有细菌的基因组中,具有高度保守性。然而该基因序列还包括9个高变区(V1-V9),通过特异性引物对某一段高变区(如V3区)或某几段高变区(如V3-V4区)进行扩增测序,然后与数据库比对,可特异性识别细菌种类。将基因组DNA随机打断成若干条500bp的小片段(类似于拼图中的单个形状不一的模块),然后连接接头(双端120bp),在片段两端加通用引物进行PCR扩增测序。将reads进行组装拼接(类似于将众多模块拼成一副完整图片),得到基因序列,众多基因构成完整的基因集。同时将获得的reads片段或组装好的基因序列与NCBI数据库进行比对,得到物种注释结果。对于16S测序而言,任何一个高变区或几个高变区,尽管变异性再高,对于某些物种来说,这些高变区也可能十分相近,而能够区分它们的特异性序列片段有可能不在我们的扩增区域内。换言之,非全长的可变区序列覆盖范围不够导至无法鉴定到种。宏基因组在建库之前会先将基因组DNA随机打断成若干小片段,而这些小片段中总有一些能够包含区分2个物种的基因差异序列。由于测序深度足够深,相当于覆盖了整个基因组的信息,因此在与NCBI数据库比对时,就能够注释到相应的种水平的物种。有客户用同一批样品先做了16S测序,然后又做了宏基因组测序,比较之后,发现宏基因组注释上的物种竟然比16S注释上的少很多。这是为什么呢?尽管上述问题会对数据质量和物种比对结果造成一定的影响,但即使不存在上述问题,宏基因组可注释出的物种仍然要比16S少。我们来看看下面这篇发表在Science上的文章[1]是如何描述和解释这一现象的。研究发现:用同样的样品分别进行宏基因组和16S测序分析,16S在门、纲、目、科、属水平注释上的物种均多于宏基因组,而宏基因组仅在种水平注释上的物种组成显著多于16S。此外,两种方法注释到门水平的物种的相对丰度也存在差异。文章认为,即便是同一个样品,由于建库、测序、分析手段不同,结果也会有所差异,因此很难通过对比的方法去判断哪种方式更准确。
对此,小锐只能说,二者各有优势,就看各位科研宝宝的研究目的了。16S与宏基因组进行物种注释时用到的数据库并不相同:前者用的是核糖体数据库项目(RDP)或Greengenes数据库;后者用的是NCBI数据库,不仅包括核糖体基因,还包括细菌、真菌、古菌、病毒的其他基因片段。宏基因组与16S在分析上有很多相同之处,如均可以进行物种分类和丰度分析,但二者也有区别,最显著的一点就是宏基因组可以进行基因水平的分析,从而研究微生物代谢功能。或许大家要问:16S现在不是也有功能预测吗?是的,尽管准确率高达84%-95%,但16S的功能预测只能做到KEGG第三层级,我们无法通过map图看到每种代谢内部基因调控的酶的变化。而宏基因组通过基因序列进行功能注释,可以准确分析每个基因参与哪些代谢通路、调控何种酶的合成、如何变化。简言之,想研究微生物背后的运作机制,只能通过宏基因组手段。美好的一天在千颂伊同学的认真学习中结束了,看着她自信满满的笑容,小锐知道,这妮子肯定又学到了不少东西。相信此刻坐在电脑前翻看手机的你,对于16S和宏基因组测序的原理性知识也有了很多了解。大家的成长就是小锐的快乐。[1] Zhernakova A, Kurilshikov A, Bonder M J, et al. Population-based metagenomics analysis reveals markers for gut microbiome composition and diversity[J]. Science, 2016, 352(6285): 565-569. |