在原博士的安利以及带领下,相信大家对《新冠肺炎实验室检测技术指南》(《新冠肺炎实验室检测技术指南》的演化解析(一),(二)样本采集,(三)实验室检测)都有了很深刻的理解。在这个指南里,除了原博士详细分析过的样品采集以及实验室中实时荧光RT-PCR方法以外,还有一个部分让我虎躯一震,印象深刻,那就是“病毒全基因组测序”。我也大概类似于原博士说的“怀着崇敬的心情”将这一部分细读了一遍,除了“测序标本选取原则”这一点我们在做动物疫病病原流行病学调查时值得借鉴以外,还提到了一个关键信息,那就是“以二代测序技术进行新冠全基因组测序。“纳尼?!二代测序技术可以测新型冠状病毒全基因组还列入了指南!!不了解测序的朋友可以回看检测人眼中的测序技术发展史,三代测序的知识参见下雨天巧克力和音乐最配,那纳米孔测序和动物疫病诊断配么?。那我们还在等什么?测一个动物病原看看会是怎样一个效果呢?话不多说,先测为敬~ 我们采用之前已经分享过的案例分享:三代测序对PRV、PCV2、PPV6混合感染的诊断中的样本,提取核酸,送一家业内靠谱的二代测序公司进行宏基因组测序,历时N天终于顺利拿到了Illumina150bp建库,双端测序,两端各6G的原始下机数据。 之所以选择这个样本进行牛刀小试,主要有以下三点原因:首先是该样本中包含了临床常见的三种病毒,猪圆环病毒2型(PCV2)、伪狂犬病毒(PRV)和猪细小病毒6型(PPV6),可以做到一石三鸟,性价比极高;二是这三种病毒基因组核酸均为DNA,无需进行反转录,减少由于反转录效率不同造成的不确定性;三是这个样本中所包含的三种病毒含量不同(1010~106copies/mL不等),基因组大小不同(2~150Kb不等),非常适合于在不同目标病毒的情况下将二代数据与三代数据进行横向比较。从样本选择的角度来说,堪称完美~~~ 图1 mNGS的基本流程 图2 数据比较分析的三个角度 第一个问题:有多少目标序列? 考虑到二代测序是以150bp打断经PCR扩增后建库的,而三代则采用直接原始模板进行建库,因此两者从数量到序列长度都不是一个量级,因此如果采用绝对数量的目标序列进行比较,二代恐胜之不武。因此,我们采用相对数量的目标序列百分比,即目标病毒序列占总样本中非宿主的大于50bp序列的百分比进行比较。结果如图3所示。 图3 目标序列占比示意图 从上述结果我们发现,对于基因组较小的DNA病毒,如PCV2和PPV,全基因组小于7Kb,二代和三代测得的比例差不多,而对于基因组较大的PRV,其基因组达到150kb,这样的目标病毒二代测序则能获得更高比例的数据。 第二个问题:能覆盖多少参考序列? 这个问题的初衷大概类似于三代测序“覆盖度/Coverage“的这个概念(详细参见是时候来一篇测序术语的科普了!),与参考序列相比能覆盖的越多,说明测序的结果更可靠,可用于后续深入分析的价值也越高。比较的结果见图4. 图4 覆盖度示意图 这个结果与前一个问题的结果一致,对于基因组较小的病毒两种测序方法获得数据的覆盖度差别不大,但对于基因组较大的病毒,二代的优越性会更加明显。图5和图6分别是PRV参考序列的覆盖情况,明显二代数据从完整性到测序深度都要优于ONT。 图5 ONT数据中PRV基因组覆盖度示意图 图6 Illumina数据中PRV基因组覆盖度示意图 第三个问题:最大相似度能到什么水平? 这个问题其实是想回答两种测序方法无论直接获得还是拼接获得的最大片段是多大?与参考序列相比,数据的准确性又是如何?本次实验中能够获得最长片段情况见图7,图中实线代表直接获得,虚线代表拼接获得。 图7 直接获得/拼接获得的最长片段情况 图8 最大相似性及Gap所占比例 PCV2由于基因组较小,且样本中病毒含量较高(1010copies/mL),两种测序方法都经拼接得到了全长序列。但是ONT的拼接后序列经BLAST比较,同源性为98%,与Illumina的99%同源性相差不大,但是ONT存在大约1%的gap,而Illumina则没有,说明通过样品直接测序拿到完整、准确的序列,ONT暂时还不太能做到。但是,ONT直接获得测序片段比Illumina拼接后的更长,这一点对于后续基因组拼接会更有帮助。整体说来,ONT的同源性在84~98%之间,但亦存在1~9%的gap。 |