在论证了纳米孔测序可用于动物疫病诊断下雨天巧克力和音乐最配,那纳米孔测序和动物疫病诊断配么?,并分享了本实验室的一个案例案例分享:三代测序对PRV、PCV2、PPV6混合感染的诊断之后,我认为是时候来一篇测序结果分析的科普贴了,主要回答一下“测序结果咋看?”这样一个看似简单实际内藏玄机的问题。测序跟之前用于疫病诊断的检测方法不同,下机不等于有结果,只是另一个新的开始。《高通量测序技术临床检测规范化应用北京专家共识(第一版通用部分)》[1]中将高通量测序分为“湿实验”和“干实验”两个部分,"湿实验"就是测序的实验操作部分;湿实验结束拿到下机数据,然后“干实验”才刚刚开始,包括对数据质量分析、比对、变异识别、注释和结果报告与解释等多个环节。如此这般之后,才能知道这份样品中到底“可能”有什么病原微生物?有什么遗传病?或者有什么肿瘤体细胞基因突变?等等。 目前纳米孔测序分析还没有通用的标准或者专家共识可供参考,所以数据分析主要参照二代(即高通量测序)技术指标进行分析,主要包括原始数据质量分析和与数据库进行比对分析两大类[2-5]。具体指标如下图所示: 测序获得的下机数据第一步需进行质量分析,质量不合格的数据即便后续进行了数据库比对,也无法得到理想的结果。数据质量包括“数据的量”和“数据的质”两个部分。 1.1数据的量 一般提到“数据量”多指的是碱基总数,高通量测序的下机数据在几百Mb到数Gb之间不等。三代测序的数据量与二代相比还是要少的多,从本实验室获得数据来看,一张MinION芯片下机数据量在1~3G之间,与illumina至少6G单端12G双端相比,差距还是十分明显的。但其实,数据量还包括序列数(即reads)这样一个指标,它是指在测序过程中获得了多少“条”数据,理论上条数越多代表测得越好。但是需要注意的是,在相同碱基总量的情况下,条数越多则意味着每条序列的长度越短,而片段短对于无论是物种分析还是基因组拼接都是非常不利的。与illumina测序不同,纳米孔测序在建库过程中未对核酸进行人为的打断处理,所以理论上实验中能提到多长的核酸,就能测出来多长的序列片段。目前ONT官方报道的最长读长可达4.2Mb。 1.2数据的质 对于“数据的质”来说,最重要的一个指标就是Q值,也叫质量值,它是指“测序碱基识别过程中,对所识别的碱基给出的错误概率,Q值越高代表测错的概率越小,计算公式是Q=-10lgP。其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30。Q值与准确率之间的关系,如下图表格: 下面这张图很形象地指出了不同测序方法的Q值,Illumina的Q值可以达到30,也就是正确率到达99.9%,而ONT的质量值在7以上为合格,即准确率为80.1%;测序效果好时,Q值可以维持在10,即90.0%水平。 2.1特异性序列 特异性序列,是指将下机数据与数据库进行一定算法的比对,对比上某特定物种的序列(即特异性序列),包括数量和长度两个方面,毋庸置疑,特异性序列越多,长度越长,说明样本中含有这种物种的可能性越大。这个指标大概类似于荧光PCR反应检测核酸拷贝数的概念,检出的越多代表这个样品是阳性的可信度就越高。所以如果指示的是某种病原菌,那就更有可能是这种病原菌导至的疾病。 2.2覆盖度和测序深度 这两个指标往往会一起统计,因为都是要根据参考序列进行比较。覆盖度是指检测到某种微生物的序列覆盖到该微生物全基因组参考序列的比值,覆盖度越高表示检测到这种微生物的序列覆盖到该微生物全基因组的比值越高,可信度就越高。这一点很好理解,给大家举一个极端的例子,比如我的样品中检出多条PRRSV序列,但一分析发现跟参考序列欧洲株基因组相比覆盖率不足0.5%,只有约75bp覆盖上,那就说明这份样品大概率并不是PRRSV欧洲株感染。 测序深度是跟覆盖度配合统计的,是指样本中某个指定的核苷酸被检测到的次数,数值越大表示样本中检测到这一碱基的次数越多,可靠性也就越高。 举个例子,比如上面这个图,就是上次那个混合感染案例中对PCV2参考序列的覆盖度和测序深度的图,图中的横坐标是参考序列全基因组的位点,PCV2全长1768bp(GenBank No. NC_005148),图中可以看到,测序获得的数据对整个基因组都有覆盖,所以覆盖率为100%。纵坐标是测序深度,可以看到每个碱基被测到的次数在500~2000次不等。综合上述指标,说明该样品中含有PCV2的可信度还是非常高的。 2.3微生物丰度 这一指标是指该微生物在整个样品中检测到的相同类型微生物物种所占的比重。一般行业将微生物分为细菌、病毒、真菌、原生生物和寄生虫五种,衣原体和支原体在大类上属于细菌。丰度越高表示其在相同类型微生物中所占的比例越高,可信度也就越高。 2.4阈值 通俗来讲,阈值也就是人为设定一个门槛,高于它就报告样品中该物种为阳性。2020发布的《宏基因组学测序技术在中重症感染中的临床应用专家共识第一版》中提到,对于一些显著区别于人基因组序列的病毒,有少量的特异序列检出即可信,其阈值通常在3/100万及以上即为可信。这就对宏基因组结果给出了判定阴阳性的依据,也让该技术手段从科研走向了临床。因为这里提到的宏基因组测序大多采用二代方法,片段较短,数据条数较多,从目前我们测到的结果来看三代数据达到百万级别的较少,所以这个判定指标有必要结合如特异性序列情况、覆盖度、测序深度以及微生物丰度来综合评定。 [1] 高通量测序技术临床检测规范化应用北京专家共识(第一版通用部分)[J]. 中华医学杂志,2019(43):3393-3394. [2] 宏基因组分析和诊断技术在急危重症感染应用的专家共识[J]. 中华急诊医学杂志, 2019(02):151-155. [3] GB/T 30989-2014 高通量基因测序技术规程[S]. 2014. [4] OIE陆生生物手册. Chapter 1.1.7 高通量测序标准、生物信息学以及计算基因组学[Z]. 2018. [5] 高通量宏基因组测序技术检测病原微生物的临床应用规范化专家共识[J]. 中华检验医学杂志, 2020,43(12):1181-1195. |