测序数据质量从Q30提升至Q40后,测序准确率可以提升多少?这是一个最近比较热门的话题。我们今天还是以Illumina的NovaSeq系列测序仪为例,来简单讲解。 该主题内容共分为I和II 2 篇文章,主要内容: ▲1.NovaSeq 6000和NovaSeq X的Q Score Bin。(I) ▲2.Q30的NovaSeq 6000和Q40的NovaSeq X的测序错误率在什么水平?(I) ▲3.Q40可能带来哪些应用性能提升?(II) 主要结论见文末。 ▲1.NovaSeq 6000和NovaSeq X的Q Score Bin 在《测序仪 Q 值评分体系准确性评估方法简介》一文中我们介绍了Q Score Bin 的相关知识,目前 illumina的 NovaSeq、NextSeq、iSeq 和 HiSeq X的 Q Score 体系均采用了划Bin 的方案(即,将连续的Q Score 划分为几个区块,每个区块选定 1 个 Q Score作为代表)。 2023 年10 月Illumina宣布,基于XLEAP-SBS,NovaSeq X系列和NextSeq1000/ 2000 在升级特定软件版本后将实现≥85%bases≥Q40的数据输出。 上表统计了 NovaSeq 6000 和 X 系列在软件升级前、后的 Q Score Bin组成,两款产品均采用了1(no call)+低、中、高3区间的体系,非常方便我们开展对比。 NovaSeq X v1.2软件更新通知(部分内容): 1.Illumina 描述在测序化学和芯片设计上无任何变更,碱基识别软件RTA更新了Q值表,更新后的Q值表更接近真实的数据质量(observed Q Score)表现。(Illumina认为 V1.0/1.1 软件的Q Score打分存在虚低) 2. 如上图所示,NovaSeq X Q Score 3 区间中,High-quality bin赋值从Q37更新为Q40(代表Q30~43),Medium-quality bin 从 Q20 更新为 Q24(代表Q18~29),这意味着更新后,NovaSeq X Q Score≥30和≥40的值仅有 1 个,即40,也即 ''≥Q30%''=''≥Q40%''。 ▲2.Q30的NovaSeq 6000和Q40的NovaSeq X的测序错误率在什么水平? 我们默认NovaSeq X更新Q值表后的打分是准确的,那≥85%≥Q40的NovaSeq X与≥85%≥Q30 的NovaSeq 6000相比,测序错误率下降了多少呢? 我们需从2个统计角度开展数据整体错误率的计算。 1.统计所有Q Score bin 的bases 2.仅统计High-quality bin 的bases ▲统计所有Q Score bin 的bases。为方便计算我们假设测序数据中共10000个bases。 NovaSeq 6000 ≥90%bases≥Q30,≥98%bases≥Q20 (依托实测数据设定)。 90% Q37(ER~0.02%),9000×0.02%=1.8个 error bases 8% Q25(ER~0.316%),800×0.316%=2.5个 error bases 2% Q11(ER~7.943%),200×7.943%=15.9个error bases error_bases(1.8+2.5+15.9)/all_bases(10000)=0.20% NovaSeq X ≥90%bases≥Q40,≥98%bases≥Q20 (依托实测数据设定)。 示例:某型号测序仪测序数据共 1110 个 bases,其中 Q30 bases 1000 个,Q20 bases 100 个,Q10 bases 10个 。 9% Q20(1.0%), 100 ×1.0%=1.0个 综上,我们可以初步得出以下结论: ▲在 Q 值打分体系准确的前题下,测序数据质量从 ''≥85%bases≥Q30''级别提升至''≥85%bases≥Q40''级别,需先明确Q值提升的''起点''和''终点'',才能确定测序错误率的降低程度。例如从NovaSeq 6000的Q37到 NovaSeq X的Q40,错误率下降约1X(仅统计High-quality bin的bases & Q值评分体系准确)。 目前,在市场宣传层面,大家喜好默认''Q30 级别数据''的Score起点为30且仅有30,进而宣传Q40级别数据的错误率实现了数量级的下降。 ▲低Q Score bases以及其现阶段占比显著影响了数据整体错误率水平,例如Q10水平的 bases 占比仍在 1~2%水平不降低,即使高Q Score bases错误率降低至 0%,数据整体错误率仍将在1%×10%~2%×10% 即 0.1~0.2%的水平。 所以,数据整体错误率的下降,低Q Score bases占比的降低也是关键。 以上即为今天分享的全部内容,我们后续将为大家讲解 Q 值的提升对下游应用的影响。 |