立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 杂侃天下 查看内容

Q30提升至Q40后,测序准确率可以提升多少?(I)

2024-2-19 15:22| 编辑: 归去来兮| 查看: 1508| 评论: 0|来源: 基因Share | 作者:冯宝省

摘要: 测序数据质量从Q30提升至Q40后,测序准确率可以提升多少?

测序数据质量从Q30提升至Q40后,测序准确率可以提升多少?这是一个最近比较热门的话题。我们今天还是以Illumina的NovaSeq系列测序仪为例,来简单讲解。

该主题内容共分为I和II 2 篇文章,主要内容:

▲1.NovaSeq 6000和NovaSeq X的Q Score Bin。(I)

▲2.Q30的NovaSeq 6000和Q40的NovaSeq X的测序错误率在什么水平?(I)

▲3.Q40可能带来哪些应用性能提升?(II)‍‍‍‍‍‍

主要结论见文末。‍‍‍‍‍



▲1.NovaSeq 6000和NovaSeq X的Q Score Bin


《测序仪 Q 值评分体系准确性评估方法简介》一文中我们介绍了Q Score Bin 的相关知识,目前 illumina的 NovaSeq、NextSeq、iSeq 和 HiSeq X的 Q Score 体系均采用了划Bin 的方案(即,将连续的Q Score 划分为几个区块,每个区块选定 1 个 Q Score作为代表)。

2023 年10 月Illumina宣布,基于XLEAP-SBS,NovaSeq X系列和NextSeq1000/ 2000 在升级特定软件版本后将实现85%basesQ40的数据输出。

上表统计了 NovaSeq 6000 和 X 系列在软件升级前、后的 Q Score Bin组成,两款产品均采用了1(no call)+低、中、高3区间的体系,非常方便我们开展对比。

NovaSeq X v1.2软件更新通知(部分内容):


1.Illumina 描述在测序化学和芯片设计上无任何变更,碱基识别软件RTA更新了Q值表,更新后的Q值表更接近真实的数据质量(observed Q Score)表现。(Illumina认为 V1.0/1.1 软件的Q Score打分存在虚低)



2. 如上图所示,NovaSeq X Q Score 3 区间中,High-quality bin赋值从Q37更新为Q40(代表Q30~43),Medium-quality bin 从 Q20 更新为 Q24(代表Q18~29),这意味着更新后NovaSeq X Q Score≥30和≥40的值仅有 1 个,即40,也即 ''Q30%''=''Q40%''。


▲2.Q30的NovaSeq 6000和Q40的NovaSeq X的测序错误率在什么水平?


我们默认NovaSeq X更新Q值表后的打分是准确的,那85%≥Q40的NovaSeq X与85%≥Q30 的NovaSeq 6000相比,测序错误率下降了多少呢?

我们需从2个统计角度开展数据整体错误率的计算。

1.统计所有Q Score bin 的bases

2.仅统计High-quality bin 的bases


统计所有Q Score bin 的bases。为方便计算我们假设测序数据中共10000个bases。

NovaSeq 6000 ≥90%bases≥Q30,≥98%bases≥Q20 (依托实测数据设定)。

90%  Q37(ER~0.02%),9000×0.02%=1.8个 error bases‍‍‍‍‍

  8%  Q25(ER~0.316%),800×0.316%=2.5个 error bases

  2%   Q11(ER~7.943%),200×7.943%=15.9个error bases

error_bases(1.8+2.5+15.9)/all_bases(10000)=0.20%


NovaSeq X ≥90%bases≥Q40,≥98%bases≥Q20 (依托实测数据设定)。

90%  Q40(ER~0.01%),9000×0.01%=0.9个error bases
  8%  Q24(ER~0.398%),800×0.398%=3.2个error bases
  2%  Q12(ER~6.310%),200×6.310%=12.6个error bases
error_bases(0.9+3.2+12.6)/all_bases(10000)=0.17%
当统计所有Q Score bin 的bases时,X相比6000的数据整体错误率下降了15%

另外可以看到,低Q Score bases以及其现阶段的占比水平显著影响了数据整体错误率水平,以下示例可以进一步辅助大家理解这点

示例:某型号测序仪测序数据共 1110 个 bases,其中 Q30 bases 1000 个,Q20 bases 100 个,Q10 bases 10个 。

90%  Q30(0.1%),1000×0.1% =1.0个
  9%  Q20(1.0%),  100 ×1.0%=1.0个
  1%   Q10(10%),  10×10.0%=1.0个
error_bases(1.0+1.0+1.0)/all_bases(1110)=0.27%
如 Q10 bases 占比+1%,Q20 bases-1%,则数据整体错误率将上升至 0.37%。‍‍‍‍

▲如仅统计High-quality bin 的bases
虽然现阶段低Q Score bases的占比水平会显著影响数据整体错误率水平,但在应用端数据分析时,高 Q Score bases 将被赋予更高的权重甚至分析流程会规定仅Q Score≥XX的base才会被纳入分析。
所以,仅使用High-quality bin的bases来评价测序数据质量是必要且合理的, NovaSeq X相比NovaSeq 6000,即Q40(≥90% bases)比Q37(≥90%bases)错误率从0.02%下降至0.01%,即降低了100%或1倍

仅统计High-quality bin 的bases,如果NovaSeq X相较于NovaSeq 6000要实现3X的测序错误率的下降(前期XLEAP-SBS 宣传材料中,Illumina 提及的Accuracy increase 3X),则High-quality bin的代表值需要从 Q37 提升至 Q43。如期望实现10X测序错误率的下降High-quality bin的代表值需要从 Q37 提升至 Q47.5。

‍‍


综上,我们可以初步得出以下结论:‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

在 Q 值打分体系准确的前题下,测序数据质量从 ''85%basesQ30''级别提升至''85%basesQ40''级别,需先明确Q值提升的''起点''和''终点'',才能确定测序错误率的降低程度。例如从NovaSeq 6000的Q37到 NovaSeq X的Q40,错误率下降约1X(仅统计High-quality bin的bases & Q值评分体系准确)。‍‍‍‍‍

目前,在市场宣传层面,大家喜好默认''Q30 级别数据''的Score起点为30且仅有30,进而宣传Q40级别数据的错误率实现了数量级的下降。‍‍


低Q Score bases以及其现阶段占比显著影响了数据整体错误率水平,例如Q10水平的 bases 占比仍在 1~2%水平不降低,即使高Q Score bases错误率降低至 0%,数据整体错误率仍将在1%×10%~2%×10% 即 0.1~0.2%的水平。

所以,数据整体错误率的下降,低Q Score bases占比的降低也是关键。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍


以上即为今天分享的全部内容,我们后续将为大家讲解 Q 值的提升对下游应用的影响。


声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部