如上表,纳米孔测序平台(华大序风、今是科技、普译生物)产品出新速度,已经呈现出与NGS短读长测序平台(赛陆、Illumina、真迈)齐头并进的态势。其中,有一家企业,让我们感到很意外:今是科技,推出纳米孔测序仪G-seq500升级产品,宣称将单序列准确率提升到了99.9%(Q30),50X一致性准确率提升到了99.999%(Q50)。带着诸多疑惑,我们深入研究了今是科技的相关资料,并对其产品升级研讨会内容进行了详细剖析,力图为大家揭开其中的奥秘。谈到纳米孔测序仪,就不得不谈纳米孔测序龙头Oxford Nanopore(ONT)。但一直以来,ONT在测序准确率这一指标上,事实上并不尽如人意。在不断升级化学试剂、迭代算法后,ONT才终于在2022年发布的Q20+试剂方案中,原始序列准确度达到99%(Q20)。为什么在“测得准”的这条道路上,ONT会如此艰难?这或许与其选择的技术路线有关。如图,具体而言:在一张薄膜中嵌入若干纳米孔,并在孔的两端施加电压,使得带电的DNA/RNA单链在电场的作用下通过这些孔洞。当链穿孔一刻,离子电流产生阻断效应,引起电流的变化(特征阻断电流信号)。通过实时监测相应的变化图谱,并利用计算机辅助工具进行分析,从而实现核酸序列的测定。 这种测序方案,无需扩增、单分子直接测序、测序读长可达Mb级别,并且省去昂贵的光学信号捕捉系统,体积更小,对使用环境要求更低。然而,“纳米孔链测序”在技术实现过程中,发现以下难点:(2)每一组特征阻断电流信号,其实是由同时停留在纳米孔中的多个碱基共同贡献,而非单碱基信号,这也给后续碱基识别算法提出了极高的要求,尤其是对均聚物序列的判断;(3)核酸单链过孔速度极快,和纳米孔相互作用的时间通常只有几微秒,过于短暂的信号持续时间让电子元件难以有效捕获。“碱基间信号差异小、非单碱基信号、信号难以捕捉”,这都给“链测序”准确率的提升造成非常大的挑战。底层技术原理,决定了ONT“准确率提升”这条路会走得异常艰难。今是科技,选择了另外一条技术路线:“边合成边纳米孔测序”:(视频源:今是科技) 如视频所示:采用4种特殊修饰物链条(标签)标记ATCG四种游离核苷酸,这些标签在待测核酸链的复制过程中脱离,并穿过纳米孔,从而产生不同特征阻断电流,通过电流信号采集,分析复制的核苷酸种类,从而获得待测链条序列信息。- 信噪比提升:不同碱基的特征信号可以通过标签得以放大,提升了测序电信号的信噪比;
- 单碱基分辨率:不同碱基信号间有了清晰的边界,不再像“链测序”方案中一个信号由过孔的多个碱基共同贡献,从而可以实现单碱基分辨率的碱基识别。
*“边合成边纳米孔测序”,并非待测链直接穿孔,而是使用4种特殊修饰的链条标签穿孔,每次碱基合成产生一组唯一信号。理论上,该技术方案原始信号读取准确率的提升较之“链测序”方案会更容易实现。基于“边合成边纳米孔测序”技术路线,还可以更准吗?
只需要对单个DNA分子进行重复测序,就能大大降低原始测序中的随机错误,提高单序列准确率。上文,从技术原理分析了“边合成边纳米孔测序”技术路线,理论上似乎更容易实现准确率的提升。我们先看看厂家自己在发布会中展示的参数和实测情况:研讨会上,讲者提到,新升级版本,通过启用全新生化系统,配合芯片的改造、算法的进步,在不改变芯片孔数(512k/张)的前提下,核心性能相较老版本有极大提升。具体表现在:- 准确率:原始准确率90%(Q10);单序列准确率99.9%(Q30),50x一致性准确率达到99.999%(Q50);
- 数据产量:单芯片单run可产出5Gb数据;芯片可复用10次,故单张芯片在生命周期内可以产出50Gb的数据。
左图展示了每一个测序序列原始准确率(从电信号直接转化为序列信息),可以看到,其原始准确率平均值、中位值均超过了Q10;右图是经过算法处理后实际输出的单序列准确率,Q值平均值超过了Q34,中位值超过了Q36。从90%的原始准确率,提升到超99.9%的单序列准确率,推测实验中采用了重复测序方式,提升了单序列准确率。 微生物靶向测序,将同一样本一分为二分别在进口、G-seq500平台上进行检测。结果显示,G-seq500测序平台的数据质量平均值分别为Q26和Q22,高于进口品牌的Q12水平;Q值中位值,G-seq500平台在两个样本中分别为Q35和Q34,高于进口品牌的Q12和Q13。除准确率以外,我们还重点关注另一关键指标“测序芯片复用”。 对一张芯片进行每次测序3小时,连续测序10次的操作并追踪统计测序结果。从图中可以看出,在测序芯片的全生命周期内,不同run之间芯片单次数据产量在5-7Gb之间,实测数据均超过厂家宣传的5Gb/run。G-seq500在测序芯片复用的表现上,并未发生其他纳米孔测序平台随着复用次数增加,由于孔蛋白失活或堵孔,造成的数据产量显著降低的情况。企业技术人员解释,这得益于今是科技在测序芯片、生化系统上不同的设定。相较ONT需要在出厂前把膜及孔蛋白预制到测序芯片上,今是科技将测序芯片和生化系统分离,测序芯片保持纯物理结构。每次测序前,测序仪自动进行芯片成膜和纳米孔复合物上膜等过程;单run测序结束后,自动进行清理,确保无生化组分残留,这样保证了在测序芯片使用寿命周期内,数据产量和质量的稳定。芯片若可稳定复用,则会大大降低用户使用成本;用户不用再凑样上机,提高了检测的灵活性。前文,我们提到,纳米孔测序由于准确率、通量、稳定性等原因,始终在测序领域处于配角地位,是NGS技术的补充。但,如果纳米孔测序的准确率大幅提升、通量增加、稳定性提升、成本下探呢?这会给应用市场带来什么改变?答案是,在某些应用领域,我们可以告别NGS、PacBio、ONT、Sanger等多测序平台组合的依赖,使用单一测序平台,即可更方便、快速、低成本地满足应用开展所需各种要求。以基因组组装为例,受限不同测序平台的技术优劣势和科研经费,既往我们通常的方案是:利用长读长测序技术“搭框架”、利用短读长测序技术“补精度”,共同提高基因组组装的完整性和准确性。使用G-seq500单一平台进行金葡菌全基因组组装分析,结果与PacBio+Illumina组装结果表现相当。在肿瘤基因检测中,高准确度、长读长纳米孔测序技术也表现出了较大的应用潜力。以上图为例,报告者提及,由于NGS测序读长较短,很难提供较长片段的完整转录本信息,并不能很好分析白血病中常见的BCR::ABL1全长范围耐药突变和复合耐药突变问题,这些可以通过G-seq500长读长测序很方便实现。除了以上谈到的两个典型应用方向,高准确度、长读长测序技术在遗传病复杂结构变异、单体型分析、快速病原检测等应用领域,也有很大的应用潜力。应该像我们阅读一样简单,可以十分方便、随时随地、连续无间断、准确地阅读。从这个层面来说,短读长测序技术其实是一种折衷方案,需要打断、扩增、再拼接,这一系列过程损失了很多原始信息;而纳米孔测序则更接近一种理想的测序形态,它的上限会更高。乐观来看,随着越来越多的企业、研究者的共同努力,大家沿着不同的技术实现路线,逐渐补齐纳米孔测序既有短板,提升准确率、提升通量、降低成本、降低操作难度,可以预见,纳米孔测序,将会成为一种更通用、更广泛的技术手段。
|