自2014年牛津纳米孔科技有限公司(Oxford Nanopore Technologies, ONT)发布第一台纳米孔测序仪MinION以来,纳米孔测序技术及其应用研究飞速增长。该技术利用纳米级蛋白质孔(纳米孔)作为生物传感器,嵌入电阻性聚合物膜中,在电解液中施加恒定电压,以产生通过纳米孔的离子电流,DNA链在马达蛋白(phi29 DNA聚合酶)的牵引下穿过纳米孔,易位期间离子电流的变化对应于传感区域中的核苷酸序列,之后使用算法进行解码,实现对单分子的实时测序。 近日,俄亥俄州立大学Kin Fai Au团队在Nature Biotechnology发表综述文章“Nanopore sequencing technology, bioinformatics and applications”,系统介绍了纳米孔测序技术的发展,讨论了ONT数据在准确性、读长和通量方面的改进,并描述了应用于ONT数据的主要生物信息学方法以及纳米孔测序当前的主要应用。
纳米孔测序的概念最早出现于20世纪80年代,其核心组分主要包括纳米孔蛋白和相关马达蛋白。第一个用于纳米孔测序的纳米孔蛋白是α-溶血素,其内径为1.4 nm -2.4 nm,可区分寡核苷酸分子上的四个DNA碱基,是生物纳米孔单分子检测的标志。使用另一种具有相似通道直径(~1.2 nm)的工程纳米孔MspA,也获得了类似的结果且提高了DNA单碱基的检测灵敏度。2012年,有研究小组通过将马达蛋白(phi29 DNA聚合酶)和纳米孔(α-溶血素24和MspA25)相结合,通过电流变化,将单链DNA分子解析为来自单个核苷酸的信号。同时,马达蛋白的加入减缓了DNA在纳米孔中的迁移速度,提高了信噪比,可捕获更准确的序列信息。同年,ONT发布了第一款纳米孔测序设备MinION,并于2015年将其商业化。此后,ONT不断改进纳米孔和马达蛋白,截止到目前已发布了8个版本的测序系统(从R6到R10.3)(图1),其中R9.4机型将突变的CsgG和新的马达酶整合,实现了更高的测序准确度(94%)和更快的测序速度(高达450个碱基/秒),但该机型很难对非常长的均聚物进行测序,因此R10和R10.3纳米孔被设计有两个传感区域以提高均聚物的准确性。图1. ONT测序发展历程。
除了优化纳米孔和马达蛋白外,ONT还开发了一些策略来提高测序准确性(图2a, d),例如,通过对每个dsDNA进行多次测序生成一致序列来提高数据质量。ONT测序的早期版本使用2D文库制备方法对每个dsDNA分子进行两次测序,以R9.4纳米孔为例,2D reads的平均准确率为94%。2017年5月,ONT发布了1D2策略及与其兼容的R9.5纳米孔,测序准确率高达95%。此外,通过新的碱基调用算法也可以提高准确性,包括许多通过独立研究开发的算法,以R7.3纳米孔为例,一维reads精度从65%提高到Nanocall的70%和DeepNano的78%;对于测序读长,随着纳米孔技术和库制备协议的改进,最大reads长度已从2017年初的<800kb增加到2018年的2.273 Mb。平均reads长度从2014年MinION最初发布时的几千个碱基增加到 ~23kb(图2a, d),但在reads长度和产量之间存在权衡。除了测序长度和准确性之外,测序通量是ONT测序应用的另一个重要考虑因素。为了满足不同项目规模的需求,ONT发布了多个平台,其中单个ProMethation流通池的产量为153 Gb,平均测序速度为~430个碱基/秒。ONT设备可直接对天然RNA分子进行测序,例如在文库中将引物连接到天然RNA的3’端,然后直接连接接头,不需要常规的逆转录。该方法需要特殊的文库制备,但样品操作简便、速度快,有利于现场应用。此外,该方法可以合成一条cDNA链以获得RNA-cDNA杂交双链,然后连接该接头,产生更稳定的文库,满足更广的测序需求,产率较高(图2b, c)。图2. ONT测序建库流程。
ONT数据的生物信息学分析也在不断改进(图3)。除了内部数据收集和特定数据格式之外,许多特定于ONT的分析侧重于利用离子电流信号实现碱基识别、碱基修饰检测和组装后抛光等目的。 碱基识别是将当前信号解码为核苷酸序列,对数据准确性和碱基修饰检测至关重要,总的来说,碱基识别的方法开发经历了4个阶段:(1)早期利用Markov模型对分割后的数据进行碱基识别,2016年末利用递归神经网络对分割后的数据进行碱基识别;(2)2017年对原始数据进行碱基识别;(3)2018年使用触发器模型识别单个核苷酸;(4)2019年训练定制的碱基识别模型。ONT开发了碱基识别软件工具包,其中Guppy可在中央处理单元及图形处理单元上运行,以加速碱基识别。ONT能够直接检测一些DNA和RNA修饰,通过区分它们与未修饰的碱基的电流转移。近年来,多个DNA和RNA修饰检测工具已被开发应用,Nanoraw是第一个从ONT数据中识别DNA修饰5mC、6mA和4mC的工具。Nanpolish、Megalodon和DeepSignal被证实在单分子水平上,具有单核苷酸分辨率的5mC检测的高精度。然而,在单分子水平上检测具有单核苷酸分辨率的RNA修饰还有待证实。虽然ONT测序的平均准确度正在逐步提高,但某些reads或reads片段子集的准确率相对较低,并且1D reads和2D/1D2 reads的错误率较高。因此,在进行下游分析之前,通常使用自纠错及混合纠错两种算法进行误差校正以获得更高的灵敏度,提高测序数据质量。目前,研究人员已经开发了序列比对工具来解决容易出错的长reads的特定特征。2016年,专为ONT测序开发的第一个校准器GraphMap问世,GraphMap可逐步改进候选比对以降低错误率。对于ONTreads长度超过100kb的,则采用minap2,该工具运行速度快、精确度高,且可以对ONT cDNA或直接RNA测序reads执行剪接感知比对。也有其他比对工具(例如Graphmap2,deSALT103)用于ONT转录组数据。在生物信息学分析中,通常采用长读长和短读长结合的方法(即混合测序)来解决特定的生物学问题。长读长适用于通过明确的比对识别大范围的基因组复杂性,短读长的高准确性和高通量适用于表征局部细节和改进定量分析。长reads已用于从头基因组组装,例如基于重叠-布局-共识算法的Canu88和 Miniasm汇编器,可通过重叠相似序列来构建图形,并且对测序错误具有稳健性。为了进一步消除错误,通常在组装前后分别进行长reads的纠错和组装草图基因组的完善。除了Nanopolish外,ONT还发布了Medaka,以提高精度和速度。当有参考基因组时,ONT数据可以用来研究样本的特定基因组细节,包括结构变异(SVs)和单倍型,其精度相对高于其他技术, 相应的SVs检测工具(例如NanoSV、Sniffles、Picky和NanoVar)。鉴于单个长reads可以包含多个变体,包括SNVs和SVs,因此可以使用适当的生物信息学软件对多倍体基因组及其他单倍型解析进行定相分析。当进行转录组分析时,ONT reads可以被聚集和组装以重建全长基因亚型或与参考基因组比对以表征复杂的转录事件,已开发了专门用于容易出错的长reads的转录组装器(例如Traphlor、FLAIR、StringTie和TALON)以及基于混合测序数据的组装器(IDP127),但相关生物信息学工具,特别是定量分析工具的开发仍然不足。
ONT设备的长reads长度、可移植性和直接RNA测序能力支持多种应用(图4)。作者回顾了ONT最主要的11种应用。(1)完善参考基因组序列。基因组组装是ONT测序的主要用途之一。ONT测序已被用于完善人类参考基因组中的12个缺口,检测端粒重复序列的长度并组装人类Y染色体的着丝粒区域。此外,ONT还实现了人类X染色体首个无间隙端粒-端粒组装。在其他模式生物和密切相关物种(例如大肠杆菌、酿酒酵母、拟南芥和15种果蝇)以及非模式生物中的应用也取得了新进展。(2)建立新的参考基因组。ONT长reads已被广泛用于组装许多非模式生物的初始参考基因组,例如,仅使用ONT数据组装茄丝核菌的第一个基因组,并使用混合测序数据(ONT加Illumina)组装Maccullochella Peelii和Amphiprion ocellaris的基因组草图。此外,ONT直接RNA测序已被用于构建RNA病毒基因组,同时无需常规逆转录步骤。在SARS-CoV-2大流行中,ONT测序被用于通过cDNA和直接RNA测序重建全长SARS-CoV-2基因组序列,提供了有关病毒生物学、进化和致病性的宝贵信息。(3)鉴别较大的SVs,例如乳腺癌细胞系HCC1187、急性髓系白血病个体,两个先天性异常个体的第一个单倍型分辨SV谱的构建。(6)检测RNA修饰。ONT直接RNA测序为直接识别具有关键生物学功能的RNA 修饰和RNA编辑提供了机会,并且可以使用ONT直接RNA测序和人工化学修饰的组合来探索RNA二级结构。(7)ONT测序已应用于多种癌症类型(例如白血病、乳腺癌、结肠直肠癌、胰腺癌等)以识别感兴趣的基因组变异,尤其是大而复杂的变异。ONT全基因组测序可用于快速检测染色体易位,并精确确定急性髓系白血病患者的断裂点。(8)由于具备快速实时测序能力且体积小,MinION已被用于快速病原体检测,包括细菌性脑膜炎、细菌性下呼吸道感染、感染性心内膜炎等。除了病原体检测外,ONT测序还可以加速分析细菌和其他微生物对抗生素/抗菌药物的耐药性。(9)ONT长reads已被应用于表征遗传疾病个体的复杂基因组重排,例如,人类基因组的ONT测序显示,ABCA7基因串联重复序列的扩展与阿尔茨海默病风险的增加相关。(10)便携式MinION设备可对新出现的传染病进行现场和实时基因组监测,协助进行系统发育分析和流行病学调查,如确定进化率、诊断目标、治疗反应和传播率。随着ONT测序通量的增加,实时监测已应用于具有更大基因组的病原体,从几千碱基的病毒到几兆碱基的细菌,再到基因组大于10 Mb的人类真菌病原体。(11)便携式ONT设备也被用于现场宏基因组学研究。综上所述,纳米孔测序通过实时提供单个DNA/RNA分子的超长reads,使许多生物医学研究成为可能。同时,ONT测序技术仍存在一些局限性,包括错误率较高,对核酸材料的需求量较高。克服这些挑战需要在纳米孔技术、分子实验和生物信息学软件方面取得进一步的突破。Wang Y, Zhao Y, Bollas A, Wang Y, Au KF. Nanopore sequencing technology, bioinformatics and applications. Nat Biotechnol. 2021 Nov;39(11):1348-1365. doi: 10.1038/s41587-021-01108-x. Epub 2021 Nov 8. PMID: 34750572.
|