本篇内容,我们将进入到第二代测序也就是高通量测序的内容分享。包括: 随着历时13年耗资近3亿美元的人类基因组计划的完成,生命科学划时代地进入功能基因组时代。人们开始期待在基因图谱中找到疾病发生的确切机制,并实施精准的医疗计划。第一代测序技术虽然具有长读长和准确率高等优势,但其测序成本高、耗时久、通量低等缺陷使其不能满足大规模测序的需求。1996年Ronaghi 和Uhlen建立了焦磷酸测序。2005年454 Life Sciences公司推出了基于焦磷酸测序原理的Genome Sequencer 20系统。这在测序史上是具有里程碑意义的大事件,其改变了测序的规模化进程,成为第二代高通量测序的先行者。第二代测序技术的核心思想是边合成边测序,其最显著的特点就是高通量和自动化。不同于Sanger测序技术对模板进行克隆后进行单独反应,第二代测序技术将模板DNA打断成小片段并通过桥式PCR(或乳液PCR)对文库进行扩增,同时对几十万到几百万DNA模板进行测序。第二代测序技术的出现使得对一个物种的基因组和转录组进行深度测序变得不再遥远,其能够在保持高度准确性的同时,降低测序的成本,提高测序的速度。以人类基因组为3Gb计算,使用第一代测序技术,大概需要测序62500次才能完成人类基因组测序,每个反应按2小时计算,假设每天测序10次,每周工作7天,整个过程大约需要17年,而使用高通量测序技术仅需1周即可完成人类基因组测序。焦磷酸测序是一种由DNA聚合酶(Polymersae)、ATP硫酸化酶(ATP Sulfurylase)、荧光素酶(Luciferase)和三磷酸腺苷双磷酸酶(Apyrase)催化的新型酶级联化学发光测序技术。通过对DNA合成反应中释放的生物光信号完成实时检测,开创了边合成边测序的先河。反应底物为5’-磷酰硫酸(APS)、荧光素。在每一轮测序反应中,反应体系中只加入一种脱氧核苷酸三磷酸(dNTP)。如果它刚好能和DNA模板的下一个碱基配对,则会在DNA聚合酶的作用下,添加到测序引物的3’末端,同时释放出一个分子的焦磷酸(PPi)。在ATP硫酸化酶的催化作用下,生成的PPi可以和APS结合形成ATP,在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过微弱光检测装置及处理软件可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。如果加入的dNTP不能和DNA模板的下一个碱基配对,则上述反应不会发生,也就没有检测峰。 ATP和未掺入的dNTP由三磷酸腺苷双磷酸酶降解,开始新一个循环。2005年 454 Life Sciences公司基于将焦磷酸测序技术与乳液pcr及光纤芯片技术相结合,推出了Genome Sequencer 20高通量测序系统,发展大规模平行焦磷酸测序技术,实现了测序过程的高通量。 乳液PCR即油相包裹水相,利用油包水结构作为PCR反应的微反应器,进行PCR扩增,乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行PCR扩增。1、在PCR反应前,将含模板、dNTP、引物和DNA聚合酶的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。2、这些“油包水”包被的磁珠表面含有与接头互补的DNA序列,单链DNA序列能够特异地结合在磁珠上。3、 在磁珠内含有PCR反应所需试剂,保证每个与磁珠结合的小片段都能独立进行PCR扩增,并且扩增产物仍可以结合到磁珠上。携带扩增DNA片段的磁珠被放入PTP板中进行测序。PTP板是一个60mm✖️60mm的光纤板,包含约160万个微反应器小室,每个小室(直径29μm)只能容纳一个磁珠(直径28μm),每个小室中都载有焦磷酸测序所需的各种酶和底物。随后4种dNTP依据T、A、C、G的顺序依次进入PTP板,开始测序反应,流程同焦磷酸测序一样。2007年 454 Life Sciences公司被Roche公司收购后又推出性能更优的第二代测序系统——Genome Sequencer FLX System。该系统读长超过400bp,10小时运行可获得100万条序列,4~6亿个碱基信息,且准确率达99%以上。 454 高通量测序系统在读长上具有明显的优势,使得后续的拼接工作更加高效和准确。是基因组从头测序、转录组分析、基因组结构分析等应用最理想的选择。但是由于使用的是焦磷酸测序原理,对瞬时发光进行检测,因此限制了其更大的通量,并且对于同聚物(连续数个碱基相同的序列)的检测不够准确,同聚物越长,可能产生的误差越大。除此之外,和其他高通量测序平台相比,共测序成本要高很多,在激烈的市场竞争中,并没有发挥出其先行优势。2013年Roche 公司宣布正式关闭 454测序业务。2007年Rothberg离开LifeSciences公司后立即创立了Ion Torrent公司,并开发出基于半导体芯片的新一代革命性高通量测序平台。Ion Torrent测序系统是第一个没有光学感应的高通量测序平台.IonTorrent测序是以半导体芯片为载体,通过检测DNA链在合成时释放H+从而引发的pH变化,把化学信号转变成电信号从而获取碱基信息的边合成边测序技术。1、 Ion Torrent测序系统同样运用了乳液pcr技术。测序反应发生在Ion Torrent芯片(一种布满小孔的高密度半导体芯片)上.每个小孔只能容纳一个测序珠子,孔底端有pH敏感型晶体管传感器,可检测孔内pH变化并将化学信号转变为数字信息。2、将准备好的测序珠子混悬液从芯片进口注入,对芯片离心以便更好地将单个测序珠子卡在单个小孔中。芯片上小孔数量越多,测序通量越大。3、 将分别含有A、T、C、G四种dNTP溶液分别依次流过芯片,若加入的dNTP与DNA链上碱基成功配对,此时会释放一个H+离子,导至小孔内pH值发生变化,被芯片底部的传感器检测到并记录下来。当连续相同的dNTP结合到DNA链上时,则会释放相同数目的H+,传感器上记录的信号也会相应加倍。若加入的dNTP与DNA链上碱基不能配对,就不会发生反应,小孔内pH值不会发生变化,因此不会有碱基被记录。未被结合的dNTP和剩余的引物、酶等被冲走,然后加入下一种dNTP溶液,依次循环测序。4、 在测序初期先检测A、C、G、T,这四个碱基所测到的pH值变化强度来确定整个珠子的信号强度基线,有了标准信号强度后,随后测得的信号与这四个信号强度对比.如果是1倍强度表明有一个碱基,如果是2倍强度表明有两个相同碱基,依次类推。由于传感器对电流的感应可能出现偏差,因此对连续碱基数量的判断存在偏差。2010年 Life Technologies 在收购 Ion Torrent 后,迅速推出了 Ion PGM测序仪。这个被命名为 “个人基因组测序仪”的设备是世界上第一台依靠硅晶体管的 DNA解码器,能够在2小时内淮确地读取 1000万个遗传代码。由于无需标记、激光和成像等设备,价格较其他测序仪低很多,售价仅5万美元,在当时被认为是市场上最小,最廉价的基因解码器。这种经济、快速的测序仪有利于测序技术的普及,也为临床基因快速检测带来了希塑。2006年 Solexa 公司推出了Genome Analyzer。2007年 Illumina 公司高价收购了Solexa,并使其商品化。Solexa测序系统依然以边合成边测序作为基本设计理念,并使用桥式PCR和可逆性末端终结作为核心技术。桥式PCR的基本原理:桥式PCR是将DNA片段固定在芯片上,然后进行PCR扩增。首先,将DNA片段与引物混合,然后加入聚合酶和dNTPs,使其进行扩增。在扩增过程中,DNA片段会与表面上的引物结合,形成一个桥式结构。这个桥式结构可以保持DNA片段的稳定性,并且可以在表面上进行高通量测序。1. 将基因组 DNA 打成几百个碱基(或更短)的小片段,在片段的两个末端加上接头。2. 芯片的表面连接有一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端 “固定〞 在芯片上。另外一端(5’或3’端)随机和附近的另外一个引物互补,也被“固定”住,形成“桥 “。反复 30轮扩增,最终形成约1000拷贝的单克隆DNA簇。DNA 簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上,进行边合成边测序反应。3. Genome Analyzer 系统使用了边合成边测序原理。加入改造过的DNA聚合酶和带有4种dNTP(每种dNTP结合一种荧光基团)。这些dNTP是“可逆终止子”,因为3’-OH末端带有可化学切割的部分,它只容许每个循环掺入单个dNTP。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的dNTP种类。之后,移除剩余的dNTP、DNA聚合酶及荧光基团,恢复3’端的粘性,继续聚合第二个dNTP。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板 DNA 片段的序列。由于Solexa 技术在合成过程中每次只能添加一个dNTP,因此很好地解决了同聚物(连续数个碱基相同的系列)测定的准确性问题。Illumina平台已在第二代测序市场中占主导地位,Genome AnalyzerIIx和HiSeq高通量测序仪是全球使用量最大的第二代测序仪。Illumina 2017年推出的NovaSeq系列运行速度大于现有仪器的70%,仅需1小时即可完成全基因组测序,被认为是Illumina迄今为止推出的最强大的测序仪,预示着100美元基因组时代的到来。美国Complete Genomics(CG)公司成立于2005年,是全球首家提供人类基因组测序服务的生命科学公司。CG公司独有DNA纳米球(DNA nanoball,DNB)芯片及组合探针锚定连接(combinatorial probe anchor ligetion,cPAL)这两种测序相关技术,测序准确度为99.9998%,市场价格低,具有相当大的竞争优势。cPAL测序的建库称为DNB,利用RCA(Rolling circle replication)让DNA扩增成线性的螺旋结构。这个建库方式优点是所有的扩增模板都是最初的插入片段,这样 PCR 产生的错误不会累积,只影响该扩增序列。像Illumina的测序如果扩增发生错误,那么后续扩增会有该错误片段作为模板,从而导至错误累积。RCA扩增:RCA是以一小段环状寡核苷酸为模板,以dNTPs为原料,在DNA/RNA聚合酶作用下扩增产生一条长重复单链DNA/RNA。1. 滚环扩增的方法模板必须是环状的,如果针对线性基因进行扩增,就需要锁环探针,锁环探针的两端具有与靶基因的互补序列,通过锁环探针识别靶基因并结合形成不完全闭合环状寡核苷酸.之后在连接酶作用下形成完全闭合环状寡核苷酸;如果本身是环状DNA,则无需此过程。2. 线性扩增:正向引物识别环状模板的配对序列,在Phi29 DNA聚合酶的作用下合成重复线性单链DNA序列,这条单链DNA中包含成百上千个重复的模板互补片段。通过 RCA 扩增的⽚段是一条连接在⼀起形成线性螺旋的单链DNA,这条线性螺旋的单链DNA就称为DNA纳米球。⽂库构建后加⼊到测序芯⽚,测序芯⽚有 DNB 结合位点,⼀个位点结合⼀个 DNB。然后接着就是 cPAL 测序cPAL(探针-锚组合测序)和SOLiD类似。每轮测序先加⼊与接头匹配结合的寡核苷酸锚序列 ,随后引入含有不同已知碱基的寡核苷酸和荧光基团的探针.每种探针只有一个碱基是带有荧光标记的(该荧光标记碱基在探针的位置由需要测序的位置决定,⽐如要测第⼀个碱基,那么就只标记探针第⼀个碱基,要测第五个碱基就荧光标记探针第五个碱基),每次只有一种探针能够和待测序列配对.在和待测序列进行配对后,移除其它的未配对探针,然后检测应该荧光信号,得到序列信息。接着除所有的结合探针和锚序列,开始下⼀轮测序。对⽐ Illumina的SBS 测序,优点是下⼀个碱基不依赖于上⼀碱基,这样测序错误更加随机。cPAL 技术可大大减少探针和酶的浓度,而且与边合成边测序不同,cPAL 每个循环可一次性读取数个碱基.这样消耗的测序试剂和成像时间都大大减少。目前,该高通量测序平台的读长为28~ 100bp,这使得基因组拼接的可操作性大大降低,限制了其在结构变异研究中的应用。总的来说,第二代测序技术在满足通量的同时,由于技术本身的局限性,读取的单一序列长度为 75~100bp。这就形成现阶段高通量测序的技术瓶颈——通量高的读长短,读长长的通量低。通量决定了测序所需的时长和成本,而读长则决定了对获取的 DNA 片段进行拼接还原基因组真实情况的难度。我们可以将拼接的过程想象成一个拼图游戏,将获取的每一个 DNA 序列信息想象成一块拼图。每一块拼图越大,则越容易拼接成原图。这就很好的解释了为什么测序技术要在追求高通量的同时还要不断追求大片段、长读长。现有的第二代测序技术是通过采集荧光信号进行识别的,因此需要进行扩增建库,进行扩增反应。这一部分是第二代测序技术中最容易产生人为干扰的部分,由于探作人员水平不同,即使是相同的仪器在不同实验室中的性能表现也参差不齐。此外,将扩增产物作为测序模板,扩增的过程可能产生错误、信息缺失(如甲基化) 和序列偏向性,导至原始样本中拷贝数很少的片段在扩增反应之后被湮灭,原始序列中的某些修饰信息也可能在扩增过程中被抹杀。虽然研究人员在软件和算法的研发方面做了很多努力,但第二代测序数据分析的局限性依然存在。
文稿:林娟
校对:樊振华 素材:Canva
参考资料:
|