2005年,罗氏推出了第一款二代测序仪罗氏454,生命科学开始进入高通量测序时代。后续随着Illumina系列测序平台的推出,极大降低了二代测序的价格,推动了高通量测序在生命科学各个研究领域的普及。目前,高通量测序已经成为一种常规研究方法,大量科研工作中均会用到。然而,为什么二代测序能实现高通量?为什么二代测序读长如此之短?为什么reads末端测序质量会降低?应该如何选择测序读长与打断片段的长度?想要回答这些问题,都需要详细了解二代测序的基本原理。本篇文章以典型的Illumina双末端测序为例,详细解析二代测序的原理。
第二代测序(Next-generation sequencing,NGS)又称为高通量测序(High-throughput sequencing),是基于PCR和基因芯片发展而来的DNA测序技术。我们都知道一代测序为合成终止测序,而二代测序开创性的引入了可逆终止末端,从而实现边合成边测序(Sequencing by Synthesis)。二代测序在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定DNA的序列,现有的技术平台主要包括Roche的454 FLX、Illumina的Miseq/Hiseq等。由于在二代测序中,单个DNA分子必须扩增成由相同DNA组成的基因簇,然后进行同步复制,来增强荧光信号强度从而读出DNA序列;而随着读长增长,基因簇复制的协同性降低,导致碱基测序质量下降,这严格限制了二代测序的读长(不超过500bp),因此,二代测序具有通量高、读长短的特点。二代测序适合扩增子测序(例如16S、18S、ITS的可变区),而基因组、宏基因组DNA则需要使用鸟枪法(Shotgun method)打断成小片段,测序完毕后再使用生物信息学方法进行拼接。
原文地址(关注公众号微生态与微进化领取原理讲解视频): 文库构建
文库构建即为测序片段添加接头。无论是PCR产生的片段还是基因组鸟枪法打断的片段都具有特异性(PCR中不同样品反向引物插入了特异性的barcode,因此两端也是特异的),两端缺乏必要的引物因此混合DNA片段不能直接扩增和测序。DNA片段需要加接头修饰才能进行上机测序,这个过程称为二代测序的文库构建。下面我们以常用的试剂盒NEBNext®Ultra™ II DNA Library Prep Kit for Illumina®为例阐述二代测序文库构建的流程及其原理,具体如下所示:
①末端修饰。目前很多PCR使用的高保真Pfu聚合酶产生的片段末端是平齐的(也即没有不配对的碱基);鸟枪法产生的片段则是随机断裂,其末端可能是平齐的也可能是不平的。因此,建库第一步是使用Taq聚合酶补齐不平的末端,并在两个末端添加突出的碱基A,从而产生粘性末端(若使用Taq酶扩增,则无需末端修饰),产生粘性末端的片段可以添加接头(Adaptor)。
②添加接头。经过末端修饰后的PCR片段末端具有突出的A尾,而接头具有突出的T尾,可以使用连接酶将接头添加到DNA片段两端。NEB的接头为特殊的碱基U连接的环状结构(可以增强稳定性),因此连接接头后,还需要将碱基U删除从而形成“Y”形接头。这一步添加的接头主要是为了后续PCR中作为引物扩增继续添加文库index和与测序平台互补的寡核苷酸序列(此外还作为测序引物Rd1 SP/Rd2 SP),而之所以为“Y”型开叉结构,是因为每一端接头是两条不互补的序列(每一端都是Rd1 SP与Rd2 SP交错),因为连接酶没有选择性,每个接头都是只靠突出的T来与DNA连接,“Y”接头保证了每条单序列两端均为不同的测序引物,从而在后续PCR中可以连接不同的寡核苷酸序列(P5/P7),具体流程见下图。
将相同区域不同时间拍摄的荧光图片按照时间顺序叠加处理,就可以获得该位点结合的DNA序列的碱基顺序。 参考文献
[1] ClarkeA C, Prost S, Stanton J a L, et al. From cheek swabs to consensus sequences: anA to Z protocol for high-throughput DNA sequencing of complete humanmitochondrial genomes[J]. Bmc Genomics, 2014, 15(1): 1-12.
[2] BowmanS K, Simon M D, Deaton A M, et al. Multiplexed Illumina sequencing librariesfrom picogram quantities of DNA[J]. Bmc Genomics, 2013, 14(1): 135-143.
[3] MardisE R. Next-Generation DNA Sequencing Methods[J]. Annual Review of Genomics &Human Genetics, 2008, 9(9): 387-402