NGS上Hiseq机器前的准备工作：核酸提取、文库构建、簇生成

007 · 发表于 2015-11-15 00:12

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

完整的二代测序工作流程都包括5个环节：核酸提取，文库制备，簇生成，测序，数据分析。

本文讲述illumina公司NGS文库上机前的准备工作：核酸提取、文库构建、簇生成。

1 核酸提取 (DNA/RNAExtraction)

按照常规方法从培养的细胞、外周血、新鲜冷冻组织或石蜡包埋组织(FFPE)等不同种类的样本中提取DNA、总RNA或者小RNA，然后进行纯化、定量。DNA和RNA样本质量越高、片段越完整越好。慎重对待从降解的样本、细胞凋亡的样本（DNA也被破坏、降解）获得的二代测序数据。二代测序虽然能产生海量数据，但是它对样本的消耗并不大。标准流程只需要0.1-1 μg DNA或者RNA，低量流程（low input）所需样本量可由各个实验室根据自身条件和经验把握。二代测序对核酸样本的质量也没有额外要求，整体上与其他分子生物学实验相同。比如说，DNA的OD260/280在1.8-2.0之间；RNA的RIN值>=8.0。RIN值由Agilent 2100 Bioanalyzer测定。实验中发现，只要RIN值大于7，就可以获得比较满意的结果。

2 文库制备 (LibraryConstruction)

二代测序的应用种类繁多，常见的比如基因组测序、外显子组测序、转录组(mRNA)测序、microRNA测序、甲基化测序、ChIP-Seq、单细胞测序等等。不同的应用，其文库制备的具体流程也不同。以基因组测序为例：基因组DNA文库构建在所有种类的二代测序文库构建方法中处于核心的地位，其他流程和方法都是在此基础上衍生变化出来的。

基因组DNA文库构建的基本过程是：首先把完整的长链DNA随机打断成长度为350 bp左右的短片段，然后在每个短片段的两端都连接上带有barcode的接头，再经过12循环左右的PCR对文库放大。简而言之：片段化、连接、扩增“三板斧”，期间穿插进行一些纯化、定量的辅助步骤。

2.1 片段化

运用高压气体的雾化作用、超声波的气穴作用、普通超声波、酶等手段、设备，将完整的长链DNA分子打断成短片段，原则是断点越随机越好，片段长度越集中越好。通常打断后的片段长度以350碱基左右为宜。当然，不同的应用也可能会要求取得不同的长度，这可以通过优化、修改片段化的参数条件来获得。一般而言，SR测序的模板长度约350碱基，PE测序的模板长度约500碱基，MP测序的模板长度约1k-10k碱基。

超声波片段化获得的片段集合在长度上接近正态分布。片段化后，可以切割琼脂糖凝胶电泳条带，或者组合运用不同缓冲液条件下的磁珠纯化来进一步收窄片段长度范围，精准选择所需长度。当然，也可以不进行片段长度选择，直接进行下一步。选择和不选择两种方法对二代测序数据的影响没有显著差异。不进行割胶选择片段长度的文库构建路径称为gel-free方法。

2.2 末端修补

用物理方法打断所获得的DNA片段，其两个末端往往都被破坏，结构不完整，基本上不再是平末端，影响接头连接，所以要对它们进行修补，把它们修复成平末端。一般而言，末端修补要用到3种酶：5’端延伸的酶，5’端连接的酶，以及3’端延伸的酶。

2.3 3’端加A

为了提高连接效率，也为了防止接头与插入片段以多种方向连接，同时减少接头之间的互联，接头与插入片段之间的连接采用TA半粘性末端的连接方式。这就要求接头的3’端带有一个突出的T碱基，插入片段的3’端带有一个突出的A碱基。

2.4两端加接头

由于接头的3’端有一个突出的T碱基，它们与插入片段进行连接的时候，接头是定向的，但是插入片段本身则两个方向都能被连上。

考虑到很多应用都需要把来自不同样本的文库混合在一起进行测序，所以现在厂家提供的接头都包含有序列已知的barcode区域，以方便测序完成后对数据进行拆分。这些接头按barcode序列进行编号，所以在进行接头连接这一步实验操作的时候，要特别小心不要把barcode编号与样本之间的对应关系搞错。

另外，不同的应用，其接头在序列和结构上都有可能不一样。比如SR测序与PE测序，它们的接头和flow cell都不一样，不能混用。

2.5 连接产物纯化

由于连接酶的效率问题，连接反应必定是不完整的，除了两端都有接头的完整产物外，还会生成一定比例的多种副产物。这些副产物包括包括一端有一端无、两端都没有、空接头自连、游离的接头等几种情况。对连接产物进行纯化，目的就是选出完整的连接产物，去除残缺不全的副产物。纯化方法可以是对琼脂糖凝胶电泳条带进行切割，也可以组合运用不同条件的磁珠纯化。目前人们更倾向于运用磁珠纯化方法。

2.6 PCR富集

使用一对通用引物，对连接产物进行10-12个循环的PCR。PCR可以同时起到两方面的作用。一方面，它可以显著增加文库量，方便上机测序；另一方面，它还可以对两端都连接有接头的完整的连接产物进行富集，降低残留的连接副产物在文库中所占的比例。

人们对PCR也存在一定程度的担心，那就是担心PCR会认为引入数据偏差(bias)。若是不喜欢PCR，可以省略这一步。不进行PCR的文库构建路径称为PCR-free方法。

2.7 文库质检

PCR完成后，需要采用磁珠、过柱或其他方法对PCR产物进行纯化，然后进行文库的定量和质检，为上机进行cluster生成作好准备。

文库质检可以选择以下方法：琼脂糖凝胶电泳检查PCR产物长度是否符合预期、是否有杂带、是否有污染、是否有引物二聚体残留等待；Agilent 2100 Bioanalyzer或者其他设备测定文库的片段长度及长度分布；Qubit或其他设备测定文库的质量浓度。结合Qubit和2100数据，可以计算出文库的摩尔浓度。

然后把文库统一稀释到指定的摩尔浓度（浓度归一化）。不同的测序平台，具体要求的文库浓度不一样。根据项目设计的要求决定是否混合不同的文库、以及按什么样的比例进行混合。在混合文库的时候，要格外留意barcode是否存在冲突。一定不要把barcode相同的文库混合到一起。一旦被混合，它们就再也无法分离，两个文库都需要重新构建。

3.0 簇的生成 (ClusterGeneration)

簇生成(clustergeneration)的生化反应是在flow cell内进行的。在很多领域，flow cell被翻译成“流动池”。但是对于二代测序而言，这样的翻译词不达意。因为二代测序的flow cell并不是一个杯子，而是贯穿一张玻璃片的一排8条长长的隧道(lane)，高度特化。无奈之下，人们只好选择不翻译，直接说英文，或者使用其简称FC。同样，lane是否翻译成“通道”，cluster是否翻译成“簇”，都很尴尬。

Clustergeneration要用到专门的仪器cBot；另外在MiSeq、快速HiSeq 2500等少数几种型号的测序仪上也能进行。除了加文库、安装试剂板、设置运行参数等必要的准备工作以外，cluster generation是一个高度自动化的过程，运行过程中不需要人工干预。整个过程历时大约4小时。

簇生成的生化反应步骤主要有5步：文库模板杂交、桥式PCR、线性化、末端封闭和测序引物杂交。

以下文库处理步骤涉及把双链DNA变性成单链，其产物不稳定，需要在开始cluster generation前新鲜进行：经过纯化（去除引物二聚体等）、定量、浓度归一化之后的DNA文库（不论原始材料是DNA还是RNA，文库都是双链DNA），加入NaOH进行碱变性，再加入缓冲液进一步稀释，把文库浓度调整到pM或者nM级别，分装一部分到8连管中，置冰上准备上机。

注意：不同的测序平台，所要求的文库浓度不同；有的平台其上机浓度是固定的，不需调整；有些平台允许调整文库浓度，我们可以通过这种方法来调整、控制每个样本、每条lane的数据量，从而使整张FC的测序数据量最大化。

3.1 文库杂交

通过cBot或者部分型号的测序仪把变性后的文库引入flow cell，单链文库的DNA片段随机地与分布在FC通道(lane)内壁(包括上层和下层两面)上的接头杂交；接头随即被延伸，合成互补链，互补链与FC的内表面之间是通过共价键结合的，因而被固定到FC上的一定位置，而原来的模板单链则在NaOH碱变性后被冲去。

3.2 桥式扩增

固定在FC上的DNA单链（原文库的互补链）的另一端与FC内壁的另一种接头因为碱基序列互补而发生分子杂交，形成桥状结构，在DNA聚合酶的作用下，合成其互补链。这一双链的DNA“分子桥”在NaOH的作用下碱变性，形成2条单链，又可以再次与其他互补接头杂交而形成2个新的“分子桥”，从而再次被扩增。这一过程重复20次左右，称为桥式PCR (bridge PCR)。最终，每条单链模板都被克隆成1000-6000条序列一模一样的单链，而且集中在一起，形成一簇(cluster)。

通过桥式PCR，每平方毫米面积的FC内壁上，包括顶层和底层，都随机分布着上百万个cluster。

3.3 线性化

桥式PCR形成的cluster虽然是单链，但是里面包含有等量的正义链和反义链，其序列相互互补，所以在每一个位置上都存在两种碱基。这将导至测序时，每个cluster的每个循环都存在两种颜色的荧光，无法获得纯净的荧光信号。因此，需要去除其中一个方向的全部单链，只保留一种序列。这一过程称为线性化。

厂家在FC的内表面上预先固定有两种接头，它们分别与文库的上游和下游接头序列互补。这两种接头里分别设置有一个能被不同的酶（不是限制性内切酶）切割的位点，因而可以定向切断一条方向的单链并通过碱变性、缓冲液冲洗而去除它们，从而完成线性化。

3.4 末端封闭

边合成边测序的本质是DNA链延伸。为了确保测序时只有测序引物被延伸，在测序引物杂交之前，FC上所有游离的DNA片段的末端都必须进行封闭，使之不能延伸，从而不会干扰测序信号的纯净。末端封闭是通过在DNA片段的游离末端增加一个ddNTP而完成的。

3.5 引物杂交

把测序引物灌注进FC的所有lane里，这些引物就会杂交到每个cluster里每条DNA片段的通用引物结合位点上。

至此，FC准备就绪，可以拿到测序仪上真的开始测序了。

注意：cluster generation最好在测序前新鲜进行。Cluster完成后，越快测序越好。

整理于：陈云地的微信公众号博文，陈gene云gene地