小桔灯网 › 门户 ›资讯中心› 技术杂谈 › 查看内容

【中英双语】Illumina测序原理详解 | 边合成边测序

2024-8-14 14:21| 发布者: 沙糖桔| 查看: 5330| 评论: 0|来源: 生信小白要知道

摘要: Illumina 测序的工作流程，主要分为四个基本步骤

【中英双语】Illumina测序原理详解 | 边合成边测序

很多朋友们问我视频讲解时用的笔记可不可以分享，那当然必须是可以呐！但我当时其实没有好好记录，只是打了个草稿就开讲啦！既然大家有需求，俺就重新整理了一下，希望可以帮到大家！

为什么我要那样式儿录呢，因为我们要支持正版啊哈哈哈哈哈哈哈哈，在力所能及的情况下我们要尽量支持正版对不啦！

那我们就开始咯！

首先我们先简单介绍一下，Illumina 测序最基本的技术原理呢，就是基于可逆终止的、荧光标记 dNTP 来做边合成边测序（Sequencing by Synthesis）的工作。

接下来我们根据官方给出的视频对它进行一个相对详细的介绍！

Illumina 测序的工作流程，主要分为四个基本步骤：

样本准备（Sample Prep）
簇生成（Cluster Generation）
测序（Sequencing）
数据分析（Data Analysis）

接下来我们把它们一个一个掰开了揉碎了给大家唠一唠！

1 样本准备（Sample Prep）

样本准备，也就是我们常说的文库构建。

那么，文库又是什么呢？

所谓的 DNA 文库，其实就是许多 DNA 片段，在两头接上了特定的 DNA 接头，形成的 DNA 混合物，
特点：中间插入的 DNA 序列是各不相同的；而两头的接头序列，是已知的，且是人工特地加上去的。文库构建：文库构建就是要把 DNA 片段化，首先需要把基因组 DNA 用超声波打断，打断之后在两端用酶补平，再用 Klenow 酶在 3’ 端加上一个 A 碱基，再用连接酶把特定接头（adapter）连上去，连好接头的这堆DNA混合物，我们称之为“文库”（library）。

样本准备方法有很多种，不过所有的制备方法都会在 DNA 片段的末端加接头（adapter），以便它们能够和测序流程中所需的引物和平台兼容。。

接头是一系列特定的寡核苷酸序列，它们在测序的不同阶段发挥关键作用。接头通常包含以下内容：

P5 和 P7 适配器序列：这些是 Illumina 平台上使用的两种常见适配器。P5 适配器位于测序读取的一端，而 P7 适配器位于另一端。在测序时，flowcell oligo （不认识不要慌！后续有详解！）会与 DNA 片段上的 P5 和 P7 适配器序列结合，使 DNA 片段固定在 flowcell（不要慌！后续有详解！）上，从而允许进行测序反应。
DNA barcode 或 index 序列：DNA barcode 也称为 index（复数为 indices），是一个独特的短序列，用于将不同样本标识，允许在同一测序流程中混合多个样本。这对于高通量测序非常有用，因为它允许同时处理多个样本，而不需要单独测序。
PCR 引物结合序列：接头还包含用于引物结合的序列。PCR 引物是在扩增步骤中使用的特定 DNA 序列，有助于将 DNA 片段进行增加复制，使其在测序过程中变得更加丰富。

2 簇生成（Cluster Generation）

簇生成就是每个DNA片段被扩增的过程。

有同学可能会疑惑，我们为什么一定要进行扩增呢？先来解释一波，后面我们就可以亲眼体会到啦！

扩增其实就是为了增强信号！单个DNA文库序列释放的荧光信号会很微弱，不容易被检测到，扩增后使得荧光信号被放大，更易被捕捉。不然为什么要叫 cluster 呢，因为发光的是一簇嘛！我们可以理解为一个簇对应 fastq 中一条 read。

首先我们先介绍一下到底什么是 flowcell（流动池）。

簇生成的过程就在 flowcell（如下图）上。

让我们打入内部瞅瞅它到底是个什么玩意儿！

上面这个图展示的就是 flowcell 放大好多好多倍的样子，不知道是多少倍，反正放大到了可以让我们肉眼看清的倍数！

Flowcell，我们也可以把它叫做芯片，像一个载玻片，上面有一行字母，是这个 flowcell 的编号，中间的通道，我们把它们叫做 lane，这里就是我们测序反应发生的地方！每条 lane 的两端有两个小凹槽，液体就从这个凹槽的小孔那里加进去，然后就流进去啦，所以这个孔我们就叫它液流孔，是液体流进流出的地方。

然后，我们继续放大看！

lane 又被分成了好多行，每一行我们把它叫做 swath，继续放大！每行 swath 又被分成好多小格子，每个小格叫做 tile。

以上这些就组成了一个完整的 flowcell。

下面这张图展示的是几个不同的 flowcell。最左边的是 EP 管，大家可以以它为参照，大概了解一下不同 flowcell 的大小。

继续！

进来啦进来啦！

在 lane 的内表面其实做了专门的化学修饰，主要有用 2 种不同的寡聚核苷酸引物，它们被种在 flowcell 的表面，也就是我们前面提到的 flowcell oligo，它们会与 DNA 片段上的 P5 和 P7 适配器序列结合，使即将被测序的 DNA 片段可以被固定在 flowcell 上。图中的一个小圆球就代表一个碱基，它们是通过共价键连接到 flowcell 上的。

为什么要用共价键连接呢？
因为接下来会有大量的液体要流过这个 flowcell，只有用共价键连接，它们才不会被冲掉！

接下来，就要进行桥式 PCR 扩增啦，首先我们要先把文库种到 flowcell 上。

红色框框中的这条就是模板链，我们可以看到这条链一端的接头与 flowcell 上与其互补配对的引物（其中一种）进行杂交。

然后我们加入 dNTP 和聚合酶，聚合酶从引物开始，依靠模板链进行延伸合成互补链。

接下来，加入NaOH碱溶液，双链解开，原始模板链（也就是没有和 flowcell 共价连接的链）就被冲走啦！留下来的是互补链，互补链和 oligo 的连接依靠的是磷酸二酯键，即共价键，被保留下来。

加入中性液体，主要是为了中和碱液，使环境变为中性。然后链会发生折叠，它的另外一端就会和 flowcell 上的另一种引物发生互补配对。

之后加入 dNTP 和聚合酶，聚合酶就会延着第二个引物合成出一条新的链来。

然后再加 NaOH 碱溶液，双链解开，再加入中和液，这两条链就会分别和新的引物杂交又通过新的引物合成出新的链。

这个过程反复进行，简直是指数级增长，然后就会形成一个簇，至此桥式 PCR 扩增完成。

接下来，就是把合成的双链变成可以测序的单链，它使用的办法就是通过一个化学反应把其中一个引物上的一个特定基团给切掉。

那么拿掉哪个呢？反向链！也就是与模板链互补的链，反向链被切断洗去，仅留下正向链，即模板链，也就是目的片段。

再用碱溶液来洗 flowcell，被切断了的链就被冲掉啦，留下的是共价键连在上面的那根链。

再加入中性溶液，加入测序引物，至此，测序正式开始！

3 测序

测序从第一个测序引物开始延伸，生成第一个读段。然后我们可以看到，测序加进来的是带荧光标记的 dNTP（红黄蓝绿）。

dNTP 的 3’ 末端连接了一个叠氮基团，这个叠氮基团在链延伸的时侯起到了阻止聚合的作用，所以一个循环只能延长一个碱基（这就是传说中的荧光修饰dNTP、可逆合成终止，Illumina测序的最核心技术）。

开始互补配对，一个碱基加入后呢，会发出特征荧光信号，通过激光扫描，我们就能根据发出来的荧光判断它是哪个碱基，从而推断原来模板链上的碱基是哪种。

一个循环结束后，就会化学试剂把叠氮基团和标记的荧光基团切掉，3’ 端的羟基暴露，再加入新的 dNTP 和酶，继续进行延长，不断反复这个过程。

这个过程就被称为边合成边测序。

那么如何确定循环次数呢？

循环的次数取决于 read 的长度。发射波长与信号强度一起决定了 base call（碱基读出）。

在大规模并行的过程中，数以千万计的簇被测序。上图仅代表整个 flowcell 中的一小部分。

为什么一定要扩增呢？
咱们前面有提到，现在再来强调一下！
增强信号！单个DNA文库序列释放的荧光信号会很微弱，不容易被检测到，扩增后使得荧光信号被放大，更易被捕捉。不然为什么要叫 cluster 呢，因为发光的是一簇嘛！我们可以理解为一个簇对应 fastq 中一条 read。

在第一次 read 读段结束后，我们就要开始进行 index 的读取。

这个 index 到底是啥玩意儿呢？

通过前面的介绍，我们可以知道，它是在接头里面的一个序列。那它具体什么呢？由于 Illumina 测序量很大，往往一个样本达不到几亿条 DNA，所以就在文库接头做了一些标记，每个样本都有特定的接头，每个接头都有特定的序列，这段序列可以标记样本的来源，我们就称之为 index，也叫 barcode。

那么，要读取这个 index1 序列（为什么叫 index1？因为后面还有 index2！），首先把上面测完的读段产物洗掉，然后加入 index1 的测序引物，它结合的位点呢，正好就在这个 index1 序列的旁边，接下来进行第二轮测序，一般读 6-8 个碱基，这段读出来我们就可以知道这个片段来源于哪个样本啦！

接下来，进入另一个重头戏！

双端测序（Paired-end sequencing），这就是 Illumina 测序的另一个核心技术啦！

与单端测序不同，双端测序是从 DNA 或 RNA 样本的两端进行测序，从而获得更多的信息和更高的测序覆盖度。

简单来讲就是，一根链除了从正向读一遍，还要从负向再读一遍，这样是不是就可以把测序的有效长度增加一倍。

和刚刚一样，index2 的引物也进来完成测序。

继续通过聚合酶完成桥式 PCR 扩增。

之后洗去原来的链，留下反向链。

现在开始进行另一端，也就是 read2 的测序，加入 read2 的引物，与 read1 测序步骤一样，开始一个一个读，直到达到预期长度。

这里要注意的是，read 2 测的是反向互补链。

测序结束后，我们就可以开始进行数据分析啦！

4 数据分析

前面的过程产生了数百万个 reads，代表所有的片段。来自样本文库的序列通过在文库构建过程中引入的独特 index 进行分离。

对于每个样本，具有相似延伸的 base calls 会被聚类。正向和反向 reads 被配对生成连续序列。

这些连续序列与参考基因组进行比对，用于突变识别。

结束！！！

0 常见问题解答

评论区有很多同学们的提问非常有建设性且有趣味性！当然也有很多共性！所以，为了减少大家辛苦翻阅评论查找答案，我在这里总结了一部分常见问题并进行了解答，希望可以对大家有所帮助。

如有错误，请批评指正！我立正挨打！马上改进！

为什么要重复加氢氧化钠溶液和中性溶液来实现重复，为什么不直接利用PCR仪的原理采用变温法？
重复加氢氧化钠溶液和中性溶液是为了实现DNA片段的去除和回收，从而准备样本进行测序。至于为什么不采用变温法，我推测是因为Illumina测序采用的是“桥式PCR”，而不是常规的液相PCR。桥式PCR是Illumina测序过程的关键步骤，它涉及将PCR产物固定在测序芯片上的表面，形成DNA“桥”，然后进行测序反应。在桥式PCR中，需要在表面上固定成百上千个DNA片段，而不是在液相中扩增DNA。因此，如果直接利用PCR仪的液相PCR原理，无法将DNA片段固定在芯片表面。
请问一个簇序列一样是吗？可万一一开始扩增前就结合不止一条怎么办呢？
一般情况下，在同一个簇序列中，每个DNA片段都是相同的，也就是具有相同的序列。有时候在测序过程中，确实可能存在一开始就结合了不止一条DNA片段的情况。这种情况通常被称为“簇重叠”或“簇交叠”。簇重叠可能由于在建立DNA文库或PCR扩增过程中，某些DNA片段聚集在一起，并在同一个簇序列中被固定在芯片表面。簇重叠可能导至测序数据产生一些问题，例如：1. 交叠信号：在测序时，由于不止一条DNA片段结合在一个簇序列上，可能导至信号重叠，使得对这些片段的测序结果产生干扰。2. 低质量数据：如果一个簇序列中的DNA片段数量过多，可能会降低对每个片段的有效测序次数，从而影响数据质量。为了尽量避免簇重叠问题，通常会在建立DNA文库和PCR扩增时控制DNA片段的浓度和数量，以确保每个簇序列中只有一个DNA片段结合在一起。此外，Illumina测序平台还采用了一系列图像处理和数据分析算法，来消除或校正由簇重叠引起的干扰信号，以提高数据质量和准确性。
产生荧光的时候，每个簇里面都是产生同一种荧光吗？会不会某个簇里面速度不一样，这条链上了个黄色的，旁边那条链已经上完黄色在上下一个的蓝色了？
每个簇内的DNA片段通常会产生相同的荧光信号。关于速度的问题，一般测序是同时进行的，或者说速度相似，不会出现一条链上还未完成染色而另一条链已经开始下一个碱基的情况。不过在实际情况下，可能存在测序错误或杂散信号的情况。还有就是测序质量也会随着测序的进行越来越差，速度会不统一，所以片段下游测序质量就会不好，所以采用双端测序解决这个问题。
请问循环的次数取决于read的长度是什么意思呀？
我个人认为可以这么理解，在每个循环中，DNA被测序仪的酶体扩增和测序反应所处理。扩增和测序的循环次数需要足够的碱基对数目来覆盖所需的read长度。所以我们认为，循环次数取决于所需的read长度。也就是说，如果你需要生成特定长度的read，测序仪会进行足够的循环次数，以确保每个read的长度达到目标。所以说循环次数其实是为了满足read长度需求而设定的。
为什么要双端测序呢？读出来的东西不是一样的吗？
双端测序的话它是先在一端进行测序，之后还会从另一端再测一次，两边是不一样的。而且测序质量会随着测序的进行越来越差，像是单端测序下游测序质量就会很差，所以使用双端测序，两端都测，两端上游测序质量都高，然后进行拼接，这样就可以大大提高测序质量，也就是增加有效测序长度。
loading……

如有需要，我们后续补充它！

参考资料

https://www.bilibili.com/video/BV1W44y1373N
https://www.bilibili.com/video/BV1oJ411r7e7
https://www.bilibili.com/video/BV1oa4y1H7CU
https://www.youtube.com/watch?v=fCd6B5HRaZ8

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏邀请

上一篇：在化学发光大浪潮下，看见小发光的价值下一篇：基于CRISPR Cas13a的便携式一体化微流控系统用于全集成多重核酸检测