测序深度和测序数据量应该测多少？

2024-11-8 17:51| 编辑: 沙糖桔| 查看: 6787| 评论: 0|来源: Gene Diagnosis

摘要: 测序深度是根据所需样本类型与实验目的来决定

评估测序数据的标准

通常可以用三种方式来表示：以测序数据量的Gb数、以测序产出的reads数、以测序深度的倍数(X)：

1. 以测序数据量表示：测序数据量指的是整个测序实验中生成的总碱基对(bp, base pairs)数量。通常用 Gb(gigabases，10^9碱基对) 或 Mb(megabases，10^6碱基对) 作为单位。测序深度与Gb数的换算通常取决于测序平台的产量以及基因组的大小。例如，如果一个人的基因组大小为3Gb，而测序深度为30x，则总共需要测序90Gb的数据量。

2. 以reads数表示：reads是测序仪器输出的每个碱基的序列数据。测序深度与reads数的换算取决于基因组的大小以及测序平台的reads长度。通常，reads数可以通过Gb数除以每个reads的大小来计算得到。

3. 以测序深度的倍数(X)表示：测序深度(Sequencing Depth)是指测序得到的碱基总量(bp)与目标基因组大小的比值，即测序深度=数据量大小 / 目标基因组大小。或者理解为目标基因组区间内中每个碱基被测序到的平均次数，如测序数据量为1G，测序的基因组大小为1M，那么测序深度为1G/1M=1000×，表示平均每个碱基被测了1000次。

这三个参数相互计算公式为：

测序数据量(bp)=目标区域大小(bp)×测序深度(x)

测序数据量(bp)=reads长度 X reads个数 (reads长度很容易得知，reads个数等于测序所得到的fastq文件的总reads数，计算时候需要注意单端与双端测序)

正常来说，测序读长是由测序仪器与试剂盒决定，而我们能够设定的参数主要就是reads，测序深度和数据。

测序深度是根据所需样本类型与实验目的来决定，测序深度越高，所得到的数据量也就越大，如对一个3Gb的基因组测序，30X深度需要90Gb数据，而100X深度需要300Gb。测序深度不足，会导至结果的不稳定，如基因组覆盖不全或者错过低频的突变信息，如下图：

但是过多的测序深度，或导至分析难度与成本的提高，而且超过一定的深度，即使数据量再增加，分析结果的提升也有限。所以对于常见的测序类型，都会有一个推荐的范围，根据测序深度，推算出所需要的数据量或者reads数目进行测序。

不同类型实验的推荐深度与数据量(二代测序)

全基因组测序(WGS)：30X-50X 通常用于人类基因组分析。人类基因组约为3Gb，30X 深度需要约90Gb测序数据。
全外显子组测序(WES)：50X-100X 用于基因突变检测。外显子总长度大约在30Mb，占全基因组的1%左右，50X-100X 深度需要 1.5-3Gb 数据量。如果想发现更多的低频突变引起的罕见疾病信息，我们可以将测序深度测到100X以上，具体深度依研究目的而定。
转录组RNA测序(RNA-Seq)：一般建议为10-50M(million百万)reads，或转录本表达分析的10X-30X覆盖，大约需要5-20Gb数据(二代测序)。
靶向测序(tNGS)：深度可高达500X-1000X，一般主要用于检测癌症基因中的低频突变。
宏基因组测序（metagenomics）：宏基因组一般建议测序数据量是6-10G左右，宏基因自旨在测定环境中全部生物（微生物）遗传物质的总和，若样本有明确的宿主且实验前处理无法去除，则需要加大数据量。
常规转录组测序 RNA-Seq(Bulk RNA-Seq)数据量需求如下：

1. 20-30M(million百万)reads：主要适用于基础基因表达分析。

2. 50-100M reads：推荐用于检测低表达基因或复杂转录本拼装。

3. 100M reads：通常被认为是高深度，尤其适合低丰度转录物的检测，适合解析复杂的可变剪切事件和罕见转录本。

单细胞转录组RNA-Seq(scRNA-Seq)：

1. 一般建议为50k-100k reads/cell。

2. 高深度单细胞测序：对于每个细胞超过1M reads 或总样本规模大(>100,000个细胞)时可视为高深度。

空间转录组测序(Spatial Transcriptomics)

1. 一般为 50-200M reads，能够得到足够的覆盖率。

2. 高深度：>300M reads视为高深度。

长读长转录组测序(PacBio/Nanopore RNA-Seq)

1. 解析复杂转录本(如可变剪切)时推荐数据量为 5-20 Gb。

2. 对于研究全转录组的复杂性，建议单样本 > 20Gb。

ChIP-Seq（色质免疫沉淀后测序）：对于转录因子的检测，标准为20-40M reads，对于组蛋白修饰宽谱图则需要更高的测序量。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏分享邀请

上一篇：这个检测技术可以检出CNV、易位(包括复杂的和罗氏)、倒位、插入，是核型、CMA、CNV-seq、OGM的替代？下一篇：测序深度和测序数据量

测序深度和测序数据量应该测多少？

声明：

最新评论

相关分类

官方推荐 /3

个人中心