评估测序数据的标准 通常可以用三种方式来表示:以测序数据量的Gb数、以测序产出的reads数、以测序深度的倍数(X): 1. 以测序数据量表示:测序数据量指的是整个测序实验中生成的总碱基对(bp, base pairs)数量。通常用 Gb(gigabases,10^9碱基对) 或 Mb(megabases,10^6碱基对) 作为单位。测序深度与Gb数的换算通常取决于测序平台的产量以及基因组的大小。例如,如果一个人的基因组大小为3Gb,而测序深度为30x,则总共需要测序90Gb的数据量。 2. 以reads数表示:reads是测序仪器输出的每个碱基的序列数据。测序深度与reads数的换算取决于基因组的大小以及测序平台的reads长度。通常,reads数可以通过Gb数除以每个reads的大小来计算得到。 3. 以测序深度的倍数(X)表示:测序深度(Sequencing Depth)是指测序得到的碱基总量(bp)与目标基因组大小的比值,即测序深度=数据量大小 / 目标基因组大小。或者理解为目标基因组区间内中每个碱基被测序到的平均次数,如测序数据量为1G,测序的基因组大小为1M,那么测序深度为1G/1M=1000×,表示平均每个碱基被测了1000次。 这三个参数相互计算公式为: 测序数据量(bp)=目标区域大小(bp)×测序深度(x) 测序数据量(bp)=reads长度 X reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数,计算时候需要注意单端与双端测序) 正常来说,测序读长是由测序仪器与试剂盒决定,而我们能够设定的参数主要就是reads,测序深度和数据。 测序深度是根据所需样本类型与实验目的来决定,测序深度越高,所得到的数据量也就越大,如对一个3Gb的基因组测序,30X深度需要90Gb数据,而100X深度需要300Gb。测序深度不足,会导至结果的不稳定,如基因组覆盖不全或者错过低频的突变信息,如下图: 但是过多的测序深度,或导至分析难度与成本的提高,而且超过一定的深度,即使数据量再增加,分析结果的提升也有限。所以对于常见的测序类型,都会有一个推荐的范围,根据测序深度,推算出所需要的数据量或者reads数目进行测序。 不同类型实验的推荐深度与数据量(二代测序)
1. 一般建议为50k-100k reads/cell。 2. 高深度单细胞测序:对于每个细胞超过1M reads 或总样本规模大(>100,000个细胞)时可视为高深度。
1. 一般为 50-200M reads,能够得到足够的覆盖率。 2. 高深度:>300M reads视为高深度。
1. 解析复杂转录本(如可变剪切)时推荐数据量为 5-20 Gb。 2. 对于研究全转录组的复杂性,建议单样本 > 20Gb。
|