立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 技术杂谈 查看内容

测序深度和测序数据量应该测多少?

2024-11-8 17:51| 编辑: 归去来兮| 查看: 573| 评论: 0|来源: Gene Diagnosis

摘要: 测序深度是根据所需样本类型与实验目的来决定




评估测序数据的标准

通常可以用三种方式来表示:以测序数据量的Gb数、以测序产出的reads数、以测序深度的倍数(X):

1. 以测序数据量表示:测序数据量指的是整个测序实验中生成的总碱基对(bp, base pairs)数量。通常用 Gb(gigabases,10^9碱基对) 或 Mb(megabases,10^6碱基对) 作为单位。测序深度与Gb数的换算通常取决于测序平台的产量以及基因组的大小。例如,如果一个人的基因组大小为3Gb,而测序深度为30x,则总共需要测序90Gb的数据量。

2. 以reads数表示:reads是测序仪器输出的每个碱基的序列数据。测序深度与reads数的换算取决于基因组的大小以及测序平台的reads长度。通常,reads数可以通过Gb数除以每个reads的大小来计算得到。

3. 以测序深度的倍数(X)表示:测序深度(Sequencing Depth)是指测序得到的碱基总量(bp)与目标基因组大小的比值,即测序深度=数据量大小 / 目标基因组大小。或者理解为目标基因组区间内中每个碱基被测序到的平均次数,如测序数据量为1G,测序的基因组大小为1M,那么测序深度为1G/1M=1000×,表示平均每个碱基被测了1000次。

这三个参数相互计算公式为:

测序数据量(bp)=目标区域大小(bp)×测序深度(x)

测序数据量(bp)=reads长度 X reads个数 (reads长度很容易得知,reads个数等于测序所得到的fastq文件的总reads数,计算时候需要注意单端与双端测序)

正常来说,测序读长是由测序仪器与试剂盒决定,而我们能够设定的参数主要就是reads,测序深度和数据。

测序深度是根据所需样本类型与实验目的来决定,测序深度越高,所得到的数据量也就越大,如对一个3Gb的基因组测序,30X深度需要90Gb数据,而100X深度需要300Gb。测序深度不足,会导至结果的不稳定,如基因组覆盖不全或者错过低频的突变信息,如下图:

但是过多的测序深度,或导至分析难度与成本的提高,而且超过一定的深度,即使数据量再增加,分析结果的提升也有限。所以对于常见的测序类型,都会有一个推荐的范围,根据测序深度,推算出所需要的数据量或者reads数目进行测序。

不同类型实验的推荐深度与数据量(二代测序)


  • 全基因组测序(WGS):30X-50X 通常用于人类基因组分析。人类基因组约为3Gb,30X 深度需要约90Gb测序数据。

  • 全外显子组测序(WES):50X-100X 用于基因突变检测。外显子总长度大约在30Mb,占全基因组的1%左右,50X-100X 深度需要 1.5-3Gb 数据量。如果想发现更多的低频突变引起的罕见疾病信息,我们可以将测序深度测到100X以上,具体深度依研究目的而定。

  • 转录组RNA测序(RNA-Seq):一般建议为10-50M(million百万)reads,或转录本表达分析的10X-30X覆盖,大约需要5-20Gb数据(二代测序)。

  • 靶向测序(tNGS):深度可高达500X-1000X,一般主要用于检测癌症基因中的低频突变。

  • 宏基因组测序(metagenomics):宏基因组一般建议测序数据量是6-10G左右,宏基因自旨在测定环境中全部生物(微生物)遗传物质的总和,若样本有明确的宿主且实验前处理无法去除,则需要加大数据量。

  • 常规转录组测序 RNA-Seq(Bulk RNA-Seq)数据量需求如下:

1. 20-30M(million百万)reads:主要适用于基础基因表达分析。
2. 50-100M reads:推荐用于检测低表达基因或复杂转录本拼装。
3. 100M reads:通常被认为是高深度,尤其适合低丰度转录物的检测,适合解析复杂的可变剪切事件和罕见转录本。
  • 单细胞转录组RNA-Seq(scRNA-Seq):

1. 一般建议为50k-100k reads/cell。

2. 高深度单细胞测序:对于每个细胞超过1M reads 或总样本规模大(>100,000个细胞)时可视为高深度。

  • 空间转录组测序(Spatial Transcriptomics)

1. 一般为 50-200M reads,能够得到足够的覆盖率。

2. 高深度:>300M reads视为高深度。

  • 长读长转录组测序(PacBio/Nanopore RNA-Seq)

1. 解析复杂转录本(如可变剪切)时推荐数据量为 5-20 Gb。

2. 对于研究全转录组的复杂性,建议单样本 > 20Gb。

  • ChIP-Seq(色质免疫沉淀后测序):对于转录因子的检测,标准为20-40M reads,对于组蛋白修饰宽谱图则需要更高的测序量。

声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部