小桔灯网 › 门户 ›资讯中心› 技术杂谈 › 查看内容

测序深度和测序数据量

2024-11-12 14:53| 发布者: 沙糖桔| 查看: 5017| 评论: 0|来源: 生信大白记

摘要: 通常用 "X" 表示，如 10X 表示目标区域中的每个碱基被平均测序了10次。

一、测序深度（Sequencing Depth）

测序深度是指对目标区域（如全基因组或某个特定基因片段）进行测序时，碱基被覆盖的平均次数。通常用 "X" 表示，如 10X 表示目标区域中的每个碱基被平均测序了10次。

1. 测序深度的意义

可靠性提高：测序深度越高，减少了因测序错误或随机性导至的假阳性。
检测突变灵敏度：高深度有助于发现低频突变（如肿瘤中的亚克隆变异）。
平衡成本和精度：深度越高，成本越高，但过高深度可能会导至边际收益递减。

2. 不同类型实验的推荐深度

全基因组测序（WGS）：30X-50X 通常用于人类基因组分析。
外显子组测序（WES）：50X-100X 用于基因突变检测。
RNA测序（RNA-seq）：推荐 10-50M（百万）读长，或转录本表达分析的 10X-30X 覆盖。
靶向测序：深度可高达 500X-1000X，如癌症基因检测中用于检测低频突变。

二、测序数据量（Sequencing Data Output）

测序数据量指的是整个测序实验中生成的总碱基对（bp, base pairs）数量。通常用 Gb（gigabases，10^9碱基对） 或 Mb（megabases，10^6碱基对） 作为单位。

1. 计算测序数据量

数据量取决于样本数量、目标区域大小和测序深度：

转录组测序能测多少层？（转录组不是以层来算主要是以测序数据量，基因组重测序可以用层）

在转录组测序（RNA-Seq）中，“层”指的是不同转录本、基因表达水平的解析能力。这里我们可以从多个角度理解 RNA-Seq 在解析层面的能力：

一、RNA-Seq 能解析的不同层级

基因表达水平（Gene-level expression）

RNA-Seq 能测定每个基因的总体表达量，即所有转录本的总和。常用 FPKM、TPM 或 RPKM 作为基因表达的标准化指标。
这是 RNA-Seq 的基础分析层级。

转录本水平（Transcript-level expression）

RNA-Seq 还能解析每个基因的不同转录本（isoforms），如基因通过可变剪切产生的多种转录本。
这层分析需要高质量的读长和高覆盖度，配合转录本组装工具（如 StringTie、Salmon）来区分不同转录本的表达量。

可变剪切事件（Alternative Splicing）

RNA-Seq 能检测外显子跳跃、5' 和 3' 端变异、内含子滞留等可变剪切事件，用于理解基因如何生成多种功能产物。
需要长读长（如 PacBio 或 Nanopore）或高深度短读长数据来准确解析。

单细胞层级（Single-cell RNA-Seq, scRNA-Seq）

通过单细胞测序，可以分析单个细胞中的基因表达差异，揭示细胞异质性。
这种分析通常采用 UMI（Unique Molecular Identifier）来减少 PCR 偏倚，捕获细胞中稀有转录本。

空间转录组（Spatial Transcriptomics）

结合 RNA-Seq 与组织切片数据，可以在空间维度上解析不同区域的基因表达模式。
这层分析为研究组织微环境（如肿瘤微环境）提供了更深入的理解。

二、RNA-Seq 深度与解析能力的关系

测序深度对层级解析的影响

10-20M 读长/样本：足够检测主要基因表达水平。
30-50M 读长/样本：有助于准确检测低丰度基因和转录本。
100M 读长/样本或更高：适合解析复杂的可变剪切事件和罕见转录本。

长读长 vs. 短读长的选择

短读长（Illumina平台）：适合基因表达量和转录本定量，但转录本拼装可能不够完整。
长读长（PacBio或Nanopore）：可直接读取整个转录本，尤其适用于复杂剪切的解析。

转录组测序的数据量多少算高深度？

一、转录组测序深度的推荐范围

常规 RNA-Seq（Bulk RNA-Seq）

20-30 M 读长/样本（百万对齐读数）：适用于基础基因表达分析。
50-100 M 读长/样本：推荐用于检测低表达基因或复杂转录本拼装。
高深度定义：超过 100 M 读长/样本 通常被认为是高深度，尤其适合低丰度转录物的检测。

单细胞 RNA-Seq（scRNA-Seq）

单细胞转录组数据较稀疏，通常一个细胞只需 50k-100k 读长。
高深度单细胞测序：对于每个细胞超过 1 M 读长 或总样本规模大（> 100,000 个细胞）时可视为高深度。

空间转录组测序（Spatial Transcriptomics）

需要在每个空间区域上获得足够的覆盖，常见要求为 50-200 M 读长/样本。
高深度：达到或超过 300 M 读长/样本。

长读长测序（PacBio/Nanopore RNA-Seq）

解析复杂转录本（如可变剪切）时推荐深度为 5-20 Gb/样本。
对于研究全转录组的复杂性，高深度定义为单样本 > 20 Gb。

二、高深度的应用场景

低丰度基因的检测：如长非编码 RNA（lncRNA）、转录因子等基因。
复杂可变剪切事件的解析：需要多次覆盖每个外显子和剪切位点。
肿瘤或免疫微环境研究：高深度有助于检测稀有的转录本和细胞类型。
时间序列或动态变化的分析：不同时间点或处理条件下的细微表达变化。

三、高深度测序的优势和成本平衡

优势：

能够检测低丰度和罕见转录物。
提升转录本拼装的准确性，减少假阳性。
提高数据的重复性和分析的可靠性。

成本和冗余：

超过一定深度后（如 150-200 M 读长/样本），数据的边际收益递减，即使数据量增加，检测到的新基因或转录本也可能不明显增加。
因此，需要根据实验需求和预算合理设计深度。

四、总结

高深度转录组测序通常指每个样本的读长超过 100-150 M 或数据量超过 20-30 Gb。但具体标准取决于研究目标和测序平台。合理规划测序深度不仅能确保研究的准确性，还能避免资源浪费。

声明：

1、凡本网注明“来源：小桔灯网”的所有作品，均为本网合法拥有版权或有权使用的作品，转载需联系授权。
2、凡本网注明“来源：XXX（非小桔灯网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有，如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

收藏邀请

上一篇：测序深度和测序数据量应该测多少？下一篇：NGS检测流程--多重PCR法建库