在二代测序中,以illumina测序平台为例,它是通过荧光信号和拍照的方式来识别核苷酸的序列。高通量测序得到的原始图像数据文件,经过碱基识别(base calling)分析转化为原始测序序列(sequenced reads),称之为raw data或raw reads,结果以fastq(简称fq)文件格式存储。 根据测序模式(单端或是双端)不同,所产生的fastq文件数也不一样。通过单端测序获得的fastq文件来源于Read 1,而双端测序获得的fastq文件来源于Read 1+Read 2。 在简单了解了测序的基础知识后,回到我们关注的点:测序下机数据为什么需要质控和过滤。 首先,测序数据的产生经过了核酸提取、建库、测序等多个步骤。然而,这些步骤中产生的低质量或者无效数据会对生物信息数据高级分析带来严重干扰,比如建库阶段会出现建库长度的偏差,测序阶段会出现测序错误的情况。 原始数据中包含的接头信息、低质量碱基、未测出的碱基(以N表示),需要进一步的过滤,才能获得有效数据(Clean Data)。 影响测序数据质量的原因包括:1)Reads含有接头序列,接头自连等导至没有插入目的片段的reads;2)Reads含有低质量碱基(3’端);3)reads中含有N碱基(占一定比例);4)Reads太短(去除接头adapter及质量修剪后长度小于50bp的序列)。 从上图可以看出,随着测序的进行,测序质量也随之下降。 目前,将Raw Data处理成Clean Data的主流方法有如下两种: 1.FastQC+Cutadapt+Trimmomatic+脚本过滤 FastQC:对测序数据进行质控来评估测序质量的好坏,通过评估adapter序列含量、dup率含量、碱基质量Q分布情况等等,对下机数据的质量情况做直观展示; Cutadapt:用于去除接头序列; Trimmomatic:主要对adapter序列和低质量序列进行过滤(滑窗剪裁); 但这一过程涉及软件较多,处理过程繁琐,分析速度较慢。 2.Fastp 海普洛斯陈实富博士开发的开源软件fastp(https://github.com/OpenGene/fastp),因算法高效、功能多样,受到用户们的喜爱。Fastp软件仅通过对fastq数据的一次扫描,就能实现比FastQC+Cutadapt+Trimmomatic这三个软件加起来还要多的功能,耗时仅是Trimmomatic单个软件的三分之一,而且支持多线程。 截至今日,fastp软件发表论文已被引用6500多次,且在GitHub上发布了39版。 Fastp功能特点: I. 过滤。对低质量序列、较短序列、较多含N的序列进行过滤。 II. 接头处理。可以自动化地查找接头序列并进行剪裁(无需输入任何的接头序列)。 III. 滑窗质量剪裁。一个read的低质量序列都是集中在read的末端,也有少部分是在read的开头。fastp支持像Trimmomatic那样对滑动窗口中的碱基计算平均质量值,然后将不符合的滑窗直接剪裁掉。 IV. 双端数据的碱基校正。支持对双端数据的每一对read进行分析,查找它们的overlap区间,然后对于overlap区间中不一致的碱基,如果发现其中一个质量非常高,而另一个非常低,则可以将非常低质量的碱基改为相应的非常高质量值的碱基。 V. 全局剪裁。可以对所有read在头部和尾部进行统一剪裁,该功能在去除一些测序质量不好的cycle比较有用。 VI. polyG/polyX尾剪裁。对于两色发光法的Illumina仪器(NextSeq/NovaSeq),一个碱基只检测到一个红光信号即为C,只检测到一个绿光信号即为T,同时检测到红光信号和绿光信号的碱基即为A,没有光信号的即为G。随着测序进行到后面的cycles,信号强度变弱,导至reads末端的T和C被错误地识别为G,称为polyG尾。fastp会自动识别NextSeq/NovaSeq数据,然后进行polyG识别和剪裁。此外,fastp还可以进行PolyX尾剪裁(X表示A/T/C/G中的任一一种碱基)。 VII. 分子标签UMI处理。UMI可消除重复,并生成高质量的一致性reads。 VIII. 输出文件切分。对输出的fastq进行切分,分成大小均匀的多个文件,这样可以使用比对软件并行地比对,提高并行处理的速度。 IX. 重复率评估。对于描述测序文库的多样性非常重要。 X. 质控和报告结果。提供过滤前、后数据的统计结果,有助于使用者对比过滤前、后的特征。fastp提供JSON和HTML格式的报告。 ...... 总结 对于生信分析来说,第一步即是对获得的测序下机数据fastq进行质控和预处理,以保证后续分析数据的可靠性。不论是选择上述中的哪一种处理方法,能让我们的数据变得“干净”,即已达到要求。 |