追求高了还要更高的二代测序数据质量,是药明康德基因中心的客户服务宗旨,其实这也是所有科学家、研究员的愿望。在药明康德,我们投入大量时间、精力和专业知识,深入理解二代测序技术原理,细致用心地完成每个项目,使我们的数据质量持续、稳定地保持在高水准。 照说,既然数据质量好,我们和客户都皆大欢喜才是。可是最近,我们却遭遇到了由于数据太好而引起客户疑问的“甜蜜的烦恼”。
这是怎么回事呢?原来,当我们递交数据后,满以为项目顺利结束,没想到却收到完全出乎意料的客户反馈:“数据是不是被删减过?我们要原始数据。”
仔细了解情况以后,我们发觉老师提出这样的疑问题其实也不过分,反而是很自然、也很有道理的。与他们以前从别的实验室拿到的二代测序数据相比,疑问主要有两个:首先,HiSeq 2000测序的数据集,正常情况下会有一些开头和末尾第一个碱基为N的序列,每条lane会有数千至数万条这种序列,除第一个碱基外,后面碱基的Phred score都还比较高,而在我们的数据中,没有这一特征;其次,用HiSeq 2000测定模式生物基因组,然后将测序数据mapping回其本身的基因组,mapping率通常在75%~80%左右,有20~25%的序列是不能mapping回去的,而我们数据的mapping率达到了95%以上。
难怪老师不相信。难怪老师要怀疑数据经过了删减,不是原始数据。
药明康德基因中心的规则就是把原始数据提供给客户。蓦地面对这样的问题,一时间我们还真有点不知道怎么办才好。想来想去,仅仅自己说自己的数据好,说数据没有经过加工和删减,从机器上下来就这么好,说服力不强。我们只好求助原厂,求助Illumina,将不涉及项目保密的资料递交给Illumina生物信息学专家,请他进行验算核实。
Illumina专家行事严谨,处理问题高效。他向我们索要了可以拿到的全套文件,包括SAV数据、config.xml文件以及数据转换合并的脚本等,检查了方方面面,得出结论:这批数据并无遗漏任何tile;除了PF之外,也没有进行其他QC加工。
针对老师提出的上面两点疑问,Illumina专家既提供了他的看法,并且还进一步向我们提出了一些老师没有想到的问题。这些解答和问题,值得我们细细体会,深入学习。
首先,“第一个碱基为N”并非正常情况。只有特定版本的HCS软件,比如说v2.0.5,由于软件存在bug,才可能会出现第一或者倒数第一个碱基为N的序列。也就是说,这是软件运算的问题,测序没有问题,而且还不一定每次都出现。
我们用的正是v2.0.5的HCS软件。既然数据中没有N,那是不是我们在测序的时候增加了循环次数,从而规避了这个问题呢?不是的。药明康德基因中心严格执行标准操作规程,不增加额外的循环。比如,合同规定进行2X100个循环的Paired-End测序,我们就测序2X101个循环。多出来一个循环是行业标准做法,也是Illumina官方建议的;除此之外,不再增加循环次数,不做2X102个或更多个循环。
另外,“每条序列的前面几个碱基的质量评分很低”也不是一定的。如果文库的碱基复杂度高,簇密度又控制得好,则前面几个碱基的质量评分也可以达到比较高的数值。碱基质量,包括前几个碱基的质量评分高低,与文库构建的好坏有关,比如试剂的质量和操作水准;也与软件进行数据分析的参数估算有关,比如簇密度和碱基复杂度。
药明康德基因中心并不追求前面几个碱基的质量评分,根本不关心它们是高是低,完全没有把它们看成是评价一个测序好坏的指标。但是我们的确在从文库构建到上机测序等各个环节都下了大功夫,积累了丰富的经验。测序数据质量高,其实得益于此。
第三,提高碱基质量评分,还有一个办法是修改recipe,改变实验流程。不过,药明康德基因中心的企业文化是严格执行SOP,我们不修改recipe。
最后,测序数据mapping率太高的问题,其实不需要我们站出来饶舌。出于药明康德全公司范围的严格的IP保护政策,我们在开展项目时遵循“最少信息原则”,根本不知道此客户的样本来自何种生物,因此也没有可能对数据进行针对性的加工,来提高mapping率。正如Illumina专家所指出的,mapping率高低与数据质量有关,也受比对方法、比对参数前后是否有差异、或者是否使用了不同版本的参考序列等因素影响。
来源:药明康德陈云地
|