一些研究表明,目前已经公布的基因组存在多种污染,随着这个问题越来越突出,我们需要找出方法来应对   Supratim Mukherjee在进行数据分析的时候,发现数以百计的微生物基因组中会重复出现同一种噬菌体序列,这令他感到很惊讶。这位来自劳伦斯伯克利国家实验室的生物信息学家最开始是为了比对这些微生物的代谢途径,但后来他发现了几乎无处不在的序列,“我以为我们发现了一些新的东西,”他回忆道,“在这些不同的微生物中,这整个噬菌体基因组是完整地保留下来的。”   但当Mukherjee一开始分析这个噬菌体序列时,他就知道这就是 PhiX 序列,一种Illumina公司测序试剂盒中用做标准品的噬菌体。PhiX 本来是作为一种质控检测指标,用于追踪每个测序过程中出现的错误率的,但在上百个案例中,Mukherjee发现研究人员都没有从其公布的基因组序列中剔除Phi X的序列。   并不是只有Mukherjee一人发现此种情况,最近大量的报告表明,发表的基因组出现污染要不之前想象的多得多。那么这些污染是如何出现的呢?我们有能做些什么,避免这些情况的出现呢?   就此The Scientist杂志请教了几位研究人员,他们分享了他们的一些Tips,可以检测和预防出现“流氓序列”。   广泛的基因污染   在Mukherjee 研究组意识到 PhiX 污染可能会出现了多个公布的微生物基因组中之后,这一研究组觉得量化其出现频率。通过分析调查,Mukherjee等人发现在已出版的1.8万个细菌和古细菌基因组(Integrated Microbial Genomes database)中,超过1000个序列被PhiX 序列污染。今年Mukherjee等人已经将这一发现公布在Standards in Genomic Sciences上。而这些其中的10%也出现在了同行评审的期刊杂志中。   PhiX 污染还只是冰山一角——现在问题呈指数级增长,NCBI总监David Lipman说,他也正在筛选过去五年间,呈递到GenBank中的数据。   “我们检测到2012年细菌和古细菌的污染情况还只有2%-3%,” Lipman说,“但之后就急速攀升,到2014年,已经接近了10%。今年到目前为止,这一比率达到23%”。   Sanger研究所的科学家们也发现,DNA提取试剂盒、化学试剂和实验室环境中的杂菌很容易造成污染,影响微生物组分析的结果。   研究人员发现,没有污染的话对照样本应该只有一种菌,但有时却出现了270种不同的细菌。与高生物量的样本相比(粪便样本),来自血液或肺部的低生物量样本尤其容易受到污染。   “现在的DNA测序技术允许人们进行深度测序,被广泛用于稀少微生物群体的分析。我们发现,这类样本很容易被其他来源的DNA污染,要么在收集样品的时候,要么在DNA提取和扩增过程中。污染会对研究结果产生很大的影响,这一点需要研究者们给予足够的重视,”Sanger研究所的Alan Walker博士说。   而且微生物也不是唯一出现这么多污染的研究领域,去年伦敦大学学院的计算机专家William Langdon发现,千人基因组计划中至少7%受到了支原体遗传物质的污染(BioData Mining, 7:3, 2014),因此如果说你对污染的基因组感到头疼的话,放心,你不是唯一一个。   污染从哪里来?   来自圣地亚哥州立大学的生物信息学家Rob Edwards说,污染出现的来源很多,“首先就是实验室成员可能混淆了两个样品,不小心给文件或者样本贴上了错误的标签。这些都可以通过加强实验室管理,提高实验记录保存制度等很容易解决。”   另一方面,污染也有可能来自其它本不应该出现在样品中的外来遗传物质,又或者来自培养细菌周围的环境,Edwards说。即使你认为自己测序的是单一培养产物,但是在一个测序循环中出现多个物种的情况,并不少见。   此外,如果正在测序来自人类肠道的微生物,那么样品中自然会出现人体细胞,还有即使你只想要测序某个生物体的细胞核基因,也会出现细胞内线粒体和叶绿体基因,这些也都是污染。这些污染当然很难完全避免,但是可以采取一些措施:在测序之前清理样品,或者在测序结果中剔除污染的序列。   Edwards的研究组聚焦于来自环境样品的宏基因组测序,他表示其研究组就常常利用过滤设备,根据大小对病毒和细菌混合物进行分离。如果他们推测样品中存在人体DNA的污染,那么就会先剔除这些序列,只留下微生物的基因样本。   同样如果需要清除系统中的污染,比如PhiX 对照序列,目标基因序列扩增测序用的引物和测序接头,还有克隆载体等,也可以采用相类似的方法。   考虑完这些,还有一个容易忽略的问题,那就是设备机器在实验过程中留下的污染,清楚了解这些污染的来源,可以帮助研究人员在测序后选择方法剔除他们,Edwards说,如果污染重复出现,那么也许就需要改变方法或调试机器了。   然而污染的另一个来源是脏之间实验,出血,通过让基因由事先测序运行出现在下一次的机器。爱德华兹说,只被察觉这种污染可能存在于你的实验可以帮助您选择将其删除后测序的方法。或者,如果它反复出现,您可以尝试更改协议或故障排除您的机器。   如何检测   毫无疑问,在实验过程中越早剔除污染物越好,“这些污染会增加实验直接的成本,”来自爱丁堡大学的Dominik Laetsch 说,出现污染,“每分钱理论上你得到的核苷酸信息就越少,”因为需要花时间处理和分析不需要的序列。但也有个好消息——即使序列中充满了 PhiX、引物、载体和不想要物种的基因,还是能在别人看到你最终公布的基因组之前剔除它们。   Laetsch就开发了这样的一个工具,帮助数据分析之前进行序列清除,这个工具叫Blobtools-light,是目前的最新版本,能将你的contigs(组装成最终序列中的测序DNA重叠部分)与NCBI数据库中的已知序列进行比对,然后软件还会通过可视化方式来解释这种比对——来自相似生物物种的序列会突出来。   “我们利用这作为初步筛选工具,”Laetsch说,她正在进行病原细菌的相关研究。   此外,还有一个类似的程序:ProDeGe (Protocol for fully automated Decontamination of Genomes,全自动净化基因组协议)(ISME, doi:10.1038/ismej.2015.100, 2015).   与Blobtools一样,ProDeGe采用的也是公共数据库,可以检测一个基因组中的污染,然后将contigs分组归类到“无污染”组和“污染”组。比价而言,Blobtools-light可以提供可视化序列图表,ProDeGe则能帮助研究人员识别并鉴定污染物是什么。   “这种方法比较简单,不用了解太多”,Mukherjee说,“因此对于不擅长此类工具的研究人员来说比较合适。”   当然还有其它方法,如NCBI的VecScreen,这是一种可以快速识别序列中污染载体的方法,晚些时候NCBI网站还将公布更多更先进的工具。   不过所有用来检测污染物的工具都必须把握住特异性和敏感度之间的平衡,也就是精确识别出污染物,而不删除靶标序列。因此了解清楚你的整体数据就显得额外重要,比如说,如果你分析的是新的基因组,那么程序肯定会提示了污染物水平高,因为已有数据库并未包含你的序列数据。   又或者,如果你知道会出现高污染细菌基因组,那么就能列出污染物清单,Edwards说,“我推荐多运行几个工具,比对结果。”   如何去除污染   一旦找到了污染物和污染源,那么就可以开始进行数据清理了。这其中有多种工具可以选择,如Edwards研究组开发的DeconSeq,与其它自动化污染筛选程序不同,DeconSeq需要用户输入污染物的物种属性,然后再自动剔除基因组组装内容里的属于这一物种的序列。   如果跳过了这一步骤,也许就会引起麻烦。Lipman研究组在NCBI系统中就运行一个针对每个呈递到GenBank中序列的外源污染物筛选,他希望当筛选出一个序列标记为污染物时,科学家们能将其认为是了解数据的一个机会,并且了解技术的弱点,在未来避免出现这个问题。   “如果你只是说‘好吧,我的呈递出现了问题,我现在就修改它’,那么这个问题还是不断出现,”Lipman说。   但是如果是在论文公布后发现基因组中出现污染呢?比如说之后进行更多实验的时候发现了错误,那么重点是尽早修改错误,以防其他人将这些错误的成果用于自己的研究中。在某些情况下,这也许就意味着与杂志取得联系,看看能不能进行勘误。   “大家需要对自己的序列数据负责,”Mukherjee说,“如果你发现了问题,那么就要撤回它进行修改,然后再重新发布。”   如何改善基因组污染问题   随着测序技术的进步,也许未来许多污染源会自动消失,这确实可能,Laetsch说,“随着组装过程越来越容易,读长越来越长,肯定要找出污染也会变得容易,”但是研究人员不能将这作为停止筛选污染物的借口,“你放入的样品越好,测序机器就会做的越好。”   而随着基因组数据变得越来越庞大,要想获得干净的序列也越来越难,这有赖于每个学者都尽其所能确保自己基因组序列不出现污染,“我认为科学界都知道污染物是个大问题,但是这还需要更多的努力”,Mukherjee说。   GenBank中污染物出现频率猛增,Lipman也赞同这个问题的共识性,为何会出现越来越的污染呢,Lipman对这个问题表示,“越来越多的实验室都可以进行测序研究了,这本身是个令人高兴的事情。”
来源:生物通
|