目 录 《病原微生物宏基因组检测》 1 宏基因组二代测序技术简介 1.1 宏基因组学发展历程 1.2 宏基因组二代测序技术mNGS检测病源微生物过程 2 mNGS在临床中的应用 2.1 在新发传染病疫情中的应用 2.2 在感染性疾病诊断中的应用 3 应用病种流行病学特征 3.1 呼吸系统感染性疾病 3.2 神经系统感染性疾病 4 竞争格局 宏基因组二代测序技术简介 宏基因组二代测序技术(metagenomics next-generation sequencing, mNGS)是借助二代测序平台快速测序获得样品中的核酸序列,并进一步与各个物种的基因组序列对比,从而得知样品中微生物的种类和比例的技术。 1.1宏基因组学发展历程 对宏基因组的研究最早可追溯到上世纪80年代,Pace等人尝试直接克隆环境DNA,将浮游微生物克隆在噬菌体的载体,构建文库,通过对文库的筛选进行后续的16S rRNA的分析。在1998年,Jo Handelsman, Michelle R Rondon等人在一篇土壤微生物的研究报道中首次提出宏基因组学(metagenomics)的概念。 最早宏基因组分析策略是对特定环境的样品构建DNA文库,再对构建的DNA文库进行筛选:首先将一个环境样本的DNA克隆在一个具有寄宿能力的宿主菌中,通常选用大肠杆菌,然后对克隆文库进行特定标志基因或者新陈代谢功能的筛选。这两种筛选方法分别称为基于序列和基于功能的筛选方法。 随着测序技术的发展,直接对环境DNA测序成为了可能,逐渐替代了传统的构建文库的流程。根据不同的研究目的,基于测序的宏基因组分析方法可以分成两类:标签序列测序和全基因组测序。标签序列测序通常以研究宏基因组多样性为主要目的,对样本的16S rRNA或者18S rRNA进行测序,通过将测序结果与现有的标签序列数据库比对分析,获取环境中微生物的物种丰度以及其它多样性信息。全基因组测序可以获得更多微生物群落功能方面的信息,测序结果不仅包含了群落的多样性信息还包含了功能的信息,这为研究微生物群落中单个物种、物种与物种的相互作用以及物种与环境之间的相互作用提供了信息。 1.2宏基因组二代测序技术mNGS检测病源微生物过程 使用宏基因组二代测序技术(mNGS)检测病原微生物通常需要6个步骤:采集病人感染部位的样本、提取核酸、对提取的核酸构建标准测序文库、高通量测序、生物信息分析确定病原菌和解读报告。最后医生根据报告中检测到的感染病原菌,对症下药。下面就其中重要步骤进行详细介绍:1)提取核酸,2)对提取的核酸构建标准测序文库,3)高通量测序,4)生物信息分析确认病原菌种类和定量(丰度)。 1.2.1提取核酸 从样品中提取DNA的过程是首先将微生物细胞的细胞壁、细胞膜打破,使基因组DNA释放出来,然后根据DNA的特质,将其从其他组分(主要是结合在DNA上的蛋白质)中分离出来。打破微生物细胞壁,通常使用溶葡球菌酶和溶菌酶破坏细胞壁成分的化学键。高质量的DNA是获得准确测序结果的基石。提取宏基因组的方法参考生物实验室常用的分子生物学方法,比如酚-氯仿法、加热煮沸法、Chelex-100抽提法,改良DNA抽提法和试剂盒抽提法。其中试剂盒抽提法技术成熟,有众多商品化试剂盒可选择。 判断DNA质量好坏的基本标准是样品在波长260nm处的吸收值(OD260)与280nm,230nm处吸收值(OD280,OD230)的比值。OD260是DNA的吸收峰值,OD280是蛋白质,OD230是碳水化合物。一般来说当OD260/OD280等于1.8,OD260/OD230等于2.5时,认为DNA较纯净。 1.2.2构建标准测序文库 得到纯化的宏基因组DNA后,需要通过加热或者化学的方法将DNA打断,接着在片段两端连接测序仪可以识别的接头序列(adaptor),通过一系列的纯化、预扩增(也有无需预扩增的商用试剂盒,例如TruSeq DNA PCR-Free Library Preparation Kits,Illumina)获得可以上机测序的DNA文库。 1.2.3高通量测序 新一代测序(Next-Generation Sequencing,NGS,也称二代测序)的方法先后有罗氏454焦磷酸测序技术、Illumina(Solexa测序技术)、SOLiD测序技术和Ion Torrent测序技术。目前Illumina(Solexa测序技术)为主流测序平台,Ion Torrent有一定份额。 Illumina(Solexa测序技术)的原理是边合成边测序,具体来说使用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出特定的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,得知此刻添加的是四种dNTP中的哪一种,再根据互补配对原则(AT,GC),从而推测出样品DNA的序列。 最主要厂商Illumina约占70-80%的市场,Illumina推出了三种适合检测宏基因组的测序仪,分别是NextSeq Series、HiSeq 4000 System和NovaSeq 6000 System。 Ion torrent是一种基于半导体芯片的测序技术。该项技术与454技术类似,它的核心技术是利用半导体技术将ATGC合成核酸链的过程转化为数字信息。将待测的DNA链固定在半导体芯片微孔中的微球上,随后依次掺入ACGT。符合配对的碱基与待测DNA链形成化学键,释放出氢离子。通过检测H +信号的变化即可获得序列碱基信息。Ion Torrent相比于其他测序技术来说,没有光学检测和扫描成像系统,因此,设备成本较低,测序速度快,整个上机测序可在2~3.5 h内完成。 Ion Torrent测序技术由Ion Torrent公司(后被Life Technologies公司收购,现为Thermo Fisher公司子公司)于2010年突出。Thermo Fisher推出的测序仪中有两个系列适用于宏基因组检测。 1.2.4生物信息分析确认病原菌种类和定量(丰度) 得到样品中DNA序列信息后,通过生物信息学分析可以得到样品中微生物的种类和含量。生物信息学学的分析主要分为预处理(质量控制、去除接头)、比对去除寄主基因序列(人)、比对序列至参考序列或经拼接组装后比对参考序列、计算每种微生物的丰度或其他分析四个步骤。 1)预处理(质量控制、去除接头) 质量控制是指剔除认为是测序出现错误的序列。测序时每一个碱基都会给出对应的测序质量值Q。碱基质量值Q是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率P越小,其计算公式为Q=-10lgP。例如,Q20和Q30分别代表碱基被测错的概率为1%和1‰。不同的测序平台对应的剔除标准略有不同,通常标准是一条测得的序列中10%的碱基数质量值在30分以下时,会将这条序列剔除掉。通过Q30的控制可以有效防止序列测序错误导至后续的分析错误。 去除接头是指去除在测序过程中由于插入片段短于测序读长而测到两端的接头序列(adaptor)的情况。 2)比对去除寄主基因序列(人) 比对序列通常使用开发完善的生物信息学软件,常用短序列比对软件包括:SOAP、BWA、Bowtie、Martin和STAR等。 由于样品是来自病人的血液、唾液等,其中大部分的DNA序列来自病人细胞。所以通常会使用比对软件,先将测序的结果与人类参考基因组比对,从而将样品中属于人的序列剔除掉。通常人类基因组会占50%以上,甚至达到90%。 3)比对序列至参考序列或经拼接组装后比对至参考序列 将测得的DNA序列按物种进行分类是检测病原菌的核心环节。通常使用两种方法进行物种分类。一是基于序列相似性(同源性)的比对方法,二是基于序列特征的方法。这两种方法都需要已知物种的基因组信息作为参考序列。 宏基因组比对的参考微生物包括细菌、古细菌、病毒和真菌四大类。这些物种的基因组序列信息储存在多个权威数据库中,通常可从数据库下载所需基因组数据。 微生物基因组数据库介绍 资料来源:各数据库官网 基于序列相似性(同源性)的比对方法较为直接常规,其过程是利用比对软件,如BLAST,BWA和Bowtie等,将测得的片段比对到已知微生物物种上。常见使用此类的方法的分析平台有MG-RAST,CAMERA分析流程和MEGAN。 与已知基因组的物种比对的方法较为简单,然而由于在宏基因组中大量微生物是未知的,基于序列特征的分装方法也发挥着重要的作用。 由于二代测序技术得到的序列读长通常较短(几百bp),且其中的微生物组装复杂,通常对测序数据中的短片段根据两端的重叠序列进行拼接(assemble),再将其组装成更长的重叠片段(contig),再进行下游的分析将更有效。进一步将contigs分装至可操作分类物种单元(Operational Taxonomic Unit, OTU),再与现有的标签序列的数据库进行比对(如RDP,GreenGene,SliVA数据库),即可得到每一个OTU代表的物种信息。基于序列特征的分装方法可分为有监督和无监督两种。 资料来源:中国知网 探针资本整理 4)计算每种微生物的丰度或其他分析 目前有两种常见的计算物种丰度的方法。一种是将测序所得到的宏基因组序列与全基因组序列进行比对,经计算后得到物种丰度表。针对每一个物种,将比对到该物种的序列数(reads)比上比对到所有物种的序列数,并校正各物种的基因组大小(校正因为物种基因组大而随机使得比对到该物种的序列数多的现象)。另一种方法是将参考的多个物种基因组上单拷贝的系统发育标记基因取出,组成一个集合,每个物种比对到基因组上的序列数除以比对到该单拷贝基因集合的序列数记做物种的丰度。例如常用软件MetaPhlAn2在检测肠道样品时,会使用含了13500多个细菌古菌,3500个病毒和110个真菌的序列标记物的肠道数据库。软件mOTU计算物种丰度使用40个通用单拷贝系统发育标记基因序列,这40个基因来自3445个完整的细菌基因组和来自263个公开的宏基因组的未知物种。 1.2.5 使用mNGS检测病原菌的案例介绍 张金李和冯翔在临床诊断一例重症肺炎患儿时,初始诊断结果为支原体感染,然而使用红霉素、哌拉西林钠他唑巴坦、阿奇霉素抗感染治疗,效果不明显,怀疑其合并病毒感染,故使用mNGS快速检测了重症肺炎患者的呼吸道病原体。 |