针对循环肿瘤DNA(ctDNA)的靶向捕获、深度测序,未来会是一个很有前景的临床肿瘤基因检测方案。 本视频介绍了其原理、技术难点、实验方法、数据分析特点,和分析结果的灵敏度、特异性。 本视频时长13分钟,建议在Wifi条件下观看: 欢迎来到【陈巍学基因】 我们这个节目,主要是给大家介绍基因组学,和临床分子诊断的最新技术进展。 今天,会和大家谈一下,对循环肿瘤DNA的高通量测序。 循环肿瘤DNA,英文叫:circulating tumor DNA,简称ctDNA。对ctDNA进行测序,是目前很火的Liquid Biopsy(液体活检)中的一种。 在今天的讲解当中,我们会主要参考Nature Medicine杂志,在2014年4月刊登的AaronNewman(下称:Aaron)等人写的一篇文章。 这篇文章的题目是:《An ultrasensitive method for quantitatingcirculating tumor DNA with broad patient coverage》,同时,我们也会结合国内一些服务公司的实际操作方法,来介绍ctDNA测序。 Aaron给他们的实验方法起了一个专有名词:CAncer PersonalizedProfiling by deep SEQuencing,简称:CAPP-Seq。 意义 首先,我们来说一下ctDNA测序的临床意义。 第一点,就是它可以减少病人的开刀痛苦,只要抽血,不必开刀,就可以做检测。 第二,是它可以增加可检测的病人范围,对于不适合做开刀手术的病人。例如,已经发生肿瘤全身转移的病人。也可以用测ctDNA的方法来测肿瘤的基因突变。 第三点,是因为它只要抽血(而不必开刀),所以取样很方便。所以它可以应用于肿瘤病人的病情随访,并可以多次取样。 原理 接下来,我们介绍ctDNA测序的基本原理。 正常细胞和肿瘤细胞都会破裂,细胞破裂之后,细胞中的DNA就会被释放到体液当中去。其中进入血液的这部分DNA,就称为血液游离DNA。那么,它也被称作血浆游离DNA,或者cell free DNA,简称cfDNA。 这些DNA片段的长度,主要集中在100BP~240BP之间,大部分在170BP左右,把血液当中游离的DNA抽提出来,建成DNA测序的文库。用探针杂交、或者PCR扩增等方法,把其中与肿瘤相关的DNA富集出来,进行高通量测序。 然后再进行数据分析,看哪些基因有突变。接着根据基因突变的信息,来决定下一步的治疗方法 这就是ctDNA测序的核心原理。 难点 从原理上,ctDNA测序,简单易懂,但是在实际的操作过程当中,需要克服一系列的技术难点。 第一个难点,是在全部的血浆游离DNA当中,ctDNA只占很小的一部分,大约只有万分之几到千分之几。其余的,都是正常细胞的DNA。一般而言,肿瘤早期,ctDNA占全部游离DNA的比例会更低一些,到肿瘤晚期,ctDNA占全部游离DNA的比例会高一些。但是要检测到千分之几、万分之几的突变,总是一件困难的事情 第二个难点,是血液当中的游离DNA量很少,大约每一毫升的血浆当中,只会有十几纳克(ng)的游离DNA。通过比较好的、专用的DNA抽提试剂盒,从一毫升的血浆当中,大约可以抽提到10^-9个纳克(ng,10^-9)左右的游离DNA,每一个正常的、人的细胞,大约含有3.3个皮克(pg,10^-12)的基因组DNA。也就是说1个ng的基因组DNA,相当于来源于300个细胞的DNA量。 目前国内做ctDNA测序的科研实践当中,一般是一次抽10个毫升的血,从中可以分离到约5到6毫升的血浆。从这5~6毫升的血浆当中,可以抽提到约 50ng~60ng 的游离DNA。60个ng的DNA,大约相当于来自18000个细胞的基因组DNA。 综合上面所说,ctDNA 测序的两大难点: 第一,是突变信号相对于背景信号来说,信号强度极低,只有万分之几,到千分之几。 第二,是样本量极其有限,必须在几十个ng的游离DNA当中,找到突变信息。 实验设计 所以,在整个 ctDNA 测序的实践过程当中,所有的实验步骤,都是围绕上述2个难点,来进行设计的。 首先,我们来说采血。 如果采血完成后,马上可以分离血浆,并抽提游离DNA,那么可以用常规的枸橼酸钠、或者EDTA抗凝采血管来采血。但是,不要用肝素采血管来进行采血,因为肝素是多种DNA修饰酶的强抑制剂,而后面的DNA建库过程当中,要用到多种DNA修饰酶,所以不要用肝素采血管来进行采血。 如果另一种情况,血液要经过一段时间的保存、运输后,才能达到中央实验室,进行血浆分离,并抽提游离DNA的话,那么建议采用 Streck 公司出品的专用的采血管来进行抽血。Streck 的采血管有以下两个特点: 第1,它可以防止血液当中的游离DNA降解 第2,它可以防止血液当中的白细胞破裂 因为血液当中的游离DNA很少,而白细胞很多,如果白细胞破裂,那会大大增加测序当中的本底值,所以,防止白细胞破裂是非常必要的。 第二步,是抽提血浆游离DNA。在Aaron的文章当中,是用Qiagen公司出的QIAamp Circulating Nucleic Acid Kit来进行DNA抽提的。这是一个专门用来抽提血浆游离DNA的专用试剂盒。 第三步,是用抽提好的DNA来构建文库。在 Aaron 的文章当中,是用 KAPA 公司的出的 KAPA Library Preparation Kit 来进行文库构建的。 第四步,是用捕获试剂盒来对文库进行杂交捕获。在 Aaron 的文章当中,是设计了一个针对139个肿瘤相关基因的捕获 Panel。这个 Panel 的覆盖范围是125个KB的大小。 在这个 Panel 当中,包括按照 hg19 参考基因组序列,设计目标区域。这些区域可以用于检测点突变、和插入缺失突变。同时,对于 ALK 和 ROS1 这两个基因当中,常见的、易发生融合基因突变的突变位点,也设计了相应的捕获探针,目的是可以更好地检测到融合基因突变。 捕获探针是请 Roche 公司qixia的 Nimblegen 公司合成的。 第五步,捕获好的文库,用高保真聚合酶进行扩增。Aaron 的文章当中,是用 KAPA 公司的KAPA HiFi Hot Start Ready Mix 酶,配合Illumina公司的文库接头,进行文库的PCR扩增。然后用 Qiagen 公司的 QIAquick PCR Purification Kit,对 PCR 扩增产物进行纯化。 第六步,扩增好的文库,用 HiSeq 2000 测序仪,进行读长为双端各100碱基的高通量DNA测序,这里要特别说明一下,ctDNA 的测序深度是非常深的。一般情况下,会测到上万倍、甚至几万倍的测序深度。在Aaron 的文章当中,平均每个ctDNA 样本,是测2.1G的数据。也就是说,测序的数据量,相当于捕获目标区域大小的17000倍。 第七步,是把测序得到的序列,进行生物信息学分析。在ctDNA的数据分析当中,有一些与传统的捕获测序分析过程不一样的参数设定。 第一点,就是去除 duplicaton 的过滤条件是不一样的。所谓duplication,就是因为上机测序前的 PCR 扩增,导至一个原始的模板复制出许多个拷贝来。这些复制出来的拷贝,被测序过程多次测到,这就叫 duplication。因为 ctDNA 的测序深度很深,达到上万倍,所以会有大量的 duplication。在 Aaron 的文章当中,duplication 的比例,会高达50%~70%。也就是说,每10个读到的序列当中,有5个到7个是重复的。 传统的测序分析当中,如果2条序列的起始位置、和结束位置都一样,就判定这2个序列是 duplication。但是,在 Aaron 的方法当中,如果两条序列的起始、和结束位置是一样的,但是,其中有一个碱基的差别(SNV),则不认为这两条序列是 duplication。这样做,可以尽可能地保留测序结果当中,测到的序列的多样性。也就保证了检测的灵敏度。 第二点,是判定点突变(SNV),Aaron采用的置信条件,与通常的方法也不同。Aaron 一定要这个突变的碱基的测序的质量值(Phred quality score)高于30,才确定这个突变是一个真的突变(SNV),测序得到的碱基质量值(Phred quality score)是测序仪的分析程序,对一个碱基的可信度的通用判定标准。如果这个值高于30,则这个碱基读错的可能性,低于千分之一,Aaron 通过设置这样一个置信条件,来减少因为测序误差,可能带来的误判。这样,也就提高了检测分析结果的特异性。 这就是 ctDNA 测序检测的方法。 结果 介绍完方法,我们接下来介绍 Aaron的实验结果。 Aaron 检测了13个非小细胞肺癌病人的35份游离 DNA 样本,和5个正常人的游离 DNA 样本。 同时,也检测了病人的肿瘤样本、和germline 样本(外周血白细胞DNA),把测序的结果进行数据分析。以肿瘤样本中检测到的突变为阳性标准,画出 ROC 曲线。 这里,我们简单介绍一下 ROC 曲线,ROC 曲线的英文是: Receiver Operating Characteristic (ROC),ROC的横轴,是100%减掉特异性得到的值,纵轴是敏感性的值。 ROC 曲线越靠近图型的左上角,则这个检测的较果越好,它的灵敏性、和特异性都好。反之,ROC 曲线越接近对角线,则检测的效果越差,会有很多的假阴性、和假阳性。 ROC 曲线下方部分的面积,占整个座标矩型面积的比例,叫 AUC 值,Area Under Curve (AUC)。AUC 值的取值范围在:0.5-1之间。越接近1,则这个检测的分辨效果越好,越接近0.5,则分辨效果越差。 AUC 值是评判一个方法好坏的重要标准。 更多介绍 ROC 曲线的内容,有兴趣同学可以在微信公众号【陈巍学基因】当中,回复“ROC”三个字,就可以看到更详细的介绍了。 回到 Aaron 的实验结果,我们来看这条蓝色的曲线,这是全部13个病人的结果。可以看到这条曲线是比较接近图的左上角的,它的 AUC 值,达到了0.95。 这13个病人当中,包括了4个癌症 I 期的病人,和9个癌症 II 期到 IV 期的病人,如果只看这9个癌症II 期到 IV 期的病人的结果(红色曲线),AUC值达到0.99。 这两个数值,0.95和0.99的 AUC 值,都说明:CAPP-seq 是一个相当好的检测肿瘤基因突变的方法。 在 Aaron 的文章当中,对肿瘤的体积与 CAPP-seq 方法检测到的突变的数量,也进行了分析。共9个病人进行了 CT 或者 PET-CT的检测。 来看肿瘤的体积大小,并同时做 CAPP-seq 的检测。检测的结果如果所示,肿瘤的体积,与每毫升血液中检测到的突变量数,呈现出十分明显的相关性。R^2值达到0.89,P值达到0.0002。 结论 文章的数据表明:针对游离 DNA 进行高深度的靶向DNA 测序,会是未来一个很有前景的肿瘤临床基因检测手段。 目前,国内的广州燃石公司、南京的世和公司等,都已推出了面向科研的ctDNA 深度测序服务。 预计不久的将来,这项服务就会进入临床,就能成有实用价值的临床肿瘤诊断服务。 |