癌症中的遗传变异始终是肿瘤研究的热点。通过对各种癌症的综合分析,我们可以得到大量分子生物学信息,包括DNA拷贝数目变动、转录和表达水平差异等。这些差异最终都指向各种信号转导通路的异常,导致相应细胞功能改变。我们可以利用从病人标本中得到的基因组信息,将患有某一类癌症的病人进一步细分为各个亚型,从而给他们制定个体化的治疗方案和长期监测计划。要利用好这海量的信息,我们必须具备多学科的专业知识,例如生物、医学、数学、统计学、生物信息学等——这是多么的令人抓狂。这篇综述为大家总结了目前被广泛运用的各种综合基因组分析的工具,以便读者在做癌症基因分析时选择合适的工具。
综述简介 达芬奇的绘画集《Studies of the Human Body and Principles of Anatomy》开启了医学的文艺复兴,医学从此进入解剖和病理纪元。任何疾病的产生和发展都有其解剖和病理上的相关性。人类从这个层面上来认识和理解形形色色的疾病,推动了我们对结构影响功能的认知。如今我们早已迈入了信息时代,实验技术的革新使我们可以获得大量的一手的分子信息,在无形中左右着各项细胞生物学进程。于是具备极高学科综合性的“系统生物学(system biology)”应运而生,引领我们通过分子现象来认识疾病。
任何癌症都涉及遗传信息的改变,包括生殖细胞和(或)体细胞改变。如果我们可以完整解读一个病人的可遗传的癌症基因和获得性的突变,那么我们就可以评估肿瘤的侵袭性,制定最佳的治疗方案。
图1 乳腺癌的系统生物学 以乳腺癌为例(图1),我们首先可以通过传统的病史、化验、活检、影像等手段诊断疾病,获取第一手的临床数据,判断肿瘤的良恶性。我们或许可以在这一步就从单一层面对乳腺癌进行分型。接着,我们进一步检测肿瘤组织的DNA、mRNA、miRNA和蛋白表达,在病理、基因组学、转录组学、蛋白组学和代谢组学几个水平上分别进行分类。最后,到了综合基因组学分析的节段,我们将前面所有的信息进行综合和归纳,提取有效的信息,预测患者对药物的敏感性、耐受性和可能的不良反应,从而为患者私人定制合理的治疗方案。如此,可以大大提高患者的生活质量,提高生存率。
我们如何从多个维度利用信息? 举个例子,人类目前被发现的基因有25606个,在癌症的体细胞突变数据库(COSMIC)中,我们可以找到从大约95万份样本中分析出的多于150万种基因突变。世界上有许许多多的协会砸下重金,立志将这些突变进行汇总。国际癌症基因组协作会(ICGC)、癌症基因图谱(TCGA)、癌症基因组计划等为大家搭建了一个开放的平台,让我们可以在公共数据库的浩瀚信息海洋中进行各类“组学(omics)”的研究。Achilles Project致力于通过对各种癌症细胞系的基础研究结果的荟萃分析,找寻易感基因。DNA元素大百科(ENCyclopedia Of DNA Elements, ENCODE)可用于查询人类基因组中的结构和调控单位。大名鼎鼎的全基因组关联研究(GWAS)为癌症易感性基因找到了大量的潜在突变位点,只不过找归找,究竟这些位点起了什么作用,GWAS一概不管。
我们已经发现了许多的标志物可以帮助我们判断疾病的良恶性、肿瘤的侵袭性、患者对于所接受的治疗的反应性和预后,这些标志物涵盖了DNA、mRNA、miRNA和蛋白各水平。传统的做法是临床医生读取报告,凭借自己的经验做出判断。而现在我们要求将各个指标量化,并且通过一个合理的算法,让计算机给出答案。然而,许多研究证据的可靠性太弱,导致我们真正依赖计算机给出个体化医疗还无法实现。在这一方面,有许多数据库可以用来参考,比如说the GeneSapiens database、Search-BasedExploration of Expression Compendium (SEEK)、Oncomine等。这些数据库为我们提供了较为可靠的分子标签(molecular signiture)信息,以便我们做出参考。综合各个数据库的搜索结果,找寻一致性和相关性,我们总能得出较为可靠的意见。
为了对我们得到的数据进行综合分析,我们还需要平台来存储和计算。科学家们已经建立了一些交换数据、算法和数学模型的平台,为癌症的基因组学分析提供了相当大的便利。
基因组分析应用于临床 继续以乳腺癌为例,作者运用各种归类方法将乳腺癌进行亚临床分类。由简单的非监督分类法,到复杂的综合集聚法,数据已不再是单纯的柱状图可以提现的了,人们用上了热图(heatmap),甚至集群之间的关系也用集群表示,各种复杂的关系早已超出了人脑可以容纳的极限。只要计算机的性能够好,计算的维度还可以一直增加。
图2 用PARADIGM算法将乳腺癌分类
图3 用集群归类发将乳腺癌分类 总结 随着费用的降低,DNA测序技术已经变得越来越亲民。而在临床医疗诊断上,基因数据使用却相当滞后。自人类基因组计划宣告完成以来已有十几年,却只有不到60种的遗传变异被认为可用于临床。 安吉丽娜朱莉预防性地切除乳腺的事迹大家都知道,她因为被测出有BRCA1的突变而提前知道自己有87%的可能性患上乳腺癌,于是在医生的指导下做出了正确的选择。EGFR基因(表皮生长因子受体)的突变能够很好地预测易瑞沙和特罗凯的治疗效果,为肿瘤用药提供指导依据。但EGFR测试商业化5年后,仅有6%的美国病人做检测,部分原因是一些医生们不知道有这种测试。
综合基因组分析虽然十分前沿,但是离真正应用于临床还有相当长的距离。首先,增加分析的维度,虽然可以使结果更加全面,但是引入的不确定性和冗余数据也使可靠性大打折扣。其次,信息井喷,我们用计算机分析出的突变数量爆炸式地增加,基础研究的脚步却大大滞后,有太多的基因突变引起的功能变化没有被解读,甚至永远被遗忘。
4月23日《Nature》发布一篇关于医疗基因组学的评论,作者Geoffrey Ginsburg认为:“遗传变异如何引导成功的癌症管理方案?这类研究必将成为常规医疗实践和记录的一部分。”虽然现实还不明朗,但是我们有理由相信,综合基因组学必将开启癌症管理的“私人定制”时代。
|