近两年来,精准医学治疗肿瘤疾病的理念逐渐被人们认同和理解,在全球各国的一致支持下,肿瘤精准医学正呈现蓬勃发展的繁荣景象。 然而肿瘤疾病具有复杂多变和治疗困难等特点,想真正实现精准治疗的美好愿景并不容易。在近日的“医疗大数据应用与实践研讨会”上,志诺维思基因科技有限公司CEO兼首席科学家凌少平,就对肿瘤精准医学中的基因组大数据分析与应用的相关内容作了演讲报告。 凌少平直言,靶向测序指导下的有效治疗患者比例仅1.5%,这也是精准医学的痛点,是靶向测序指导下的靶向用药效率过低,受惠患者太少。也因此精准医学曾被误解为资本泡沫。而全基因组及多组学数据分析,可提高靶向治疗受益人群比例,同时可更好地指导免疫诊断及治疗。 国际肿瘤基因组学研究发展趋势 肿瘤基因组学研究的发展变化体现在采样、组学、时间尺度、数据分析和共享等五个方面:伴随基因表达、基因拷贝数变异(CNV)、单个碱基突变等科研发展,单细胞测序技术也越来越成熟。传统测序方法,是提取一堆细胞,对应的是一个样本及多个细胞,现在取样量上减少,但样本种类增加,即多取样,但单细胞采样;组学水平是从基因组、蛋白组到代谢组的水平发展,讲求数据整合;时间尺度来讲,肿瘤治疗后有很多时间点来检测,是实时动态的监测;从数据分析讲,将所有数据和临床信息库,知识库进行整合,以更准确地指导临床;数据分享方面是以2016年美国启动“抗癌登月计划”为标志,建立首个大型开放数据库,将美国国家癌症研究所最重要的多个癌症研究项目资料和数据进行整合。 国际肿瘤基因组协会(ICGC)项目实际上测了两万例的全基因组或全外显子组数据,还有很多表达芯片,甲基化芯片等数据。肿瘤基因组大数据分析包含几个阶段,从最初的数据分析、序列比对、突变探测到突变的重现性分析分类,及功能注释等过程。 目前国际上倾向于多组学的整合分析。从基因组、表达谱、蛋白及代谢组水平上再结合影像学,病理切片等数据进行整合分析: 还有一个趋势是泛肿瘤基因组分析,因为不同组织的肿瘤可能会有相同的分子遗传特征,所以可以把不同肿瘤“平铺”在一起进行分析,分别从肿瘤基因的突变、拷贝数、基因表达、DNA甲基化、miRNA、RPPA、临床数据等维度分别解析,以发现肿瘤共同特征。泛癌症研究在国际学术领域也属于大的研究分支。 肿瘤精准医学中的“一痛两难” 从现代精准医学的靶向用药来说,比如100个参加肿瘤检测的患者,其中30~50个患者能检测到肿瘤致病突变,3~13个患者能找到匹配药物,只有1~2个患者药物治疗后有效,所以靶向测序指导下的有效治疗患者比例仅1.5%,这也是精准医学的痛点,是靶向测序指导下的靶向用药效率过低,受惠患者太少。也因此精准医学曾被误解为资本泡沫,还引发不少争议。 肿瘤精准医学中的难点体现在肿瘤演化与肿瘤异质性方面。不论是肿瘤原发灶、转移灶还是肿瘤内部亚克隆之间、转移灶内部亚克隆之间,都存在很强的肿瘤异质性。异质性产生的原因与肿瘤演化动态相关,这是很多靶向药物在治疗后复发的原因,就是因为在肿瘤当中还存在着异质性亚克隆的结构,并没有被药物消灭。 第二个难点是临床数据与组学数据融合的困难。根据2013年Genetics in Medicine发表的综述,提到一项国际肿瘤基因组计划,从14000名病例中获取基因组数据中,但对应的很多关键临床信息是缺失的,比如肿瘤样本的纯度、复发的类型,病人生存年限、肿瘤分期,等重要数据都残缺不全,既然国际知名机构的计划组织者都无法匹配两者数据,可见临床数据和组学数据相融合还是难度不小。 造成困难的原因主要源于: 1、 基因组测序的数据大小和复杂性; 2、 缺乏临床和基因组数据的标准; 3、 HIS系统(电子病历)存储的数据精度达不到基因组数据的分析要求; 4、在解释基因组数据结果上存在很大不确定性; 上述文章建议,成功的基因组数据分析需要代入临床的电子病历数据,两者融合分析,这也是最新的发展方向。 肿瘤精准医疗三大趋势 解决上述的“一痛两难”,也就成为肿瘤精准医疗的三大发展目标或趋势: 趋势一:全基因组及多组学数据分析可提高靶向治疗受益人群比例,同时可更好地指导免疫诊断及治疗。 趋势一可理解为,全基因组测序具有区别于靶向测序和外显子测序的独特优势。全基因组测序能综合性分析癌症基因组特征,对各种基因组变异原因具有最高识别度,能获得增强子/启动子的单核苷酸序列和非编码RNA序列,而且全基因组测序成本在急剧地下降(如华大全基因测序3600元,而一个外显子测序也是3600到4600元); 靶向测序对局部的几个基因测序是比较深的,但实际上对整个人体变异的基因组解析是不够的,而且靶向测序也没有正常对照样本的序列测序,这样就很难界定复杂性偏差,也容易忽略突变在人的遗传和体细胞演化中的作用。 全外显子组测序也能探测一些未知的变异,但对于结构性变异无法探测,且有赖于外显子捕获技术,目前有推出全外显子组加全基因组测序的服务。据2015年PNAS上发表的一篇报告指出,全基因组测序比外显子组测序在发现外显子区域变异方面更强大。而且2016年11月有报道称,美国已经推出全基因组的临床检测,且出现首家保险公司(Independence Blue Cross)买单支持。 如何实现趋势一的目标,让更多人受益? 1、 通过结构聚类跨肿瘤查找新的同质化变异位点。在不同癌症类型中,通过蛋白结构发现新的功能性变异,比如靶向基因的位点原来只有300多个,通过聚类的方法找到300个位点同质化的另一些位点,新的位点可能在人群中出现的比例更高。 研究中,发现突变除了在局部的基因序列上有热点(Hotspots)之外,在蛋白结构和蛋白复合体上也会有热点,因为蛋白结构卷曲后,虽然基因组上位置相距遥远,但可能也是一种有意义的热点,这种热点可以帮助研究者做聚类,找到更多同质化的位点,来扩大靶向用药的区域范围。2016年Nature Genetics上发表的文章,指出找到了不同癌症在分子内和分子间聚类的特异性,所谓分子内是同一个蛋白结构上它有靠近的位置,分子间是指蛋白复合体,两个或三个蛋白之间在某些空间结构上聚在一起。 如TP53除了已知的热点外,还有一些散落的点,在基因上看上去“不热”,但在蛋白结构上聚类后,发现也是热点,对这些位点的基因进行分类,也能对照很多靶向药物,所以寻找变异位点,探索与药物的相互作用,能扩大用药人群,提高受惠人群比例。 2 、通过分析突变特征找到可用靶向药的更大人群。 根据突变人群找到更大的可用药人群:人体从胚胎发育成人,体细胞会积累大量突变,根据肿瘤的演化原理分为两种突变,受精卵发育成成体过程中产生的突变(过客突变),与肿瘤发育无关,而驱动突变是肿瘤发生的病因因素,能驱动正常细胞向增殖癌细胞转化。分析肿瘤的突变累计,会发现人类发育或生活习惯、环境因素都会影响肿瘤形成。 3、找到与免疫治疗效果相关的变异指导治疗,通过在全基因组水平搜索免疫治疗效果相关基因,能在不同的肿瘤中找到不少新抗原。 趋势二:肿瘤异质性在精准医疗的各个方面得以重视。 肿瘤异质性越发受到重视,正在影响精准医疗的各个方面: 1 肿瘤体细胞变异的克隆性被关注; 2 新型基于肿瘤异质性病理分析方法产生; 3 肿瘤新抗原的克隆性被发现影响免疫治疗效果; 4 肿瘤异质性正在影响临床试验开发。 趋势三:临床数据开始与多组学数据有效融合。 临床数据开始与多组学数据有效融合,以志诺维思研发的组学临床快速学习系统APPOLOTM为例,是基于人工智能的快速学习系统,能整合多组学数据,反馈分析结果,为医生提供临床决策和治疗建议。 肿瘤精准医学基因组 大数据应用的突破点 全基因组及多组学数据分析与应用中的瓶颈表现在全基因组分析算法的速度慢,精度低;基因组数据的人工智能和深度学习需要专业知识;需要构建用于数据解读的知识库;系统智能推荐治疗建议的环节薄弱; 肿瘤演化与异质性对目前精准医疗现状的挑战,体现在目前基于单个蜡块的取样有欠缺,需要多个样本的新鲜样品;某个局部样本的病理不代表全局,需要多样本分析,而且手术切除不能有效治疗,靶向用药效率低,随访和数据分析智能化不足; 多组学数据整合的瓶颈体现在需要专业背景,病例记录需要依据指南语法进行手工结构化,多组学数据和临床数据的两者融合需要临床与基因组信息专家共同制定讨论标准,数据访问共享及解读难,需要搭建互联网大数据平台实现数据分享和专家会诊。 演讲嘉宾介绍: 凌少平,志诺维思基因科技有限公司创始人兼首席科学家。博士期间师从知名华人进化遗传学家吴仲义院士。曾任中科院北京基因组研究所生物信息平台技术主管,计算肿瘤基因组学小组组长。 凌少平博士曾带队在2015年“国际肿瘤基因组分析金标准”大赛中夺得“点突变分项”冠军和“结构变异分项”亚军,击败包括美国加利福尼亚的Bina Technologies公司、哈佛-麻省理工的Broad研究所和欧洲分子生物学中心EMBL(The European Molecular Biology Laboratory)等诸多国际知名专业肿瘤基因组信息团队。 2015年5月,凌少平成立志诺维思公司,是一家运用基因组学、生物信息学、人工智能以及互联网技术为肿瘤精准医疗提供综合解决方案和大数据平台的高科技公司,主要突破肿瘤异质性难题,能精准定位药物靶点、实施肿瘤动态监测,为科研人员提供致病分子机制、肿瘤异质性结果报告,辅助临床决策。 2016年5月,志诺维思完成天使轮融资,投资方是真格基金和领势投资。
|