人们在吞咽的时候,颈部有个器官会随着吞咽动作上下活动,它就是甲状腺。西湖欧米有望实现临床转化的第一个项目,就是基于蛋白质标志物的甲状腺结节的良恶性诊断。 甲状腺很小,但它影响到五脏六腑。数据显示,每5个成年人中就可能有1人患有甲状腺结节。其中,约60%的甲状腺结节都是良性的。但有10%的结节是恶性的,剩下约30%难以判断,无论通过血液检测、B超、CT还是甲状腺组织穿刺活检,都难以辨别到底是良性还是恶性。很多人不得不选择手术切除——代价是终身服药补充甲状腺素,以维持体内的甲状腺激素在正常水平。国外有数据显示,切除甲状腺的患者中,70-80%都不用挨这一刀(即实际上为良性结节)。 科学家们曾经寄期望于基因检测解决这一难题。但经过十几年的尝试发现,基因诊断能够达到的特异性也仅在10%~50%左右,这主要是因为甲状腺结节恶性程度低等原因,基因水平上的改变并不频繁、也不明显。 作为一名蛋白质组学专家,郭天南选择从“蛋白质”入手破题。 一个人从出生到死亡,从健康到疾病,绝大多数情况下基因都是不变的。但蛋白质不一样。在不同健康状态下,人体内的蛋白质会发生变化。难点在于,这种变化非常细微,怎么才能检测到? 郭天南说:“在宏观世界里,我们辨识一个人是通过看他的脸部特征,但在分子水平我们是看不到的。所有的蛋白质,即使你能看到,因其复杂的结构也很难准确辨识。我们是通过测量它的重量,来鉴定这是一个什么样的蛋白质。给蛋白质称重的这杆‘秤’叫质谱仪,我们目前的质谱仪可以达到约小数点后30位(kg)的精度,当然这后面涉及到很多数学计算,包括多个物理、化学等过程。” 但即使做到这一步,结节的良恶性辨别依然很艰难,因为这样的差别是由质谱数据中众多因素的复杂关系所决定的,是一个模式识别问题。而这正是西湖大学人工智能领域专家李子青的擅长。 在李子青看来,从甲状腺结节质谱大数据中鉴别其良恶性,就像从一张图像中辨识 “两个”长像类似的人脸。研究团队采用了机器学习的方法,从原始质谱数据中选择出2622个有意义的候选特征蛋白质,并通过神经网络技术构建了一套适用于蛋白质组学数据的独特的算法,将2622个蛋白质组学数据输入了这个模型,进行了大约2*1019次运算,终于找出了能够帮助医生辨别患者结节良恶性的20个关键蛋白。用这套模型给这20个蛋白的总体情况打分(分值在0-1之间):当综合得分大于等于0.5,即为恶性结节;小于0.5,就是良性结节。临床试验显示,这种检测方法的综合准确率达到了89%。
作为一门新兴学科,蛋白质组学(proteomics)是继基因组学、转录组学后人类对生命活动奥秘探究的又一突破。人类的几乎所有生命活动都是由人体内的蛋白质执行的,疾病治疗的效果也取决于蛋白质机器的调控。未来蛋白质组学+AI技术的运用场景,远远不止于甲状腺结节。 比如我们可以用它来筛选治疗肿瘤的药物。电影《我不是药神》里面说到白血病中有一类叫慢性髓系白血病,几乎90%的这类患者都会出现一个特殊的融合蛋白BCR-ABL,科学家找到一个叫伊马替尼的药,可以有效抑制这个融合蛋白的功能,有效率可以达到90%以上。研究表明,每个肿瘤都可能有一个或多个这样的引起疾病的异常蛋白,并且还可能随着疾病的演进出现改变。这时如果能通过蛋白质组学+AI技术,实时找到当前疾病阶段的异常蛋白,就能实现“对症下药”。 在郭天南实验室这一科研成果转化的过程中,西湖大学成果转化办公室从技术保护、政策咨询、法务服务、融资建议、团队搭建等方面为企业深度赋能提供全程支持,加速推动了该项技术的产业化。相信随着分子医学、大数据技术和人工智能的快速发展,蛋白质组学在精准医疗领域将展示出越来越大的应用潜力。 |