文章内容整理自中南大学生物医学工程系 喻罡 教授的专题讲座 病理诊断指通过手术切除、内镜活检、细针穿刺等方式获取人体组织或细胞,借助显微镜等工具对样本进行一系列处理和观察,研究疾病病因、发病机制、形态结构、功能和代谢等方面的改变,揭示疾病的发生发展规律,从而阐明疾病本质的医学科学,病理诊断是绝大部分疾病,尤其是肿瘤疾病的诊断“金标准”,因此病理诊断水平很大程度上决定了一个医疗机构的医疗质量水平。 近年来,随着人工智能的高速发展,其在病理诊断上的研发和应用日益广泛。但时至今日人工智能在诊断病理学上的应用尚属研发的早期和探索阶段,目前已有一些科研成果,但是多数没有得到大面积推广和利用,缺乏在应用中不断优化和完善的良性循环。 病理人工智能的主要研究进展 当前的病理人工智能主要基于有监督学习,然而有监督学习依赖于海量的标注数据,这严重制约了人工智能系统的开发和落地。针对当前病理人工智能遇到的瓶颈问题,中南大学基础医学院和湘雅医院合作的科研团队首次应用半监督学习方法建立了专家级的肠癌识别模型,对来自13个独立医学中心的8803个病人的13111张肠道组织样本的病理全片图像,进行了广泛的评估和测试。 技术路线图 实验证明,当少量标注图像时,半监督学习的肠癌模型明显优于相同标注数量的有监督学习模型。采用10%标注数据训练的半监督模型,与海量数据训练的有监督模型无显著性差异。在15,000肺癌和294,912淋巴瘤的扩展实验中,进一步证实半监督模型能够取得和海量标注数据训练的有监督模型的相似性能。通过多中心研究,证实半监督学习可以实现专家级的病理人工智能系统。由于半监督学习降低了对标注数据的依赖,因此在高效构建病理人工智能系统的实践中,具有极大的潜力和应用前景。 第二个新进展是解决不明癌症原发灶的问题。来自哈佛大学的研究人员通过训练一个卷积神经网络(CNN)模型,研究者仅依靠读取患者的病理切片,便能实现对原发灶不明癌症的溯源。 通过学习大量患者的苏木精伊红染色(H&E)病理切片,以弱监督的方式训练出一个CNN模型(命名为TOAD)。在读取一张病理切片后,TOAD能够对人体的18种组织进行预测打分,通过对预测分数进行排序,以找到癌症最可能的组织来源。 病理切片及CNN网络模型示意图 从公共数据库和百翰妇女医院中收集了来自29107名患者的32537张H&E染色切片,分别标记为18种原发癌源。按照70%,10%,20%的比例划分为训练,验证和测试数据。 通过反复的训练和优化模型,TOAD在测试数据中的Top-1准确率为83.4%,Top-3准确率为95.5%,而Top-5准确率已经能够达到98.1%。 此外,英国利兹大学圣詹姆斯医学研究所、德国国家肿瘤疾病中心的住院医师团队发表在Nature Medicine的研究成果表明,使用群体学习(SL)训练的人工智能(AI)模型可以直接从结直肠癌H&E染色的病理切片上预测BRAF突变状态和微卫星不稳定性。 深度学习和SL工作流程示意图 研究者开发了一种具有SL能力的AI pipeline,用于基于组织病理学图像对实体瘤进行分子分类。研究人员收集了三个用于训练的大型数据集:Epi700(661名来自北爱尔兰的患者)、DACHS(2448名来自德国西南部的患者)和TCGA(632名患者)。每个数据集都存储在物理上独立的计算服务器中。然后,分析流程直接从CRC组织病理学整张幻灯片图像(WSI)上预测遗传改变,在外部数据中测试所有模型。 该方法可以应用于计算病理学中的其他图像分类任务。SL使研究人员能够使用小型数据集来训练AI模型;在许多小数据集上共同训练模型相当于在单个大数据集上训练模型。这也降低了硬件要求,有可能使SL成为低收入和中等收入国家研究人员的选择。 病理人工智能的发展瓶颈 尽管人工智能在病理学中取得优异成果,但在深度机器学习临床运用之前,以下问题仍需解决。 标准化和规范化 数字病理中全片图像的成功适配,很大程度上取决于准备高质量病理切片的每一步,包括包埋、切割、染色、扫描。切割时组织切片的折叠,覆盖切片时染色变化和气泡的存在,扫描时亮度、强度的差异,平均颜色和边界强度的不同设置都可能导至原始数据不可靠,而产生不准确的结果。 在计算病理学中的作用 计算病理学不仅在医学研究中很重要,而且在临床实践中也不可或缺。为了实现这一目标,需要不同领域的专家参与到计算病理项目中去,包括数据科学家,如用于算法设计和架构的统计学家和生物信息学家,物理环境建设和硬件维护的工程师。其中,病理学家在向开发团队介绍医学问题和临床应用以及在下游行业发展方面发挥着关键作用。 在计算病理学中,病理学家不仅需要扎实的临床知识和经验,还需要统计分析和数据挖掘的能力,以弥合临床医学和人工智能之间的鸿沟,以便突然发生疾病或发现新的生物标志物时,病理学家可以快速反应,亦或是创建一个新的算法或优化现有的算法,以协助临床医生。此外,有着计算思维的病理学家能够了解数据分析过程中的潜在问题,因而可以清楚地解决临床问题。 硬件局限 计算病理学应用的准确性在很大程度上依赖于大量的数据、可靠的硬件软件以及网络环境的支持。大的图像文件(每次扫描大约3 GB)需要大量的存储空间,并具备本地和云备份能力。此外,机器深度学习解决方案,特别是应用于病理图像分析时,严重依赖于图形处理单元(GPU,计算机图形卡上的一个芯片,用于快速操作图形和处理图像)。强大的GPU可以与CPU结合能够使性能显著提升,以提高计算能力并减少周转时间。 医疗领域的技术创新发展迅速,如智能健康跟踪器、医疗实践中的诊断算法,已融入到我们的日常生活中。随着人工智能病理学的快速发展,相关技术和应用越来越多地涉及肺、肾、胃肠、神经、妇科等多个分支学科。 日益增长的医学数据,包括基因组学、蛋白质组学、信息学和全片图像,有望整合为一个数据丰富的病理学,并加速人工智能辅助病理学的发展和繁荣。尽管目前仍存在许多挑战,但借助人工智能病理学技术和统计算法的部署,人工智能病理学将继续改善临床工作流程,改善病理医生和患者护理团队其他成员之间的协作。网络环境基础设施的改善、计算能力的增强和信息的广泛整合,为人工智能病理学和协同数据模式开辟了新的视野,使云计算的中心实验室和数据库尽可能以更低的成本为患者提供更好的护理。 |