微卫星不稳定性(Microsatellite Instability, MSI)是一种以重复DNA序列错配错误为特征的肿瘤基因型,MSI是错配修复缺陷(dMMR)的标志。在大约15%的结直肠癌(CRC)人群中发现,MSI在CRC的临床管理中起着至关重要的作用,具有主要的诊断、预后和治疗意义。许多医疗组织建议对所有新诊断的CRC进行MSI状态的普筛。
dMMR/MSI可以通过免疫组化(MMR-IHC)来检测MMR蛋白的缺失和/或通过分子测试,如MSI-PCR或NGS来诊断。MMR-IHC检测需要经验丰富的病理学家,并且需要消耗一定的组织。MSI-PCR检测需要特定的基础设施,并且通常需要较长的周转时间,这可能会延迟治疗决策,而NGS仍然过于昂贵,无法常规使用。随着生物标志物的数量在过去二十年中稳步增加,MMR-IHC和MSI-PCR检测为病理学家和技术人员带来了不断增加的工作量。在2019年的一项研究中,研究人员发现深度学习可以准确地从CRC的H&E玻片中检测到MSI。尽管最近取得了进展,但仍有几个问题比如模型泛化阻碍了基于人工智能的MSI预测工具在临床实践中的应用。
近日,一组来自法国和德国的研究团队在杂志Nature Communications上发表了一篇题为“Validation of MSIntuit as an AI-based pre-screening tool for MSI detection from colorectal cancer histology slides”的文章。在这项工作中,作者对600例CRC病例的大型外部队列进行了MSIntuit的盲临床验证。作者发现使用MSIntuit作为预筛查工具可以排除几乎一半的非MSI人群,从而简化了MSI筛查。MISIntuit包括自动切片质量检查,并解决了通过校准步骤定义操作阈值的问题,使其直接适用于临床实践。作者还通过研究MSIntuit扫描仪内和扫描仪间的可变性来解决临床常规使用的关键问题。 图片来源:Nature Communications
使用MSIntuit进行MSI筛查的临床工作流程(下图a)。MSIntuit是一种人工智能预筛查解决方案,可以通过使用原发切除的结直肠肿瘤的H&E切片,早期排除非MSI患者。MSItuit输出“MSS-AI”(不需要进一步测试)或“待定”(需要标准MSI测试)。通过排除很大一部分非MSI患者,病理学家的工作量减少,加快MSI筛查。
作者对600例CRC病例的大型外部队列进行了MSIntuit的盲临床验证(下图b)。收集了600例结直肠癌标本的H&E切片,并在Phillips UFS和Ventana DP200两台扫描仪上进行数字化处理,得到两组切片:MPATH-UFS和MPATH-DP200(步骤1)。自动质量检查,丢弃不符合标准的切片。重新扫描具有较大模糊区域的切片(步骤2)。接下来,随机选择30个dMMR/MSI WSI用于定义适当的阈值(步骤3)。最后,使用上述步骤中定义的阈值对剩余的载玻片进行MSIntuit预测,将患者分为两类:MSS-Al和Undetermined(步骤4)。
临床工作流程和盲法验证方法。 图片来源:Nature Communications
质量检查和校准作为临床准备的基于人工智能的工具的初步步骤 首先对MPATH-DP200和MPATH-UFS组进行快速自动质量检查(QC),以剔除不符合工具的切片,而无需人工检查。结果,3%的MPATH-DP200切片和2%的MPATH-UFS切片被重新扫描。QC的第二步识别出肿瘤组织过少(<6 mm2)的载玻片:在MPATH-DP200和MPATH-UFS队列中,分别有5%和2%的载玻片被丢弃。作为预处理的结果,MPATH-DP200和MPATH-UFS队列分别有n = 537 (MSI: 83)和n = 554 (MSI: 86)片。
病理学中的深度学习系统需要一个阈值来将连续的预测值转换为可操作的类别。为了解决可能影响深度学习模型预测分布的数据采集协议的变化问题,作者使用了一种校准策略,以确保获得0.93到0.97之间的灵敏度,使MSIntuit达到了高灵敏度,而不牺牲MSIntuit的特异性。在MPATH-UFS数据集上选择了0.20045的阈值,在MPATH-DP200数据集上选择了0.20202的阈值。两个阈值的相似性表明,扫描仪之间的差异并没有对MSIntuit预测产生有意义的影响。
在模型开发过程中,作者发现在数百万个组织学tile上使用SSL预训练的特征提取器可以提高性能。为了说明这一点,作者将这种方法与其他两种特征提取方法进行了比较。第一种方法包括使用在ImageNet数据集上预训练的提取器,而第二种方法包括使用在100,000张结直肠癌图像上预训练的提取器来识别9种组织类别。结果显示,MSIntuit的方法在PAIP、MPATH-DP200和MPATH-UFS上的表现比其他方法高出8个以上的AUROC点。
在QC和校准之后,从组织学切片中预测MSI状态,在MPATH-DP200队列中,其灵敏度为0.98,NPV为0.99,特异性为0.46;在MPATH-UFS队列中,敏感性为0.96,NPV为0.98,特异性为0.47(下表1,2)。因此,在两个队列中,MSIntuit能够正确识别大多数MSI患者,同时排除了几乎一半的非MSI人群。这表明了校准方法的稳健性。
MSIntuit在MPATH-DP200和MPATH-UFS队列上的混淆矩阵。 图片来源:Nature Communications
MSIntuit在两台扫描仪上达到了很好的一致性,并且在同切片的多次扫描中重复性好 通过比较在MPATH-DP200和MPATH-UFS队列上获得的结果来评估数字化对MSIntuit的影响。作者首先比较了两台扫描仪上相同切片上获得的结果,发现模型性能非常接近,AUROC同为0.88(图a),且预测相关性非常强,Pearson 's R为0.98 (图b)。
30张幻灯片的预测分布,每张幻灯片用UFS扫描仪数字化8次,该工具在同一幻灯片的不同数字化之间几乎完全一致(图c)。MSIntuit对每个112x112uM tile输出一个分数(表示tile属于MSI切片的可能性),进一步评估了模型在这个更精细的级别上对扫描仪的鲁棒性(图d)。随机抽样了20张切片中的272,527张tile,两台扫描仪具有非常强的相关性,Pearson 's R为0.92 (图e)。
MSIntuit对不同扫描仪的鲁棒性。 图片来源:Nature Communications
作者通过对MPATH-DP200队列中200个肿瘤的1到4个不同切片进行数字化处理,进一步探索了MSIntuit工具在肿瘤的不同区域预测的一致性。非MSI和MSI患者对同一肿瘤不同切片预测的平均差异都很低,均方根差分别为0.04和0.07(图b),表明MSIntuit预测评分在肿瘤块之间是一致的。作者还评估了应该选择肿瘤的哪张切片以最大化MSIntuit性能,发现选择黏蛋白最低和肿瘤量最大的切片可显著提高特异性(图c)。
切片选择对MSIntuit的影响。 图片来源:Nature Communications
MSIntuit模型的可解释性以及与临床病理MSI评分系统的比较 MSIntuit为每个tile输出一个分数,从而能够通过算法找到感兴趣的区域。五位病理学家回顾了400个最能预测MSI和非MSI状态的tile。结果发现,预测MSI的tile与炎症(MSI: 50%,非MSI: 13%)和粘蛋白(MSI: 28%,非MSI: 6%)相关。预测非MSI的tile与正常腺体相关(MSI: 4%,非MSI: 26%)(图a)。
作者进一步比较了MSIntuit与MSPath的表现,MSPath是一个评分系统,包括临床和病理变量(诊断时的年龄、解剖部位、组织学类型、分级、克罗恩样反应的存在、肿瘤浸润淋巴细胞的存在)。MPATH-DP200队列的202例患者子集中,MSIntuit的AUROC为0.88 (MSPath: 0.75,图c),优于MSPath。两种算法的灵敏度均达到0.97,但MSIntuit的特异性为0.45 (MSPath为0.40)。这表明,MSIntuit为使用已知与MSI相关的临床和病理特征的评分系统带来了额外的信息。
MSIntuit模型的可解释性以及与临床病理MSI评分系统的比较。 图片来源:Nature Communications
在这项研究中,作者报道了MSIntuit的开发和盲验证。在对来自癌症基因组图谱(TCGA)的样本进行训练后,对600名CRC患者的独立数据集进行盲验证。通过使用两台不同的扫描仪对每张幻灯片进行数字化,研究了扫描仪间的可靠性。作为预筛查工具,MSIntuit的灵敏度为0.96-0.98,特异性为0.47-0.46,扫描仪间一致性极佳。通过达到与金标准方法相当的高灵敏度,MSIntuit可以排除几乎一半的非MSI人群,同时正确分类超过96%的dMMR/MSI患者,与目前的金标准方法(92-95%)相当。这表明MSIntuit可以有效地作为临床实践中减轻MSI检测负担的预筛查工具。
该研究的主要优势在于,该模型在9个不同病理实验室诊断的600例CRC病例中进行了盲验证,从而降低了选择偏倚的风险。最重要的是,预测和性能评估程序是预先指定的,验证以一次性方式进行,以避免过度拟合的风险。最后,使用MSI- PCR来确认可疑的MMR-IHC病例,以确保dMMR/MSI标签的准确性。
研究也有一些局限性。MSIntuit仅在手术标本的切片上开发和验证。新辅助免疫治疗可能成为MSI表型CRC患者的标准治疗,从而使活检的dMMR/MSI诊断普遍存在。尽管表明MSIntuit也可以用于活组织检查,但必须对这些标本进行进一步验证以证实这一假设。最后,MSIntuit校准需要30 MSI切片,这在小型中心很难获得。尽管许多医疗设备常规使用,但校准可能会阻碍此类工具的临床部署。需要开展进一步的工作,以确保人工智能模型不受各中心数据采集变化的影响。
|