早期复发(原发肿瘤在诊断后三年内复发)是乳腺癌临床治疗的一个重要终点。临床风险分层目前基于几个临床特征,包括激素受体、HER2状态、分级、分期和年龄,以及基于RNA的方法。基因组分析很昂贵,因此基于组织病理学的分层很有吸引力。目前,只有乳腺癌组织学分级——根据腺管形成、核多形性和有丝分裂频率对乳腺肿瘤进行分类的指标——是临床常规从H&E图像中收集的。分级评估是手动进行的,并受到观察者之间的差异。一种客观的、基于图像的方法对复发风险较高的患者进行预筛查可能会很有价值。 计算机视觉领域最近的工作广泛探索了使用深度卷积神经网络(CNN)从各种图像类型中提取全局信息,现已扩展到医学图像,包括放射学和组织病理学图像。 近日,一组来自于美国北卡罗来纳大学教堂山分校的研究团队在杂志 npj Breast Cancer上发表了一篇题为“Predicting early breast cancer recurrence from histopathological images in the Carolina Breast Cancer Study”的文章。文章中,作者试图研究使用CNN (VGG1623,在ImageNet上预训练的CNN)提取的图像信息与支持向量机(SVM)一起创建基于图像的分类,以预测乳腺癌患者的复发。作者通过比较患者样本之间和内部的验证准确性,并将结果与已建立的生物标志物进行比较,评估了可重复性、个体间和个体内差异。 图片来源:npj Breast Cancer 主要内容 研究人群 卡罗来纳乳腺癌研究(CBCS3)是一项基于人群的前瞻性队列研究,研究对象为2008年至2013年间从北卡罗来纳州44个县招募的2998名发生侵袭性乳腺癌的女性。1743名参加研究的女性获得了其肿瘤块,并由病理学家选择了肿瘤富集区域取样1到4个1毫米的肿瘤核心,并收入组织微阵列(TMA)中。作者最终纳入了1644个患者,其中有n=101例早期复发的患者,占纳入人数的7%。 为了构建复发和非复发病例的平衡数据集,作者将复发病例与非复发参与者按年龄1:1匹配。因此在平衡数据集中,202名参与者对应于704张约3000x3000像素的H&E肿瘤核心图像,每个参与者都有2到4张1毫米肿瘤核心。其中有101名复发,101例非复发患者(年龄和随访时间相匹配)。 CBCS3是一个注释良好的图像数据集,用于跟踪医疗记录确认复发的不同妇女群体(50%为黑人,50%为50岁以下)。下表1显示了研究人群,并表明匹配的数据集(n = 101)相对于TMA上的完整群体具有相似的分布。然而,相对于整个CBCS, TMA上包括的CBCS病例子集倾向于包括更大的肿瘤和更高级别的肿瘤。相对于经历过早期复发的参与者,没有早期复发的年龄匹配的参与者更有可能是早期(未复发 vs 早期复发;1期52.5% vs 10.9%)、1级或2级(58.4% vs 26.7%)和ER阳性(76.2% vs 43.6%)。 研究人群和匹配的训练样本的人口学和临床肿瘤特征。 图片来源:npj Breast Cancer 模型预测精度 作者纳入了704张1毫米肿瘤核心(tumor core)的H&E图像的数据集(每例2-4个肿瘤核心),利用深度学习来提取图像信息,并训练模型。 作者评估了确诊三年内识别出复发的准确性(下表2)。在Cross-patients10倍交叉验证中,准确率为62.4%,敏感性为63.4%。使用within-patients方法验证(患者的一半肿瘤核心作为训练集,一半核心作为验证集),准确率为70.3%,敏感性为67.7%。在这两种方法中,敏感性和特异性都很好地平衡,within-patients方法特异性(72.9%)略高于敏感性(67.7%),Cross-patients敏感性(63.4%)略高于特异性(61.4%)。 为了研究临床低或高危肿瘤的复发预测准确性,作者进一步将准确度评估按分级(低/中级vs高)进行分层。结果显示,无论是within-patients方法方法(低级别vs高级别的77.1% vs 65.2%)还是Cross-patients验证方法(61.6% vs 53.4%),低/中级组的准确度高于高级别。低/中级别肿瘤的敏感性较低,而高级别肿瘤的特异性较低。然而,两种基于图像的方法在低/中级组的敏感性都超过了ER状态(患者内70.4%,Cross-patients48.1%,ER状态22.2%)。 基于图像分类与其他肿瘤特征(ER,分级)复发预测准确率的比较。 图片来源:npj Breast Cancer 时间-事件分析 为了考虑到事件发生的时间,作者基于Kaplan-Meier分析(如下图)评估了within-patients方法和Cross-patients之间的复发时间预测因子。基于图像的within-patients方法(HR 2.70)的复发风险略高于交叉验证方法(HR 1.73),但两者均与复发时间显著相关。 累积复发率Kaplan-Meier图。 图片来源:npj Breast Cancer 与基因组分析的比较 当将基于图像的分类与代表复发风险的分子指标(PAM50 ROR-PT和OncotypeDX评分)进行比较时,对于那些肿瘤也被ROR-PT或OncotypeDX分类为高风险的个体,基于图像的“高风险”类别也被富集(下表3)。Cross-patients方法导至基于图像的高风险类别中分子高风险个体的比例最高[OncotypeDX RFD: 15.0%, ROR-PT RFD:21.5%],但within-patients方法产生的高风险类别仍然与高危分子特征有很大关系[OncotypeDX RFD: 11.7%, ROR-PT RFD: 17.4%]。 基于RNA的复发风险分类器的相对频率差异(RFD)。 图片来源:npj Breast Cancer 总结与讨论 作者应用卷积神经网络来检测早期复发。结果显示基于图像的特征预测生存率的准确性、敏感性和特异性与ER状态和分级等标准临床标志物相当。基于图像的分类器的性能特征在分级内部是不同的,这表明未来的优化应该考虑在不同分级分层单独训练。然而,这些基于图像的分类器预测复发具有显著的风险比,并与基于风险的基因组特征相关。因此肿瘤的快速、低成本预筛查有望实现。 随着新辅助治疗的乳腺癌病例比例的增加,由于用于诊断的组织仅限于活检材料,基于图像的预筛查的重要性也可能越来越重要。基于图像的方法使用用于诊断的相同数据并且不需要任何额外的实验室步骤也是有利的。此分析使用了一个很小的图像数据集进行训练,未来更大规模的研究和更多的图像可能会进一步提高准确性。 在within-patients方法训练时,更高的灵敏度表明训练中图像的某些相似性在测试中得到了利用,这意味着来自患者的重复图像样本具有一些 “可识别性”。这种可识别性是否具有临床意义值得进一步研究。如果肿瘤在组织学水平上是相似的个体,机器学习可以用来评估肿瘤的组织学差异。如果要将组织学生物标志物用于风险预测,那么在给定肿瘤样本中建立分类的可重复性是一个重要的未来方向。 |