癌症是全球主要死因之一,癌症的早期筛查可以提高生存率,并使患者免于因诊断晚而进行密集和昂贵的治疗。然而,现有筛查方法(如结肠镜、低剂量CT)存在侵入性高、成本昂贵、依从性低等问题。可在健康人群中进行初步的风险分层步骤,以确定筛查方法和频率,主要是通过针对最受益的个体进行筛查来优化资源分配。最近也提出了更方便的风险评估方法,比如四标记蛋白panel(4MP),Pro-SFTPB,CA-125,CEA和CYFRA 21-1,已与PLCOm2012多风险预测模型(评估年龄、吸烟史、种族、体重指数、教育程度、家族史等)联合用于预测肺癌风险。然而,常规血液检测不包含所需的生物标志物,这对该检测的临床应用提出了挑战。 近日,杂志scientific reports上发表了一篇题为“Deep learning-based identification of patients at increased risk of cancer using routine laboratory markers”的文章。作者通过训练深度学习模型deep Profiler来解决上述挑战,该模型采用CBC和综合代谢组(CMP)中包含的年龄、性别和通常获得的血液生物标志物,并输出患者在接下来的12个月内患癌症的可能性比。作者证明了简单、广泛可用的血液检查的组合,如全血细胞计数和完全代谢组,可以潜在地用于识别具有结肠癌、肝癌和肺癌风险的患者,ROC曲线下的面积分别为0.76、0.85和0.78。这种方法不仅可以用作个人的预筛查风险评估,还可以用作人群健康管理工具。 图片来源:scientific reports 工作流程概述 作者训练了一个名为Deep Profiler的深度学习模型,该模型以患者的年龄、性别,以及血常规(CBC)和综合代谢panel(CMP)中常规检测的血液生物标志物作为输入,输出患者在接下来12个月内罹患癌症的似然比(Likelihood Ratio)(见下图)。Deep Profiler的架构采用VAE (variational autoencoder)模型,从共享的编码潜空间训练特定癌症风险预测模型,并计算每位患者的似然比。最终,作者通过对结直肠癌、肝癌和肺癌的筛查相关队列的研究,验证了此方法的有效性。用于模型开发的队列包括近10,000名未诊断出癌症的患者,以及293名、626名和683名患结直肠癌、肝癌或肺癌的患者;而验证队列分别包括近5000名未诊断出癌症的患者,以及94名、189名和224名患结直肠癌、肝癌或肺癌的患者。 使用基于生物标志物的预筛选测试的工作流程。 图片来源:scientific reports Deep Profiler 预估三种癌症类型的癌症风险 作者训练Deep Profiler来预估三种癌症类型的癌症风险:结直肠癌、肝癌和肺癌。给定生物标志物值,该模型为每种癌症类型输出一系列风险评分,计算似然比(LR)。下图显示了结直肠癌、肝癌和肺癌风险阈值增加时的LRs以及受试者工作特征(ROC)曲线。以总超参考范围(OoR)标记物为指标的模型,癌症的可能性随着总OoR标记物的增加而增加。然而,与Deep Profiler模型相比,增幅明显较低。以年龄作为单一指标的LR曲线相比,Deep Profiler提供的LR的增加幅度也要高得多。 总体而言,与CRC和肺癌Deep Profiler模型相比,肝脏特异性Deep Profiler模型表现明显更好。在CRC验证队列中,模型的AUC为0.78,对于肝癌和肺癌验证队列,74岁以下患者的AUC分别为0.85和0.81。 对三种癌症队列进行定量性能评估。 图片来源:scientific reports 癌症类型的相关生物标志物 为了深入了解对LR影响最大的实验室标志物,作者进行了SHAP分析,列出了对结直肠癌、肝癌和肺癌模型LR影响最大的前15个实验室标志物。 3个标志物(年龄、白蛋白和红细胞压积)在所有癌症类型中是共享的,其中年龄在3种癌症类型中均为前五最关键标志物。在任何两种癌症类型中至少有7个标记是共享的。一种(中性粒细胞),三种(总蛋白,白细胞和嗜碱性粒细胞(%))和三种(尿素氮-肌酐比率,钙和ALT)标志物分别仅在结直肠癌,肝癌和肺癌中最重要。 SHAP显示了15种对LR影响最大的标志物的贡献。 图片来源:scientific reports 模型在患有合并症的患者亚组上 显示出了识别高危患者的附加价值 对于每个癌症队列,作者使用phecodes来识别在癌症诊断之前存在的合并症。结果发现,在结直肠癌队列中,诊断前的三大显著合并症是肠道紊乱、结肠的良性肿瘤以及直肠和肛门出血。当使用粪便中有血的患者亚组作为替代,与基础患病率相比,LR增加了三倍以上,风险阈值大于0.8(下图a)。此外,在有直肠、肛门或胃肠道出血等情况的患者亚组中也有附加价值。对于肺癌,当模型在烟草成瘾患者亚组中时,模型显示了识别高危患者的附加价值,与基础患病率相比,LR增加了50%以上,风险阈值大于0.9(下图C)。 模型在患有合并症的患者亚组上的似然比。 图片来源:scientific reports 总结与讨论 作者报告了三种癌症类型基于常规实验室标志物的风险预测模型的开发和评估。在本文中,作者开发了一种基于血液标志物的风险分层方法,该方法可用于识别癌症风险升高的患者,以进一步进行诊断测试或参与筛查计划。作者证明了简单的血液检查的组合,如全血细胞计数和完全代谢组,可以潜在地用于识别具有结肠癌、肝癌和肺癌风险的患者,ROC曲线下的面积分别为0.76、0.85和0.78。这种方法不仅可以用作个人的预筛查风险评估,还可以用作人群健康管理工具,例如更好地询问某些亚人群的癌症风险。 |