立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 专栏文章 动力彩虹 查看内容

Nature子刊!深度学习面临的几大问题与解决方案

2022-5-5 14:45| 编辑: 归去来兮| 查看: 1471| 评论: 0|来源: 小桔灯网 | 作者:动力彩虹

摘要: 本研究的目的是批判性地评估研究方法和报告标准的潜在问题。


医学成像在肿瘤检测中起着至关重要的作用,尤其是在逐步数字化的癌症护理服务中。深度学习(DL)作为人工智能(AI)的一个子集,可以应用于医学成像,并在自动检测方面显示出良好的前景。美国食品和药物管理局(FDA)已经批准了一些基于DL的诊断工具用于临床实践,进一步的批判性评估和独立质量评估仍在等待中。


近日,来自中国北京和英国的一个研究团队在nature子刊npj Digital Medicine上发表了一篇题为“Deep learning in image-based breast and cervical cancer detection: a systematic review and meta-analysis”的文章,在文章中,研究团队进行了meta分析,以评估深度学习(DL)算法在早期乳腺癌和宫颈癌识别中的诊断性能。研究团队对20项研究进行了meta分析,综合敏感性为88%(95%可信区间85-90%),特异性为84%(79-87%),AUC为0.92(0.90-0.94)。因此,DL算法可用于使用医学成像检测乳腺癌和宫颈癌,其性能与人类临床医生相当。然而,由于研究设计和报告有瑕疵,这可能会导至偏见和高估算法性能。研究团队提出了几点提高DL研究质量的急需解决的问题,包括需要围绕研究方法和报告制定循证标准化指南,并强调了在实际临床环境中对DL性能进行严格可靠评估的必要性,以及DL算法的可推广性。


图片来源:npj Digital Medicine


主要内容

研究选择和特点

研究团队根据预定的纳入标准纳入了35篇研究进行分析。其中25篇关注乳腺癌,10篇关注宫颈癌。其中33项研究使用了回顾性数据。只有两项研究使用了前瞻性数据。两项研究也使用了来自开放获取来源的数据。8项研究排除了低质量的图像,而27项研究没有报告任何与图像质量有关的内容。11项研究使用样本外数据集进行外部验证,而其他研究使用样本内数据集进行内部验证。12项研究将DL算法与使用相同数据集的人类临床医生进行了比较。此外,医学影像学检查分为细胞学检查(n=4)、阴道镜检查(n=4)、宫颈造影(n=1)、显微内窥镜检查(n=1)、乳房X线检查(n=12)、超声检查(n=11)和MRI检查(n=2)。


DL算法的混合性能

在该样本中的35项研究中,有20项提供了足够的数据来创建用于计算诊断性能的列联表,因此被纳入meta分析阶段的综合。当对所有研究进行平均时,所有DL算法的合并敏感性和特异性分别为88%(95%可信区间85-90)和84%(95%可信区间79-87),AUC为0.92(95%可信区间0.90-0.94)。大多数研究使用不止一种DL算法来报告诊断性能,因此我们在20个列联表中报告了不同DL算法对纳入研究的最高准确性。合并的敏感性和特异性分别为89%(86-92%)和85%(79-90%),AUC为0.93(0.91-0.95)。


DL算法的综合性能。图片来源:npj Digital Medicine


异质性分析

所有纳入的研究都发现,DL算法在使用医学成像检测乳腺癌和宫颈癌时,与作为金标准的组织病理学分析相比是有用的;然而,观察到了极端的异质性。敏感性(SE)的I2=97.65%,而特异性(SP)的I2=99.90(p<0.0001)。


为了确定这种极端异质性的来源,研究团队进行了亚组分析,亚组分析结果显示异质性并没有与特定亚组一致,也没有降低到可接受的水平,所有亚组的I2值仍然很高。因此,研究团队可以推断不同的验证类型、癌症类型和成像方式是否可能影响DL算法检测乳腺癌和宫颈癌的性能。


使用forest plot对总体性能进行汇总估计。

图片来源:npj Digital Medicine


质量评估

使用QUADAS-2对纳入研究的质量进行了评估。对于患者选择领域的偏倚风险,由于未报告纳入标准或排除标准,以及不适当的排除,有13项研究被认为存在较高或不明确的偏倚风险。对于index test 领域,只有一项研究由于没有预先确定的阈值而被认为具有较高或不明确的偏倚风险,而其他研究则被认为具有较低的偏倚风险。


对于参考标准领域,由于参考标准不一致,三项研究被认为存在较高或不明确的偏差风险。没有提及是否提前确定了阈值,以及是否实施了盲法。在适用性关注领域,12项研究被认为在患者选择方面具有较高或不明确的适用性。一项研究在参考标准领域的适用性也不明确,在index test领域没有适用性问题。


Meta分析总结

这篇系统综述和meta分析表明,深度学习算法可用于利用医学成像检测乳腺癌和宫颈癌。证据还表明,虽然与临床医生相比,深度学习算法并不优越,但在性能上也不差。在乳腺癌和宫颈癌中观察到类似的深度学习算法具有可接受的诊断性能,尽管使用不同的成像方式有不同的工作流程。这一发现还表明,这些算法可以应用于乳腺或宫颈成像,并可能应用于利用成像技术早期识别病例的所有类型的癌症。


深度学习在癌症诊断中的问题

01

需要更多前瞻性研究

正如我们所见,纳入的研究大多是回顾性的,在方法和报告方面存在很大差异。需要更多高质量的研究,如前瞻性研究和临床试验,以加强现有的证据基础。大多数纳入研究都是回顾性研究,这可能是因为DL算法在医学成像中相对较新。然而,使用的数据源要么来自现有的电子病历,要么来自在线开放存取数据库,这些数据库并没有明确用于实际临床环境中的算法分析。如果可能的话,我们应该通过更多的前瞻性研究来调查乳腺或宫颈图像的潜在规律,并确定可能的图像特征相关性和风险预测的诊断逻辑。大多数研究使用小的标记乳腺或宫颈图像构建和训练算法,标签很少由临床专家进行质量检查。该设计故障可能会产生模糊的基本事实输入,这可能会导至意外的不利模型影响。当然,连锁反应是,由于不明的偏见,很可能存在诊断不准确。这当然是一个在设计未来基于深度学习的研究时应该考虑的问题。


02

提高原始数据量和质量,以及原始数据的云共享

值得注意的是,无论算法构造得多么好,其诊断性能在很大程度上取决于原始数据量和质量。本系统综述中的大多数研究都提到了一种数据增强方法,该方法采用了某种形式的仿射图像变换策略,例如平移、旋转或翻转,以弥补数据不足。幸运的是,关于宫颈癌或乳腺癌的公开数据集数量大幅增加。然而,鉴于这项研究的必要性,人们希望看到各机构更频繁地合作,建立云共享平台,从而提高注释数据集的可用性(和广度)。


此外,训练DL算法需要可靠、高质量的图像输入,一些预分析因素,如不正确的样本制备和处理、不标准的图像数字化采集、不正确的设备校准和维护,可能会降低图像质量。在临床实践中,需要对所有程序和试剂进行完全标准化,以最佳地准备分析前图像输入,从而开发更稳健和准确的DL算法。拥有这些将推动这一领域的发展,并将有益于临床实践,或许可以作为一种成本高效的替代诊断工具或风险分类的初始方法。


03

外部验证的重要性以及必要性

在35项纳入研究中,只有11项研究进行了外部验证,这意味着使用样本外数据集或开放存取数据集对DL模型性能进行了评估。大多数研究通过随机和非随机地将一个中心的个体数据分配到一个开发数据集或另一个内部验证数据集。使用内部数据集来验证模型更可能是同质的,并且可能会导至高估诊断性能。这一发现突显了在所有预测模型中进行样本外外部验证的必要性。改善外部验证的一种可能方法是建立一个机构联盟,在该联盟中,共享经过培训的深度学习算法,并在外部测试性能。


04

强调在临床环境中的应用

DL模型在医疗环境中的应用将需要临床医生优化整合临床工作流程。然而,只有两项研究提到了DL与临床医生的对比,以及DL与临床医生的整合。这强调了在实际临床环境中对DL性能进行严格可靠评估的必要性。科学讨论应该从DL与临床医生的二分法转变为更现实的DL与临床医生的结合,这将改善工作流程。


05

DL算法的可推广性

限制DL算法的另一个常见问题是模型的可推广性。在不同的数据分布环境下,训练数据中可能存在影响DL模型性能的潜在因素。例如,仅在美国训练的模型在亚洲可能表现不佳,因为使用主要来自高加索患者的数据训练的模型在其他种族可能表现不佳。提高普遍性和减少偏见的一个解决方案是进行大型多中心研究,这可以分析民族、种族、医院具体情况和人口分布特征。社会偏见也会影响DL模型的性能,因为训练数据集可能不包括适当比例的少数群体,在肤色和基因组数据方面缺乏多样性,导至少数群体代表性不足。为了消除根深蒂固的偏见,应该努力开展DL算法研究,以提供更真实的全球人口代表。


06

建立统一标准及DL指南

研究团队建议提高乳腺和宫颈数据质量,建立统一标准。开发DL算法需要以可靠和高质量的图像为基础,并带有适当的组织病理学标签。同样,建立统一标准以提高数字图像的质量、制作、采集过程、成像报告和最终组织病理学诊断也很重要。将DL算法结果与其他生物标记物相结合,可能有助于提高乳腺癌或宫颈癌检测的风险识别。需要提高纠错能力和DL算法的兼容性。前期开发的DL算法更具普遍性,不易受到偏见的影响,但如果我们要在现实环境中实现算法,可能需要更大、多中心的数据集,这些数据集包含不同的民族和人种,以及具有不同社会经济地位的数据集等。这也突显了对医学成像中DL算法的国际报告指南的需求。最近公布的CONSORT - AI和SPIRIT-AI指南受到欢迎,但仍在等待针对具体疾病的DL指南。医学计算机视觉算法不存在于真空中,必须将DL算法集成到常规临床工作流程和整个医疗系统中,以帮助医生和增强决策。


总结

本研究的目的是批判性地评估研究方法和报告标准的潜在问题。通过这样做,研究团队希望提出建议,并推动这一领域的进一步研究,以便尽早将最有效的技术应用于临床实践。


声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部