大型语言模型(LLMs)在医学领域的应用前景正日益广阔,它们不仅被用于医学文献分析,还被提议作为临床决策支持工具。我们坚信,LLMs 在医学的未来应建立在透明、可控的开源模型基础之上。开源模型让医疗工具开发者能够确保底层AI模型的安全性与质量,同时也让医疗专业人员能够对这些模型负责。基于这些理由,我们认为未来是开放的。 LLMs 有望通过减轻管理负担、改进信息检索以及加强诊断和治疗程序,为医学带来巨大价值。尽管对其短期和长期影响存在怀疑和期待,但其应用正在不断增加,特别是在医学文档和摘要领域。对于医疗保健领域的早期采用者来说,选择LLM及其提供商是一项挑战性的战略决策,这不仅是技术性的,也是战略性的,反映了组织的价值观和优先事项。因此,一个关键问题出现了:在选择医疗应用的底层LLM框架时,开放性在多大程度上成为决定性因素? 在此,我们将讨论LLM在开放性范围内的优缺点,从完全开源的LLM(提供完全透明度和对每个部分的访问权)到全封闭模型(制造商有意限制对源代码、模型权重、训练程序和数据的访问)。我们讨论的是LLM在医学中应用的高层次方法,而不是详细讨论这些工具最适合哪些医学任务,这已经在其他地方讨论过。 为什么LLM的开放性对医学如此重要? AI系统常被视为黑盒子,即使是AI研究人员也对LLM的内部技术工作原理知之甚少。人们对这些系统缺乏充分的了解,而对这种复杂系统的细微改动可能会对其输出质量产生巨大影响。为了更好地了解这些系统并不断加以改进,我们认为,在医学领域部署的LLM必须提供最大的透明度、全面的监督和最大的控制。要将LLM作为医疗设备的一部分可靠地运行,就必须深入了解和控制LLM的架构和来源,包括对训练数据集、方法和更新流程的了解和/或控制。专有的闭源LLM与这些要求形成了鲜明对比,因为其内部运作和修订过程仍然不为公众所知。目前市场上领先的闭源模型既不能为医疗设备开发人员提供长期支持的静态模型,也不能提供对其变化进行详细解释和说明的模型。换句话说,制约和调整过程是通过对开发人员不透明的、定义不明确的过程在实时模型上持续进行的。2023年12月,ChatGPT用户发现聊天机器人变得“懒惰”。研究人员无法确定其确切原因,其运营公司也没有披露。此外,人工智能研究人员对2023年3月和2023年6月版本的GPT-3.5和GPT-4进行了多项不同任务的评估,结果表明,“相同”的LLM服务的行为会在相对较短的时间内发生重大变化,这凸显了对LLM进行持续监控的必要性。此外,如果运营公司停止对闭源LLM的支持,可能会对依赖该LLM的任何医疗设备造成严重后果。目前市场上领先的封闭源模型会定期更新,但其运营商并不提供持久存储的历史模型,医疗设备开发商日后可通过查询该模型,对自己发现或用户报告的安全或性能问题的根本原因进行法律要求的分析。开源方法可以最大限度地提高透明度,为医疗设备开发人员提供最大的灵活性,减少此类系统的黑盒特性,从而克服许多上述限制。他们可以确保自己的医疗设备只使用固定和受控的模型,并确保模型在不再使用后被存档,以便日后收到安全报告时可以对安全问题进行调查。此外,允许这些模型运行的开放源码许可证允许进一步开发和调整LLM,并允许自由使用软件,包括用于商业用途。从技术角度看,可以将完全开放的LLM纳入人工智能系统。不过,基于其透明度和开发者控制能力,开源模型在医疗领域具有明显的优势。 如何辨别开放式和封闭式LLM? 我们如何系统地分析LLM的开放性,以及开源LLM与闭源LLM的性能比较?鉴于《欧盟人工智能法案》对开源模型与闭源模型做出了不同的规定,在生成式人工智能(GenAI)中什么算作开源模型的问题将变得非常重要,这就迫切需要一个实用的框架来评估LLM的开放性。欧盟人工智能法案将LLM和GenAI基础模型归类为通用人工智能(GPAI)模型,并将其分为多个复杂且相互关联的子分类,根据每个子分类的属性(有时是狭义定义,有时是广义定义)提出不同的要求。根据免费和开源许可发布的GPAI模型,如果其参数(包括权重、模型架构信息和模型使用信息)是公开的,则可免于展示模型透明度的某些方面。人工智能法中还有许多其他要求,适用于所有GPAI模型,无论它们是开放的还是封闭的,还有一些例外情况仅适用于未达到系统性风险模型门槛的开源模型(本文稍后将讨论其定义)。如果读者觉得这是个不可能的迷宫,那是因为它确实是个迷宫,希望以后的指导意见和法律修正案(《人工智能法》承认这是必要的)能提供某种形式的可浏览性。 最近有几个小组提出了模型开放性框架,其中考虑到了LLM的主要构建模块。在图1中,我们以Liesenfeld等人最近提出的框架为基础,从14个维度对三种流行LLM的开放性进行了示例性概述。Mistral AI的Mistral 7B Instruct模型的开放程度较高,特别是因为它的模型权重是公开的,但它还没有达到完全开源的程度,特别是因为它的制造商没有分享底层训练数据和系统架构的详细信息。艾伦人工智能研究所制作的OLMo 7B Instruct是目前最开放的模型之一。对模型所有组件的细粒度分析表明,LLMs无法二元归类为开源或闭源。由于其架构和训练过程的复杂性,LLM应被定位在多维开放性图表上,分别表示LLM每个组件的开放程度(图1)。正确的开放性表述不仅对LLM开发人员和人工智能研究人员至关重要,而且还能为公众辩论提供信息,让所有相关方更好地理解和批判性地评估不同程度的开放性,以及这些开放性对医学这样一个敏感领域的影响。 图1:三种具有代表性的LLM的开放程度:ChatGPT (GPT-3.5)、Mistral 7B Instruct和OLMo 7B Instruct。 每张图表都从访问、可用性和文档这三个主要类别来衡量14项关键标准。子类别包括代码库、数据、权重和许可证的开放性。在文档方面,必须对代码和架构进行详细描述,并提供预印本、同行评审论文、模型卡和数据表,以提供更多细节。最后,访问性是通过是否提供可安装的Python软件包和用于测试的API来衡量的。所有这些标准都按照三个级别来衡量:开放(绿色)、部分开放(黄色)和封闭(红色)。ChatGPT显示了主要的封闭性,而OLMo 7B Instruct则在大多数标准上显示了开放性。Mistral 7B Instruct平衡了开放性和限制性,开放了模型权重,但隐藏了创建过程的细节。框架和数据来自Liesenfeld et al.。有关框架标准和单个LLMs数据的详细信息,请访问:http://opening-up-chatgpt.github.io。 与专有的封闭式医学模型相比,开源模型的性能如何? 在过去几年中,通用和特定医学领域的LLMs出现了一个不断发展的生态系统,要跟踪所有新发布的模型及其性能变得越来越困难。GPT-4和Claude 3.5 Sonnet等闭源LLM已为公众所熟知,并经常用于个人和商业环境。相比之下,更开放的模型,如OLMo 7B Instruct和BigScience Large Open-science Open-access Multilingual Language Model (BLOOM)只为人工智能专业人士和LLM爱好者所知。开放重量模型(如Mistral 7B)由于能够在消费笔记本电脑和手机等边缘设备上高效运行,最近越来越受欢迎。如今,即使是参数范围在70亿到80亿之间的小型开放式LLM,也能在消费类笔记本电脑上高效运行,其性能超过了OpenAI最初由GPT-3支持的ChatGPT,这在2022年被视为一项重大突破,并引发了对GenAI新一轮浪潮的巨大兴奋。2024年7月,开放重量级模型Llama 3.1 405B几乎缩小了与GPT-4等闭源模型的差距,至少在测量大规模多任务语言理解(MMLU)基准和其他既定LLM基准上是如此。 以LLM为基准仍是众所周知的难题,尤其是在医学领域,至今仍缺乏有意义的评估方法。自动、无偏见的LLM评估方法是非常可取的,但针对医疗任务可靠地自动执行这一耗时过程的所有尝试都失败了。由领域专家执行的人工LLM输出评估仍然是黄金标准。展望未来,LLM将越来越多地集成到医疗设备中,因此最好不要将评估重点放在LLM的特定领域医学知识上,而应放在模型的认知核心能力及其与其他系统组件的交互上。目前的数据表明,至少在当前的医疗基准上,闭源模型的性能略优于开源模型。然而,在最近的过去,开放重量模型总是能在短短几个月内赶上闭源模型。因此,与开源模型相比,闭源模型似乎并不具有先天优势,而是占了先机,这就提供了有限的证据,表明闭源LLM方法在医学领域将长期受到青睐。随着性能差距的缩小,医学界的参与正成为开源模式的一个基本优势。最近的研究表明,研究人员和医学专家合作对开放式LLM进行微调,可以在医学文本摘要方面达到与专有模型相当的性能水平,同时还能提供透明度和定制化方面的优势。 图 2展示了封闭源代码与开放权重大型语言模型在MMLU基准测试中的性能对比,共进行了五次评估。 这一备受瞩目的基准测试揭示了开放权重模型正逐渐缩小与封闭源代码模型之间的性能差距。测试涵盖了来自57个不同学科,包括病毒学、商业伦理和天文学等领域的15908个问题。MMLU的开发者估计,人类领域专家的准确率大约为89.8%。然而,MMLU主要从常识角度评估性能,并未涵盖逻辑推理、编程能力、多语言处理和主动帮助等其他关键技能。为了全面评估模型的一般性能,需要采用一系列多样化且高标准的基准测试。图中数据汇总了模型开发者在2022年4月至2024年8月间报告的分数。 总结 滥用强大的LLM所声称的系统性危险 主张使用封闭源模型的人,其论点主要基于非特定领域的LLM,以及需要避免滥用这些通用模型可能带来的系统性风险。其核心论点是,闭源模型的威力如此之大,以至于它们可被用于大规模造谣活动、网络攻击或协助恐怖分子制造生物武器。一些主导开发和部署封闭式通用LLM的公司游说政府当局立即立法并对LLM进行严格监管。与此相反,另一些正在开发更开放模式的大科技公司和开源社区却在向相反的方向进行游说,以确保研究和开发工作不会受到过于严格的立法的阻碍。欧盟于2024年3月13日通过了《人工智能法》,朝着规范人工智能迈出了关键一步。欧盟《人工智能法》假定GPAI模型会带来系统性风险,并对使用超过1025浮点运算(FLOP)训练的模型提出了各种要求。欧盟委员会将FLOP定义为模型能力的代表,确切的FLOP门槛可由委员会向上或向下更新,例如,根据客观衡量模型能力的进展以及特定性能水平所需的计算能力的发展。欧盟立法方法的前提是,对高于这一阈值的模型能力还没有足够的了解。它们可能会带来系统性风险,因此要求其提供者承担额外的义务是合理的。尽管训练这些模型需要巨大的计算资源,但删除内容限制的过程可以用少得多的计算费用来完成。这可以通过微调以及消减等廉价的权重修改技术来实现,只需不到0.001%的训练预算。只要有足够的GPU,任何人都可以操作这些未经审查的模型。换句话说,有证据表明,目前欧盟法案的方法可能只是限制了出于负责任目的的大型LLM的操作者,而对那些希望出于不负责任或非法目的操作模型的半组织行为者没有任何影响。 政策应如何进行? 一方面,封闭式LLM几乎无法为这些方法在下游医疗决策支持系统中的合法应用提供所需的信息;另一方面,通过其对超大型模型的实际影响(以及将其标记为具有系统性风险),欧盟人工智能法使得真正开放的大型LLM难以问世。美国《关于安全、可靠、可信地开发和使用人工智能的行政命令》(2023年)可能会产生类似的影响,这取决于公众咨询后的结果和执行情况。作者认为,至少就目前而言,由于LLM在推理和规划方面的局限性,从LLM快速直接进化为不可控制的人工通用智能(AGI)的可能性很小。此外,信息社会正在迅速适应人工智能生成的文本、图像和视频,这降低了人们对人工智能生成内容的错误信息的接受程度。因此,与其提倡立即实施严格的监管和禁令,似乎还不如为医疗工作者和普通大众提供有关透明人工智能系统的高效理论教育和实践培训。为了促进这一目标的实现,医疗保健领域的特定生命实验室可以作为一个理想的合作环境,在这里,患者和来自技术、医疗保健、伦理、监管和政策领域的相关各方可以在真实的临床环境中共同创建开放生命实验室和下游生命实验室工具,并在现有的法律框架内(甚至促进这些框架的进一步完善)共同制定可操作的指导方针,以便在医疗领域部署这些开放生命实验室。 在权衡开放式和封闭式LLM在医学中的相对优势后,目前的封闭式系统由于缺乏透明度和排除了有效的质量和安全控制而不适合医学。这些问题可以在未来的模式中得到解决。未来的模式将不对公众开放,临床决策支持系统的开发者只能根据有限的合同条款使用这些系统。然而,如果LLMs真的像某些人所说的那样,会对医疗服务产生如此深远的影响,那么就像过去的图书馆及其医学教科书和期刊一样,公众和医疗保健专业人员当然也应该有机会获取决定医疗实践的信息(及其依据)。如果信息是封闭的,它就不是真正的信息,就不应该被用来提供任何信息,更不用说医疗保健了。一些封闭式LLM的支持者将其标榜为一种通用技术,能够彻底改变人类社会和工业,促进信息传播和新启蒙运动,并随之进入经济增长时代。印刷术的力量就是开放式基础技术的力量。 作者及所属机构: Lars Riedemann 所属机构:海德堡大学医院神经科 Maxime Labonne 所属机构:Liquid AI, Inc. Stephen Gilbert 所属机构:Dresden University of Technology(德累斯顿工业大学)Fresenius Center for Digital Health(费森尤斯数字健康中心) ·END· 免责声明 本公众号发布的内容部分来源于网络上的公开信息,包括媒体、自媒体等公开渠道。我们转载或引用这些内容的目的是为了传递更多有价值的信息。我们将尽力确保所提供信息的准确性及可靠性,但不保证所有资料的绝对准确和可靠。在使用这些信息前,请您进一步核实,并为您的任何自主决定行为负责。对于因使用本公众号内容所引起的任何错误、不准确或遗漏,本公众号将不承担任何法律责任。 若您认为本公众号的内容可能侵犯了您的知识产权或存在不实内容,请及时向我们提出书面权利通知或不实情况说明。请提供身份证明、权属证明及详细的侵权或不实情况证明。我们在收到上述法律文件后,将依法依规进行核实,并与您沟通,采取删除或修正相关内容的措施。我们重视每一位创作者的劳动成果,也重视每一位读者的阅读体验,感谢您的理解与支持。 |