引言

在过去的一年中,关于大语言模型 (LLMs) 在医疗领域惊人表现的报道占据了各大头条。我们看到许多报告称,AI 以优异成绩通过了美国执业医师资格考试 (USMLE) ,在标准化测试中的表现与人类专家相当,甚至有时更好。看着这些结果,人们很容易认为我们正处于日常临床实践 AI 革命的边缘。

然而,通过多项选择题考试与应对混乱、开放式的治疗现实之间存在显著差异。标准化测试提供了一个封闭的环境,有预设的选项。而真实的医院环境涉及冗长且无组织的患者病史、开放式的决策过程,以及不断涌现的新药和新方案。

这种差异正是研究论文 “Large Language Models Are Poor Clinical Decision-Makers: A Comprehensive Benchmark” (大语言模型是糟糕的临床决策者: 一个综合基准测试) 的焦点所在。研究人员认为,虽然 LLMs 是出色的“应试者”,但它们作为临床决策者的能力还远未得到证实。为了验证这一假设,他们构建了一个庞大的新基准测试,名为 ClinicBench

在这篇文章中,我们将拆解这篇论文,了解当前的 AI 模型在哪里成功,在哪里危险地失败,以及用于训练它们的数据类型如何决定了一切。

背景: 能力的错觉

要理解这篇论文的必要性,我们需要先看看医疗 LLM 的现状。像 MedPaLM-2 和各种版本的 GPT-4 等模型在医疗问答数据集上已经取得了超过 85-90% 的准确率。

正如作者所指出的,问题在于 评估的局限性 :

  1. 封闭式问题: 大多数基准测试依赖于“考试型问答 (Exam-style QA) ”。模型只需在 A、B、C 或 D 中进行选择。这测试的是知识检索能力,而非临床推理能力。
  2. 短上下文: 考试题目通常是简明的摘要。而真实的患者电子健康记录 (EHRs) 非常冗长,包含数千字的笔记、化验单和病史。
  3. 静态知识: 2022 年训练的模型不知道 2024 年发布的新药。

如果我们想要在医院中信任 AI,我们就需要在模拟临床医生实际工作的任务上对其进行评估。

核心方法: ClinicBench 介绍

研究人员开发了 ClinicBench , 这是一个综合框架,旨在比以往更广泛的临床活动范围内对 LLMs 进行压力测试。

图 1: ClinicBench 概览,包含 22 个 LLM、11 项任务、17 个数据集,以及跨自动和人工评估的多个指标。

图 1 所示,ClinicBench 不仅仅是一个单一的测试。它是一个多维度的竞技场,包含:

  • 22 个不同的 LLM: 包括商业巨头 (GPT-4, Claude-2) 和开源医疗模型 (BioMistral, MedAlpaca) 。
  • 11 项任务: 涵盖推理、生成和理解。
  • 17 个数据集: 包括 6 个专为本文创建的全新数据集,以模拟现实世界的复杂性。

临床能力的这三大支柱

该基准测试将临床能力划分为三个特定场景。让我们看看研究人员提供的任务和数据集细分。

表 1: 评估场景概览,包括涵盖五个非临床机器学习任务的十一个现有数据集,以及涵盖六个复杂临床任务的六个新数据集 (灰色高亮文本) 。

1. 临床语言推理

这超越了简单的问答。虽然它包含了标准考试 (如 USMLE) ,但作者增加了两个关键的新任务:

  • 转诊问答 (Referral QA) : 模型必须阅读转诊信 (通常混乱且密集) ,并回答有关患者治疗历史的问题。
  • 治疗推荐 (Treatment Recommendation) : 这是一个 开放式 任务。模型不是从列表中选择一种药物,而是必须根据症状“推荐所有合适的药物”。这模拟了医生在开处方时面对空白页面的情况。

2. 临床语言生成

医生花费高达 50% 的时间进行文档记录。AI 能提供帮助吗?

  • 放射报告总结: 将复杂的影像学发现转化为简明的“印象/诊断意见”。
  • 住院总结: 基于长文档 (约 1,600+ 字) 总结患者的整个住院过程。
  • 患者教育: 根据复杂的病历为患者编写简单的指导说明。

3. 临床语言理解

这涉及从非结构化文本中提取结构化数据。

  • 命名实体识别 (NER) 与关系抽取: 在文本中查找特定疾病或药物相互作用。
  • 新兴药物分析: 一项测试模型对其训练数据截止日期 (2023 年底至 2024 年初) 之后发布药物的认知能力的新颖任务。这测试的是模型对新药理数据进行推理的能力,而不仅仅是背诵记忆的事实。

参赛者: 通用 LLM vs. 医疗专用 LLM

这项研究比较了各种各样的模型。这一点至关重要,因为 AI 社区目前存在这就一场争论: 我们是需要专门的医疗模型,还是一个非常聪明的通用模型 (如 GPT-4) 就足够了?

表 2: 我们收集了 22 个 LLM (即 11 个通用 LLM 和 11 个医疗 LLM) ,涵盖开源模型和闭源商业模型,参数量从 70 亿到 700 亿 (B) 不等。

表 2 所列,团队测试了 通用 LLM (如 LLaMA-2, Mistral, GPT-4) 与 医疗 LLM (起初是通用模型,但经过医疗数据微调的模型,如 ChatDoctor, MedAlpaca 和 PMC-LLaMA) 。

实验与结果

这一综合基准测试的结果发人深省,甚至让人有些清醒。

1. 商业巨头 vs. 开源模型

就整体原始性能而言,商业闭源模型占据了统治地位。

表 3: 零样本设置下 LLM 的表现。作为对比,我们还报告了特定任务最先进 (SOTA) 模型的结果,这些模型是在下游数据和任务上进行全监督微调的。

查看 表 3 , 观察 GPT-4 的表现。它在几乎每个类别中都持续获得最高分。

  • 考试型问答: GPT-4 在 MedQA (USMLE) 上达到 83.4% , 接近人类专家水平。
  • 现实检验: 查看 治疗推荐 (Treatment Recommendation) 一列 (临床语言推理) 。虽然 GPT-4 得分为 18.6%,但许多开源模型的得分低于 5%。这与多项选择题考试中 80% 以上的分数相比,出现了巨大的滑坡。

该表证实了论文的标题: 虽然模型在考试 (推理) 方面表现出色,但与特定任务的最先进 (SOTA) 模型相比,它们在开放式生成和理解任务上的表现非常挣扎。

2. “临床滑坡”

这篇论文最深刻的发现之一如下图所示。研究人员比较了模型在标准机器学习任务 (如分类) 与新引入的复杂临床任务上的表现。

图 2: LLM 在机器学习任务与临床任务上的表现对比。实线和右侧 y 轴展示了应用到临床任务时 LLM 的性能下降幅度。数值越低越好。

图 2 讲述了一个清晰的故事:

  1. 蓝色柱状图: 深蓝色柱 (机器学习任务) 始终高于浅蓝色柱 (临床任务) 。
  2. 黑线 (滑坡) : 这条线代表了转向临床任务时的性能退化。
  3. 韧性: 有趣的是,医疗 LLM (如 Meditron) 和大型商业模型 (GPT-4) 比小型通用模型遭受的 滑坡幅度更小。这表明,特定领域的训练有助于模型更好地“挺过”真实临床数据的复杂性,即使它们的原始分数并不完美。

3. “少样本”学习有帮助吗?

“少样本 (Few-shot) ”学习涉及在要求模型执行任务之前,给它几个任务示例 (例如,“这是 3 个患者总结的例子,现在为这位新患者写一个”) 。

图 3: 代表性 LLM 在少样本 (1、3、5 样本) 学习设置下的表现。

图 3 按任务类型对此进行了细分:

  • 推理 (上图) : 提供 1 或 3 个示例有显著帮助。
  • 生成 (中图) : 示例越多越好。给模型 5 个优秀总结的示例有助于它写出更好的总结。
  • 理解 (下图) : 这是一个意外。 示例越多,表现反而越差。 作者推测,对于像实体提取这样的任务,提供来自不同医疗背景的示例会引入“噪音”,混淆模型,而不是提供帮助。

4. 人工评估: 临床实用性

自动化指标 (如准确率) 不能说明全部问题。一个模型可能是“准确的”,但却粗鲁、不安全或过于简略而危险。研究人员招募了医学专家,根据四个标准对模型进行评估: 事实性 (Factuality) 、完整性 (Completeness) 、偏好度 (Preference) 和安全性 (Safety) 。

表 4: LLM 在住院总结和患者教育任务上的人工评估。F、C、P 和 S 分别代表事实性、完整性、偏好度和安全性。所有数值均为百分比 (%)。

表 4 揭示了通用 LLM 和医疗 LLM 之间一个有趣的权衡:

  • 安全性与事实性: 医疗 LLM (如 Meditron-70B) 在这方面通常优于通用 LLM。它们不太可能产生危险的幻觉建议,因为它们接受过医学文献的训练。
  • 偏好度与完整性: 通用 LLM 在这里通常获胜。它们写得更流畅,更符合用户偏好。

悖论: 有时,通用 LLM 中的“幻觉”会导致 更完整 的回答 (通过建议更广泛的诊断范围) ,如果临床医生能够验证信息,他们有时更喜欢这种用于头脑风暴的方式。然而,为了 安全性 , 医疗 LLM 更胜一筹。

开发更好的医疗 LLM: 数据的作用

如果我们想解决这些问题,我们需要审视这些模型是如何训练的。研究人员进行了一项消融实验,以观察哪种 指令微调 (Instruction Fine-Tuning, IFT) 数据效果最好。

他们比较了四种数据源:

  1. 对话 (Dialogues) : 医患聊天记录。
  2. 问答 (QA) : 考试题目。
  3. 文章 (Articles) : 医学教科书/论文。
  4. NHS: 临床标准知识库 (关于疾病和治疗的结构化数据) 。

表 5: IFT 数据类型和规模的影响。我们遵循第 4.4 节报告零样本设置下的自动评估结果;并遵循第 4.5 节报告住院总结任务的人工评估结果。

表 5 显示了这些数据源的影响。

  • 行 (d): 在单一数据源中,基于 NHS (知识库) 数据的训练产生了最高的事实性 (58.0) 和安全性 (61.0) 分数。
  • 行 (h): 最佳结果来自于结合 所有 数据类型并将数据集规模增加到 12 万个样本。

这带来了一个重要的见解: 数据的多样性与数量同等重要。 仅依赖对话 (这对许多聊天机器人来说很常见) 会导致事实性较低。你需要在训练组合中加入坚实的临床知识库。

定性示例

为了使其具体化,让我们看一个实际的输出对比。

图 4: 我们展示了不同模型生成的患者教育示例,以分析指令微调数据的影响。

图 4 中,我们看到了一个患者教育任务。

  • 基座模型 (LLAMA-2-7B): 它完全失败了。它产生幻觉 (“没有颅骨骨折”——与患者无关) ,重复自己,并危险地建议患者不需要的抗精神病药物 (富马酸喹硫平) 。
  • 使用 ClinicIFT (微调后): 模型正确识别了尿路感染 (UTI) 和胆囊炎,推荐了合适的药物 (对乙酰氨基酚) ,并给出了清晰、安全的指导。

这直观地展示了为什么“开箱即用”的 LLM 在临床环境中是危险的,以及为什么作者提出的特定微调配方 (ClinicIFT) 是必要的。

结论与启示

论文 “Large Language Models Are Poor Clinical Decision-Makers” (大语言模型是糟糕的临床决策者) 为 AI 医疗行业提供了一个至关重要的现实检验。通过将目标从“通过考试”转移到“ClinicBench”,作者强调了仍然存在的巨大差距。

关键要点:

  1. LLM 还不是医生: 它们在给出选项进行推理时表现出色,但在被要求生成开放式治疗方案或处理长文档时表现不佳。
  2. “临床差距”是真实的: 当从学术 ML 任务转向现实临床工作流程时,性能会显着下降。
  3. 数据质量至关重要: 构建安全的医疗 LLM 需要在多样化、基于知识的数据 (如 NHS 数据库) 上进行微调,而不仅仅是抓取医疗对话或论文。

对于学生和研究人员来说,这篇论文开辟了令人兴奋的途径。挑战不再仅仅是“我们能否在 MedQA 上获得更高的准确率?”真正的挑战是“我们能否构建出处理现实世界混乱数据而不产生幻觉,同时保持安全的模型?” ClinicBench 提供了回答这个问题的路线图。