超越执业考试: 为何中国医疗 AI 需要真实临床测试

我们生活在一个人工智能可以高分通过医疗执照考试的时代。头条新闻经常吹捧大语言模型 (LLM) 能够在 USMLE 或中国同类考试中取得及格成绩。这引发了关于“AI 医生”即将到来的兴奋——以及炒作。

然而，任何上过医学院 (或治疗过病人) 的人都知道一个基本真理: 通过考试并不等于行医。

教科书上的问题是干净、结构化且理论化的。真实的临床实践则是混乱的。病史错综复杂，症状模棱两可，决策往往涉及多位专家的复杂推理链。如果我们希望 AI 在医疗保健中真正发挥作用，就需要停止用教科书测试它，开始用现实情况来测试它。

在这篇文章中，我们将深入探讨 CliMedBench , 这是一篇开创性的研究论文，试图弥合这一差距。研究人员基于实际医院数据构建了一个大规模的真实世界基准，看看中国医疗 LLM 在临床实践的“战壕”中表现如何。结果令人惊讶，揭示了专门的“医疗”模型往往落后于通用巨头，而且在 AI 准备好进入病房之前，我们还有很长的路要走。

问题: “教科书与现实”的差距

目前评估中国医疗 LLM 的基准 (如 MedQA 或 CMExam) 严重依赖开放的教育资源。它们使用医师资格考试或教科书中的问题。虽然这对检查基础知识的掌握很有用，但这些基准存在两个主要缺陷:

缺乏真实性 (Lack of Authenticity) : 它们无法反映电子健康记录 (EHR) 的复杂性，其中的信息通常是非结构化的，需要综合不同时间线 (入院、治疗、出院) 的数据。
数据污染 (Data Contamination) : 由于这些基准来自公共互联网资源，许多 LLM 在训练阶段可能已经“见过”这些问题，从而导致分数虚高。

为了解决这个问题，研究人员推出了 CliMedBench 。这是一个综合基准，包含 33,735 个问题 , 主要源自中国顶级三甲医院的真实医疗报告。其设计目的不仅是评估模型知道什么，还要评估它们在临床环境中如何推理。

CliMedBench 的架构

创建一个反映现实生活的基准需要一种能在混乱中建立结构的方法。研究人员开发了一种分类法来对临床实践进行分类，确保医疗过程的任何部分都不会被遗漏。

“谁-什么-如何”分类法 (The “Who-What-How” Taxonomy)

如下图所示，该基准围绕三个轴构建:

谁 (Who): 模型必须扮演或互动的角色 (例如，专科医生、放射技师、药剂师、患者) 。
什么 (What): 具体的临床场景 (例如，住院诊断、用药咨询、出院小结) 。
如何 (How): 被测试的能力维度 (例如，推理、幻觉、毒性、问答能力) 。

Figure 1: Overview of CliMedBench with “Who-What-How” taxonomy linking users with core clinical scenarios

这种结构产生了 14 个核心临床场景 。例如，“住院诊断” (ID) 场景被分解为涵盖患者整个旅程的四个不同时期:

ID #1: 检查的选择 (我们要做什么检查？) 。
ID #2: 基于病史和结果的诊断 (病人得了什么病？) 。
ID #3: 治疗策略 (药物还是手术？) 。
ID #4: 出院指导 (病人回家后应该做什么？) 。

这种粒度确保了模型不仅仅是回答一个通用的“X 疾病是什么？”的问题，而是积极参与到临床工作流程中。

构建: 人机回环 (Humans and AI in the Loop)

CliMedBench 最令人印象深刻的方面之一是数据集的构建方式。由于隐私问题 (PHI - 受保护的健康信息) 和数据噪声，你不能简单地将原始医院记录输入到公共数据集中。

研究人员采用了人类-LLM 协作工作流 。

Figure 2: Workflow of collaboration between humans and LLMs for dataset construction.

如上图所示，该流程的工作原理如下:

去标识化 (De-identification): 首先，伦理委员会清除所有真实 EHR 中的敏感患者数据。
LLM1 (生成器) : 主 LLM 处理原始数据以识别问题，并根据特定的医学原则生成潜在的问题和答案 (QA 对) 。
LLM2 (审计员) : 第二个 LLM 充当评论家。它检查生成的问题是否存在逻辑漏洞、拼写错误或歧义。
人类专家审查: 医疗专业人员介入处理标记的问题并完善数据集。

这个迭代过程确保数据足够混乱以保持真实，但也足够干净以成为公平的测试。最终的数据分布涵盖了 19 个医学分支，包括神经外科和消化内科。

实验结果: 通用模型与专用模型的意外

研究人员测试了 11 个代表性的 LLM。阵容包括:

通用领域 LLM: GPT-4, ChatGPT, Qwen (阿里通义千问), ERNIE-Bot (百度文心一言), ChatGLM3.
医疗专用 LLM: HuatuoGPT (华佗GPT), BenTsao (本草), ChatMed, MedicalGPT.

假设可能是，专门针对医学文本训练的模型 (如 HuatuoGPT 等) 会优于 Qwen 或 GPT-4 等通用模型。

结果显示恰恰相反。

Table 2: Results of 11 LLMs with automatic metrics on the 14 core clinic scenarios of CliMedBench.

如上表所示，通用模型主导了排行榜:

表现最佳者: GPT-4、文心一言 (ERNIE-Bot) 和通义千问 (Qwen) 的得分始终最高，平均分在 69 分左右。
专用模型的表现不佳: 专业的中国医疗 LLM 表现非常吃力。例如，ChatMed 在几乎所有类别中的得分都很低。

专家模型为何失败？

论文指出，虽然专用模型见过医学词汇，但它们缺乏大型通用模型的推理能力和语言理解能力 。临床场景需要的不仅仅是检索事实 (死记硬背) ，更需要连接线索 (逻辑) 。

发现的关键弱点

研究强调了当前技术存在不足的几个关键领域:

1. 幻觉与事实一致性 研究人员包含了一个旨在触发幻觉的“虚假信息测试” (FIT) 。当输入误导性信息时，模型的准确率从约 47% (在基础知识上) 骤降至约 8%。这表明模型很容易被提示中的错误前提所左右——这在临床环境中是一个危险的缺陷。

2. 上下文窗口问题 真实的医疗记录很长。它们包含数页的实验室结果、病史和笔记。研究发现，随着输入长度的增加，所有模型的表现都会下降。

Figure 6: Performance across varying input windows, where the x-axis represents dataset segments, 1 being the shortest and 10 the longest.

上图展示了这种下降趋势。请注意，“医疗专用 (Medical-specific) ”线 (绿色/青色) 表现尤为挣扎，随着复杂性和长度的增加呈下降趋势。这种有限的输入容量是实际部署的主要障碍。

3. 多模态局限性 医生不仅仅阅读文字；他们还要看扫描图。研究人员在超声和 MRI 图像上测试了 GPT-4V (具有视觉功能的 GPT-4 版本) 。

Figure 8: A multi-modal example case.

在上面的例子中，GPT-4V 正确地识别出图像是肩部超声图，但未能识别出箭头所示的具体病理 (肩峰下法氏囊炎) 。它经常回复含糊不清的免责声明。目前，医疗 AI 的“眼睛”对于诊断来说还不够敏锐。

一种新颖的评估方法: 基于智能体的计算机自适应测试 (CAT)

对 LLM 进行基准测试的后勤问题之一是成本。在 GPT-4 上运行 33,000 多个问题即昂贵又耗时。为了解决这个问题，研究人员采用了一种来自心理测量学的技术，称为计算机自适应测试 (CAT) 。

可以把 CAT 想象成 GRE 或 GMAT 考试。如果你回答正确，下一个问题就会变难。如果你回答错误，它就会变简单。这使得测试可以通过更少的问题精确地确定你的能力水平。

研究人员提出了一种基于智能体的 CAT 系统。

Figure 10: The workflow of Agent-based CAT.

工作原理:

基于多智能体的参与者合成 (MPS): 因为他们没有成千上万的人类考生来校准每个问题的难度，所以他们使用 LLM 来模拟学生参加考试。这种“合成数据”有助于建立问题的难度曲线 (项目反应理论) 。
自适应选择: 系统根据模型之前的回答选择下一个最合适的“最佳拟合”问题。

结果: 仅使用 243 个问题 (不到完整数据集的 1%) ，基于智能体的 CAT 方法得出的模型排名与完整评估高度一致。

Figure 11: Comparisons between regular CliMedBench evaluation and our agent-based CAT rapid assessment.

如上所示，模型 (Qwen > GPT-4 > ChatGLM > 等) 的相对排名在海量的“常规评估”和高效的“快速评估”之间几乎保持一致。这是对该领域的重大贡献，使模型评估更快、更便宜。

结论与启示

CliMedBench 是对医疗 AI 社区的一次现实检验。它证明，在基于考试的基准测试中获得高分并不转化为临床能力。

给学生和研究人员的主要启示是:

通用智能获胜 (目前) : 大型基础模型 (如 GPT-4 和 Qwen) 中强大的推理能力目前胜过小型模型上的特定领域训练。
数据至关重要: 我们需要摆脱教科书数据，拥抱去标识化 EHR 的混乱、复杂的现实，以训练和测试稳健的模型。
安全第一: 这些模型的高幻觉率和易受干扰性表明，它们尚未准备好作为自主智能体在医疗保健中行动。

通过提供一个严格、现实的测试场，CliMedBench 推动该领域开发不仅“书本聪明”，而且足以应对病房“实战”的 AI。

超越执业考试: 为何中国医疗 AI 需要真实临床测试#

问题: “教科书与现实”的差距#

CliMedBench 的架构#

“谁-什么-如何”分类法 (The “Who-What-How” Taxonomy)#

构建: 人机回环 (Humans and AI in the Loop)#

实验结果: 通用模型与专用模型的意外#

专家模型为何失败？#

发现的关键弱点#

一种新颖的评估方法: 基于智能体的计算机自适应测试 (CAT)#

工作原理:#

结论与启示#