超越执业考试: 为何中国医疗 AI 需要真实临床测试
我们生活在一个人工智能可以高分通过医疗执照考试的时代。头条新闻经常吹捧大语言模型 (LLM) 能够在 USMLE 或中国同类考试中取得及格成绩。这引发了关于“AI 医生”即将到来的兴奋——以及炒作。
然而,任何上过医学院 (或治疗过病人) 的人都知道一个基本真理: 通过考试并不等于行医。
教科书上的问题是干净、结构化且理论化的。真实的临床实践则是混乱的。病史错综复杂,症状模棱两可,决策往往涉及多位专家的复杂推理链。如果我们希望 AI 在医疗保健中真正发挥作用,就需要停止用教科书测试它,开始用现实情况来测试它。
在这篇文章中,我们将深入探讨 CliMedBench , 这是一篇开创性的研究论文,试图弥合这一差距。研究人员基于实际医院数据构建了一个大规模的真实世界基准,看看中国医疗 LLM 在临床实践的“战壕”中表现如何。结果令人惊讶,揭示了专门的“医疗”模型往往落后于通用巨头,而且在 AI 准备好进入病房之前,我们还有很长的路要走。
问题: “教科书与现实”的差距
目前评估中国医疗 LLM 的基准 (如 MedQA 或 CMExam) 严重依赖开放的教育资源。它们使用医师资格考试或教科书中的问题。虽然这对检查基础知识的掌握很有用,但这些基准存在两个主要缺陷:
- 缺乏真实性 (Lack of Authenticity) : 它们无法反映电子健康记录 (EHR) 的复杂性,其中的信息通常是非结构化的,需要综合不同时间线 (入院、治疗、出院) 的数据。
- 数据污染 (Data Contamination) : 由于这些基准来自公共互联网资源,许多 LLM 在训练阶段可能已经“见过”这些问题,从而导致分数虚高。
为了解决这个问题,研究人员推出了 CliMedBench 。 这是一个综合基准,包含 33,735 个问题 , 主要源自中国顶级三甲医院的真实医疗报告。其设计目的不仅是评估模型知道什么,还要评估它们在临床环境中如何推理。
CliMedBench 的架构
创建一个反映现实生活的基准需要一种能在混乱中建立结构的方法。研究人员开发了一种分类法来对临床实践进行分类,确保医疗过程的任何部分都不会被遗漏。
“谁-什么-如何”分类法 (The “Who-What-How” Taxonomy)
如下图所示,该基准围绕三个轴构建:
- 谁 (Who): 模型必须扮演或互动的角色 (例如,专科医生、放射技师、药剂师、患者) 。
- 什么 (What): 具体的临床场景 (例如,住院诊断、用药咨询、出院小结) 。
- 如何 (How): 被测试的能力维度 (例如,推理、幻觉、毒性、问答能力) 。

这种结构产生了 14 个核心临床场景 。 例如,“住院诊断” (ID) 场景被分解为涵盖患者整个旅程的四个不同时期:
- ID #1: 检查的选择 (我们要做什么检查?) 。
- ID #2: 基于病史和结果的诊断 (病人得了什么病?) 。
- ID #3: 治疗策略 (药物还是手术?) 。
- ID #4: 出院指导 (病人回家后应该做什么?) 。
这种粒度确保了模型不仅仅是回答一个通用的“X 疾病是什么?”的问题,而是积极参与到临床工作流程中。
构建: 人机回环 (Humans and AI in the Loop)
CliMedBench 最令人印象深刻的方面之一是数据集的构建方式。由于隐私问题 (PHI - 受保护的健康信息) 和数据噪声,你不能简单地将原始医院记录输入到公共数据集中。
研究人员采用了人类-LLM 协作工作流 。

如上图所示,该流程的工作原理如下:
- 去标识化 (De-identification): 首先,伦理委员会清除所有真实 EHR 中的敏感患者数据。
- LLM1 (生成器) : 主 LLM 处理原始数据以识别问题,并根据特定的医学原则生成潜在的问题和答案 (QA 对) 。
- LLM2 (审计员) : 第二个 LLM 充当评论家。它检查生成的问题是否存在逻辑漏洞、拼写错误或歧义。
- 人类专家审查: 医疗专业人员介入处理标记的问题并完善数据集。
这个迭代过程确保数据足够混乱以保持真实,但也足够干净以成为公平的测试。最终的数据分布涵盖了 19 个医学分支,包括神经外科和消化内科。
实验结果: 通用模型与专用模型的意外
研究人员测试了 11 个代表性的 LLM。阵容包括:
- 通用领域 LLM: GPT-4, ChatGPT, Qwen (阿里通义千问), ERNIE-Bot (百度文心一言), ChatGLM3.
- 医疗专用 LLM: HuatuoGPT (华佗GPT), BenTsao (本草), ChatMed, MedicalGPT.
假设可能是,专门针对医学文本训练的模型 (如 HuatuoGPT 等) 会优于 Qwen 或 GPT-4 等通用模型。
结果显示恰恰相反。

如上表所示,通用模型主导了排行榜:
- 表现最佳者: GPT-4、文心一言 (ERNIE-Bot) 和通义千问 (Qwen) 的得分始终最高,平均分在 69 分左右。
- 专用模型的表现不佳: 专业的中国医疗 LLM 表现非常吃力。例如,ChatMed 在几乎所有类别中的得分都很低。
专家模型为何失败?
论文指出,虽然专用模型见过医学词汇,但它们缺乏大型通用模型的推理能力和语言理解能力 。 临床场景需要的不仅仅是检索事实 (死记硬背) ,更需要连接线索 (逻辑) 。
发现的关键弱点
研究强调了当前技术存在不足的几个关键领域:
1. 幻觉与事实一致性 研究人员包含了一个旨在触发幻觉的“虚假信息测试” (FIT) 。当输入误导性信息时,模型的准确率从约 47% (在基础知识上) 骤降至约 8%。这表明模型很容易被提示中的错误前提所左右——这在临床环境中是一个危险的缺陷。
2. 上下文窗口问题 真实的医疗记录很长。它们包含数页的实验室结果、病史和笔记。研究发现,随着输入长度的增加,所有模型的表现都会下降。

上图展示了这种下降趋势。请注意,“医疗专用 (Medical-specific) ”线 (绿色/青色) 表现尤为挣扎,随着复杂性和长度的增加呈下降趋势。这种有限的输入容量是实际部署的主要障碍。
3. 多模态局限性 医生不仅仅阅读文字;他们还要看扫描图。研究人员在超声和 MRI 图像上测试了 GPT-4V (具有视觉功能的 GPT-4 版本) 。

在上面的例子中,GPT-4V 正确地识别出图像是肩部超声图,但未能识别出箭头所示的具体病理 (肩峰下法氏囊炎) 。它经常回复含糊不清的免责声明。目前,医疗 AI 的“眼睛”对于诊断来说还不够敏锐。
一种新颖的评估方法: 基于智能体的计算机自适应测试 (CAT)
对 LLM 进行基准测试的后勤问题之一是成本。在 GPT-4 上运行 33,000 多个问题即昂贵又耗时。为了解决这个问题,研究人员采用了一种来自心理测量学的技术,称为计算机自适应测试 (CAT) 。
可以把 CAT 想象成 GRE 或 GMAT 考试。如果你回答正确,下一个问题就会变难。如果你回答错误,它就会变简单。这使得测试可以通过更少的问题精确地确定你的能力水平。
研究人员提出了一种基于智能体的 CAT 系统。

工作原理:
- 基于多智能体的参与者合成 (MPS): 因为他们没有成千上万的人类考生来校准每个问题的难度,所以他们使用 LLM 来模拟学生参加考试。这种“合成数据”有助于建立问题的难度曲线 (项目反应理论) 。
- 自适应选择: 系统根据模型之前的回答选择下一个最合适的“最佳拟合”问题。
结果: 仅使用 243 个问题 (不到完整数据集的 1%) ,基于智能体的 CAT 方法得出的模型排名与完整评估高度一致。

如上所示,模型 (Qwen > GPT-4 > ChatGLM > 等) 的相对排名在海量的“常规评估”和高效的“快速评估”之间几乎保持一致。这是对该领域的重大贡献,使模型评估更快、更便宜。
结论与启示
CliMedBench 是对医疗 AI 社区的一次现实检验。它证明,在基于考试的基准测试中获得高分并不转化为临床能力。
给学生和研究人员的主要启示是:
- 通用智能获胜 (目前) : 大型基础模型 (如 GPT-4 和 Qwen) 中强大的推理能力目前胜过小型模型上的特定领域训练。
- 数据至关重要: 我们需要摆脱教科书数据,拥抱去标识化 EHR 的混乱、复杂的现实,以训练和测试稳健的模型。
- 安全第一: 这些模型的高幻觉率和易受干扰性表明,它们尚未准备好作为自主智能体在医疗保健中行动。
通过提供一个严格、现实的测试场,CliMedBench 推动该领域开发不仅“书本聪明”,而且足以应对病房“实战”的 AI。
](https://deep-paper.org/en/paper/2410.03502/images/cover.png)