引言

想象一个繁忙的急诊室。医生和护士在病人之间穿梭,机器发出哔哔声,需要在瞬间做出决定。现在,想象角落里有一位 AI 助手,通过摄像头观察现场,随时准备在病人拔掉静脉输液管或呼吸机设置看似错误时向工作人员发出警报。

这听起来像是医疗保健的未来,对吧?面对全球超过 600 万医生的短缺,自动医疗代理的前景非常诱人。但在我们将控制权通过人工智能移交之前,我们必须问一个关键问题: 这些模型真的理解它们所看到的东西吗?

我们要看到像 GPT-4V 和 Gemini 这样的大型视觉语言模型 (LVLMs) 的兴起,它们能够流畅地描述图像。但是,描述沙发上的一只猫与解释鼻咽拭子采样过程中病人的姿势有着天壤之别。

在这篇文章中,我们将深入探讨最近的一篇论文,该论文利用 ERVQA (急诊室视觉问答) 数据集对这些模型提出了挑战。研究人员不仅仅想知道模型是否会说话;他们想知道它们能否在高风险的医院环境中安全地进行推理、感知和行动。结果揭示了 AI 能力与医疗需求之间一个有趣但令人担忧的差距。

ERVQA 数据集的一个示例,展示了一位医生正在执行医疗程序。问题询问病人的头部位置是否正确。

当前基准测试存在的问题

要理解为什么 ERVQA 是必要的,首先需要了解“医学 VQA” (视觉问答) 的现状。虽然存在许多数据集,但它们往往侧重于特定的、孤立的任务。

大多数现有的数据集,如 VQA-RAD 或 PathVQA,严重依赖放射学 (X 射线、CT 扫描) 或病理切片。虽然至关重要,但这些图像是静态且高度结构化的。它们无法捕捉病房的混乱和视觉复杂性。此外,这些旧数据集中的答案通常非常简短——有时只是“是”或“否”,或者一个单词。

现实世界的医疗辅助需要更多。如果护士问: “对于此程序,病人的体位正确吗?”一个简单的“不”是没有帮助的。系统需要解释为什么以及如何纠正它。

医学 VQA 数据集的对比。面板 A 到 E 展示了放射学/病理学示例。面板 F 展示了 ERVQA 数据集,专注于病人场景和设备。

如上图 (图 2) 所示,现有的数据集 (a-e) 与 ERVQA 方法 (f) 截然不同。ERVQA 数据集不再局限于孤立的扫描图像,而是走进了有病人的房间。它侧重于:

  • 病人状况: 意识、症状、情绪。
  • 机器与仪器: 读数正常吗?静脉输液袋放置正确吗?
  • 环境: 急诊室的一般异常情况。

介绍 ERVQA: 数据集

研究人员整理了来自医院环境的 367 张真实世界图像 。 这些不是完美的库存照片;它们是从新闻文章和报告中抓取的,反映了实际医院的嘈杂和真实情况。

为了创建问题和答案 (QA) ,他们并没有直接众包给随机的互联网用户。他们聘请了 医学专家——受过正规医学教育并拥有医院经验的人员。

该过程包括人工标注和半自动生成 (使用 GPT-4V) 的混合,然后由人类医生进行严格的验证和修正。最终得到了包含 4355 对问答对 的数据集。

表格显示数据集统计信息: 367 张图像中有 4355 个问答对。

使该数据集与众不同的是数据的深度

  • 开放式: 答案是自由文本,而不是多项选择。
  • 侧重推理: 模型必须从视觉线索中推断信息 (例如,“病人情况危急吗?”需要观察工作人员的数量、设备和病人的姿势) 。
  • 多样化: 如下图所示,问题变化很大,涉及存在性 (“是否有……”) 、描述性 (“什么是……”) 和能力 (“你能……”) 。

一个饼图显示了问题类型的分布,“Is the”和“What is”是最常见的起始短语。

错误分类体系: 模型是如何失败的

在一般对话中,如果 AI 弄错了一个细节,这很烦人。在医院里,这可能是致命的。研究人员意识到,标准的准确率指标 (比如“模型是否得到了完全正确的单词?”) 是不够的。他们需要对模型失败的方式进行分类。

他们开发了一个详细的 错误分类体系 , 包含 8 种不同的错误类型。让我们通过论文中的例子来看看其中的几种。

1. 推理和医学事实错误

推理错误发生在模型看到图像但得出错误结论时。 医学事实错误是指模型产生医学知识幻觉或误解了医疗程序。

两个错误示例。左图: 一个推理错误,尽管有线索,模型仍声称无法监控。右图: 关于静脉输液管的医学事实错误。

在上例 (图 10) 中,请看左侧面板。模型声称“无法确认”生命体征是否被监测,因为“没有可见的监视器”。这就是推理失败——人类医生知道,在这种环境下,连接在病人身上的导线意味着正在进行监测,即使屏幕不在画面中。

2. 特异性和语言错误

有时模型只是含糊其辞 (特异性错误) 或语法混乱 (语言错误) 。

左图: 特异性错误,答案不相关。右图: 语言错误,“清醒”与镇静的视觉证据相矛盾。

在图 12 (右侧面板) 中,模型说病人“清醒且定向力正常 (alert and oriented) ”。然而,这个孩子插着鼻胃管,看起来处于镇静或睡眠状态。模型使用了一个“安全”但通用的医学短语,这对于该特定病人来说在事实上是错误的。

3. 幻觉

也许最危险的错误是 幻觉 , 即模型编造了根本不存在的物体或细节。

左图: 幻觉错误,模型编造了伤害检查。右图: 不确定性错误,模型对注射泵过度谨慎。

在图 13 (左图) 中,模型添加了“病人也正在接受伤害检查”。没有任何视觉证据表明正在进行伤害检查。在医疗日志中,这种捏造的细节可能会导致对实际执行了哪些程序的混淆。

“变本加厉”效应

这篇论文最深刻的见解之一是这些错误是如何相互作用的。研究人员分析了错误的 共现 (co-occurrence) ——如果模型犯了一种类型的错误,它还会犯什么其他错误?

一张热图显示了不同错误类型之间的相关性。深蓝色表示高共现率。

上面的热图揭示了一个令人担忧的趋势:

  • 推理错误 (类型 1) 与 幻觉 (类型 7) 和 感知错误 (类型 3) 高度相关。
  • 这表明,当模型未能正确感知物体时,它不会停下来;它会 产生幻觉 编造细节来填补空白,然后基于那个谎言构建 推理 链。
  • 模型倾向于对错误“变本加厉 (double down) ”,而不是表达不确定性。

对模型进行基准测试

研究人员测试了各种最先进的模型,包括开源选项 (Llava, mPLUG-Owl, Open-Flamingo) 和闭源模型 (GPT-4V, Gemini Pro Vision) 。

改编的指标

由于标准的文本指标 (如 BLEU 或 ROUGE) 不能很好地捕捉医学准确性,作者针对该领域改编了两个特定指标:

  1. 蕴含分数 (Entailment Score, ES): 这衡量了标准答案 (ground truth) 的含义是否包含在生成的答案中。它使用自然语言推理 (NLI) 模型来检查逻辑一致性。 \[ E S = p ( e n t a i l m e n t | r e f , g e n ) \]
  2. CLIPScore 置信度 (CLIP-C): 该指标检查视觉一致性。它衡量生成的答案与图像的对齐程度,并将其与标准答案进行比较。 \[ C L I P - C = \frac { C L I P - S ( i m g , g e n ) } { C L I P - S ( i m g , r e f ) + C L I P - S ( i m g , g e n ) } \]

结果

定量结果 (表 3) 显示,像 GPT-4V 这样的专有模型在语义理解 (蕴含分数) 方面通常优于开源模型。

表格显示性能指标。GPT-4V 和 Gemini 通常在语义分数上领先。

然而,指标分数并不能说明全部情况。为了获得真实的可靠性图景,研究人员训练了一个分类器 (使用微调的 BLIP-2 模型) 来自动检测前面讨论的 8 种错误类型。这种“银标 (silver-label) ”分析提供了错误率的细分。

关键趋势

1. 更大的模型 \(\neq\) 更少的错误 你可能认为庞大的 13B 模型或闭源商业模型会更安全。令人惊讶的是,错误分析表明并非如此。

条形图按模型大小比较错误率。即使对于较大的模型,错误率仍然很高。

如图 6 所示,虽然较大的模型 (如 Gemini) 表现更好,但差距并没有人们希望的那么大。即使是最好的模型也存在大量的推理 (类型 1) 和特异性 (类型 5) 错误。例如,GPT-4V 显示出很高的推理错误倾向,经常通过产生细节幻觉来支持一个复杂 (但错误) 的论点。

2. 上下文学习: 喜忧参半 研究人员为模型提供了示例 (1-shot 和 3-shot 学习) ,看看“教”它们格式是否有帮助。

条形图显示 Gemini 在 0-shot、1-shot 和 3-shot 设置下的错误率。错误率保持停滞。

图 7 揭示了 Gemini Vision Pro 的一个令人沮丧的现实: 增加示例 (shots) 的数量并没有显着降低错误率。虽然指标 (如 BLEU) 可能会上升,因为模型学会了模仿答案的风格,但潜在的 推理和感知错误 仍然顽固地居高不下。模型学会了听起来更像医生,但它并没有学会看得更清楚。

3. 冗长的问题 许多模型,尤其是开源模型,都患有“特异性/相关性”错误 (类型 5) 。它们会生成充满通用医学定义的冗长答案,而不是回答关于图像中病人的具体问题。

条形图按解码器类型比较错误率。注意几个模型的高类型 5 错误率。

结论: 它们准备好了吗?

论文的标题询问 LVLMs 是否为医院环境做好了准备。ERVQA 基准测试提供的证据给出了明确的答案: 不,还没有。

虽然像 GPT-4V 和 Gemini Vision Pro 这样的模型展示了令人印象深刻的通用能力,但在急诊室这样高风险、安全至上的环境中,它们的应用目前充满了风险。

  • 它们会幻想不存在的治疗方法。
  • 它们会误解视觉线索 (如断开的静脉输液管) 。
  • 它们对自己错误的推理过度自信。

ERVQA 数据集是一个至关重要的现实检验。它强调了医疗 AI 不仅仅需要通用训练;它需要特定领域的落地、对视觉细微差别的更好掌握,以及至关重要的是,能够说“我不知道”而不是编造听起来合理的谎言。

对于进入该领域的学生和研究人员来说,这篇论文为未来的工作打开了一扇巨大的大门。我们如何减少视觉幻觉?我们如何教导模型优先考虑患者安全而不是对话的流畅度?ERVQA 基准测试是回答这些问题的第一步。