人工智能与医疗的融合不再是未来的概念;它正在当下发生。从诊断皮肤病变到预测患者预后,AI 模型正逐渐成为临床医生手中的有力工具。然而,伴随着强大能力而来的是“黑盒”问题。深度学习模型,尤其是在医学影像领域的模型,以其不透明性而闻名。我们要么知道它们决定了什么,却很少知道为什么。
为了弥合这一差距, 可解释性 AI (XAI) 领域迅速普及。其逻辑是合理的: 如果 AI 能够解释其推理过程,医生就能在它正确时信任它,并在它错误时——至关重要的是——发现它的错误。
但是,如果解释本身就是问题所在呢?
在一篇题为 “Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting” (《被骗一次?临床决策支持环境中对比文本与视觉解释》) 的精彩论文中,来自牛津大学及合作机构的研究人员调查了人机协作中一个关键却常被忽视的细微差别。他们发现,解释的模态——究竟是一张视觉图还是一句文字——会极大地改变人类与 AI 的互动方式。最令人担忧的是,他们发现文笔流畅的文本解释极具说服力,以至于能诱使医疗专业人员接受错误的诊断。
在这篇深度文章中,我们将拆解他们的方法论,探讨“能言善辩”的 AI 带来的危险诱惑,并以此观察结合视觉与文本线索如何成为构建更安全的临床决策支持系统 (CDSS) 的关键。
背景: 可解释性的两面
在分析这项研究之前,我们需要了解目前在医学影像领域争夺主导地位的两种主要解释类型。
1. 视觉解释 (显著图 / Saliency Maps)
多年来,解释计算机视觉模型的标准一直是显著图 (或热力图) 。这些图高亮显示了图像中模型认为对其预测最重要的特定区域。
- 优点: 处理速度快,可直接覆盖在医学图像上。
- 缺点: 往往模棱两可。一个高亮的肺部区域可能意味着肺炎、结节或肋骨骨折。“为什么”留给了观看者去解读。
2. 自然语言解释 (NLEs)
随着大型语言模型 (LLM) 和视觉语言模型 (VLM) 的兴起,AI 现在可以生成流畅、类似人类的文本来证明诊断的合理性。例如: “双肺基底不透明影可能代表肺不张。”
- 优点: 直观、人类可读,且模仿了医生之间的交流方式。
- 缺点: 正如本研究所揭示的,它们的“拟人性”可能导致过度依赖。
研究人员着手对比这两种模态,不仅是看用户有多喜欢它们,更是看在一个 AI 并不总是完美的某些高风险环境中,它们如何影响准确性 。
研究设计: 模拟不完美
大多数 XAI 的评估都假设一个二元世界: AI 要么对,要么错。然而,这篇论文引入了一个更现实、更复杂的变量: 解释正确性 (\(C_{\chi}\)) 。
在现实世界中,AI 可能会因为错误的理由做出正确的诊断 (答案对,解释错) ,或者可能会为错误的诊断编造一个令人信服的解释。为了测试这一点,作者设计了一项大规模用户研究,涉及 85 名医疗从业者 (从医学生到放射科住院医师) 。
协议
参与者的任务是审查胸部 X 光片。他们由一个提供诊断建议的 AI 辅助,根据实验条件的不同,AI 还会提供解释。研究流程非常严谨,确保参与者在不同场景下接受测试。

如图 1 所示,参与者经历了四个特定条件:
- AI 建议 + NLE (文本)
- AI 建议 + 显著图 (视觉)
- AI 建议 + 组合 (两者皆有)
- AI 建议 + 无解释 (对照组)
转折点: 深刻与欺骗性解释
这项研究的天才之处在于研究人员如何对 AI 的行为进行分类。他们不仅仅使用“好 AI”或“坏 AI”。他们让放射科专家分别标注 AI 预测的正确性 (\(C_{AI}\)) 以及 解释的正确性 (\(C_{\chi}\))。
这创造了一个评估交互的四象限框架:

- 深刻 (Insightful): AI 正确,且解释质量高。
- 困惑 (Confusing): AI 正确,但解释毫无意义 (质量低) 。
- 揭示 (Revealing): AI 错误,且解释很差 (帮助人类发现错误) 。
- 误导 (Misleading): AI 错误,但解释非常合理/听起来很正确 (欺骗人类) 。
下方的图 2 提供了这些类别的具体例子。请注意象限 (c) 误导 (Misleading) 。 在这里,AI 建议“肺泡出血” (错误) ,但提供了一个高评分的解释。这就是临床 AI 的“危险区”。

核心方法: 为人为决策建模
为了分析结果,研究人员不仅仅看原始平均值。他们采用了广义线性混合效应模型 (GLMM) 。 这种统计方法使他们能够考虑到不同参与者 (有些经验更丰富) 和不同图像 (有些更难诊断) 之间的变异性。
该模型基于几个相互作用的因素来预测人类做出正确决定的对数几率 (log-odds)。

在这个公式中:
- \(l_{ij}\) 是人类的准确性。
- \(C_{AI}\) 是 AI 的正确性 (0 或 1) 。
- \(\chi\) 代表解释类型 (文本、视觉、组合) 。
- \(C_{\chi}\) 是解释的正确性 (来自放射科医生的连续评分) 。
交互项 (如 \(\chi \times C_{AI}\)) 至关重要。它们允许研究人员提出这样的问题: “文本解释的效果是否会根据 AI 是否在撒谎而改变?”
结果: 偏好与表现的悖论
研究结果揭示了用户认为有用的东西与实际真的有用的东西之间存在明显的脱节。
1. 偏好错觉
当被问及时,临床医生压倒性地偏好文本形式的自然语言解释 (NLE)。与显著图相比,他们在信任度、透明度和可理解性方面给 NLE 打了更高的分。

如图 4 所示,橙色线 (NLE) 在每个主观指标上都主导了紫色线 (显著图/SAL) 。临床医生认为文本更透明、更值得信赖。
2. 文本解释的陷阱
然而,当研究人员查看实际诊断准确性时,情况发生了巨大的变化。
当 AI 给出错误建议时,与视觉解释相比,NLE 显著损害了人类的表现。这种现象被称为过度依赖 (over-reliance) 。 因为文本听起来合理且具有权威性 (即使是错误的) ,临床医生不太可能质疑 AI 的判断。

看一看图 6 中的中间图表 (“针对错误建议”) 。绿色柱 (NLE) 显著低于其他柱。这意味着当 AI 犯错时,向医生展示文本解释使他们比看到显著图甚至没有任何解释时更有可能同意该错误 。
3. 视觉帮助发现错误
相反,显著图起到了“合理性检查 (sanity check)”的作用。尽管用户在调查中对它们评价不高,但数据显示低质量的显著图有助于用户识别 AI 何时出错。
如果 AI 预测是“肺炎”,但显著图高亮了肩胛骨或胃部,医生会立即知道有些不对劲。这就是一种“揭示性”解释。然而,文本可以用幻觉生成的医学术语掩盖这些错误,使错误更难被发现。
4. 组合的力量
研究发现,“组合”模态 (同时显示文本和视觉图) 提供了两全其美的效果,特别是在解释是“深刻”的 (AI 正确,解释也正确) 情况下。

图 3 完美地展示了这种交互作用。
- 右侧面板 (AI 正确) : 随着解释质量的提高 (x 轴向右移动) ,人类准确性飙升。红线 (组合) 始终优于其他线。
- 左侧面板 (AI 错误) : 随着解释质量下降 (向左移动) ,视觉和组合模型的准确性实际上有所提高。为什么?因为解释看起来“很糟”,警示人类注意错误。然而,请注意绿线 (NLE) 是如何难以提供同样的安全网的。
“令人信服”与“欺骗性”的影响
研究人员进一步将结果细分为我们之前讨论的具体象限。图 7 中的条形图 (特别是底行) 突出显示了这些特定场景下人类准确性的差异。

- 深刻解释 (左上) : 当一切按预期工作时,组合解释 (红条) 产生的准确率最高 (\(76.5\%\))。
- 误导解释 (右上) : 这是 AI 错误但解释看起来“很好”的场景。注意准确率是如何全线下降的 (大约在 \(40-50\%\) 左右) 。这证明了针对错误预测的高质量解释是一个重大的安全隐患。
探索性洞察: 速度与信心
除了准确性,该研究还关注了这些解释如何影响工作流程。
决策速度: 不出所料,阅读文本需要时间。NLE 和组合解释的决策速度明显慢于显著图或无解释。

如图 11 (左上) 所示,与无解释相比,使用组合解释每个病例大约增加 7 秒。虽然这看起来微不足道,但在高通量的临床环境中,这些秒数会累积。然而,考虑到安全影响,这可能是一个必要的权衡。
感知有用性: 研究人员还追踪了逐个病例的“感知有用性”。有趣的是,即使 AI 错了,用户仍然认为 NLE 非常有用,这证实了确认偏误和过度依赖的问题。

图 8 (中上) 显示,对于错误答案 , 用户仍然认为 NLE (橙色条) 比显著图有用得多。当这种主观的“感觉”有用与客观准确性不相关时,它是危险的。
结论: 信任,但要核实
这篇研究论文为生成式 AI 在医学领域的部署提供了一个发人深省的现实检验。作者有效地证明了用户偏好不能作为临床安全性的代理指标。
以下是给学生和 AI 从业者的主要启示:
- 口才 \(\neq\) 真理: 大型语言模型具有说服力。在临床环境中,它们生成听起来合理的理由的能力可能会覆盖医生的判断,从而导致错误。
- 视觉是“诚实”的: 显著图虽然有时令人困惑,但更难造假。一个荒谬的热力图是一个直接的危险信号,而一个幻觉生成的文本解释可能会逃过雷达。
- 组合是关键: 通过组合模态实现了最佳性能。文本提供了上下文和易用性,而视觉图则作为一种基础机制来验证文本的主张。
- 评估必须现实: 在完美数据上测试 AI 是不够的。要了解 CDSS 的真实影响,我们必须评估当 AI 出错且解释具有欺骗性时人类如何反应。
随着我们的前进,医疗 AI 界面的设计必须考虑到人类心理学。我们不能简单地为了“信任”而最大化优化。相反,我们必须设计出鼓励适当依赖的系统——在 AI 正确时信任它,但在它错误时提供必要的线索来质疑它。
](https://deep-paper.org/en/paper/file-3108/images/cover.png)