人工智能正在彻底改变医疗保健领域,特别是在医学影像方面。现在的医疗大型视觉语言模型 (Med-LVLMs) 已经能够查看 X 光片或视网膜扫描图像,并回答临床问题。然而,这些模型存在一个显而易见却棘手的问题: 幻觉 (Hallucinations) 。
即使是最好的模型,有时也会生成听起来合理但实际上错误的医疗回复。在临床环境中,事实性错误不仅仅是一个小故障,更是一个安全隐患。
为了解决这个问题,研究人员通常转向检索增强生成 (Retrieval-Augmented Generation, RAG) 。 这个想法很简单: 与其强迫 AI 记住所有东西,不如让它访问一个可靠的医疗报告库 (就像“开卷考试”一样) 。但是,正如论文*“RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models”的作者所发现的那样,RAG 并不是万灵药。事实上,如果管理不当,给 AI 提供额外信息有时反而会使其表现更差*。
在这篇文章中,我们将详细介绍 RULE , 这是一个旨在通过教导 AI 确切需要多少外部帮助以及何时应该相信自己的训练而非检索文档,来使医疗 AI 事实性更准确的新框架。
医疗 RAG 的双刃剑
解决 AI 幻觉的标准方法是 RAG。当模型接收到医疗图像和问题时,它会从数据库中检索相似的历史病例或报告作为参考。
然而,研究人员发现将 RAG 应用于医学影像时存在两个主要的失败模式:
- 上下文数量问题: 如果检索的文档太少,模型可能会错过关键信息。如果检索太多,则会引入干扰模型生成过程的噪音和无关细节。
- 过度依赖问题: 这是一个更微妙的危险。有时,模型仅凭图像就知道正确答案。但是,如果检索到的文本包含稍微不准确或无关的信息,模型可能会盲目相信检索结果,从而产生幻觉并给出错误答案。

如上方的 图 1 (c) 所示,有些情况下“更强的 Med-LVLM”最初能答对,可一旦引入 RAG,它就会被混淆并给出错误回答。研究人员称之为“过度依赖”。
解决方案: RULE
为了解决这些问题,作者提出了 RULE (Reliable mUltimodaL RAG,可靠的多模态 RAG) 。该框架包含三个主要阶段:
- 标准上下文检索: 寻找相关的医疗报告。
- 事实性风险控制: 一种统计方法,用于确定检索文档的确切数量 (\(k\)) ,以将错误风险降至最低。
- 知识平衡偏好微调 (KBPT) : 微调模型,以平衡其内部知识与检索到的上下文。

让我们逐一拆解这些组件。
1. 检索策略
在控制风险之前,我们需要一种找到相关信息的方法。RULE 使用双编码器系统 (类似于 CLIP) 将输入的医疗图像与数据库中的相似文本报告进行匹配。
该系统使用视觉编码器处理图像,使用文本编码器处理报告。它是使用对比损失函数训练的,以确图像及其对应的报告具有相似的数学表示 (嵌入) 。

训练完成后,当有新的患者图像输入时,系统会检索前 \(k\) 个最相似的医疗报告作为参考。
2. 校准检索 (风险控制)
模型应该看多少份报告?AI 界的标准做法是任意选择一个数字,比如前 3 个或前 5 个。
RULE 采取了更严谨的统计方法。其目标是选择一个检索上下文的子集 (\(k\)) ,使得事实性错误的风险在统计上保证低于某个阈值。
作者使用了一种受共形预测 (conformal prediction) 启发的技术。他们计算不同 \(k\) 值下的“事实性风险”。

然后,他们计算概率来确定特定 \(k\) 下的风险是否可接受。

通过执行假设检验,他们选择了一组能够以高概率 (至少 \(1 - \delta\)) 控制风险的 \(k\) 值。这消除了猜测。模型不再是寄希望于 \(k=5\) 能奏效,而是通过数学验证哪种上下文数量能最大限度地减少幻觉。

3. 知识平衡偏好微调 (KBPT)
这可能是论文中最具创新性的部分。如前所述,模型经常遭受过度依赖的困扰。它们的行为就像一个明明知道答案的学生,却因为偷看了邻座错误的试卷而改错了答案。
研究人员量化了这个问题。他们发现,在 RAG 模型失败的许多案例中,是因为检索内容“误导”了生成过程。

如 表 1 所示,检索增强模型所犯的错误中,大约 47-58% 是由于过度依赖造成的。
修复方案: 直接偏好优化 (DPO)
为了解决这个问题,作者使用了直接偏好优化 (DPO) 。 DPO 通常用于将语言模型与人类偏好对齐 (例如让 ChatGPT 更礼貌) 。在这里,作者对其进行了调整,以使模型与事实性对齐。

他们如何构建数据集: 他们创建了一个特定的“偏好数据集”来教导模型何时忽略检索内容。
- 他们识别出模型在没有 RAG 的情况下能正确回答的样本。
- 他们识别出同一个模型在添加 RAG 后回答错误的样本。
- 他们将正确 (无 RAG) 的回答视为偏好响应 (\(y_{w,o}\)) ,将错误 (受 RAG 影响) 的回答视为非偏好响应 (\(y_{l,o}\)) 。
然后,他们使用专门针对这种知识平衡修改后的 DPO 损失函数对模型进行微调:

这个过程有效地教导了模型: “如果检索到的文本会将你引入歧途,请相信你自己的内部训练。”
实验结果
研究人员在三个主要的医疗数据集上测试了 RULE: IU-Xray、MIMIC-CXR (放射学) 和 Harvard-FairVLMed (眼科) 。他们将其与标准模型 (如 LLaVA-Med) 和其他缓解幻觉的技术 (如贪婪解码 Greedy Decoding 和 DoLa) 进行了比较。
准确率提升
结果令人印象深刻。RULE 显著优于基线 LLaVA-Med-1.5 和其他方法。

在视觉问答 (VQA) 任务中,RULE 在所有数据集上都达到了最高的准确率。例如,在 IU-Xray 数据集上,准确率从 75.47% (基线) 跃升至 87.84% (RULE) 。
在报告生成任务 (撰写完整的医疗描述) 中,通过 BLEU 和 ROUGE-L 等指标衡量,他们也观察到了类似的改进。

为什么它能奏效?
为了证明 KBPT 确实解决了“过度依赖”问题,作者可视化了模型的注意力——本质上就是 AI 在生成答案时关注的地方。

在 图 3 中,请看右侧 (b) 的注意力图:
- 未使用 KBPT (上图): 模型花费大量“精力”关注检索到的 token (热力图右侧的红色块) 。它回答错误。
- 使用 KBPT (下图): 模型的注意力发生了转移。它较少关注检索到的文本,更多地关注问题和图像。它回答正确 (“No”) 。
这证实了微调成功地教导了模型在必要时更看重其内部知识。
兼容性
作者还表明,RULE 不仅仅是针对特定模型版本的单一成功案例。他们将其应用于不同的骨干网络 (LLaVA-Med-1.0 和 1.5) ,均一致地观察到了改进。

现实世界示例
为了直观地展示影响,让我们看两个 RULE 挽救局面的具体案例。

在 图 5 中:
- 上方案例 (肺部 X 光) : 问题询问关于“局灶性气腔实变”。标准的 LLaVA-Med 回答“Yes”。RAG 模型被一份关于“老花眼” (一种眼部疾病!) 的不相关检索报告搞糊涂了,虽然回答了“No”,但是理由完全错误。 RULE 正确地根据图像识别出答案是“No”,忽略了糟糕的检索结果。
- 下方案例 (眼底) : 标准模型正确识别了老花眼。RAG 模型看到一份写着“没有老花眼”的检索文档,就盲目复制了它,导致错误。 RULE 平衡了两者,相信视觉证据,并正确回答“Yes”。
结论
“RULE”框架凸显了在医学等高风险领域部署 AI 的一个关键细微差别: 数据并非越多越好。 简单地检索外部文档 (RAG) 可以解决一些知识空白,但也会引入噪音和偏差。
通过统计校准阅读多少内容 (事实性风险控制) ,并微调模型以抵制不良检索带来的误导 (知识平衡偏好微调) ,我们可以构建不仅更聪明而且更可靠的医疗 AI。
这项研究为多模态医疗 AI 的未来提供了一个强有力的蓝图,使我们更接近临床医生真正可以信任的自动化系统。
](https://deep-paper.org/en/paper/2407.05131/images/cover.png)