修复信任问题：RULE 如何让医疗 AI 更可靠

人工智能正在彻底改变医疗保健领域，特别是在医学影像方面。现在的医疗大型视觉语言模型 (Med-LVLMs) 已经能够查看 X 光片或视网膜扫描图像，并回答临床问题。然而，这些模型存在一个显而易见却棘手的问题: 幻觉 (Hallucinations) 。

即使是最好的模型，有时也会生成听起来合理但实际上错误的医疗回复。在临床环境中，事实性错误不仅仅是一个小故障，更是一个安全隐患。

为了解决这个问题，研究人员通常转向检索增强生成 (Retrieval-Augmented Generation, RAG) 。这个想法很简单: 与其强迫 AI 记住所有东西，不如让它访问一个可靠的医疗报告库 (就像“开卷考试”一样) 。但是，正如论文*“RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models”的作者所发现的那样，RAG 并不是万灵药。事实上，如果管理不当，给 AI 提供额外信息有时反而会使其表现更差*。

在这篇文章中，我们将详细介绍 RULE , 这是一个旨在通过教导 AI 确切需要多少外部帮助以及何时应该相信自己的训练而非检索文档，来使医疗 AI 事实性更准确的新框架。

医疗 RAG 的双刃剑

解决 AI 幻觉的标准方法是 RAG。当模型接收到医疗图像和问题时，它会从数据库中检索相似的历史病例或报告作为参考。

然而，研究人员发现将 RAG 应用于医学影像时存在两个主要的失败模式:

上下文数量问题: 如果检索的文档太少，模型可能会错过关键信息。如果检索太多，则会引入干扰模型生成过程的噪音和无关细节。
过度依赖问题: 这是一个更微妙的危险。有时，模型仅凭图像就知道正确答案。但是，如果检索到的文本包含稍微不准确或无关的信息，模型可能会盲目相信检索结果，从而产生幻觉并给出错误答案。

图 1: Med-LVLM 中的事实性问题示例。(a) 展示了幻觉。(b) 展示了选择正确文档数量的困难。(c) 展示了模型原本能自己回答正确，但在加入 RAG 后由于过度依赖而回答错误。

如上方的 图 1 (c) 所示，有些情况下“更强的 Med-LVLM”最初能答对，可一旦引入 RAG，它就会被混淆并给出错误回答。研究人员称之为“过度依赖”。

解决方案: RULE

为了解决这些问题，作者提出了 RULE (Reliable mUltimodaL RAG，可靠的多模态 RAG) 。该框架包含三个主要阶段:

标准上下文检索: 寻找相关的医疗报告。
事实性风险控制: 一种统计方法，用于确定检索文档的确切数量 (\(k\)) ，以将错误风险降至最低。
知识平衡偏好微调 (KBPT) : 微调模型，以平衡其内部知识与检索到的上下文。

图 2: RULE 的框架包含两个主要组件: 事实性风险控制和知识平衡偏好微调。

让我们逐一拆解这些组件。

1. 检索策略

在控制风险之前，我们需要一种找到相关信息的方法。RULE 使用双编码器系统 (类似于 CLIP) 将输入的医疗图像与数据库中的相似文本报告进行匹配。

该系统使用视觉编码器处理图像，使用文本编码器处理报告。它是使用对比损失函数训练的，以确图像及其对应的报告具有相似的数学表示 (嵌入) 。

公式 2: 用于对齐图像和文本表示的对比损失函数。

训练完成后，当有新的患者图像输入时，系统会检索前 \(k\) 个最相似的医疗报告作为参考。

2. 校准检索 (风险控制)

模型应该看多少份报告？AI 界的标准做法是任意选择一个数字，比如前 3 个或前 5 个。

RULE 采取了更严谨的统计方法。其目标是选择一个检索上下文的子集 (\(k\)) ，使得事实性错误的风险在统计上保证低于某个阈值。

作者使用了一种受共形预测 (conformal prediction) 启发的技术。他们计算不同 \(k\) 值下的“事实性风险”。

公式 21: 基于模型准确率的事实性风险 (FR) 定义。

然后，他们计算概率来确定特定 \(k\) 下的风险是否可接受。

公式 5: 用于风险控制的概率计算。

通过执行假设检验，他们选择了一组能够以高概率 (至少 \(1 - \delta\)) 控制风险的 \(k\) 值。这消除了猜测。模型不再是寄希望于 \(k=5\) 能奏效，而是通过数学验证哪种上下文数量能最大限度地减少幻觉。

公式 6: 事实性风险控制的概率保证。

3. 知识平衡偏好微调 (KBPT)

这可能是论文中最具创新性的部分。如前所述，模型经常遭受过度依赖的困扰。它们的行为就像一个明明知道答案的学生，却因为偷看了邻座错误的试卷而改错了答案。

研究人员量化了这个问题。他们发现，在 RAG 模型失败的许多案例中，是因为检索内容“误导”了生成过程。

表 1: 过度依赖比率显示，RAG 模型中近一半的错误是由于过度依赖检索到的上下文造成的。

如 表 1 所示，检索增强模型所犯的错误中，大约 47-58% 是由于过度依赖造成的。

修复方案: 直接偏好优化 (DPO)

为了解决这个问题，作者使用了直接偏好优化 (DPO) 。 DPO 通常用于将语言模型与人类偏好对齐 (例如让 ChatGPT 更礼貌) 。在这里，作者对其进行了调整，以使模型与事实性对齐。

公式 2: 标准的直接偏好优化 (DPO) 损失函数。

他们如何构建数据集: 他们创建了一个特定的“偏好数据集”来教导模型何时忽略检索内容。

他们识别出模型在没有 RAG 的情况下能正确回答的样本。
他们识别出同一个模型在添加 RAG 后回答错误的样本。
他们将正确 (无 RAG) 的回答视为偏好响应 (\(y_{w,o}\)) ，将错误 (受 RAG 影响) 的回答视为非偏好响应 (\(y_{l,o}\)) 。

然后，他们使用专门针对这种知识平衡修改后的 DPO 损失函数对模型进行微调:

公式 8: 知识平衡偏好微调 (KBPT) 损失函数。

这个过程有效地教导了模型: “如果检索到的文本会将你引入歧途，请相信你自己的内部训练。”

实验结果

研究人员在三个主要的医疗数据集上测试了 RULE: IU-Xray、MIMIC-CXR (放射学) 和 Harvard-FairVLMed (眼科) 。他们将其与标准模型 (如 LLaVA-Med) 和其他缓解幻觉的技术 (如贪婪解码 Greedy Decoding 和 DoLa) 进行了比较。

准确率提升

结果令人印象深刻。RULE 显著优于基线 LLaVA-Med-1.5 和其他方法。

表 2: VQA 数据集上的事实性表现。RULE 在准确率、精确率和召回率方面均取得了最先进的结果。

在视觉问答 (VQA) 任务中，RULE 在所有数据集上都达到了最高的准确率。例如，在 IU-Xray 数据集上，准确率从 75.47% (基线) 跃升至 87.84% (RULE) 。

在报告生成任务 (撰写完整的医疗描述) 中，通过 BLEU 和 ROUGE-L 等指标衡量，他们也观察到了类似的改进。

表 3: 报告生成数据集上的表现显示 BLEU 和 ROUGE-L 分数显著提高。

为什么它能奏效？

为了证明 KBPT 确实解决了“过度依赖”问题，作者可视化了模型的注意力——本质上就是 AI 在生成答案时关注的地方。

图 3: 比较未使用 KBPT 与使用 KBPT 的注意力图。

在 图 3 中，请看右侧 (b) 的注意力图:

未使用 KBPT (上图): 模型花费大量“精力”关注检索到的 token (热力图右侧的红色块) 。它回答错误。
使用 KBPT (下图): 模型的注意力发生了转移。它较少关注检索到的文本，更多地关注问题和图像。它回答正确 (“No”) 。

这证实了微调成功地教导了模型在必要时更看重其内部知识。

兼容性

作者还表明，RULE 不仅仅是针对特定模型版本的单一成功案例。他们将其应用于不同的骨干网络 (LLaVA-Med-1.0 和 1.5) ，均一致地观察到了改进。

图 4: RULE 在不同模型骨干上表现出一致的改进。

现实世界示例

为了直观地展示影响，让我们看两个 RULE 挽救局面的具体案例。

图 5: 放射学和眼科的案例研究。

在 图 5 中:

上方案例 (肺部 X 光) : 问题询问关于“局灶性气腔实变”。标准的 LLaVA-Med 回答“Yes”。RAG 模型被一份关于“老花眼” (一种眼部疾病！) 的不相关检索报告搞糊涂了，虽然回答了“No”，但是理由完全错误。 RULE 正确地根据图像识别出答案是“No”，忽略了糟糕的检索结果。
下方案例 (眼底) : 标准模型正确识别了老花眼。RAG 模型看到一份写着“没有老花眼”的检索文档，就盲目复制了它，导致错误。 RULE 平衡了两者，相信视觉证据，并正确回答“Yes”。

结论

“RULE”框架凸显了在医学等高风险领域部署 AI 的一个关键细微差别: 数据并非越多越好。 简单地检索外部文档 (RAG) 可以解决一些知识空白，但也会引入噪音和偏差。

通过统计校准阅读多少内容 (事实性风险控制) ，并微调模型以抵制不良检索带来的误导 (知识平衡偏好微调) ，我们可以构建不仅更聪明而且更可靠的医疗 AI。

这项研究为多模态医疗 AI 的未来提供了一个强有力的蓝图，使我们更接近临床医生真正可以信任的自动化系统。

医疗 RAG 的双刃剑#

解决方案: RULE#

1. 检索策略#

2. 校准检索 (风险控制)#

3. 知识平衡偏好微调 (KBPT)#

修复方案: 直接偏好优化 (DPO)#

实验结果#

准确率提升#

为什么它能奏效？#

兼容性#

现实世界示例#

结论#