人工智能正在彻底改变医疗保健领域,特别是在医学影像方面。现在的医疗大型视觉语言模型 (Med-LVLMs) 已经能够查看 X 光片或视网膜扫描图像,并回答临床问题。然而,这些模型存在一个显而易见却棘手的问题: 幻觉 (Hallucinations)

即使是最好的模型,有时也会生成听起来合理但实际上错误的医疗回复。在临床环境中,事实性错误不仅仅是一个小故障,更是一个安全隐患。

为了解决这个问题,研究人员通常转向检索增强生成 (Retrieval-Augmented Generation, RAG) 。 这个想法很简单: 与其强迫 AI 记住所有东西,不如让它访问一个可靠的医疗报告库 (就像“开卷考试”一样) 。但是,正如论文*“RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models”的作者所发现的那样,RAG 并不是万灵药。事实上,如果管理不当,给 AI 提供额外信息有时反而会使其表现更差*。

在这篇文章中,我们将详细介绍 RULE , 这是一个旨在通过教导 AI 确切需要多少外部帮助以及何时应该相信自己的训练而非检索文档,来使医疗 AI 事实性更准确的新框架。

医疗 RAG 的双刃剑

解决 AI 幻觉的标准方法是 RAG。当模型接收到医疗图像和问题时,它会从数据库中检索相似的历史病例或报告作为参考。

然而,研究人员发现将 RAG 应用于医学影像时存在两个主要的失败模式:

  1. 上下文数量问题: 如果检索的文档太少,模型可能会错过关键信息。如果检索太多,则会引入干扰模型生成过程的噪音和无关细节。
  2. 过度依赖问题: 这是一个更微妙的危险。有时,模型仅凭图像就知道正确答案。但是,如果检索到的文本包含稍微不准确或无关的信息,模型可能会盲目相信检索结果,从而产生幻觉并给出错误答案。

图 1: Med-LVLM 中的事实性问题示例。(a) 展示了幻觉。(b) 展示了选择正确文档数量的困难。(c) 展示了模型原本能自己回答正确,但在加入 RAG 后由于过度依赖而回答错误。

如上方的 图 1 (c) 所示,有些情况下“更强的 Med-LVLM”最初能答对,可一旦引入 RAG,它就会被混淆并给出错误回答。研究人员称之为“过度依赖”。

解决方案: RULE

为了解决这些问题,作者提出了 RULE (Reliable mUltimodaL RAG,可靠的多模态 RAG) 。该框架包含三个主要阶段:

  1. 标准上下文检索: 寻找相关的医疗报告。
  2. 事实性风险控制: 一种统计方法,用于确定检索文档的确切数量 (\(k\)) ,以将错误风险降至最低。
  3. 知识平衡偏好微调 (KBPT) : 微调模型,以平衡其内部知识与检索到的上下文。

图 2: RULE 的框架包含两个主要组件: 事实性风险控制和知识平衡偏好微调。

让我们逐一拆解这些组件。

1. 检索策略

在控制风险之前,我们需要一种找到相关信息的方法。RULE 使用双编码器系统 (类似于 CLIP) 将输入的医疗图像与数据库中的相似文本报告进行匹配。

该系统使用视觉编码器处理图像,使用文本编码器处理报告。它是使用对比损失函数训练的,以确图像及其对应的报告具有相似的数学表示 (嵌入) 。

公式 2: 用于对齐图像和文本表示的对比损失函数。

训练完成后,当有新的患者图像输入时,系统会检索前 \(k\) 个最相似的医疗报告作为参考。

2. 校准检索 (风险控制)

模型应该看多少份报告?AI 界的标准做法是任意选择一个数字,比如前 3 个或前 5 个。

RULE 采取了更严谨的统计方法。其目标是选择一个检索上下文的子集 (\(k\)) ,使得事实性错误的风险在统计上保证低于某个阈值。

作者使用了一种受共形预测 (conformal prediction) 启发的技术。他们计算不同 \(k\) 值下的“事实性风险”。

公式 21: 基于模型准确率的事实性风险 (FR) 定义。

然后,他们计算概率来确定特定 \(k\) 下的风险是否可接受。

公式 5: 用于风险控制的概率计算。

通过执行假设检验,他们选择了一组能够以高概率 (至少 \(1 - \delta\)) 控制风险的 \(k\) 值。这消除了猜测。模型不再是寄希望于 \(k=5\) 能奏效,而是通过数学验证哪种上下文数量能最大限度地减少幻觉。

公式 6: 事实性风险控制的概率保证。

3. 知识平衡偏好微调 (KBPT)

这可能是论文中最具创新性的部分。如前所述,模型经常遭受过度依赖的困扰。它们的行为就像一个明明知道答案的学生,却因为偷看了邻座错误的试卷而改错了答案。

研究人员量化了这个问题。他们发现,在 RAG 模型失败的许多案例中,是因为检索内容“误导”了生成过程。

表 1: 过度依赖比率显示,RAG 模型中近一半的错误是由于过度依赖检索到的上下文造成的。

表 1 所示,检索增强模型所犯的错误中,大约 47-58% 是由于过度依赖造成的。

修复方案: 直接偏好优化 (DPO)

为了解决这个问题,作者使用了直接偏好优化 (DPO) 。 DPO 通常用于将语言模型与人类偏好对齐 (例如让 ChatGPT 更礼貌) 。在这里,作者对其进行了调整,以使模型与事实性对齐。

公式 2: 标准的直接偏好优化 (DPO) 损失函数。

他们如何构建数据集: 他们创建了一个特定的“偏好数据集”来教导模型何时忽略检索内容。

  1. 他们识别出模型在没有 RAG 的情况下能正确回答的样本。
  2. 他们识别出同一个模型在添加 RAG 后回答错误的样本。
  3. 他们将正确 (无 RAG) 的回答视为偏好响应 (\(y_{w,o}\)) ,将错误 (受 RAG 影响) 的回答视为非偏好响应 (\(y_{l,o}\)) 。

然后,他们使用专门针对这种知识平衡修改后的 DPO 损失函数对模型进行微调:

公式 8: 知识平衡偏好微调 (KBPT) 损失函数。

这个过程有效地教导了模型: “如果检索到的文本会将你引入歧途,请相信你自己的内部训练。”

实验结果

研究人员在三个主要的医疗数据集上测试了 RULE: IU-XrayMIMIC-CXR (放射学) 和 Harvard-FairVLMed (眼科) 。他们将其与标准模型 (如 LLaVA-Med) 和其他缓解幻觉的技术 (如贪婪解码 Greedy Decoding 和 DoLa) 进行了比较。

准确率提升

结果令人印象深刻。RULE 显著优于基线 LLaVA-Med-1.5 和其他方法。

表 2: VQA 数据集上的事实性表现。RULE 在准确率、精确率和召回率方面均取得了最先进的结果。

在视觉问答 (VQA) 任务中,RULE 在所有数据集上都达到了最高的准确率。例如,在 IU-Xray 数据集上,准确率从 75.47% (基线) 跃升至 87.84% (RULE) 。

在报告生成任务 (撰写完整的医疗描述) 中,通过 BLEU 和 ROUGE-L 等指标衡量,他们也观察到了类似的改进。

表 3: 报告生成数据集上的表现显示 BLEU 和 ROUGE-L 分数显著提高。

为什么它能奏效?

为了证明 KBPT 确实解决了“过度依赖”问题,作者可视化了模型的注意力——本质上就是 AI 在生成答案时关注的地方。

图 3: 比较未使用 KBPT 与使用 KBPT 的注意力图。

图 3 中,请看右侧 (b) 的注意力图:

  • 未使用 KBPT (上图): 模型花费大量“精力”关注检索到的 token (热力图右侧的红色块) 。它回答错误。
  • 使用 KBPT (下图): 模型的注意力发生了转移。它较少关注检索到的文本,更多地关注问题和图像。它回答正确 (“No”) 。

这证实了微调成功地教导了模型在必要时更看重其内部知识。

兼容性

作者还表明,RULE 不仅仅是针对特定模型版本的单一成功案例。他们将其应用于不同的骨干网络 (LLaVA-Med-1.0 和 1.5) ,均一致地观察到了改进。

图 4: RULE 在不同模型骨干上表现出一致的改进。

现实世界示例

为了直观地展示影响,让我们看两个 RULE 挽救局面的具体案例。

图 5: 放射学和眼科的案例研究。

图 5 中:

  1. 上方案例 (肺部 X 光) : 问题询问关于“局灶性气腔实变”。标准的 LLaVA-Med 回答“Yes”。RAG 模型被一份关于“老花眼” (一种眼部疾病!) 的不相关检索报告搞糊涂了,虽然回答了“No”,但是理由完全错误。 RULE 正确地根据图像识别出答案是“No”,忽略了糟糕的检索结果。
  2. 下方案例 (眼底) : 标准模型正确识别了老花眼。RAG 模型看到一份写着“没有老花眼”的检索文档,就盲目复制了它,导致错误。 RULE 平衡了两者,相信视觉证据,并正确回答“Yes”。

结论

“RULE”框架凸显了在医学等高风险领域部署 AI 的一个关键细微差别: 数据并非越多越好。 简单地检索外部文档 (RAG) 可以解决一些知识空白,但也会引入噪音和偏差。

通过统计校准阅读多少内容 (事实性风险控制) ,并微调模型以抵制不良检索带来的误导 (知识平衡偏好微调) ,我们可以构建不仅更聪明而且更可靠的医疗 AI。

这项研究为多模态医疗 AI 的未来提供了一个强有力的蓝图,使我们更接近临床医生真正可以信任的自动化系统。