在人工智能飞速发展的今天,像 LLaVA 和 GPT-4V 这样的大型视觉语言模型 (LVLMs) 已成为新标准。这些模型能够观察图像并进行描述、回答相关问题或进行分类,且准确率惊人。然而,它们都有一个众所周知的缺陷: 幻觉 (hallucinations) 。它们有时会看到不存在的东西,或者基于训练偏差误解视觉线索。

为了解决这个问题,研究人员通常求助于检索增强生成 (Retrieval-Augmented Generation, RAG) 。 这个想法很简单: 如果模型不确定,就让它从数据库中“查找”类似的例子来指导其回答。

但这其中隐藏着一个陷阱。如果模型查到了错误的信息怎么办?如果检索到的例子在视觉上相似但在概念上不同怎么办?对于标准模型来说,这种“有毒的”上下文往往会导致比瞎猜更糟糕的答案。

在这篇深度文章中,我们将探讨一种名为 SURf (选择性利用检索信息) 的新框架。该论文介绍了一种新颖的训练方法,教导模型不仅要利用外部帮助,还要批判性地评估它——学会在信息的浪潮中冲浪,而不是在噪声中翻船。

RAG 中“盲目信任”的问题

检索增强生成彻底改变了基于文本的大语言模型 (LLMs) ,但将其应用于多模态 (图像+文本) 任务却很棘手。

在多模态 RAG 设置中,当用户提出关于图像的问题时,系统会在海量数据库中搜索相似的“图像-标题”对。假设是这些相似的例子将作为参考,帮助模型理解输入图像的细节。

The illustration of Multimodal RAG for VQA, Captioning and Classification Tasks. 图 1: 多模态 RAG 在不同任务中的工作原理演示。通过检索相似图像 (参考资料) 及其描述,模型理想情况下应获得足够的上下文来正确回答。

如上图 1 所示,当检索到的图像相关时,这种方法效果极佳。如果你正在对一架飞机进行分类,而模型检索到了其他飞机的照片,准确率就会提高。

然而,检索过程很少是完美的。它通常依赖于相似度评分 (如 CLIP 嵌入) ,这是基于一般的视觉模式而非具体的语义细节来匹配图像的。这可能导致检索到不相关或误导性的内容

当 RAG 出错时

考虑下面的例子。关于一张女人躺在地板上的照片,模型被问到: “她躺在什么上面?”

Illustration of multimodal RAG. RAG can introduce misleading content. 图 2: 误导性参考资料的危险。一个“普通” (Vanilla) RAG 模型看到一张人们睡在床上的检索图像 (右侧参考资料) ,就被骗得回答“床”,尽管正确答案是“地板”。

在图 2 中,检索系统找到了一张人们睡在床上的照片,因为它在视觉上与输入相似 (都是躺着的人) 。标准的“Vanilla-RAG”模型盲目地信任了这个参考资料,给出了错误的答案 (“她躺在床上”) 。研究人员发现,当引入不相关内容时,标准 LVLM 的性能会显著下降——往往比根本不使用 RAG 还要糟糕。

这引出了论文的核心假设: 既然我们无法构建一个完美的检索器,我们就必须构建一个更聪明的生成器。 我们需要一个知道何时使用检索信息、何时忽略它的模型。

SURf 解决方案: 自我完善框架

研究人员提出了 SURf , 这是一个旨在使 LVLM 对噪声数据具有鲁棒性的训练框架。SURf 不是在精心挑选的数据上训练模型,而是利用模型自身的错误和成功进行训练。

这种方法非常优雅,因为它不需要大量新的外部数据集。它回收模型现有的训练数据,创建了一门批判性思维的“课程”。

SURf 如何工作

训练过程遵循特定的流程,如下图所示:

Illustration of our training framework. Steps involve collecting wrong answers, retrieving context, and filtering for positive/negative training samples. 图 3: SURf 流程。系统识别模型失败的地方,检索帮助,然后将该帮助分类为“正例” (修正了错误) 或“负例” (没有帮助) 。

让我们将图 3 所示的算法分解为易于理解的步骤:

  1. 识别弱点 (Identify Weaknesses) : 研究人员从模型的标准训练数据开始。他们要求 LVLM 在没有任何检索的情况下回答问题。他们专门分离出模型回答错误的问题。这些就是“知识缺口”。
  2. 检索上下文 (Retrieve Context) : 对于每一个回答错误的问题,他们执行检索步骤,从数据库中获取顶部的“图像-标题”对。
  3. 重新评估 (分院帽) : 他们再次向模型提出相同的问题,但这次提供了检索到的上下文。
  • 正样本 (Positive Samples) : 如果模型的答案从错误变为正确 , 则该特定检索上下文被标记为“正例”。它是有用的。
  • 负样本 (Negative Samples) : 如果答案仍然错误或变得更糟,则该上下文被标记为“负例”。它是不相关或具有误导性的。
  1. 指令微调 (Instruction Tuning) : 最后,使用这些分类后的样本对模型进行微调。它学会了将特定类型的上下文与“有帮助”的信号联系起来,将其他类型的上下文与“噪声”联系起来。

“困难负样本”的重要性

这里的一个关键创新是 SURf 处理负样本的方式。他们不仅仅挑选随机的糟糕图像;他们挑选最难的负样本。

在过滤阶段,研究人员选择那些与输入图像具有最高视觉相似度但仍导致错误答案的负面例子。这迫使模型注意细微的细节。它教导模型: “仅仅因为这张参考图看起来像输入图,并不意味着答案适用于此。”

实验成功

教模型学会“怀疑”真的能提高性能吗?研究人员在三个主要的计算机视觉任务上测试了 SURf: 视觉问答 (VQA) 、图像描述 (Image Captioning) 和图像分类 (Image Classification) 。

超越基线

结果与“零样本 (Zero-shot) ”基线 (无检索) 和“普通 Vanilla-RAG” (无选择性的标准检索) 进行了比较。

Performance comparison of our model on 7B and 13B parameters using four methods across seven tasks. 表 1: 性能比较。SURf (每部分的最后一行) 在 POPE、VizWiz 和 MS-COCO 等各种数据集上始终优于标准方法。

如表 1 所示,SURf 取得了最先进的结果。

  • VQA: 在测试幻觉问题的困难 POPE 基准测试中,SURf 与标准 RAG 相比显著减少了错误。
  • 图像描述: 在图像描述任务中的提升更为明显,表明模型在从有效参考资料中综合描述性细节方面变得更好了。
  • 分类: 虽然 Vanilla-RAG 有时会损害分类准确性 (由于检索到形状相似但类别不同的物体) ,但 SURf 挽回了这种损失并在基线上有所提高。

对噪声的鲁棒性

SURf 最有力的证据来自使用故意不相关数据对模型进行的压力测试。研究人员注入了“噪声”——即越来越不相似或不相关的“图像-标题”对——来看看模型是否会感到困惑。

Performance of the base model (LLaVA-1.5- 7B) without using RAG (Base), RAG with irrelevant content (Irrelevant), and RAG on POPE-popular, MSCOCO, and CIFAR-10. 图 4: 噪声的影响。蓝色柱状图 (“不相关”) 显示了当添加糟糕的检索数据时,标准模型的性能下降得有多厉害。SURf 旨在使性能更接近灰色的“预期”柱状图。

图 4 凸显了当前模型的脆弱性 (“Base”和“Irrelevant”柱状图) 。当标准的 LLaVA 模型被输入不相关的 RAG 数据时,其性能 (蓝色柱) 通常会跌落至基线性能 (橙色柱) 以下。

然而,SURf 改变了这种动态。

Performance comparison of our model and vanilla-RAG on three tasks when introducing irrelevant image-caption pairs. 表 2: 鲁棒性测试。即使输入非常不同 (100k 或 1,000k 范围,意味着相关性极低) 的检索数据,SURf 的准确率仍保持稳定,而普通 RAG 则会下降。

表 2 展示了 SURf 的“护盾”。即使检索系统提供的数据截然不同 (1,000k 列) ,SURf 的准确率仍保持稳定。这证实了该模型已成功学会忽略它认为不相关的信息。

定性案例研究

数字固然重要,但看到模型的实际表现更能说明问题。让我们看一个“网球”幻觉测试。

Case for comparing our method with zero-shot and vanilla-RAG. Tennis ball example. 图 5: 在左下角的图像中,没有网球。普通 RAG 产生了幻觉 (可能是由于检索到了网球场的图像) ,并自信地回答“Yes”。SURf 利用了上下文但过滤掉了幻觉,正确回答了“No”。

在图 5 中,我们看到一个年轻女孩在网球场上。

  • Vanilla (零样本) 正确猜测“No” (或者是不确定) 。
  • Vanilla-RAG 检索到了网球场的图像 (通常有球) ,并错误地自信回答“Yes”。
  • SURf 使用了上下文,但过滤掉了幻觉,正确回答“No”。

这种过滤能力对于自动驾驶或医学成像等安全性和准确性至关重要的现实应用来说是至关重要的。

结论与未来展望

SURf 论文指出了多模态 AI 中的一个关键瓶颈: 即假设更多的上下文总是更好的。通过证明不相关的检索会“毒害”模型的输出,研究人员强调了“主动”而非“被动”消费数据的必要性。

SURf 提供了一个具有成本效益的解决方案。它不需要从头开始训练一个新的庞大模型,也不需要标记数千个新数据集。通过利用模型自身的错误来创建正向和负向的训练信号,SURf 为 LVLM 配备了一个关键的过滤器。

随着我们迈向更自主的 AI 代理,这种选择性利用信息的能力将是区分智能助手和困惑助手的关键。SURf 教导模型,在大数据的海洋中,保持浮在水面的关键在于知道该乘哪波浪,该避开哪波浪。