想象一下,你让一个先进的 AI 描述一张客厅的照片。AI 自信地告诉你: “沙发上睡着一只黑猫。”你看了看照片。有沙发,但绝对没有猫。
这种现象被称为对象幻觉 (Object Hallucination) 。 这是大型视觉语言模型 (LVLM) 发展中最持久、最令人沮丧的障碍之一。这些为 GPT-4V 或 LLaVA 等工具提供动力的模型,在理解视觉场景方面已经展现出了惊人的能力。然而,它们这种凭空“捏造”物体的倾向侵蚀了用户的信任,并限制了它们在机器人或医学成像等关键领域的应用。
一段时间以来,研究界对如何解决这个问题有着强烈的直觉: 定位 (Grounding) 。 逻辑很简单: 如果我们强迫模型不仅要说出“猫”,还要指出猫在哪里 (使用边界框) ,模型实际上就必须“证明”它看到了该物体。因此,在定位任务上训练模型应该能减少幻觉。
这听起来很完美。但这是真的吗?
在论文《 Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? 》 (对象定位真的能减少大型视觉语言模型的幻觉吗?) 中,来自维尔茨堡大学和计算机视觉实验室的研究人员决定对这一假设进行测试。他们的发现挑战了传统观念,并表明 AI 幻觉的解决方案可能比我们想象的要难以捉摸得多。
在这篇文章中,我们将剖析他们的方法,探讨测量幻觉的细微差别,并分析为什么“指物”可能并不是我们所期盼的灵丹妙药。
直觉: 为什么定位应该有效
要理解研究人员的假设,我们首先需要看看大多数 LVLM 是如何训练的。通常,这些模型是在海量的图像-标题对 (例如,一张狗的照片和文本“一只狗坐在草地上”) 上进行训练的。模型学习将视觉特征与文本标记 (tokens) 联系起来。
然而,这是一种“全局”关联。模型知道图像包含一只狗,但它不一定知道哪些像素代表这只狗。这种松散性被认为是导致幻觉的原因之一——模型学习的是统计相关性 (例如,“沙发上通常有猫”) ,而不是精确的视觉证据。
定位目标 (Grounding objectives) 旨在收紧这种关系。它们要求模型执行更细粒度的任务:
- 指称表达 (Referring Expressions, RE) : 给定一个文本描述 (例如,“那只黑猫”) ,预测边界框坐标
[x1, y1, x2, y2]。 - 定位描述 (Grounded Captioning, GC) : 生成一个标题,其中提到的每个物体后面都紧跟着它的坐标 (例如,“一只狗 [0.1, 0.5, …] 正坐在……”) 。
最近的文献表明,将这些任务加入到训练组合中可以减少幻觉。本论文的研究人员认为,虽然这种说法很直观,但支持它的证据存在缺陷。
当前评估方法的缺陷
为什么作者声称之前的证据有缺陷?他们指出了目前该领域衡量成功与否的方式存在两个主要问题:
- “分布内”陷阱 (MSCOCO) : 大多数评估依赖于 MSCOCO 数据集。问题在于 MSCOCO 是计算机视觉领域的“Hello World”;几乎每个 LVLM 在训练期间都看过 MSCOCO 图像数百万次。在模型背诵过的数据上测试模型并不能告诉你它是否减少了幻觉——它只能告诉你它记住了多少训练数据。
- QA 的不足: 许多基准测试使用“是/否”问题 (例如,“这张图里有烤面包机吗?”) 。这被称为 POPE 基准测试。虽然有用,但回答针对特定问题的“不”,与从头开始描述图像是非常不同的。一个模型可能会在被问及独角兽时正确回答“没有”,但在被要求“描述图像”时仍然幻觉出一只独角兽。
方法论: 对照实验
为了严格测试定位假设,研究人员构建了一个受控实验装置。他们不仅仅是测试现有的模型;他们构建了自己的 LVLM,以隔离感兴趣的特定变量。
1. 模型
他们使用了标准的 LVLM 架构:
- 图像编码器: CLIP (ViT-L/14) 用于处理视觉信息。
- LLM 骨干: 他们测试了三种不同的语言模型以确保稳健性: Vicuna 1.5、Llama-3 和 Phi-3 。
- 连接器: 一个对齐模块 (MLP) ,用于桥接视觉和语言组件。
2. 训练组合
他们创建了每个模型的不同版本,仅 改变训练数据,以观察定位的具体效果:
- Base (基准) : 在标准图像描述 (Image Captioning) 和视觉问答 (VQA) 上进行训练。
- +RE: 基准训练加上 指称表达 (Referring Expressions) 数据 (RefCOCO, Visual Genome) 。
- +GC: 基准训练加上 定位描述 (Grounded Captioning) 数据 (Flickr30k-Entities) 。
- +RE+GC: 上述所有数据的组合。
这种设置允许进行直接的“同类比较”。如果定位能减少幻觉,那么 +RE 和 +GC 模型的表现应该明显优于 Base 模型。
3. 提示词 (Prompts)
为了确保模型理解任务,训练和推理使用了特定的提示词。

如上表 5 所示,提示词直截了当。对于定位描述,模型被明确指示要包含边界框坐标。
测量幻觉: 多管齐下的方法
研究人员超越了简单的“是/否”问题,转而在开放式图像描述中评估幻觉。这是一个更难的任务。如果你让模型“描述图像”,而它提到了一个不存在的物体,那就是真正的幻觉。
他们采用了两种复杂的指标,如下图所示:

CHAIR (基于图像相关性的标题幻觉评估)
看图 1 的左侧。 CHAIR 指标的工作原理是提取 LVLM 生成的文本 (例如,“一只白色的猎犬和一只猫……”) 中提到的物体。然后,它将这些物体与图像中实际存在的物体“金标准”列表 (由人工标注) 进行比较。
- CHAIR_i: 提到的物体中属于幻觉的百分比。
- 升级版 (CHAIR-MEN) : 作者改进了这个指标。标准的 CHAIR 使用简单的字符串匹配 (如果模型说“hound”而列表说是“dog”,可能算作错误) 。作者引入了 CHAIR-MEN , 它使用语义嵌入来智能地匹配同义词,从而可以在更多样化的数据集上进行更准确的评估。
FaithScore
如图 1 右侧所示, FaithScore 是一个基于模型的指标。它不依赖于预定义的列表。而是:
- 提取事实: 一个 LLM (如 Llama-3) 将标题分解为原子事实 (例如,“有一只猫”,“猎犬是白色的”) 。
- 验证: 一个单独的视觉问答 (VQA) 模型观察图像以验证每个事实。
- 评分: 验证通过的事实百分比即为得分。
“Objects365” 曲线球
至关重要的是,研究人员并没有止步于 MSCOCO。他们引入了 Objects365 作为测试集。这个数据集包含更广泛的物体类别 (365 个类别,而 MSCOCO 只有 80 个) ,最重要的是, 模型没有在上面进行过训练 。 这有效地测试了模型如何在野外、在未见过的数据上处理幻觉。
结果: 破除迷思
那么,定位训练起作用了吗?
首先,让我们验证模型实际上是否学会了定位任务。如果模型从未正确学会定位,那么说“定位没有帮助”是不公平的。

表 2 (上图) 证实了模型确实学到了。 +RE 和 +RE+GC 模型在指称表达方面取得了很高的精度。加入定位描述 (+GC) 实际上有助于指称表达任务,这表明这两个目标是兼容的,并且在学习空间感知方面互有助益。
幻觉裁决
现在的重头戏来了。这种空间感知是否转化为了自由形式描述中更少的幻觉?
数据表明: 没有。

表 3 展示了 MSCOCO 和 Objects365 上标准图像描述的结果。让我们看看 CHAIR_i 列 (越低越好,因为它衡量的是幻觉百分比) 和 FaithScore (越高越好) 。
- 表现平平: 比较 Base 行与 +RE、+GC 和 +RE+GC 行。差异微乎其微。在某些情况下,定位模型的表现甚至略微变差。
- 跨骨干模型的一致性: 这不是某个模型的特例。Llama-3、Phi-3 和 Vicuna 都显示出相同的趋势。
- Objects365 现实检验: 在更难的、分布外的 Objects365 数据集上,幻觉率飙升 (CHAIR_i 从约 3.5 跳升至 13+) 。即使在这里,当模型陷入困境时,定位训练也没有提供安全网。
结论很明确: 训练模型指向物体并不会自动教会它在描述场景时停止捏造物体。
推理阶段又如何呢?
研究人员尝试了最后一招。不仅仅是在训练时进行定位,如果在测试期间要求模型生成带有定位的标题会怎样?也许强迫模型为它提到的每个物体输出坐标,会强制模型“大脑”进行一次“完整性检查”。
结果显示有轻微的改善。当被提示生成边界框 (定位描述) 时,幻觉略有下降。然而,这是有代价的:
- 细节减少: 标题变得更短,信息量更少 (对象覆盖率降低) 。
- 权衡: 模型变得更加保守,但不一定更“聪明”。
定性分析: 眼见为实
为什么没用?为什么模型可以在被询问时正确指出“猫”,但在生成标题时仍然幻觉出一个“女人”?
定性分析揭示了这种脱节。定位机制和生成机制似乎在某种程度上是独立运作的。

图 2 提供了一些 Vicuna +RE+GC 模型的有趣 (且确凿) 的例子:
- 顶部示例 (“女人”) : 模型生成了一个标题: “一幅关于一个女人和一个花瓶的艺术画作。”这幅画里没有女人。模型幻觉出了女人,并且为她生成了一个边界框 (图中的红框) 。模型同时在幻觉物体及其位置。
- 中间示例 (“犀牛-大象”) : 模型描述了“两头大象”。实际上有一头大象和一头犀牛。模型在犀牛周围画了一个框,并将其标记为大象。定位并没有阻止分类错误。
- 底部示例 (“削皮的苹果”) : 模型描述了一只鸟在吃“削了皮的苹果”。它在切片橙子周围画了一个框。
这些例子说明, 定位并不是真相过滤器 。 如果语言模型因为统计概率 (例如,“有花瓶的画作通常有女人”) 决定幻觉出一个物体,定位头就会尽职尽责地试图为它找一个位置,即使那个位置是空的或者包含其他东西。
与 QA 指标 (POPE) 的比较
该论文还将这些发现与流行的 POPE (基于问答) 基准进行了比较。

表 1 显示了“是/否”问题的准确率。
- 收益不一致: 虽然有一些绿色的数字 (改进) ,但没有一致的模式。例如, Llama-3 +RE+GC 在 Objects365 数据集的几个子集上实际上比 Base 模型表现更差。
- 脱节: 定位有时在 QA 上略有帮助,但在图像描述上失败,这一事实突显了这两个任务衡量的是不同的认知过程。回答“有一只狗吗?”与“告诉我你看到了什么”有着根本的区别。
结论与启示
这项研究为计算机视觉和 NLP 社区提供了一个至关重要的“现实检验”。它揭穿了普遍存在的迷思,即简单地在训练组合中添加对象定位目标就能治愈幻觉。
关键要点:
- 无因果联系: 没有强有力的证据表明对象定位能力的提高会转化为开放式生成中幻觉的减少。
- 评估很重要: 在训练数据 (MSCOCO) 上进行评估掩盖了问题的严重性。我们需要像 Objects365 这样的分布外数据集来看到模型的真正局限。
- 定位 \(\neq\) 真实性: 模型可以同时幻觉出一个物体和一个边界框。定位提供的是空间对齐,而不一定是事实对齐。
接下来做什么? 如果定位不是答案,那什么是?作者建议我们需要另辟蹊径。潜在的途径可能包括:
- 基于人类反馈的强化学习 (RLHF) : 专门在对齐阶段惩罚幻觉。
- 新架构: 设计新的模型,使视觉感知成为语言生成的硬约束,而不仅仅是一个“软”提示。
- 更好的数据: 从嘈杂的互联网抓取标题转向严格事实、经过验证的数据集。
通过清除“定位能修复一切”的误解,这篇论文为研究人员寻找真正的解决方案铺平了道路,这些解决方案将使视觉语言模型足以值得信赖,从而应用于现实世界。
](https://deep-paper.org/en/paper/2406.14492/images/cover.png)