简介

想象一下,给 AI 展示一张男人站在海滩上的照片。你问它: “这里发生了什么?”AI 自信地回答: “一个男人站在海滩上,手里拿着冲浪板。”

但有一个问题: 根本就没有冲浪板。

这种现象被称为视觉幻觉 (Visual Hallucination, VH) 。 这是大型视觉语言模型 (LVLM,如 LLaVA 或 MiniGPT-4) 面临的最持久、最令人沮丧的挑战之一。虽然这些模型在描述复杂场景方面表现出色,但它们经常“凭空捏造”并不存在的物体、关系或属性。它们可能更多地依赖语言习惯 (从统计学上讲,“海滩上的男人”经常与“冲浪板”一起出现) ,而不是严格遵守所提供的视觉数据。

在这篇文章中,我们将深入探讨一篇引人入胜的新研究论文,题为 “Game on Tree: Visual Hallucination Mitigation via Coarse-to-Fine View Tree and Game Theory” (树上的博弈: 通过由粗到细的视图树和博弈论缓解视觉幻觉) 。研究人员提出了一种名为 GTHM 的巧妙的、无需训练的方法,该方法结合了分层数据结构与合作博弈论,迫使 AI 在开口说话之前看能在得更仔细。

问题所在: 模糊的视觉与语言先验

要理解解决方案,我们首先需要了解模型为什么会产生幻觉。

LVLM 以“自回归”的方式生成文本。这意味着它们根据图像以及目前生成的所有单词来预测句子中的下一个单词。然而,随着句子变长,模型往往会更多地关注文本历史 (其内部语言模式) ,而较少关注实际图像。

此外,一次性查看整个图像可能会让人应接不暇。如果模型试图通过查看整个“全局”图像来验证特定细节 (如一个小物体) ,它可能会漏掉它。相反,如果它在没有上下文的情况下过于仔细地观察某个图块,可能会误解它。

图 1: 使用 LLaVa-1.5 进行的实验表明,在解码过程中无法感知最佳视图会加剧 VH 并产生错误的 token,即“冲浪板”和“书”,其中较低的基于树的 Shapley 值代表较差的视图感知。

图 1 所示,当模型 (LLaVA-1.5) 未能关注正确的视觉区域 (“视图感知”) 时,它就开始产生幻觉。在上面的例子中,模型凭空捏造了冲浪板和书。右侧的图表显示,这些错误与较低的“基于树的 Shapley 值”相关——这是作者发明的一种用于衡量模型是否关注正确事物的指标。

实证证据

研究人员不仅是猜测;他们证明了这一点。他们分析了数千个输出,发现了一个清晰的模式:

  1. 当视觉注意力下降时,幻觉就会发生。
  2. 句子越长,越容易产生幻觉。 随着描述的进行,模型更多地依赖于它之前说过的内容,而不是它看到的内容。

图 2: 对 MSCOCO 验证集中 500 张抽样图像的不同 LVLM 输出的分析,显示了幻觉与视觉感知分数之间的关系。

图 2 展示了这一分析。最左边的图显示,无幻觉的描述 (绿色) 始终比有幻觉的描述 (紫色) 具有更高的视觉感知分数 (TSV) 。中间的图显示,随着句子索引的增加 (句子变长) ,视觉注意力分数下降,从而增加了胡编乱造的风险。

解决方案: GTHM (基于博弈和树的幻觉缓解)

为了解决这个问题,研究人员开发了 GTHM 。 这是一种“即插即用”的解码算法,意味着你不需要重新训练庞大的 AI 模型即可使用它。你只需改变模型在生成过程中选择单词的方式。

该框架包含三个主要组件:

  1. CFTree: 将图像构建为层级结构。
  2. 博弈论: 使用 Shapley 值寻找“最佳”视图。
  3. 自适应对比解码: 基于最佳视图调整单词的概率。

在详细分解之前,让我们先看看完整的架构:

图 3: GTHM 框架示意图,包括由粗到细的视图树、博弈建模和自适应解码。

组件 1: 由粗到细的视觉视图树 (CFTree)

如果你要在图书馆找一本特定的书,你不会盯着整栋大楼看。你会进入大楼 (事件) ,走到正确的过道 (关系) ,然后查看特定的书架 (实体) 。

作者将这种逻辑应用于图像。他们使用目标检测工具 (如 GroundingDINO) 将图像解析为一棵由粗到细的视觉视图树 (CFTree)

  • 第 1 层: 事件层 (根节点) : 整个图像。这捕捉了全局上下文。
  • 第 2 层: 关系层: 物体对以及包含它们的边界框。这捕捉了交互 (例如,“拿着杯子的男人”) 。
  • 第 3 层: 实体层 (叶节点) : 特定的物体 (例如,“杯子”,“男人”) 。

这种结构组织了视觉信息,使模型能够根据需要“放大”或“缩小”。

组件 2: 树上的博弈论

既然我们要了一棵包含不同“视图” (整个图像、特定区域或微小物体) 的树,模型如何决定哪个视图对生成下一个单词最有用呢?

研究人员将其视为一个由粗到细的合作博弈

  • 参与者 (Players) : CFTree 中的不同节点 (视图) 。
  • 目标: 最大化视觉视图与正在生成的文本 token 之间的相似性。
  • 奖励: 一个分数,表示某个视图对理解场景的贡献程度。

为了计算每个视图的贡献,他们使用了 Shapley 值 。 在经典博弈论中,Shapley 值根据参与者对团队的贡献公平地向他们分配“收益”。在这里,它计算特定的视觉区域对正确单词出现的概率有多大贡献。

Shapley 值的标准定义是:

公式 5: 标准 Shapley 值公式。

然而,为像素的每种可能组合计算这个值是不可能的。因此,作者提出了基于树的 Shapley 值 (TSV) 。 这个修改后的版本遵循树的层级结构。它测量特定“视图路径” (例如: 图像 \(\rightarrow\) 人 \(\rightarrow\) 手) 的收益减去其子组件的收益。

公式 8: 基于树的 Shapley 值 (TSV) 定义。

直观地说,高 TSV 意味着查看这个特定的“缩放级别” (节点) 提供了证明下一个单词合理性的关键视觉证据。

组件 3: 视觉感知对比解码

一旦系统计算出不同视图的 TSV,它就会识别出“最佳玩家”——即提供最清晰信息的视图。

标准的 LVLM 使用概率分布 \(p_\theta\) 来选择下一个单词。GTHM 使用对比解码 (Contrastive Decoding) 修改此分布。它将来自最佳视觉视图 (博弈的获胜者) 的分布与较差视图的分布进行对比。

公式如下所示:

公式 9: 自适应对比解码公式。

这个方程的含义如下:

  1. 它提高了由最佳视图 (\(v_i\)) 支持的 token 的概率。
  2. 它惩罚了由次优视图 (\(v_j\)) 支持的 token。
  3. 因子 \(\lambda_{\phi}\) 是自适应的 。 它基于 Shapley 值的比率。如果最佳视图比其他视图好很多,模型就会应用更强的修正。

这迫使模型选择那些实际上基于最佳视觉证据的单词,而不是仅仅听起来语法正确的单词。

实验与结果

将博弈论添加到决策树中真的有效吗?研究人员在几个流行的基准测试上测试了 GTHM,包括 CHAIR (计算物体幻觉) 和 POPE (询问关于物体是否存在的“是/否”问题) 。

定量成功

在 MSCOCO 数据集上的结果令人印象深刻。在下表中, CHAIRsCHAIRi 衡量幻觉的百分比 (越低越好) 。

表 1: CHAIR 评估结果比较。GTHM 在不同模型中实现了最低的幻觉率。

表 1 所示,GTHM 明显优于标准的贪婪解码 (Greedy) 和束搜索 (Beam Search) ,以及其他最先进的方法,如 VCD 和 HALC。例如,使用 LLaVA-1.5 模型,GTHM 将句子级幻觉 (CHAIRs) 从 22.17 (Greedy) 降低到了 12.67

他们还在 POPE 基准上进行了测试,模型需要回答诸如“图像中是否有餐桌?”之类的问题。

表 2: POPE 结果显示 GTHM 具有高准确率和精确率。

表 2 中,GTHM 在几乎所有模型中都获得了最高的准确率和 F 分数,证明它能帮助模型正确识别物体是否存在。

定性示例: 眼见为实

数字固然很好,但视觉示例确实凸显了差异。

示例 1: “蒙娜丽莎”狗

在这个例子中,输入图像是对蒙娜丽莎的恶搞,主角是一只腊肠犬。

  • 贪婪解码 (标准) : 幻想出了“宽大飘逸的裙子” (因为原版蒙娜丽莎穿着裙子) 。
  • GTHM (本文) : 正确识别了“文艺复兴时期的装束”,但重要的是注意到了狗的具体细节,没有凭空捏造裙子。

图 4: LLaVA-Bench 上的定性比较。GTHM 正确识别了视觉细节,而其他方法则幻想出了衣物。

示例 2: 动漫人物细节

在这里,模型观察一个动漫人物。

  • 贪婪解码: 幻想着“长发”,并称该角色为“卡通片的主角”。
  • VCD (基线) : 奇怪地暗示角色是“德古拉”,并幻想着一个“手提箱”。
  • GTHM: 准确描述了蓝色西装、红色领结以及他在摆姿势的事实。

图 6: MiniGPT-4 上的定性比较。GTHM 避免了基线方法的疯狂幻觉。

示例 3: 茶话会

在一个有多只动物的复杂场景中,识别谁在做什么很困难。

  • 贪婪解码: 幻想着“两只泰迪熊”。
  • GTHM: 正确识别了兔子、猫和熊,以及桌子上的食物。

图 7: mPLUG-Owl2 上的定性比较。GTHM 正确列举了茶话会上的动物。

结论

GTHM 框架代表了使多模态大型语言模型值得信赖的重要一步。通过承认“单一视图不能满足所有需求”,研究人员成功应用了分层树结构来组织视觉数据。

然而,真正的创新在于博弈论的应用。通过将视觉视图视为合作博弈中的参与者,模型可以从数学上确定图像的哪一部分对当前单词最重要。这使得自适应解码成为可能——即根据实际视觉证据动态调整模型的置信度。

关键要点:

  • 幻觉发生在模型依赖语言先验或不精确的视觉视图时。
  • CFTree 将图像数据从粗 (全局) 到细 (局部) 进行组织。
  • 基于树的 Shapley 值 识别出对解码最有价值的视觉视图。
  • GTHM 是一种无需训练的解决方案,并在主要基准测试中显著减少了幻觉。

随着 LVLM 越来越多地融入我们的日常生活——从为视障人士描述照片到分析医学影像——减少幻觉不仅仅是一项技术改进;更是一项安全要求。GTHM 表明,有时候,为了看清真相,你必须参与博弈。