想象一下,你向一个人工智能展示一张猫睡在桌子上的照片。你问它: “这张照片里有狗吗?”AI 自信地回答: “是的,有一只狗睡在桌子上。”

这种现象被称为视觉幻觉 。 这是多模态大语言模型 (MLLMs) ——如 LLaVA、Qwen-VL 或 GPT-4V 等既能看又能说的系统——面临的最持久且令人困惑的挑战之一。虽然这些模型展现了惊人的能力,但它们经常凭空捏造物体、误解属性,或盲目同意文本提示中提供的错误前提。

在这篇文章中,我们将深入探讨一篇试图解决视觉幻觉评估危机的研究论文。该论文介绍了 PhD (提示性幻觉数据集,Prompted hallucination Dataset) , 这是一个大规模、半自动生成的基准测试,旨在不仅捕捉模型的幻觉,还要诊断它们为什么会产生幻觉。

问题所在: 模型为什么会产生幻觉?

在评估模型之前,我们需要了解其错误的根本原因。幻觉不仅仅是随机噪声;它通常源于 MLLM 处理信息方式中的结构性弱点。PhD 论文的作者将视觉幻觉归类为三个主要原因:

  1. 视觉歧义 (原因 I) : 模型的“眼睛” (视觉编码器) 未能捕捉到足够的细节。例如,模型可能看到一个模糊的形状,猜测它是人,而实际上它是一株植物。
  2. 多模态输入中的不一致性 (原因 II) : MLLM 通常同时接收图像和文本提示 (上下文) 。如果文本暗示了图像中不存在的内容,模型——由于经过大量文本训练——往往会偏向于文本,而忽略其视觉输入。
  3. 违反常识的内容 (原因 III) : 大语言模型 (LLM) 拥有大量的“世界知识”或先验知识 (例如,“汽车有圆形的轮子”) 。当图像与这种常识相矛盾时 (例如,生成的图像显示一辆方形轮子的汽车) ,模型往往优先考虑其内部知识,而不是它实际看到的内容。

多模态大语言模型视觉幻觉的三个主要原因示意图。

如上方的 图 1 所示,现有的评估往往忽略了这些细微差别。面板 (a) 展示了视觉歧义,模型幻想出了一个玩具。面板 (b) 展示了文本输入如何误导模型。面板 (c) 强调了 PhD 基准测试 (彩色线条) 比以前的基准测试 (如 POPE,顶部的蓝色平线) 更难、更能揭示问题,因为旧的基准测试已在很大程度上达到饱和。

评估的现状

为了将 PhD 置于背景中,我们必须看看目前是如何衡量视觉幻觉的。作者提出了一个分类体系,按任务级别 (低级 vs. 高级) 和评估方法 (客观 vs. 主观) 划分基准测试。

VHE 基准的分类体系。

表 1 所示,PhD 专注于针对低到中级任务客观评估 (是/否问题) 。为什么要这样关注?

  • 客观性: 主观评估 (问一个 LLM“这个答案有多好?”) 不仅昂贵,而且容易产生其自身的幻觉。二元的“是/否”问题则清晰明了。
  • 任务级别: 如果我们要求模型解决复杂的医学推理,它可能仅仅因为缺乏医学知识而失败。通过坚持像计数、属性识别和物体检测这样的基础任务,我们可以更有把握地将错误归因于幻觉,而不是缺乏领域专业知识。

核心方法: 构建 PhD 数据集

PhD 论文的精妙之处在于其构建流程。创建一个足够大以用于训练或评估深度学习模型的数据集通常需要数千小时的人工劳动。作者转而设计了一个ChatGPT 辅助的半自动化流程

他们利用 TDIUC 数据集 (包含真实世界的图像) 作为基础,并使用生成式 AI 对其进行了扩展。该流程遵循特定的路线图,以针对前面提到的三个幻觉原因。

提议的 PhD 数据集构建半自动流程。

让我们分解 图 2 中展示的流程:

1. “陷阱”: 特定任务的幻觉项选择

要测试模型是否产生幻觉,你需要问它一些不在那里,但可能在那里的东西。这被称为幻觉项 (hitem)

  • *旧方法: * 随机选择一个图像中没有的物体。 (太简单了) 。
  • *PhD 方法: * 使用 ChatGPT 和 CLIP (一种视觉语言模型) 。
  • 步骤 A: 看一张黑色摩托车的图片。
  • 步骤 B: 询问 ChatGPT 颜色候选项 (红、蓝、绿) 。
  • 步骤 C: 使用 CLIP 检查哪种颜色在视觉上最接近图像上下文,但实际上并不存在。也许附近有一个红色的标志。
  • 步骤 D: 选择“红色”作为幻觉项。这使得“有一辆红色摩托车吗?”这个问题成为一个困难的视觉陷阱。

2. PhD 的四种模式

数据集被构建为四种“模式”,每种模式都旨在对 MLLM 的特定弱点进行压力测试。

  1. PhD-base (测试视觉歧义) : 标准的视觉问答。
  • *示例: * “图中的摩托车是红色的吗?” (图片显示的是黑色摩托车) 。
  • *目标: * 测试视觉编码器是否准确。
  1. PhD-sec (测试似是而非的上下文) : 这种模式在问题前添加“似是而非” (误导性或噪声) 的文本。
  • *示例: * 提示中包含一句话: “红色摩托车在这个城市很常见。”
  • *目标: * 测试模型是否会被暗示幻觉的文本所迷惑。
  1. PhD-icc (测试错误的上下文) : 这种模式添加了明确与图像相矛盾的文本。
  • *示例: * 提示错误地声称: “这张图片显示了一辆红色摩托车。”
  • *目标: * 测试模型是盲目遵循用户的文本提示,还是相信自己的眼睛。
  1. PhD-ccs (测试违反常识) : 这是最具创意的模式。研究人员使用 DALL-E 3 生成了违反物理学或逻辑的图像。
  • *示例: * 一辆有方形轮子的汽车,或者生长在水下的树木。
  • *目标: * 测试模型是依赖其训练先验 (“汽车有圆轮子”) 还是视觉现实。

日常图像和违反常识 (CCS) 图像展示。

3. 规模与多样性

其结果是一个庞大的数据集。与以前的基准测试如 POPE (3,000 个三元组) 或 AMBER (14,000 个三元组) 不同,PhD 提供了超过 102,000 个 VQA 三元组

提议的 PhD 数据集的数据统计。

表 4 所示,该数据集涵盖了五个不同的任务:

  1. 物体识别 (有猫吗?)
  2. 属性识别 (车是红色的吗?)
  3. 情感识别 (这人看起来伤心吗?)
  4. 位置识别 (杯子在笔记本电脑后面吗?)
  5. 计数 (有三只鸟吗?)

这种粒度允许研究人员准确查明模型在哪里失败。一个模型可能擅长物体检测,但在计数方面却很糟糕。

实验与关键结果

作者评估了 15 个开源 MLLM (包括 LLaVA、Qwen-VL、InternVL) 和 3 个专有模型 (GPT-4o、Claude 3.5、Gemini 1.5 Pro) 。

为了衡量成功,他们使用了 PhD 指数 (PhD Index) 。 由于数据集是二元的 (是/否) ,模型可以通过对所有问题都回答“是”来作弊。PhD 指数是“是”召回率和“否”召回率的调和平均数,确保高分要求在正向和负向问题上都准确。

1. 现实检验

最引人注目的结果是,与专有巨头相比,开源模型的表现显得非常挣扎。

总体 VHE 结果。POPE 和 AMBER 与 PhD 结果的对比。

请看 表 5

  • 旧基准的饱和: 在 POPE 基准测试上,几乎每个模型的得分都在 0.80 到 0.88 之间。看起来问题似乎已经解决了。
  • PhD 的暴跌: 在 PhD 基准测试上,得分直线下降。最好的开源模型 LLaVA-OneVision 降至 0.698 。 像 LLaVA-1.5 这样的旧模型更是跌至令人震惊的 0.265
  • 专有差距: GPT-4o 保持了 0.812 的得分,凸显了以前的基准测试未能显示的鲁棒性方面的巨大差距。

2. 定性失败

查看具体示例有助于理解这些数字。

显示多模态大语言模型如何回答 PhD 中视觉问题的定性结果。

图 3 中,检查关于“方形轮胎”的第三行。

  • 图像: 一张生成的汽车图像,带有方形的块状轮胎。
  • 问题: “图像中的轮胎是圆形的吗?”
  • 真相: 不。
  • LLaVA-1.6-L: “是的,图像中的轮胎是圆形的。”
  • 为什么? 模型看到了一辆车。它的内部知识说“汽车轮胎是圆的”。它忽略了方形块状物的视觉证据,因为这个概念太“违反常识”了。

3. 模型规模的悖论

在深度学习中,我们通常假设“越大越好”。130 亿参数的模型应该击败 70 亿参数的模型。PhD 论文揭示了一个有趣的细微差别。

LLM 规模 (7B vs 13B) 对 LLaVA 系列的影响。

图 5 显示了一种复杂的关系:

  • 上下文模式 (PhD-sec/icc) : 较大的模型 (13B) 表现更好。它们更善于理解像“如果文本与图像冲突,请忽略文本”这样的指令。
  • 基础与 CCS 模式: 较大的模型表现更差。为什么?较大的语言模型包含更强的先验知识。它们阅读了更多关于世界的文本。因此,当视觉现实与它们的世界知识相矛盾时 (例如,方形轮胎) ,它们更加固执。它们更有可能根据它们期望看到的东西产生幻觉。

4. “是”的偏见

最后,研究人员分析了模型回答“是”的倾向。

多模态大语言模型说“是”的频率 vs. PhD 指数。

图 6 显示了“说‘是’率 (Say-Yes rate) ”与 PhD 指数之间存在很强的负相关 (Spearman -0.92) 。

  • 表现不佳的模型表现得像“唯唯诺诺的人”。它们同意提示所建议的一切。
  • 表现出色的模型 (如 GPT-4o,右下角) 的说“是”率要低得多。它们已经学会了反对并说“不”。

5. 特定任务诊断

由于 PhD 是按任务细分的,我们可以看到顶级模型的具体弱点。

特定模型的深入分析。

表 6 提供了“放大”分析。

  • LLaVA-OneVision 在物体识别方面表现出色 (0.872) ,但在计数 (0.707) 和情感 (0.691) 方面表现明显吃力。
  • Molmo 在引入错误上下文 (PhD-icc) 时表现大幅下降,属性识别得分从 0.842 降至 0.556。这表明它极易被文本提示误导。

结论与启示

PhD 论文代表了多模态 AI 评估向前迈出的重要一步。通过超越简单的物体共现,并解决幻觉的心理原因——视觉歧义、文本偏见和先验知识冲突——它提供了一面镜子,反映了当前模型的真实局限性。

关键要点:

  1. 基准测试很重要: 我们无法改进我们无法衡量的东西。旧的基准测试让模型太容易“通过”了。PhD 提高了标准。
  2. 相信你的眼睛: 当前 AI 最大的失败模式是优先考虑训练数据 (先验) 或用户提示,而不是视觉证据。
  3. 一种尺寸并不适合所有情况: 简单地把模型做大并不能解决幻觉问题;在某些情况下 (违反常识) ,它会让情况变得更糟。

对于进入这一领域的学生和研究人员来说,PhD 为测试新架构提供了一个强大的工具。它表明,未来的改进不仅仅来自更多的数据,还来自更好的对齐策略,这些策略能教导模型根据其内部预期批判性地评估视觉证据。