引言
大型语言模型 (LLMs) 的兴起无疑是一场革命。但当我们从纯文本模型转向多模态大型语言模型 (MLLMs) ——即能够同时处理图像和文本的系统——时,我们遇到了一种全新的、令人着迷的失效模式。我们通常认为,给 AI 提供更多的信息 (比如一张图片) 会帮助它更好地进行推理。毕竟,一图胜千言,对吧?
但如果这张图片在撒谎呢?
最近一篇题为 “The Instinctive Bias: Spurious Images lead to Illusion in MLLMs” (本能偏差: 虚假图像导致 MLLMs 产生错觉) 的研究揭示了 GPT-4V 和 LLaVA 等最先进模型中存在的一个关键漏洞。研究人员发现,当向这些模型展示一张与主题相关但与正确文本答案相矛盾的图像时,模型会陷入“视觉错觉”。它们会忽略自身的推理能力,盲目地相信视觉输入。
这种现象被称为 本能偏差 (Instinctive Bias) , 它表明当前的多模态 AI 表现得有点像使用“系统 1”思维 (快速、本能) 的人类,而不是使用“系统 2”思维 (缓慢、逻辑) 。在这篇文章中,我们将深入探讨这项研究,通过他们创建的基准测试来探索作者如何量化这种偏差,以及这对未来 AI 鲁棒性的意义。
背景: MLLMs 的希望与危机
要理解为什么会出现这种偏差,我们需要先看看 MLLMs 是如何运作的。通常,像 LLaVA 或 GPT-4V 这样的模型通过将图像转换为“视觉 token”来处理视觉输入。这些 token 与语言 token 共享同一个潜在空间 (latent space) 。这使得模型能够像阅读句子一样“阅读”图像。
在像视觉问答 (VQA) 这样的标准任务中,这是一种超能力。你给模型看一张狗的照片并问: “这是什么动物?”答案直接包含在图像中。
然而,现实世界的推理通常更加复杂。用户提供的图像可能只是为了提供背景信息,其中并不包含直接答案,或者更糟糕的是,提供了误导性的背景信息。
设想这样一个场景: 你描述了澳大利亚一个以大堡礁闻名的特定城市。你要求模型说出这个城市的名字。但是,在你的问题旁边,你意外上传了一张埃菲尔铁塔的照片。一个鲁棒的模型应该阅读你的文本,识别出城市是凯恩斯 (Cairns) ,并忽略无关的巴黎照片。
正如我们将看到的,事实并非如此。
现象: 本能偏差
这篇论文的核心贡献是发现了 本能偏差 。 这是指 MLLMs 倾向于产生错误答案 (幻觉) ,因为它们过度受“虚假”图像的影响——这些图像与问题概念相关,但对应的是错误的答案。

如上图 1 所示,当要求 LLaVA 识别文本中描述的澳大利亚城市 (凯恩斯) 时,它在纯文本设置下回答正确。然而,当一张埃菲尔铁塔的照片 (一张虚假图像) 伴随文本出现时,模型抛弃了文本线索,错误地回答“巴黎的埃菲尔”。
模型不仅仅是在随机猜测;它正在遭受由视觉输入引发的错觉。图像触发了一种“本能”反应,覆盖了源自文本的逻辑推理。
方法论: 构建 CorrelationQA
为了科学地测量这种偏差,研究人员不能依赖现有的数据集,因为那些数据集通常将问题与正确、相关的图像配对。他们需要一个专门设计来欺骗模型的数据集。他们推出了 CorrelationQA , 这是一个包含 13 个不同类别 (如动物、历史和技术) 的 7,000 多个文本-图像对的基准测试。
CorrelationQA 的构建涉及一个巧妙的三阶段自动化流程:

第一步: 文本生成
作者利用 GPT-4 生成复杂的问答 (QA) 对。对于每个问题,GPT-4 提供:
- 正确答案 。
- 五个 虚假答案 (令人困惑或相关的错误答案) 。
例如,对于一个描述“斑马”的问题,虚假答案可能包括“老虎”或“长颈鹿”。
第二步: 图像生成
这就是数据集设置“陷阱”的地方。研究人员需要对应 错误 答案的图像。他们使用最先进的图像生成模型 Stable Diffusion 来创建:
- 虚假自然图像 (Spurious Natural Images) : 错误答案的逼真合成图像 (例如,为斑马问题生成一张老虎的图像) 。
- 事实图像 (Factual Images) : 正确答案的图像 (用作对照组) 。
第三步: 排版和真实图像
为了确保这种偏差不仅限于合成艺术,他们还收集了:
- 真实图像: 从搜索引擎获取。
- 排版 (OCR) 图像: 仅包含答案文字的图像 (例如,一张印有单词“Tiger”的图片) 。

图 9 让你可以一瞥模型面临的情况。文本询问一个特定的答案,但图像却在尖叫着另一个错误的答案。
评估指标
为了量化这些误导性图像的影响,论文引入了一个特定的指标,称为 准确率下降 (Accuracy Drop, AccDrop) 。
首先,他们计算标准准确率 (\(Acc\)) ,即正确答案数除以总配对数。然后,他们计算下降值:

这里,\(A_f\) 是模型看到 事实 (正确) 图像时的准确率,而 \(A_s\) 是模型看到 虚假 (误导性) 图像时的准确率。
- 高 AccDrop: 模型很容易被欺骗。当图像有帮助时它表现良好,但当图像撒谎时它彻底失败。
- 低 AccDrop: 模型具有鲁棒性;它忽略了误导性图像并依赖于文本。
实验与结果
研究人员测试了 9 个主流 MLLMs,包括 GPT-4V、LLaVA-13B 和 Qwen-VL 等行业重量级模型。结果是一致且令人担忧的: 所有模型都遭受了本能偏差的影响。
1. 敏感度差距
事实输入和虚假输入之间的性能差异非常明显。

在图 4 中,请看绿色条 (事实) 和橙色条 (虚假) 之间的差距。
- GPT-4V , 可以说是测试中最先进的模型,其在自然图像上的准确率从 0.89 (事实) 下降到 0.57 (虚假) 。
- Qwen-VL 从 0.65 下降到 0.36 。
这证明即使是最强大的模型也不能幸免。当视觉信号与文本冲突时,视觉信号往往会胜出,从而导致“本能偏差”。
2. 排版陷阱
有趣的是,模型对包含文本 (排版) 的图像甚至 更加 敏感。如上文图 4 右侧图表所示,排版图像的 AccDrop 显著更高。
例如, Qwen-VL 在事实排版图像上的准确率为 0.90 , 但在虚假排版图像上暴跌至 0.15 。 这造成了 0.75 的巨大 AccDrop。这表明 MLLMs 对读取图像中的文本极其敏感,甚至可能比对视觉物体特征更信任“OCR”数据。
3. 文本 vs. 图像: 添加信息反而降低准确率
最确凿的发现之一是,添加一张虚假图像会使模型的表现比完全不看图像时更差。

图 5 完美地说明了这一点。
- 纯文本 (Text-only,蓝色/最左侧条) : 模型表现相当不错。GPT-4V 几乎是完美的。
- 虚假 (Spurious,橙色条) : 性能崩溃。
这表明“视觉错觉”不仅仅是一种干扰;它主动破坏了模型在纯文本语境下能够成功执行的推理过程。
分类分析与定性示例
并非所有概念都同样令人困惑。该研究按类别 (动物、食物、历史等) 细分了表现,发现 有形类别 比抽象类别受偏差影响更大。
模型在 动物、植物和颜色 方面挣扎最剧烈。这些类别具有独特、具体的视觉特征。相反,像 历史 或 艺术 这样的类别 (可能需要识别像“文艺复兴”这样的概念或特定的历史事件) 显示出较低的准确率下降。
为什么?作者假设有形主题具有突出的内容,MLLMs 的视觉提取模块很容易捕捉到这些内容。如果模型看到一只“猫”,它会强烈地识别出“猫”。如果它看到一个通用的历史场景,视觉信号可能会较弱,迫使模型更多地依赖文本。
定性失败案例
让我们看一些模型失败的具体例子。

在图 6 的底行,我们看到了本能偏差的清晰实例:
- 蓝铃花/郁金香案例: 文本描述了一种“开着精致钟形花朵的开花植物”。图像显示的是 郁金香 。 模型回答“郁金香”,完全忽略了“钟形”这一文本线索。
- 长颈鹿/鸵鸟案例: 文本描述了“最高的现存陆生动物……有斑点皮毛”。图像显示的是 鸵鸟 。 模型回答“鸵鸟”,忽略了鸵鸟不可能是最高的陆生动物且带有斑点皮毛这一生物学上的不可能性。
这些错误凸显了“看”与“推理”之间的脱节。模型正确地感知了对象 (它识别出了鸵鸟) ,但未能将这种感知与文本提供的逻辑约束结合起来。
结论与启示
论文 “The Instinctive Bias: Spurious Images lead to Illusion in MLLMs” 为多模态 AI 社区敲响了警钟。它表明,当我们赋予模型眼睛时,我们也赋予了它们被视觉错觉欺骗的能力。
主要结论如下:
- 普遍性: 这不是某个特定模型的错误;这是目前所有 MLLMs (包括 GPT-4V) 普遍存在的行为。
- 视觉主导: MLLMs 倾向于优先考虑视觉信息而非文本逻辑约束,导致“本能偏差”。
- 对图像内文本的脆弱性: 模型特别容易被嵌入图像中的文本 (排版) 误导。
这项研究意味着目前的训练策略——主要侧重于将图像与相关文本对齐——可能在无意中训练模型 过度信任 视觉数据。未来的工作必须集中在“慢推理”上——教导模型在让图像主导答案之前,批判性地评估图像的相关性。在那之前,当输入图像可能具有误导性时,我们应该小心对待 AI 的回答。
](https://deep-paper.org/en/paper/2402.03757/images/cover.png)