引言

在我们的日常生活中,我们不断被各种旨在不仅被看到,更要被理解的图像所轰炸。广告牌不仅仅展示一罐苏打水;它通过排列冰块、水珠和烈日来说服你: 你口渴了。政治漫画不仅仅画一头驴或一头大象;它利用视觉隐喻来批评政策。

人类拥有一种直观的能力来解读这些视觉论证 (Visual Arguments) 。 我们看着一张图像,忽略无关的背景细节,专注于特定的线索,并将它们与我们的背景知识结合起来,从而得出结论。

但人工智能 (AI) 能做到同样的事情吗?

我们知道现代多模态模型 (如 GPT-4-V 或 LLaVA) 非常擅长描述图像中的内容 (“这里有一只北极熊”,“这里有一个烟囱”) 。然而,它们是否理解这些元素为什么出现在那里?

最近一篇题为 “Selective Vision is the Challenge for Visual Reasoning” (选择性视觉是视觉推理的挑战) 的论文介绍了一个引人入胜的数据集和基准测试,名为 VisArgs 。 研究人员认为,阻碍 AI 真正理解视觉论证的主要瓶颈,并不是无法“看”或无法“读”,而是缺乏选择性视觉 (Selective Vision) ——即识别哪些特定的视觉线索支持论点,而哪些仅仅是噪音的能力。

图 1: VisArgs 语料库中的一个示例,展示了一只在融化的冰上的北极熊。推理树将视觉前提 (小块冰上的熊) 与常识前提 (工厂导致污染) 联系起来,得出了必须减少工业污染的结论。

图 1 所示,人类看到这张图片会立即将工厂的烟雾与融化的冰联系起来,得出工业污染威胁栖息地的结论。该论文研究了 AI 是否可以复制这一推理链条。

背景: 看见 vs 推理

为了理解为什么这对 AI 来说是一个难题,我们必须区分事实性视觉理解视觉推理

大多数计算机视觉训练侧重于事实性理解: 识别物体 (边界框) 或生成密集描述 (描述每一个像素) 。如果你要求一个标准模型为图 1 生成描述,它可能会说: “一只北极熊站在烟囱上方的一小块冰上。”这在事实上是正确的,但它抓不住重点。它错过了论证

视觉论证是一个结构,始于前提 (理由) ,止于结论

  1. 视觉前提 (Visual Premises, VP): 你所看到的 (例如,正在缩小的冰块) 。
  2. 常识前提 (Commonsense Premises, CP): 你所知道的 (例如,烟雾意味着热量/污染) 。
  3. 结论 (Conclusion, C): 说服性信息 (例如,停止污染) 。

研究人员假设,要理解结论,模型必须运用选择性视觉 。 它必须忽略图像中无关的部分 (比如天空的具体颜色,如果那不重要的话) ,并严格专注于支持论点的视觉前提。

数据: VisArgs 介绍

为了验证这一假设,作者创建了 VisArgs , 这是一个包含 1,611 张图像的数据集,由广告和社论漫画组成。选择这些类型是因为它们是专门为说服而设计的。

该数据集的创建过程严谨,涉及“人在回路” (human-in-the-loop) 的工作流程。

  1. 收集: 图像来源于 Pinterest 和漫画档案。
  2. 起草: AI (GPT-4) 生成前提和结论的初始候选项。
  3. 精炼: 人类专家对这些标注进行了广泛的修正,经常拒绝 AI 的解释或优化推理步骤。
  4. 定位 (Grounding) : 人类在构成前提的特定视觉元素周围画出边界框。

图 3: 标注工作流程。人工标注者对机器生成的初始数据进行微调。例如,修正“代表崎岖地形的楼梯”并标记像“Jeep”这样的幻觉 (其实是徽标而非文本) 。

图 3 所示,人工精炼至关重要。机器经常“产生幻觉”出不存在的元素,或者错过隐喻含义 (例如,将徽标误认为是文本) 。最终的数据集包含明确的论证树 (Argument Trees) ——这是一种结构化图表,映射了视觉前提和常识前提如何结合形成中间结论和最终结论。

该数据集具有多样性,涵盖的主题范围从环境保护和政治到技术和社会正义。

图 4: 展示 VisArgs 中主题多样性的桑基图。视觉前提涵盖从“自然与野生动物”到“家居用品”,流向关于“社会正义”、“环境”和“政治”的结论。

核心方法: 诊断 AI 的三个任务

研究人员不仅想知道模型是否会失败;他们想知道在哪里失败。为了诊断视觉推理的流程,他们提出了三个不同的任务,如图 2 所示。

图 2: 本研究定义的三个任务: 1) 前提定位 (找到物体) ,2) 前提识别 (知道哪个物体重要) ,以及 3) 结论推导 (理解信息) 。

任务 1: 前提定位 (你能找到它吗?)

这是最基础的视觉任务。给定视觉前提的文本描述 (例如,“一杯加冰的可口可乐”) ,模型能在图像中画出它的边界框吗?这测试了模型是否具有“看见”证据的原始视觉能力。

任务 2: 前提识别 (你知道什么才重要吗?)

这是对选择性视觉的测试。给模型一张图像和一个中间结论 (例如,“在大热天喝可乐”) 。然后给它几个视觉选项:

  • 正确的视觉前提 (可乐瓶) 。
  • 同一图像中不相关的物体 (例如,麦当劳的标志,如果它与该特定子论点无关) 。
  • 来自其他图像的物体。

模型必须选择哪个视觉元素支持该结论。这决定了模型是否可以过滤掉噪音并专注于相关的论证。

任务 3: 结论推导 (你能理解要点吗?)

这是最终的测试。给予模型不同详细程度的输入——仅图像、图像+视觉前提,或完整的推理树——并要求其生成最终结论。通过比较模型在有无帮助情况下的表现,研究人员可以分离出瓶颈所在。

实验与结果

团队测试了广泛的最先进模型,包括 LLaVA、GPT-4-O 和 Qwen-VL。结果清晰地展示了 AI 视觉推理的现状。

1. 机器能“看见”,但不够具体

定位任务中,模型在“闭集”场景 (将文本匹配到区域) 中通常表现良好。然而,它们在“开集”定位 (从头开始画框) 方面表现挣扎。

问题不在于“失明”,而在于语义与物体检测之间的脱节。标准的检测器是针对具体物体 (如“人”、“车”) 训练的。而视觉论证往往依赖于语义区域 (例如,“代表混乱的凌乱房间”) 。

2. 瓶颈: 前提识别

这是最关键的发现。虽然机器通常擅长识别物体,但它们非常不擅长区分相关的物体和同一图像中不相关的物体。

研究人员发现,当模型必须在同一图像内的相关物体和干扰物体之间进行选择时,其表现比在面对外部图像的干扰项时差了 19.5%。

表 14 (如下) 强调了这一困境。请看“Local” (局部) 一列 (图像内的干扰项) 。与“Global” (全局) 列相比,像 LLaVA-1.5 这样的模型准确率显著下降。

表 14: 前提识别的结果。注意文中强调的,当模型面对“局部”语义干扰项时,与全局随机干扰项相比,性能出现下降。

定性分析显示了这种情况发生的原因。在图 5 中,注意 LLaVA-1.5 模型是如何感到困惑的。

图 5: LLaVA-1.5 的失败案例。在中间的面板中,模型未能将“塑料袋”与“波浪”联系起来,错过了关于塑料污染的论点。

在上述失败案例 (中间面板) 中,图像显示了一个由塑料袋组成的波浪。人类将“波浪”+“塑料”联系起来,意指“海洋污染”。然而,模型可能只关注“波浪”或“袋子”这两个词本身,却未能识别出波浪的塑料成分是支持环境论点的关键前提。

3. 有了帮助,推导能力提升

最终任务, 结论推导 , 证实了假设。当被要求仅从原始图像推导结论时,模型的表现平平。

然而,当研究人员明确提供视觉前提 (告诉模型“看那只北极熊”和“看那个烟囱”) 时,性能显著提升。

表 7: 结论推导任务的结果。与仅使用图像相比,提供视觉前提 (+ VP) 显著提高了几乎所有模型的性能。

表 7 所示,提供视觉前提 (+ VP) 为大多数模型提供了最大的单一性能提升 (参见表示改进的 符号) 。这证明了如果模型知道该看什么,它们能够有效地进行推理。它们的失败在于选择正确视觉信息的初始步骤。

图 12 对这种改进进行了定性展示。

图 12: 使用 CogVLM 和 Qwen-VL-Chat 进行结论推导的定性样本。随着提供更具体的输入 (VP, CP, 树) ,模型的结论变得更加准确和细致。

看底部的例子 (记者) 。

  • 仅图像 (I->C): 模型说“记者经常受到威胁。” (通用的说法) 。
  • 图像 + 视觉前提 (I, VP -> C): 模型识别出了特定的跪姿和士兵。
  • 完整语境: 结论变得更加具体,提到了“新闻自由的脆弱性”。

结论与启示

VisArgs 论文提出了一个令人信服的观点: 我们需要重新思考如何评估多模态 AI。模型仅仅能标记照片中的每个物体是不够的。真正的视觉智能需要选择性视觉——即决定什么重要、什么不重要的能动性。

对于学生和研究人员来说,关键要点是:

  1. 视觉 \(\neq\) 推理: 仅仅因为模型“看到”了一个物体,并不意味着它理解该物体在论证中的作用。
  2. 瓶颈在于注意力: 视觉推理最难的部分是过滤掉图像本身的噪音。
  3. 未来的架构: 未来的多模态模型可能需要针对论证结构或“推理树”训练特定的模块,而不仅仅是图像-文本对。

通过从被动的图像描述转向主动的视觉论证理解,我们离 AI 不仅能观察世界,还能理解其中信息的日子更近了一步。