引言

想象一下,给 AI 展示一张 5 美元纸币的图片。标准的计算机视觉模型会观察像素并识别模式: 它看到了纸张、人脸和数字。它可以告诉你“这是一张钞票”。

但是,如果你问: “画像中的人是谁?他带领国家经历了哪一特定的历史事件?”

要回答这个问题,模型需要的不仅仅是视觉模式匹配。它需要世界知识 。 它需要知道这张脸属于亚伯拉罕·林肯,林肯是美国第 16 任总统,并且他带领美国经历了内战。标准的视觉嵌入 (Visual Embeddings) ——即模型用来“看”的向量表示——通常无法捕捉到这种深度的实例级知识。

这正是论文 “Beyond Embeddings: The Promise of Visual Table in Visual Reasoning” (超越嵌入: 视觉表在视觉推理中的前景) 所要解决的核心问题。研究人员提议从抽象的视觉向量转变为一种结构化的、基于文本的表示形式,称为 Visual Table (视觉表)

图 1: 标准嵌入与视觉表的比较。视觉表提供了关于场景的显式、分层知识,例如识别亚伯拉罕·林肯及其历史意义。

如图 1 所示,虽然 CLIP 类的嵌入在深度推理方面表现挣扎,但视觉表以结构化的格式明确列出了场景描述、对象、属性以及关键的世界知识。这篇博客文章将深入探讨这种新表示形式的工作原理、生成方式以及它为何可能代表了视觉推理的未来。

背景: 视觉表征的演变

为了理解为什么视觉表具有创新性,我们需要先了解计算机目前是如何“看”的。

从标签到嵌入

在计算机视觉的早期,我们依赖监督标签 。 人类费力地在猫和狗周围画框,模型则学习模仿这些框。虽然这种方法在检测方面有效,但它既僵化又昂贵。

随后,该领域向视觉嵌入 (如 CLIP) 演变。模型不再依赖固定的标签,而是学习将图像与来自互联网的自然语言描述对齐。这是一个巨大的飞跃,使得模型能够泛化到它们之前没有明确见过的对象。

推理鸿沟

然而,视觉嵌入是“黑盒”。它们是难以解释的密集数字向量。更重要的是,它们通常与外部世界知识脱节。CLIP 模型可能认出“扳手”,但它不一定编码了“扳手用于转动螺母和螺栓”的知识,或者它在复杂场景中如何与其他物体交互。

结构化表征

研究人员还探索了场景图 (Scene Graphs) , 它映射了对象及其关系 (例如,男人 – 拿着 –> 杯子) 。虽然场景图具有结构化和可解释性,但它们往往缺乏复杂推理所需的丰富语义细节和更广泛的背景。

这就引出了视觉表 (Visual Table) 。 作者建议结合两者的优点: 图的结构以及自然语言的描述能力,并辅以显式的世界知识。

核心方法: 什么是视觉表?

视觉表不是一张图片;它是对视觉场景的基于文本的分层描述。可以把它想象成图像的元数据文件或数据库条目。

一个视觉表由两个主要部分组成:

  1. 场景描述 (Scene Description) : 全局背景的高层摘要 (例如,地点、时间、事件) 。
  2. 以对象为中心的描述 (Object-Centric Descriptions) : 对象列表,其中每个对象被细分为:
  • 类别 (Category) : 它是什么?
  • 属性 (Attributes) : 视觉细节 (颜色、形状、材质、动作) 。
  • 知识 (Knowledge) : 实例级事实、功能可见性 (该对象能做什么) 以及背景信息。

这种文本格式提供了独特的优势。它是可解释的 (人类可以阅读) 、可编辑的 (我们可以调整表格来测试模型) 且知识丰富

视觉表生成器

你可能会问: “谁来写这些表格?难道要人类坐下来为每张图片输入百科全书式的条目吗?”

那将极其昂贵。相反,研究人员开发了一个半自动化流程来创建一个视觉表生成器

图 2: 学习视觉表生成器的流程 (左) 及其在下游任务中的应用 (右) 。

第一步: 通过基础模型收集数据

研究人员利用强大的基础模型 (具体是 GPT-4V) 来生成地面实况标注 (Ground-truth annotations) 。他们设计了一个提示词 (Prompt) 模式,强制模型以严格的 JSON 格式输出描述。

图 4: 用于收集视觉表标注的提示词设计。它指示模型将场景描述、对象类别、属性和知识分离成 JSON 结构。

通过在 61,000 张图像的数据集上运行此提示词,他们创建了一个高质量的视觉表训练集。这个数据集就像“教科书”一样,用来教一个更小、更快的模型如何生成这些表格。

第二步: 训练生成器

生成器建立在多模态大语言模型 (MLLM) 架构之上,具体是 LLaVA-1.5。它包括:

  1. 视觉编码器: 一个处理图像的 CLIP (ViT-L/14) 模型。
  2. 连接器: 一个将视觉特征投影到语言空间的 MLP。
  3. LLM: 一个生成文本的 Vicuna-13B 模型。

训练过程涉及教模型在给定图像输入 (\(I\)) 和指令 (\(T_{instruct}\)) 的情况下预测视觉表文本 token (\(T_a\))。

描述在给定图像和指令下生成视觉表 token 概率的公式。

这个公式代表了自回归训练目标。模型学习以图像嵌入 (\(h(I)\)) 和之前的 token 为条件,逐个 token 地生成视觉表。

第三步: 推理应用

一旦生成器训练完成,它就可以部署在任何新图像上。在推理阶段 (如图 2 右侧所示) ,系统工作流程如下:

  1. 输入: 图像被输入到视觉表生成器。
  2. 生成: 生成器输出结构化的视觉表文本。
  3. 推理: 这个文本表格——无论是单独使用还是结合标准的视觉嵌入——被输入到 LLM 中以回答用户问题。

这把视觉任务变成了一个阅读理解任务,而这正是 LLM 擅长的。

实验与结果

研究人员严格测试了视觉表是否真的能帮助模型更好地理解世界。他们在11 个不同的基准测试中评估了他们的方法,涵盖了从标准的视觉问答 (VQA) 到复杂的推理和幻觉测试。

与基于文本的表征进行比较

他们将视觉表与其他基于文本的图像表示方法进行了比较:

  • 字幕 (Captions) : 简短的描述性句子。
  • 详细字幕 (Detailed Captions) : 较长的段落式描述。
  • 场景图 (Scene Graphs) : 结构化的节点-边表示。

表 1: 11 个基准测试的性能比较。视觉表 (VT) 持续优于字幕 (Cap) 和场景图 (SG)。LLaVA 嵌入 + 视觉表 (LLaVA-VT) 的组合取得了最高结果。

结果的关键要点:

  1. 视觉表在文本比较中胜出: 当作为唯一的视觉表征使用时 (“Vicuna-VT” 行) ,视觉表的表现显著优于字幕和场景图。例如,在测试细粒度视觉感知的 MMVP 基准上,视觉表得分 26.7 , 而场景图仅为 11.3
  2. 增强 SOTA 模型: 最令人印象深刻的结果是 “LLaVA-VT” 部分。即使添加到 LLaVA-1.5 (一个使用视觉嵌入的最先进模型) 中,视觉表也提供了一致的性能提升。这证明了表格提供了互补信息——即视觉嵌入所遗漏的知识。

“知识”的重要性

性能提升仅仅是因为文本更多,还是因为特定的结构很重要?研究人员进行了一项消融实验来找出答案。他们选择性地移除了表格的部分内容 (场景描述、属性、知识) 并测量了影响。

表 2: 消融实验。去除“知识”组件会导致在 MM-Vet 和 MMMU 等重推理基准上的性能大幅下降。

结果很有说明性。在需要深度推理的基准测试 (如 MMMUMM-Vet )上,移除“知识”组件导致准确率急剧下降。这验证了一个假设: 实例级的世界知识——明确说明一个对象是什么做什么——对于高水平的视觉推理至关重要。

可视化推理过程

视觉表的最大好处之一是可解释性 。 与向量不同,你可以阅读表格,确切地看到模型“看到”了什么。

看看这个著名的“周一”狗表情包的例子:

图 3 可视化示例: 视觉表正确地将狗的状态识别为“累”或“伤心”,并将文本“MONDAY”与工作周开始的概念联系起来,使模型能够正确解释该表情包。

在上面的比较中:

  • 标准 LLaVA (红色) : 产生幻觉,认为狗是“放松并享受时光”。它完全没懂这个笑话。
  • 视觉表 (绿色) : 明确指出狗“可能伤心”,并将文本“MONDAY”与“对工作周开始相关的恐惧或不情愿的感觉”联系起来。
  • 结果: 使用视觉表的模型正确解释了表情包。

另一个强有力的例子是处理地图和地理的能力,这是许多视觉模型的弱点:

图 3 可视化示例: 一张美国东海岸地图。视觉表明确列出了涉及的州,使模型能够正确识别高亮显示的殖民地。

在这里,视觉表充当了一个查询系统,列出了高亮显示为绿色的州 (缅因州、新罕布什尔州、佛蒙特州等) 。这使得 LLM 能够进行准确的检索和推理,从而正确回答多项选择题。

结论与启示

“Visual Table”论文为视觉表征学习引入了一个令人耳目一新的视角。通过摆脱纯粹的隐式嵌入,转而拥抱结构化、知识丰富的文本,研究人员创建了一个既更强大又更透明的系统。

主要收获:

  • 结构很重要: 将视觉数据组织成层次化的表格 (场景 -> 对象 -> 属性 -> 知识) 有助于 LLM 更有效地进行推理。
  • 知识就是力量: 仅有视觉识别是不够的;显式的世界知识 (功能可见性、历史、背景) 对于回答复杂问题是必要的。
  • 可解释性: 视觉表允许我们检查模型的中间推理步骤,建立信任并使调试更容易。

这项工作表明,计算机视觉的未来可能不仅仅关于更大的视觉编码器,还在于如何更好地弥合像素感知与语言中包含的丰富结构化知识之间的鸿沟。随着 MLLM 的不断发展,像视觉表这样的表征可能会成为连接“看见”与“理解”的标准组件。