引言

我们正见证着大型多模态模型 (LMMs) 的黄金时代。像 GPT-4o 和 Gemini 这样的系统已经展示了令人惊叹的能力: 它们能够解读视觉场景,用诗意的细节描述物体,并以类似人类的流利度回答有关图像的问题。如果你向这些模型展示一张繁忙街道的照片,它们可以列出汽车、行人以及交通信号灯的颜色。

但在识别图像中有什么与理解它在物理空间中在哪里之间,存在着一个细微却至关重要的区别。

目前大多数基准测试主要评估模型的语义理解 (例如,“这儿有一只猫吗?”) 或 2D 空间关系 (例如,“猫在狗的左边吗?”) 。然而,现实世界是三维的。要导航环境、操作机器人或自动驾驶,AI 必须掌握 6D 空间推理 。 这涉及理解物体的 3D 位置 (X、Y、Z 坐标) 及其 3D 方向 (旋转和朝向) 。

这就引出了当前 AI 评估中的一个巨大空白。这些强大的模型是真的理解 3D 空间,还是仅仅依赖于 2D 模式?为了回答这个问题,研究人员推出了 Spatial457 , 这是一个全新的、可扩展且无偏差的合成基准测试,旨在诊断 LMM 在 6D 空间推理方面的局限性。

问题所在: 视觉 AI 中的“2D 偏差”

在深入解决方案之前,我们需要理解为什么测量空间推理如此困难。

主要的障碍在于数据本身。现实世界的数据集本质上是有偏差的。例如,在 nuScenes (用于自动驾驶) 等数据集中,超过 70% 的物体都聚集在一个主要的朝向上。汽车通常是从正面或背面拍摄的;椅子通常是面对桌子的。如果 AI 正确猜出一辆车是“朝前”的,它是根据几何形状推理出来的,还是仅仅在赌统计概率?

此外,现有的基准测试通常止步于 2.5D 特征 (如深度) 或简单的 2D 关系。目前缺乏一个全面的框架来评估从识别物体到预测其在 3D 空间中是否会撞上其他物体的全方位空间智能。

Spatial457: 一种新的诊断框架

为了解决这些限制,作者开发了 Spatial457。这是一个合成数据集,意味着图像是计算机生成的。虽然“合成”听起来可能不如真实数据稳健,但在这种情况下,它实际上是一种超能力。它允许生成无偏差的场景,物体可以放置在任何地方并朝向任何方向,从而迫使 AI 去观察视觉证据,而不是依赖训练偏差。

如下图所示,该基准围绕级联评估系统构建。它从简单的识别开始,最终达到复杂的碰撞预测。

Spatial457 基准概览及 3D 姿态分布。左侧展示了级联难度等级,右侧对比了有偏差的真实世界数据集与平衡的 Spatial457 数据集。

四大核心能力

研究人员确定了空间推理的四大基础支柱:

  1. 多对象识别 (Multiple Object Recognition) : 模型能否在杂乱的场景中识别并区分不同的物品?
  2. 2D 位置 (2D Locations) : 模型能否理解平面图像中的相对位置 (左、右、上、下) ?
  3. 3D 位置 (3D Locations) : 模型能否感知深度和距离?这对于理解遮挡 (什么挡在什么前面) 至关重要。
  4. 3D 方向 (3D Orientation) : 模型能否确定物体的精确姿态?例如,一辆公交车是朝左,还是面对摄像头?

5 个难度等级

Spatial457 将这些能力排列成一个难度递增的“路线图”,在五个难度等级中创建了七种不同的问题类型。这种结构使研究人员能够精确找出模型的推理在何处崩溃。

等级 1 & 2: 基础

  • L1 (单对象) : 简单的问题,如“双层巴士是什么颜色的?”,用于建立视觉识别的基准。
  • L2 (多对象) : 需要比较的问题,例如“是否有另一个物体与双层巴士颜色相同?”这测试了模型解析包含多个实体场景的能力。

等级 3: 2D 空间推理

在这里,基准引入了从相机视角出发的空间关系。一个典型的问题可能是,“直升机左边的物体是什么形状?”这是目前大多数视觉问答 (VQA) 基准的标准。

等级 4: 3D 跨越

这是 Spatial457 与传统测试分道扬镳的地方。

  • 3D 姿态 (3D Pose) : 询问关于物体方向的问题。例如,“与棕色物体平行的物体是什么形状?”
  • 遮挡 (Occlusion) : 模型必须理解深度。例如,“红色货车被黄色巴士遮挡了吗?”

等级 5: 6D 推理与碰撞

这是终极测试。它要求整合 3D 位置和 3D 方向来预测交互。

  • 6D 空间关系: 描述相对于 物体自身 在 3D 空间中的位置 (例如,在 3D 空间中“在车左边”,是相对于车的驾驶员而言,而不是相对于相机) 。
  • 碰撞预测: 诸如“如果红色货车向前移动,会撞上黄色巴士吗?”之类的问题。

从 2D 空间查询到涉及未来状态估计的复杂碰撞预测的问题类型示例。

如上例所示,回答碰撞问题要求模型确切知道物体在哪里 (3D 位置) ,它指向哪里 (3D 方向) ,并投射出轨迹 (碰撞逻辑) 。

实验与结果

研究人员评估了一系列最先进的模型,包括专有 API 模型 (GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet) 和开源模型 (LLaVA, Qwen2-VL) 。结果揭示了一个残酷的现实: 虽然这些模型是语言天才,但在空间能力上却面临挑战。

性能下降

下表总结了各种模型在不同难度等级下的准确率。

跨越所有 7 种问题类型和 5 个难度等级的性能比较表。

注意这个趋势:

  1. 高基准: 人类在所有项目中都达到了大约 80-90% 的准确率。
  2. 模型衰退: 像 GPT-4o 这样的顶级模型在等级 1 表现强劲 (~74%) ,但随着复杂度的增加显著下降。到了等级 5 (碰撞) ,准确率降至约 38%。
  3. 差距: 在更高级的推理层级 (L4 和 L5) ,人类表现与 AI 表现之间存在巨大的鸿沟。

这证实了假设: 准确的物体识别并不能转化为准确的空间推理。

定性分析: 它们为什么会失败?

为了理解数字 为什么 会下降,我们可以看看模型输出的具体例子。在下图中,我们看到 GPT-4o 在同一张图片上尝试不同的任务。

GPT-4o 表现的定性示例。它在识别和 2D 任务 (绿色) 上成功,但在 3D 姿态和 6D 空间推理 (红色) 上失败。

在绿色区域,模型正确识别了大小并计数了物体。然而,在红色区域 (等级 4 和 5) ,它失败了。它无法正确识别哪个物体面向与公路自行车相反的方向,也无法从“战斗机”的视角确定空间关系。模型“看见”了物体,但无法构建它们方向的连贯 3D 心理地图。

量化弱点: RPDR

为了科学地衡量某种特定能力 (如 3D 方向) 对性能的影响程度,作者引入了一个称为 相对性能下降率 (Relative Performance Dropping Rate, RPDR) 的指标。

定义不同空间能力的相对性能下降率 (RPDR) 的方程。

本质上,该指标计算了当引入新变量 (如深度或旋转) 时准确率下降的百分比。分析表明, 3D 推理 (包括位置和方向) 导致了几乎所有模型性能的最急剧下降。GPT-4o 和 Gemini 在 3D 方向上尤其挣扎,这表明虽然它们能很好地识别物体,但几乎不理解这些物体在空间中是如何摆放的。

偏差问题: 猜测 vs. 知道

Spatial457 研究中最迷人的发现之一是揭示了预测偏差。因为合成数据集是完全平衡的 (物体以相同的概率出现在所有颜色和方向上) ,模型答案中的任何倾斜都代表了内部偏差。

研究人员发现,模型有强烈的倾向去预测某些属性而不是其他属性。例如,当不确定汽车的方向时,模型经常猜测“正面”或“左侧”,这很可能是因为它们的训练数据充满了从这些角度拍摄的汽车照片。

显示颜色和姿态属性分布的热力图。即使有平衡的真值,模型仍表现出有偏差的预测。

上面的热力图清晰地说明了这一点。理想情况下,预测网格应该看起来像对角线 (高准确率) 或均匀分布 (随机猜测) 。相反,我们看到了垂直条带,表明无论实际姿态如何,模型都倾向于输出特定的标签。

为了量化这一点,作者使用了变异系数 (Coefficient of Variation, CV) 。CV 越低表示偏差越小。

用于测量预测偏差的变异系数 (CV) 方程。

显示不同属性 CV 值的表格。Pose (姿态) 中的较高值表明在方向预测中存在显著偏差。

如表所示,“姿态”的 CV 值在各模型中均显著高于“大小”或“形状”。这证明了当前的 LMM 在涉及 3D 方向时,严重依赖先验 (统计猜测) 而非视觉证据。

现实世界的影响

这在合成基准之外重要吗?研究人员使用 SUN-RGBD 数据集将评估扩展到了现实世界的图像。他们发现问题依然存在。

现实世界 3D 姿态推理的示例。模型通常利用常识 (椅子面向桌子) 而非视觉几何来猜测方向。

在上例中,GPT-4o 猜对了,但 Gemini 失败了。更有趣的是,模型提供的 推理 通常依赖于“常识” (例如,“椅子通常面向柜台”) ,而不是视觉几何。虽然常识是有用的,但对于自动系统来说,依赖常识而非实际视觉数据是危险的——想象一下,一辆自动驾驶汽车仅仅因为另一辆车在车道上就假设它在向前移动,而忽略了它已经失控打转并横在路上的事实。

现实世界的分布分析证实了这种偏差:

现实世界任务中 3D 姿态预测的分布。GPT-4o 显示出预测‘Front’ (前) 和‘Back’ (后) 的强烈偏差。

结论

Spatial457 基准测试给 AI 社区敲响了警钟。它表明,虽然大型多模态模型在语义理解方面取得了巨大进步,但它们对 6D 空间推理 的掌握仍然处于初级阶段。

主要结论如下:

  1. 复杂度至关重要: 随着任务从识别转向 3D 空间推理和碰撞预测,性能急剧下降。
  2. 方向是盲点: 模型在 3D 姿态方面非常吃力,往往依赖于有偏差的猜测而不是视觉分析。
  3. 诊断价值: 通过将空间推理分解为特定能力,Spatial457 为需要修复的地方提供了路线图。

为了让 AI 真正与物理世界互动——无论是通过机器人技术还是增强现实——它需要超越描述像素,开始理解空间。像 Spatial457 这样的工作是填补这一空白的第一步。