引言
我们正见证着大型多模态模型 (LMMs) 的黄金时代。像 GPT-4o 和 Gemini 这样的系统已经展示了令人惊叹的能力: 它们能够解读视觉场景,用诗意的细节描述物体,并以类似人类的流利度回答有关图像的问题。如果你向这些模型展示一张繁忙街道的照片,它们可以列出汽车、行人以及交通信号灯的颜色。
但在识别图像中有什么与理解它在物理空间中在哪里之间,存在着一个细微却至关重要的区别。
目前大多数基准测试主要评估模型的语义理解 (例如,“这儿有一只猫吗?”) 或 2D 空间关系 (例如,“猫在狗的左边吗?”) 。然而,现实世界是三维的。要导航环境、操作机器人或自动驾驶,AI 必须掌握 6D 空间推理 。 这涉及理解物体的 3D 位置 (X、Y、Z 坐标) 及其 3D 方向 (旋转和朝向) 。
这就引出了当前 AI 评估中的一个巨大空白。这些强大的模型是真的理解 3D 空间,还是仅仅依赖于 2D 模式?为了回答这个问题,研究人员推出了 Spatial457 , 这是一个全新的、可扩展且无偏差的合成基准测试,旨在诊断 LMM 在 6D 空间推理方面的局限性。
问题所在: 视觉 AI 中的“2D 偏差”
在深入解决方案之前,我们需要理解为什么测量空间推理如此困难。
主要的障碍在于数据本身。现实世界的数据集本质上是有偏差的。例如,在 nuScenes (用于自动驾驶) 等数据集中,超过 70% 的物体都聚集在一个主要的朝向上。汽车通常是从正面或背面拍摄的;椅子通常是面对桌子的。如果 AI 正确猜出一辆车是“朝前”的,它是根据几何形状推理出来的,还是仅仅在赌统计概率?
此外,现有的基准测试通常止步于 2.5D 特征 (如深度) 或简单的 2D 关系。目前缺乏一个全面的框架来评估从识别物体到预测其在 3D 空间中是否会撞上其他物体的全方位空间智能。
Spatial457: 一种新的诊断框架
为了解决这些限制,作者开发了 Spatial457。这是一个合成数据集,意味着图像是计算机生成的。虽然“合成”听起来可能不如真实数据稳健,但在这种情况下,它实际上是一种超能力。它允许生成无偏差的场景,物体可以放置在任何地方并朝向任何方向,从而迫使 AI 去观察视觉证据,而不是依赖训练偏差。
如下图所示,该基准围绕级联评估系统构建。它从简单的识别开始,最终达到复杂的碰撞预测。

四大核心能力
研究人员确定了空间推理的四大基础支柱:
- 多对象识别 (Multiple Object Recognition) : 模型能否在杂乱的场景中识别并区分不同的物品?
- 2D 位置 (2D Locations) : 模型能否理解平面图像中的相对位置 (左、右、上、下) ?
- 3D 位置 (3D Locations) : 模型能否感知深度和距离?这对于理解遮挡 (什么挡在什么前面) 至关重要。
- 3D 方向 (3D Orientation) : 模型能否确定物体的精确姿态?例如,一辆公交车是朝左,还是面对摄像头?
5 个难度等级
Spatial457 将这些能力排列成一个难度递增的“路线图”,在五个难度等级中创建了七种不同的问题类型。这种结构使研究人员能够精确找出模型的推理在何处崩溃。
等级 1 & 2: 基础
- L1 (单对象) : 简单的问题,如“双层巴士是什么颜色的?”,用于建立视觉识别的基准。
- L2 (多对象) : 需要比较的问题,例如“是否有另一个物体与双层巴士颜色相同?”这测试了模型解析包含多个实体场景的能力。
等级 3: 2D 空间推理
在这里,基准引入了从相机视角出发的空间关系。一个典型的问题可能是,“直升机左边的物体是什么形状?”这是目前大多数视觉问答 (VQA) 基准的标准。
等级 4: 3D 跨越
这是 Spatial457 与传统测试分道扬镳的地方。
- 3D 姿态 (3D Pose) : 询问关于物体方向的问题。例如,“与棕色物体平行的物体是什么形状?”
- 遮挡 (Occlusion) : 模型必须理解深度。例如,“红色货车被黄色巴士遮挡了吗?”
等级 5: 6D 推理与碰撞
这是终极测试。它要求整合 3D 位置和 3D 方向来预测交互。
- 6D 空间关系: 描述相对于 物体自身 在 3D 空间中的位置 (例如,在 3D 空间中“在车左边”,是相对于车的驾驶员而言,而不是相对于相机) 。
- 碰撞预测: 诸如“如果红色货车向前移动,会撞上黄色巴士吗?”之类的问题。

如上例所示,回答碰撞问题要求模型确切知道物体在哪里 (3D 位置) ,它指向哪里 (3D 方向) ,并投射出轨迹 (碰撞逻辑) 。
实验与结果
研究人员评估了一系列最先进的模型,包括专有 API 模型 (GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet) 和开源模型 (LLaVA, Qwen2-VL) 。结果揭示了一个残酷的现实: 虽然这些模型是语言天才,但在空间能力上却面临挑战。
性能下降
下表总结了各种模型在不同难度等级下的准确率。

注意这个趋势:
- 高基准: 人类在所有项目中都达到了大约 80-90% 的准确率。
- 模型衰退: 像 GPT-4o 这样的顶级模型在等级 1 表现强劲 (~74%) ,但随着复杂度的增加显著下降。到了等级 5 (碰撞) ,准确率降至约 38%。
- 差距: 在更高级的推理层级 (L4 和 L5) ,人类表现与 AI 表现之间存在巨大的鸿沟。
这证实了假设: 准确的物体识别并不能转化为准确的空间推理。
定性分析: 它们为什么会失败?
为了理解数字 为什么 会下降,我们可以看看模型输出的具体例子。在下图中,我们看到 GPT-4o 在同一张图片上尝试不同的任务。

在绿色区域,模型正确识别了大小并计数了物体。然而,在红色区域 (等级 4 和 5) ,它失败了。它无法正确识别哪个物体面向与公路自行车相反的方向,也无法从“战斗机”的视角确定空间关系。模型“看见”了物体,但无法构建它们方向的连贯 3D 心理地图。
量化弱点: RPDR
为了科学地衡量某种特定能力 (如 3D 方向) 对性能的影响程度,作者引入了一个称为 相对性能下降率 (Relative Performance Dropping Rate, RPDR) 的指标。

本质上,该指标计算了当引入新变量 (如深度或旋转) 时准确率下降的百分比。分析表明, 3D 推理 (包括位置和方向) 导致了几乎所有模型性能的最急剧下降。GPT-4o 和 Gemini 在 3D 方向上尤其挣扎,这表明虽然它们能很好地识别物体,但几乎不理解这些物体在空间中是如何摆放的。
偏差问题: 猜测 vs. 知道
Spatial457 研究中最迷人的发现之一是揭示了预测偏差。因为合成数据集是完全平衡的 (物体以相同的概率出现在所有颜色和方向上) ,模型答案中的任何倾斜都代表了内部偏差。
研究人员发现,模型有强烈的倾向去预测某些属性而不是其他属性。例如,当不确定汽车的方向时,模型经常猜测“正面”或“左侧”,这很可能是因为它们的训练数据充满了从这些角度拍摄的汽车照片。

上面的热力图清晰地说明了这一点。理想情况下,预测网格应该看起来像对角线 (高准确率) 或均匀分布 (随机猜测) 。相反,我们看到了垂直条带,表明无论实际姿态如何,模型都倾向于输出特定的标签。
为了量化这一点,作者使用了变异系数 (Coefficient of Variation, CV) 。CV 越低表示偏差越小。


如表所示,“姿态”的 CV 值在各模型中均显著高于“大小”或“形状”。这证明了当前的 LMM 在涉及 3D 方向时,严重依赖先验 (统计猜测) 而非视觉证据。
现实世界的影响
这在合成基准之外重要吗?研究人员使用 SUN-RGBD 数据集将评估扩展到了现实世界的图像。他们发现问题依然存在。

在上例中,GPT-4o 猜对了,但 Gemini 失败了。更有趣的是,模型提供的 推理 通常依赖于“常识” (例如,“椅子通常面向柜台”) ,而不是视觉几何。虽然常识是有用的,但对于自动系统来说,依赖常识而非实际视觉数据是危险的——想象一下,一辆自动驾驶汽车仅仅因为另一辆车在车道上就假设它在向前移动,而忽略了它已经失控打转并横在路上的事实。
现实世界的分布分析证实了这种偏差:

结论
Spatial457 基准测试给 AI 社区敲响了警钟。它表明,虽然大型多模态模型在语义理解方面取得了巨大进步,但它们对 6D 空间推理 的掌握仍然处于初级阶段。
主要结论如下:
- 复杂度至关重要: 随着任务从识别转向 3D 空间推理和碰撞预测,性能急剧下降。
- 方向是盲点: 模型在 3D 姿态方面非常吃力,往往依赖于有偏差的猜测而不是视觉分析。
- 诊断价值: 通过将空间推理分解为特定能力,Spatial457 为需要修复的地方提供了路线图。
为了让 AI 真正与物理世界互动——无论是通过机器人技术还是增强现实——它需要超越描述像素,开始理解空间。像 Spatial457 这样的工作是填补这一空白的第一步。
](https://deep-paper.org/en/paper/file-2231/images/cover.png)