引言
想象一下你正在穿过一条繁忙的街道。你看到一辆白色货车和一个骑行者。你的大脑会瞬间处理这些信息,不仅知道这些物体是什么,还知道它们在三维空间中的位置以及它们的去向。你会本能地知道货车正对着你 (可能有危险) ,而骑行者正在与你平行移动。这就是 3D 空间推理 (3D spatial reasoning) , 这是人类认知中一项非常基础的能力,以至于我们很少去思考它。
然而,对于像 GPT-4o 或 LLaVA 这样的大型多模态模型 (LMMs) 来说,这是一项极其困难的任务。这些模型主要是在大量的 2D 图像和说明文字上训练的。虽然它们能用充满诗意的细节描述“白色货车”和“骑行者”,但它们往往无法回答关于场景物理现实的简单问题: 货车比骑行者更近吗?它们是否在碰撞路线上?
无法在 3D 空间中进行推理限制了 AI 在机器人技术、自动驾驶和物理世界交互中的潜力。为了弥补这一差距,研究人员推出了 SpatialLLM , 这是一种采用“复合”方法设计的新模型,系统地将 3D 感知注入到数据、架构和训练过程中。

在这篇文章中,我们将解构 SpatialLLM 背后的研究。我们将探讨为什么当前模型在空间理解上举步维艰,研究人员如何设计出融合 3D 信息的架构,以及证明该方法超越最先进专有模型的结果。
问题所在: AI 中的 2D 偏差
当前的 LMM 拥有令人印象深刻的视觉能力,但它们在根本上对 2D 表示存在偏差。这种偏差源于它们的训练数据。大多数互联网规模的数据集都由图像和诸如“一只狗坐在垫子上”之类的说明文字配对组成。这些说明很少描述 3D 属性,例如“狗距离相机 1.5 米,向左偏转 45 度”。
因此,虽然模型可以识别物体,但它们难以处理三种特定类型的空间关系:
- 距离关系 (Distance Relationships) : 判断深度和相对距离 (例如,“哪辆车更近?”) 。
- 朝向关系 (Orientation Relationships) : 理解物体的 3D 姿态 (例如,“这个人是否面对着相机?”) 。
- 复杂空间推理 (Complex Spatial Reasoning) : 结合位置和朝向来理解交互 (例如,“这辆车是朝着行人开去的吗?”) 。
以前试图解决这个问题的尝试 (如 SpatialVLM) 主要集中在距离上。然而,它们在很大程度上忽略了 3D 朝向 。 如果不能理解朝向,模型就无法区分一辆正在停车的车和一辆加速冲向十字路口的车。
衡量差距: SpatialVQA
要解决问题,首先必须衡量问题。由于现有的基准测试主要关注 2D 关系 (如“在…左边”或“在…右边”) ,研究人员创建了 SpatialVQA 。 该数据集包含源自 Omni3D 数据集的 1,323 个问题,涵盖了城市和室内场景。
![图像显示了四个不同的面板,排列成 2x2 的网格,每个面板都展示了涉及标记为“Region [n]”的物体之间的 3D 位置和朝向关系的空间推理任务示例。](/en/paper/2505.00788/images/002.jpg#center)
如上图所示,SpatialVQA 挑战模型对以下内容的推理能力:
- 距离: 哪个书架离椅子更近?
- 朝向: 这两辆车面向同一个方向吗?
- 空间推理: 如果你坐在驾驶座上,公交车相对于你在哪里?
当像 LLaVA-v1.5 这样的标准模型尝试回答这些问题时,它们的准确率大约只有 47.7%——这基本上意味着在很多情况下都是在瞎猜。SpatialLLM 的目标是将这个数字显著提高。
核心方法: 复合 3D 感知设计
这篇论文的核心贡献不仅仅是一个单一的新算法,而是一种复合设计策略 。 作者认为,修复空间推理需要在模型的整个生命周期中进行干预: 数据、架构和训练设置 。

让我们分解一下这个设计空间的每个支柱。
1. 数据: 3D 感知的基石
最关键的组件是数据。标准的 LMM 训练使用带有噪声的图像-文本对或缺乏空间精度的详细说明。研究人员开发了一个管道,通过利用现有的 3D 数据集 (如 ImageNet3D) 并使用辅助工具估计其他图像中的深度和姿态,来生成 3D 感知数据 (3D-informed data) 。
他们创建了两种不同类型的数据:
A. 3D 感知探测数据 (3DI-Pb)
这类数据关注物体基本的、客观的属性。它教导模型 3D 属性“看起来像什么”。
- 内容: 关于深度、方位角 (水平角度) 、仰角 (垂直角度) 以及物体间距离的问题。
- 规模: 他们整理了来自 OpenImages (100 万个样本) 和 ImageNet3D (16.6 万个样本) 的数据集。ImageNet3D 数据特别有价值,因为它包含人工标注的 3D 朝向,比机器生成的标签更干净。
B. 3D 感知指令微调数据 (3DI-Ft)
这类数据关注高层推理。它教导模型“如何”思考它感知到的 3D 属性。
- 内容: 关于空间关系的复杂对话 (例如,“描述车辆的空间排列”) 。
- 规模: 100 万个样本。

上方的图 4 突出了这种鲜明的对比。标准数据产生像“路上的汽车”这样的说明,而 3D 感知管道产生的数据卡包含度量深度、相机校准和特定的 3D 朝向标签。
下面是这种训练数据的定性示例。请注意,问题明确要求对“现实世界的 3D 朝向”进行推理,而不仅仅是 2D 像素位置。

2. 架构: 增强视觉编码器
大多数 LMM 使用 CLIP 作为其视觉编码器。CLIP 在将图像与文本匹配方面非常出色,但它是基于 2D 互联网图像训练的,往往会丢弃精确的几何信息。
为了提高 3D 感知能力,研究人员尝试了 混合视觉编码器 (Mixed Visual Encoders) 。 他们将标准的 CLIP 编码器与 DINOv2 结合使用。
- 为什么选择 DINOv2? DINOv2 是一个自监督模型。因为它学会在不依赖文本说明的情况下理解图像,所以它倾向于比 CLIP 保留更好的局部几何特征和空间意识。
- 结果: 融合来自两个编码器的特征使模型能够保留语义理解 (来自 CLIP) ,同时获得几何精度 (来自 DINOv2) 。
3. 训练: SpatialLLM 路线图
拥有数据和架构是不够的;必须在正确的时机引入它们。SpatialLLM 的训练管道涉及多个阶段。
作者提出了一个具体的“路线图”,逐步将标准模型 (如 LLaVA) 升级为 SpatialLLM。
- 阶段 1: 3D 感知对齐 (3D-Informed Alignment) 。 在这个阶段,视觉编码器连接到语言模型 (LLM) 。他们不仅仅使用标准说明,还混入了 3D 感知探测数据 。 这迫使连接器将 3D 相关信息 (如朝向和深度) 传递给 LLM。
- 阶段 2: 3D 感知指令微调 (3D-Informed Instruction Tuning) 。 最后,模型在 3D 感知指令微调数据上进行微调。这教会 LLM 使用它接收到的信息来回答复杂的用户问题。

上面的可视化图表 (图 5 和图 6) 总结了这一进程。
- 标准 LLaVA (蓝色) : 使用标准数据和单一编码器。
- SpatialVLM (绿色) : 仅在最后阶段 (指令微调) 引入了空间数据。
- SpatialLLM (橙色) : 在 对齐 阶段 和 微调 阶段都注入了 3D 数据,并使用了混合编码器。
柱状图 (图 6) 揭示了这些选择的影响。从 47.7% 的基线开始,添加混合编码器带来了一点提升。切换到更好的 LLM (Llama-3) 进一步有所帮助。但巨大的飞跃来自 3D 感知数据 , 将得分推高至 60% 以上。
实验与结果
这种复合设计在实践中真的有效吗?SpatialVQA 基准测试的结果具有决定性意义。
与最先进技术的比较
SpatialLLM 与顶级的专有模型 (如 GPT-4o 和 Claude 3.5 Sonnet) 以及开源空间模型 (如 SpatialVLM) 进行了比较。

结果的关键要点:
- 击败巨头: SpatialLLM 实现了 62.7% 的平均准确率,以 8.7% 的显著优势超过了 GPT-4o (54.0%)。
- 精通朝向: 最大的差距在于 3D 朝向。SpatialLLM 在朝向任务上得分 86.3% , 而 GPT-4o 仅达到 59.4%,标准 LLaVA 模型仅为 50.6%。这验证了包含特定朝向训练数据的必要性。
- 全面提升: 该模型在所有三个类别 (距离、朝向和空间关系) 中均优于竞争对手。
分析“原因”: 消融实验
研究人员进行了消融实验,以了解其设计的哪些部分对成功贡献最大。

参考上图中的表格:
- 架构略有帮助: 从 CLIP 转向混合编码器 (CLIP+DINOv2) 提供了适度的收益 (~0.3%)。将 LLM 从 Vicuna 升级到 Llama-3 提供了 ~1.0% 的收益。
- 数据是颠覆者:
- 将 3D 数据添加到 阶段 2 (指令微调) 导致了巨大的 +10.7% 的跳跃。
- 将 3D 数据添加到 阶段 1 (对齐) 提供了额外的 +3.0% 。
上图底部的定性示例 (图 7) 说明了这种能力差异。当被问及哪辆车更近或椅子是否面向相似方向时,GPT-4o 经常含糊其辞 (“在没有视觉评估的情况下无法提供确切答案”) 。相比之下,SpatialLLM 自信且正确地识别出区域 1 中的汽车更近,并且椅子面向不同的方向。
结论与启示
SpatialLLM 的开发突出了计算机视觉未来的一个关键见解: 数据策展与模型架构同样重要。
标准的 LMM 在空间推理方面遇到了瓶颈,因为它们的训练数据忽略了世界的 3D 本质。通过系统地构建明确标记 3D 朝向和距离的数据集——并在对齐和指令微调阶段注入这些数据——研究人员能够大幅超越体量更大的专有模型。
主要收获:
- 复合设计: 成功来自于同时优化数据、架构和训练,而不是孤立地进行。
- 朝向至关重要: 以前的工作主要关注深度。添加 3D 朝向是解锁复杂空间推理的关键。
- 开源的胜利: 凭借正确的专业数据,开源模型可以在特定的复杂任务上击败像 GPT-4o 这样的通用巨头。
对于学生和研究人员来说,SpatialLLM 为构建“具身”AI (Embodied AI) 提供了路线图——这些模型不仅能观察世界,还能理解它们在其中的位置。
](https://deep-paper.org/en/paper/2505.00788/images/cover.png)