引言

想象一下你正在穿过一条繁忙的街道。你看到一辆白色货车和一个骑行者。你的大脑会瞬间处理这些信息，不仅知道这些物体是什么，还知道它们在三维空间中的位置以及它们的去向。你会本能地知道货车正对着你 (可能有危险) ，而骑行者正在与你平行移动。这就是 3D 空间推理 (3D spatial reasoning) , 这是人类认知中一项非常基础的能力，以至于我们很少去思考它。

然而，对于像 GPT-4o 或 LLaVA 这样的大型多模态模型 (LMMs) 来说，这是一项极其困难的任务。这些模型主要是在大量的 2D 图像和说明文字上训练的。虽然它们能用充满诗意的细节描述“白色货车”和“骑行者”，但它们往往无法回答关于场景物理现实的简单问题: 货车比骑行者更近吗？它们是否在碰撞路线上？

无法在 3D 空间中进行推理限制了 AI 在机器人技术、自动驾驶和物理世界交互中的潜力。为了弥补这一差距，研究人员推出了 SpatialLLM , 这是一种采用“复合”方法设计的新模型，系统地将 3D 感知注入到数据、架构和训练过程中。

这张信息图展示了使用街道场景 (包含白色货车、行人、骑行者和建筑物) 作为视觉示例的“空间推理”概念。它强调了三个关键领域: 朝向关系、空间推理关系和距离关系。

在这篇文章中，我们将解构 SpatialLLM 背后的研究。我们将探讨为什么当前模型在空间理解上举步维艰，研究人员如何设计出融合 3D 信息的架构，以及证明该方法超越最先进专有模型的结果。

问题所在: AI 中的 2D 偏差

当前的 LMM 拥有令人印象深刻的视觉能力，但它们在根本上对 2D 表示存在偏差。这种偏差源于它们的训练数据。大多数互联网规模的数据集都由图像和诸如“一只狗坐在垫子上”之类的说明文字配对组成。这些说明很少描述 3D 属性，例如“狗距离相机 1.5 米，向左偏转 45 度”。

因此，虽然模型可以识别物体，但它们难以处理三种特定类型的空间关系:

距离关系 (Distance Relationships) : 判断深度和相对距离 (例如，“哪辆车更近？”) 。
朝向关系 (Orientation Relationships) : 理解物体的 3D 姿态 (例如，“这个人是否面对着相机？”) 。
复杂空间推理 (Complex Spatial Reasoning) : 结合位置和朝向来理解交互 (例如，“这辆车是朝着行人开去的吗？”) 。

以前试图解决这个问题的尝试 (如 SpatialVLM) 主要集中在距离上。然而，它们在很大程度上忽略了 3D 朝向 。如果不能理解朝向，模型就无法区分一辆正在停车的车和一辆加速冲向十字路口的车。

衡量差距: SpatialVQA

要解决问题，首先必须衡量问题。由于现有的基准测试主要关注 2D 关系 (如“在…左边”或“在…右边”) ，研究人员创建了 SpatialVQA 。该数据集包含源自 Omni3D 数据集的 1,323 个问题，涵盖了城市和室内场景。

图像显示了四个不同的面板，排列成 2x2 的网格，每个面板都展示了涉及标记为“Region [n]”的物体之间的 3D 位置和朝向关系的空间推理任务示例。

如上图所示，SpatialVQA 挑战模型对以下内容的推理能力:

距离: 哪个书架离椅子更近？
朝向: 这两辆车面向同一个方向吗？
空间推理: 如果你坐在驾驶座上，公交车相对于你在哪里？

当像 LLaVA-v1.5 这样的标准模型尝试回答这些问题时，它们的准确率大约只有 47.7%——这基本上意味着在很多情况下都是在瞎猜。SpatialLLM 的目标是将这个数字显著提高。

核心方法: 复合 3D 感知设计

这篇论文的核心贡献不仅仅是一个单一的新算法，而是一种复合设计策略 。作者认为，修复空间推理需要在模型的整个生命周期中进行干预: 数据、架构和训练设置 。

此图说明了用于训练视觉语言模型 (VLM) 的多阶段框架。它由四个主要部分组成: 数据源、训练阶段组件、架构流程和视觉编码器选项。

让我们分解一下这个设计空间的每个支柱。

1. 数据: 3D 感知的基石

最关键的组件是数据。标准的 LMM 训练使用带有噪声的图像-文本对或缺乏空间精度的详细说明。研究人员开发了一个管道，通过利用现有的 3D 数据集 (如 ImageNet3D) 并使用辅助工具估计其他图像中的深度和姿态，来生成 3D 感知数据 (3D-informed data) 。

他们创建了两种不同类型的数据:

A. 3D 感知探测数据 (3DI-Pb)

这类数据关注物体基本的、客观的属性。它教导模型 3D 属性“看起来像什么”。

内容: 关于深度、方位角 (水平角度) 、仰角 (垂直角度) 以及物体间距离的问题。
规模: 他们整理了来自 OpenImages (100 万个样本) 和 ImageNet3D (16.6 万个样本) 的数据集。ImageNet3D 数据特别有价值，因为它包含人工标注的 3D 朝向，比机器生成的标签更干净。

B. 3D 感知指令微调数据 (3DI-Ft)

这类数据关注高层推理。它教导模型“如何”思考它感知到的 3D 属性。

内容: 关于空间关系的复杂对话 (例如，“描述车辆的空间排列”) 。
规模: 100 万个样本。

该图比较了使用视觉数据训练大型语言模型 (LLM) 的两种方法。左侧: 标准 LMM 训练数据。右侧: 3D 感知训练数据，其中包括朝向、深度和空间推理对话。

上方的图 4 突出了这种鲜明的对比。标准数据产生像“路上的汽车”这样的说明，而 3D 感知管道产生的数据卡包含度量深度、相机校准和特定的 3D 朝向标签。

下面是这种训练数据的定性示例。请注意，问题明确要求对“现实世界的 3D 朝向”进行推理，而不仅仅是 2D 像素位置。

图像显示了训练数据的示例。例如，有一个问题询问基于现实世界的 3D 朝向，一辆 Corvette 跑车和另一辆车是否面向同一方向。

2. 架构: 增强视觉编码器

大多数 LMM 使用 CLIP 作为其视觉编码器。CLIP 在将图像与文本匹配方面非常出色，但它是基于 2D 互联网图像训练的，往往会丢弃精确的几何信息。

为了提高 3D 感知能力，研究人员尝试了 混合视觉编码器 (Mixed Visual Encoders) 。他们将标准的 CLIP 编码器与 DINOv2 结合使用。

为什么选择 DINOv2? DINOv2 是一个自监督模型。因为它学会在不依赖文本说明的情况下理解图像，所以它倾向于比 CLIP 保留更好的局部几何特征和空间意识。
结果: 融合来自两个编码器的特征使模型能够保留语义理解 (来自 CLIP) ，同时获得几何精度 (来自 DINOv2) 。

3. 训练: SpatialLLM 路线图

拥有数据和架构是不够的；必须在正确的时机引入它们。SpatialLLM 的训练管道涉及多个阶段。

作者提出了一个具体的“路线图”，逐步将标准模型 (如 LLaVA) 升级为 SpatialLLM。

阶段 1: 3D 感知对齐 (3D-Informed Alignment) 。 在这个阶段，视觉编码器连接到语言模型 (LLM) 。他们不仅仅使用标准说明，还混入了 3D 感知探测数据 。这迫使连接器将 3D 相关信息 (如朝向和深度) 传递给 LLM。
阶段 2: 3D 感知指令微调 (3D-Informed Instruction Tuning) 。 最后，模型在 3D 感知指令微调数据上进行微调。这教会 LLM 使用它接收到的信息来回答复杂的用户问题。

图像包含两个图表。图 5 将 SpatialLLM 的设计实例与 LLaVA 和 SpatialVLM 进行了比较。图 6 显示了一个性能增益的柱状图，展示了从 LLaVA-v1.5 (47.7%) 到最终 SpatialLLM 模型 (62.7%) 的路线图。

上面的可视化图表 (图 5 和图 6) 总结了这一进程。

标准 LLaVA (蓝色) : 使用标准数据和单一编码器。
SpatialVLM (绿色) : 仅在最后阶段 (指令微调) 引入了空间数据。
SpatialLLM (橙色) : 在对齐阶段和微调阶段都注入了 3D 数据，并使用了混合编码器。

柱状图 (图 6) 揭示了这些选择的影响。从 47.7% 的基线开始，添加混合编码器带来了一点提升。切换到更好的 LLM (Llama-3) 进一步有所帮助。但巨大的飞跃来自 3D 感知数据 , 将得分推高至 60% 以上。

实验与结果

这种复合设计在实践中真的有效吗？SpatialVQA 基准测试的结果具有决定性意义。

与最先进技术的比较

SpatialLLM 与顶级的专有模型 (如 GPT-4o 和 Claude 3.5 Sonnet) 以及开源空间模型 (如 SpatialVLM) 进行了比较。

表 1. 与包括专有和开源模型在内的最先进技术的比较。SpatialLLM 实现了 62.7% 的平均准确率，击败了 GPT-4o (54.0%) 和 SpatialVLM (52.2%)。

结果的关键要点:

击败巨头: SpatialLLM 实现了 62.7% 的平均准确率，以 8.7% 的显著优势超过了 GPT-4o (54.0%)。
精通朝向: 最大的差距在于 3D 朝向。SpatialLLM 在朝向任务上得分 86.3% , 而 GPT-4o 仅达到 59.4%，标准 LLaVA 模型仅为 50.6%。这验证了包含特定朝向训练数据的必要性。
全面提升: 该模型在所有三个类别 (距离、朝向和空间关系) 中均优于竞争对手。

分析“原因”: 消融实验

研究人员进行了消融实验，以了解其设计的哪些部分对成功贡献最大。

表 2 显示了对设计空间的彻底探索。图 7 展示了一个定性比较，GPT-4o 无法判断距离和朝向，而 3D-LMM (SpatialLLM) 成功了。

参考上图中的表格:

架构略有帮助: 从 CLIP 转向混合编码器 (CLIP+DINOv2) 提供了适度的收益 (~0.3%)。将 LLM 从 Vicuna 升级到 Llama-3 提供了 ~1.0% 的收益。
数据是颠覆者:

将 3D 数据添加到 阶段 2 (指令微调) 导致了巨大的 +10.7% 的跳跃。
将 3D 数据添加到 阶段 1 (对齐) 提供了额外的 +3.0% 。

上图底部的定性示例 (图 7) 说明了这种能力差异。当被问及哪辆车更近或椅子是否面向相似方向时，GPT-4o 经常含糊其辞 (“在没有视觉评估的情况下无法提供确切答案”) 。相比之下，SpatialLLM 自信且正确地识别出区域 1 中的汽车更近，并且椅子面向不同的方向。

结论与启示

SpatialLLM 的开发突出了计算机视觉未来的一个关键见解: 数据策展与模型架构同样重要。

标准的 LMM 在空间推理方面遇到了瓶颈，因为它们的训练数据忽略了世界的 3D 本质。通过系统地构建明确标记 3D 朝向和距离的数据集——并在对齐和指令微调阶段注入这些数据——研究人员能够大幅超越体量更大的专有模型。

主要收获:

复合设计: 成功来自于同时优化数据、架构和训练，而不是孤立地进行。
朝向至关重要: 以前的工作主要关注深度。添加 3D 朝向是解锁复杂空间推理的关键。
开源的胜利: 凭借正确的专业数据，开源模型可以在特定的复杂任务上击败像 GPT-4o 这样的通用巨头。

对于学生和研究人员来说，SpatialLLM 为构建“具身”AI (Embodied AI) 提供了路线图——这些模型不仅能观察世界，还能理解它们在其中的位置。

引言#

问题所在: AI 中的 2D 偏差#

衡量差距: SpatialVQA#

核心方法: 复合 3D 感知设计#

1. 数据: 3D 感知的基石#

A. 3D 感知探测数据 (3DI-Pb)#

B. 3D 感知指令微调数据 (3DI-Ft)#

2. 架构: 增强视觉编码器#

3. 训练: SpatialLLM 路线图#

实验与结果#

与最先进技术的比较#

分析“原因”: 消融实验#

结论与启示#

引言