引言
想象一下,试着闭上一只眼睛,通过一个纸巾筒看着去把水倒进杯子里。你失去了深度感知,视野也受到了限制。这本质上就是许多由标准视觉语言模型 (VLM) 驱动的现代机器人的运作方式。
近年来,视觉-语言-动作 (VLA) 模型彻底改变了机器人领域。这些模型利用互联网规模的 2D 数据所构建的庞大知识库,帮助机器人理解指令并识别物体。然而,这里存在一个根本性的错位: 这些模型是在平面的 2D 图像上训练的,但机器人生活和工作在一个复杂的、几何构成的 3D 世界中。当一个机器人仅凭 2D 输入试图抓取瓶子或打开抽屉时,它往往难以推理出操作所需的空间深度和精确几何结构。
虽然存在专门针对 3D 的模仿学习方法,但它们面临着一个“进退两难”的局面: 我们没有足够的大规模 3D 数据集来将它们训练得像 2D 模型那样“聪明”。
3DS-VLA 应运而生,这是一种旨在弥合这一鸿沟的新方法。这项研究提出了一种方案,能够在不需要海量新数据集,且不丢失原始模型语义智能的前提下,为强大的预训练 2D 模型配备全面的 3D 空间感知能力。

如图 1 所示,3DS-VLA 框架引入了一种使用 2D 编码器来编码 3D 点云的方法,并利用“3D 空间约束”来指导机器人的动作。其结果是一个稳健的系统,能够处理多任务操作、不同的机器人类型 (具身形态) 以及多样化的环境设置。
背景: 2D 与 3D 的困境
要理解为什么 3DS-VLA 是必要的,我们需要先审视一下当前的机器人学习领域。
VLA 模型的崛起
像 RT-2 这样的模型表明,如果你将机器人的动作离散化 (将运动转化为 token,就像单词一样) ,并将它们与图像和文本一起输入到一个大型 Transformer 中,机器人就能学会执行任务。这些模型非常擅长语义理解 (例如,知道“苏打水罐”和“汤罐头”外观的区别) 。然而,它们通常将世界视为平面图像。它们直接将感知映射到动作,往往忽略了空间交互中的“地点”和“时机”。
原生 3D 学习的局限性
在光谱的另一端,我们有 3D 模仿学习。这些方法使用点云 (X、Y、Z 空间中的数据点) 作为输入。它们使用 PointNet 或基于体素 (voxel) 的网格等架构。虽然它们能完美地理解几何结构,但缺乏因在数十亿张互联网图像上预训练而获得的“常识”推理能力。此外,收集 3D 机器人演示数据昂贵且缓慢,导致数据稀缺,限制了模型的泛化能力。
中间路线的尝试
以前结合这两个世界的尝试通常涉及将 3D 数据投影为 2D 图像 (多视角) ,或者试图将 2D 特征“提升”到 3D 空间。这两种方法都是有损的;你要么在投影过程中丢失几何精度,要么在提升特征时无法捕捉到原始的几何细节。
3DS-VLA背后的研究人员提出了一个关键问题: 我们如何才能将原始的 3D 几何信息直接注入到预训练的 2D 模型中,使模型能够原生理解它?
核心方法: 3DS-VLA 架构
提出的解决方案是一个自回归生成模型。这意味着机器人观察当前状态并逐步预测下一步动作。该架构建立在预训练的视觉语言模型 (具体使用了 LLaMA 和 CLIP 组件) 之上,并使用 LoRA (低秩自适应) 进行高效调整,以保持训练计算成本的可控性。
这项创新的核心在于两大支柱:
- 3D 空间观测 (3D Spatial Observation) : 一种强迫 2D 编码器理解 3D 点云的巧妙机制。
- 3D 空间约束 (3D Spatial Constraint) : 一个利用文本和关键点来告诉机器人何地以及何时与世界交互的引导系统。

让我们来拆解图 2 所示的架构。
1. 通过对齐实现的 3D 空间观测
图 2 的左侧详细说明了模型是如何“看”的。系统接收两种视觉输入: 标准的 RGB 图像和点云 (源自深度相机) 。
分词器 (Tokenizer) 的挑战
标准的 2D 模型将图像分解为方块 (token) 。3D 数据并不符合这种网格结构。为了解决这个问题,研究人员实现了一个非参数化 3D 分词器 。 他们使用最远点采样 (FPS) 从云中选取代表性的点,并使用 k-近邻算法 (kNN) 对局部几何特征进行分组。这将原始点云转换为一系列高维 token,在结构上,它们看起来就像 VLM 所期望的 token。
2D 到 3D 位置对齐
这是该方法最精妙的部分。如果你只是将这些 3D token 输入到 2D 模型中,模型将不知道这些点在空间中的位置。标准的 Transformer 使用“位置嵌入” (Positional Embeddings, PEs) 来理解图像中补丁 (patch) 的顺序和位置。
研究人员意识到,既然点云和图像捕捉的是同一个场景,它们应该共享位置上下文。他们开发了一种2D 到 3D 位置对齐机制 :
- 取一个 3D token (代表一簇点) 。
- 利用相机参数将其中心点投影回 2D 图像平面。
- 识别该位置对应的 2D 图像补丁。
- 将该图像补丁的预训练 2D 位置嵌入分配给这个 3D token。
通过这样做,模型虽然接收的是 3D token,但它“认为”自己正在查看它已经知道如何处理的 2D 图像的特定部分。这使得 3D 几何数据可以借用 2D 模型已有的空间推理能力。2D 和 3D token 被拼接在一起,并传递给共享的视觉编码器 (CLIP) 。
2. 3D 空间约束
感知仅仅是战斗的一半。机器人还需要理解自身与环境随时间变化的关系。图 2 的右侧解决了这个问题。
提取关键点
系统不仅仅给机器人一个像“倒水”这样的指令,而是将世界分解为可操作的关键点。它使用外部模型 (Grounded SAM) 来识别指令中提到的物体 (例如,瓶子或杯子) 。它提取这些物体的 3D 中心点。
基于文本的约束
3DS-VLA 没有将这些关键点作为原始数字输入到单独的运动规划器中,而是将它们直接集成到语言提示 (prompt) 中。系统将任务制定为一个问答对。
例如,输入提示可能如下所示:
- 指令: “把水倒进杯子里。”
- 条件: “目标靠近 [关键点 1 - 瓶子]。”
- 下一步条件: “目标靠近 [关键点 2 - 杯子]。”
这明确地将地点 (物体的坐标) 和时机 (顺序: 先抓瓶子,再移动到杯子处) 编码到了语言模型的推理过程中。这把物理世界的约束转化为了 LLM 可以理解和预测的语言结构。
实验与结果
研究人员在模拟环境 (RLBench) 和真实世界 (使用 Franka Emika 机器人) 中对 3DS-VLA 进行了严格测试。
模拟性能
在 RLBench 模拟器中,该模型与最先进的基线模型进行了对比测试,包括:
- 3D 方法 , 如 3D 扩散策略 (DP3) 和 3D Diffuser Actor (3DA)。
- 2D VLA 方法 , 如 OpenVLA 和 CogACT。
单臂操作
如下面的表 1 所示,3DS-VLA (Ours) 实现了比 OpenVLA (0.43) 甚至像 DP3 (0.64) 这样的纯 3D 方法都要高得多的平均成功率 (0.66)。

该方法在需要精确几何交互的任务中表现出色,例如“插入 USB”或“堆叠方块”。纯 2D 方法经常在这些任务的最后时刻——接触阶段——失败,因为它们无法感知在不碰倒物体的情况下插入或堆叠所需的精确深度。
双臂操作
自回归架构的灵活性意味着 3DS-VLA 可以在不改变架构的情况下处理双臂设置——它只需预测两个手臂的位姿,而不是一个。

表 2 显示了巨大的性能差距。在复杂的双手任务中,如“拉直绳子”或“抬起托盘”,3DS-VLA 碾压了基线模型,在某些情况下成功率甚至是第二名方法的两倍以上。这证实了空间约束有效地协调了双臂动作。
消融实验: 是什么在起作用?
复杂的对齐机制是必要的吗?还是仅仅因为有了额外的数据?表 3 中的消融研究给出了答案。

- 第 1 行 (基线) : 移除约束和 3D token 会导致性能不佳 (0.18 的成功率) 。
- 第 3 行 (未对齐) : 有趣的是,如果你包含 3D token 但不对齐位置嵌入 (而是使用原始的 2D 顺序) ,性能会比完整模型差。这证明了语义对齐至关重要——如果 3D 几何结构与 2D 视觉特征在空间上不匹配,模型就会感到困惑。
真实世界泛化能力
当现实世界看起来与训练数据略有不同时,机器人往往会失败。3DS-VLA 在四个维度上进行了泛化测试: 实例 (新物体) 、位置 (移动的物体) 、背景 (杂乱环境) 和视角 (相机角度) 。

图 3 可视化了这些变化。真实世界任务的量化结果详见下方的表 4。

该模型在现实世界中实现了 54% 的平均成功率 , 优于强大的基线模型 DP3 (49%) 和 CogAct (50%)。它在背景变化 (杂乱的桌子) 方面表现出了卓越的鲁棒性,这可能是因为空间约束帮助模型严格关注相关物体,而不管周围的噪音如何。
可视化成功案例
图 5 和图 6 展示了模型执行这些任务的视觉“流程”。

在模拟中 (图 5) ,我们看到了任务的多样性,从开灯到复杂的双臂抬举。

在现实世界中 (图 6) ,“堆叠杯子”和“倒水”任务凸显了其精确性。机器人不仅仅是朝着杯子的大概方向挥舞手臂;它正在识别把手、调整抓手的方向,并在正确的高度执行倒水动作。这种细粒度的交互正是模型注入了 3D 空间感知的直接结果。
结论
3DS-VLA 代表了机器人操作领域向前迈出的重要一步。它成功地在 2D 基础模型的丰富语义与 3D 数据的几何必要性之间找到了平衡。
通过将 3D 点云与 2D 位置嵌入相对齐,作者找到了一种“欺骗”2D 大脑使其以 3D 方式思考的方法。此外,通过将空间坐标转化为基于文本的约束,他们利用了 LLM 的逻辑推理能力来解决物理规划问题。
这具有广泛的意义。它表明,我们可能不需要从头开始训练庞大的 3D 基础模型来实现高水平的机器人智能。相反,我们可以在机器人的几何世界与现有 AI 模型的语义世界之间建立更好的桥梁。随着我们展望未来的发展,提高推理速度并整合更复杂的规划智能体,可能会使像 3DS-VLA 这样的系统成为通用家用机器人的标准配置。
](https://deep-paper.org/en/paper/71_3ds_vla_a_3d_spatial_aware_-2595/images/cover.png)