通用机器人的梦想是造出一台能走进杂乱的厨房,识别出茶壶和茶杯,并在没有针对特定茶壶或茶杯进行显式编程的情况下为你倒一杯水的机器。
近年来,我们见证了 视觉语言模型 (VLMs) 的巨大飞跃。这些模型 (如 GPT-4V) 拥有令人难以置信的“常识”。它们可以看着一张图片告诉你: “那是一个茶壶,你要握住它的把手,然后从壶嘴倒出液体。”然而,知道 做什么 与知道在 3D 空间中究竟 如何做 是截然不同的。
VLM 可能会说“倒茶”,但机器人需要知道: “将末端执行器移动到坐标 \((x, y, z)\),旋转 \(\theta\) 度,并确保壶嘴与杯子中心对齐。”这就是 语义推理 与 空间精度 之间的鸿沟。
今天,我们将深入探讨一篇提出该问题解决方案的研究论文: OmniManip 。 该系统引入了一种将 VLM 的高层常识转化为精确、可执行的 3D 空间约束的方法,从而创造出一个能在非结构化环境中处理开放式任务的机器人。

1. 背景: 为什么这很难?
在深入了解 OmniManip 的机制之前,我们需要了解机器人操控的现状。
VLM 的局限性
VLM 主要是在 2D 互联网数据 (图像和文本) 上训练的。虽然它们在语义理解方面表现出色,但缺乏对 3D 几何的细粒度理解。如果你要求 VLM 直接控制机械臂,它经常会产生幻觉,或者给出模糊的指令,导致机器人抓空或打翻物体。
视觉-语言-动作 (VLA) 模型的成本
一种解决方案是在机器人数据集上微调这些模型,创建视觉-语言-动作 (VLA) 模型。问题在于?这极其昂贵。收集高质量的机器人数据需要很长时间,而且生成的模型通常是“代理特定 (agent-specific) ”的——这意味着如果你在一种机械臂上训练,模型可能无法在另一种机械臂上工作。
表征问题
为了控制机器人,我们需要一种中间表征——一种向机器人描述物体的方式。
- 关键点 (Keypoints) : 一些方法试图识别物体上的特定点 (例如“手柄中心”) 。然而,从 2D 图像中提取这些点是不稳定的,特别是当物体被部分遮挡时。
- 6D 姿态: 其他方法估计物体的完整位置和方向。虽然稳健,但这通常需要你想要操控的特定物体的预存 3D 模型,这在机器人遇到新事物的“开放世界”中行不通。
2. OmniManip 的解决方案
OmniManip 背后的研究人员提出了一种不同的方法。他们没有微调 VLM,而是将其用于它最擅长的事情: 推理。然后,他们通过一个称为 以物体为中心的交互基元 (Object-Centric Interaction Primitives) 的新概念来弥合控制上的差距。
核心洞察简单而强大: 物体的功能定义了它的几何形状。
茶壶有一个用于抓握的把手和一个用于倒水的壶嘴。这些特征定义了一个“规范空间 (Canonical Space) ”——一个基于物体功能的标准化坐标系。通过将物体映射到这个空间,OmniManip 可以生成精确的指令,如“在这个点抓取”和“与这个向量对齐”。
框架概览
OmniManip 系统在一个双闭环流程中运行。它不仅仅是猜测一个计划然后祈祷它能成功;它会计划、检查工作、执行,并不断自我修正。

如上图所示,工作流程遵循以下步骤:
- 指令与观察: 机器人接收命令 (“倒茶”) 并观察场景 (RGB-D 观察) 。
- 任务划分: VLM 识别相关物体 (主动: 茶壶,被动: 杯子) 并将任务分解为阶段 (阶段 1: 抓取茶壶,阶段 2: 倒水) 。
- 基元提取: 对于每个阶段,系统在物体的规范空间中提取“交互基元” (点和方向) 。
- 空间约束: 这些基元被转换为数学约束 (例如,距离和角度规则) 。
- 闭环执行: 机器人移动,使用追踪器实时更新物体的位置。
3. 核心方法: 从像素到基元
这是论文的核心部分。我们如何将茶壶的照片转化为数学约束?
第一步: 网格生成与规范化
首先,系统需要对物体有 3D 理解。它使用 6D 姿态估计器来了解物体在哪里,并使用 3D 生成网络创建物体的临时 3D 网格。这使得系统能够建立一个 规范空间——本质上是该类物体的标准参考系。
第二步: 定位交互点
系统需要知道在 哪里 与物体交互。作者将交互点分为两类:
- 可见/有形: 你可以看到的点,比如把手。
- 不可见/无形: 抽象的点,比如杯口的中心 (技术上讲是空的空间) 。
为了找到这些点,OmniManip 使用了一种视觉提示机制。它在图像上覆盖一个网格,并要求 VLM 识别坐标。对于“不可见”的点,它利用规范空间内的多视图推理来准确推断位置。

第三步: 采样交互方向
知道 在哪里 接触还不够;机器人需要知道 方向。这正是 规范空间 大显身手的地方。物体通常沿着“主轴”发挥功能——即物体的主要几何线 (如瓶子的垂直轴或茶壶的壶嘴轴) 。
OmniManip 采样这些主轴作为候选方向。然后,它使用 VLM 对这些轴进行语义描述,并使用大语言模型 (LLM) 根据任务对它们进行评分。

例如,如果任务是“倒水”,系统会将从壶嘴伸出的轴识别为正确的交互方向。
第四步: 定义空间约束
一旦系统拥有了 点 (\(\mathbf{p}\)) 和 方向 (\(\mathbf{v}\)),它就将它们组合成一个 交互基元 (\(\mathcal{O}\))。
然后,机器人将任务定义为一组 空间约束 (\(C_i\))。这些约束描述了主动物体 (例如茶壶) 和被动物体 (例如杯子) 之间所需的关系。
这些约束通常包括:
- 距离约束 (\(d_i\)): 交互点应该有多近?
- 角度约束 (\(\theta_i\)): 交互方向应该如何对齐?
一组约束的数学公式为:

4. 双闭环系统
这篇论文的一个主要贡献是认识到“开环”系统 (计划一次,盲目执行) 在现实世界中很少奏效。VLM 的幻觉或轻微的物理碰撞都可能导致失败。OmniManip 引入了两个循环来解决这个问题。
循环 1: 闭环规划 (自我修正)
VLM 可能会产生幻觉。它们可能会认为把手在错误的一侧。为了解决这个问题,OmniManip 使用了一种称为 RRC (重采样、渲染、检查) 的机制。
- 渲染 (Render) : 系统根据当前的计划模拟交互。
- 检查 (Check) : 它向 VLM 展示这个模拟,并问: “这看起来对这个任务正确吗?”
- 重采样 (Resample) : 如果 VLM 说“不”,系统会重新采样交互基元 (尝试不同的轴或点) 并再次循环。

这个“想象”步骤允许机器人在采取任何实际行动之前就能捕捉到错误。
循环 2: 闭环执行 (实时追踪)
一旦计划得到验证,机器人就开始移动。然而,现实世界中的物体是会移动的。抓取可能会打滑,或者桌子可能会被撞到。
OmniManip 使用现成的 6D 物体姿态追踪器来持续更新主动和被动物体的位置。运动规划被制定为一个实时优化问题。机器人试图最小化一个“损失函数”,以找到其末端执行器 (夹爪) 的最佳下一步动作。
优化目标是:

该目标由机器人同时平衡的三个特定损失项组成:
约束损失 (\(\mathcal{L}_C\)): 这确保机器人遵守我们之前定义的空间规则 (对齐轴,保持距离) 。

碰撞损失 (\(\mathcal{L}_{\text{collision}}\)): 这确保机器人不会撞到障碍物。如果机器人太靠近目标以外的任何东西,它就会受到惩罚。

路径损失 (\(\mathcal{L}_{\text{path}}\)): 这确保运动是平滑的,平衡平移 (移动) 和旋转。

5. 实验与结果
研究人员在真实的 Franka Emika Panda 机械臂上测试了 OmniManip,涵盖了 12 项不同的任务。这些任务范围从刚性物体交互 (倒茶、回收电池) 到铰接物体 (打开抽屉、合上笔记本电脑) 。
定量成功率
OmniManip 显著优于 VoxPoser、CoPa 和 ReKep 等基线方法。

注意: 在上表中,OmniManip (闭环) 实现了最高的成功率,特别是在“回收电池” (80%) 和“拿起盘子上的杯子” (80%) 等复杂任务中。
稳定性的重要性
OmniManip 的最大优势之一是它的 稳定性 。 因为它依赖于物体的规范空间 (基于功能的几何) 而不是仅仅依赖表面像素,所以它更加一致。
在下面的比较中,看看“ReKep”行与“Ours” (OmniManip) 行。ReKep 依赖于可能不稳定或聚类错误的关键点。OmniManip 的边界框和轴 (源自规范空间) 提供了一个清晰得多的计划。

视角不变性
机器人技术中一个常见的失败模式是相机角度。如果你移动相机,基于像素的方法通常会失败,因为物体“看起来”不同了。
然而,OmniManip 首先将物体映射到 3D 规范空间。这意味着无论相机是在 \(0^\circ\)、\(45^\circ\) 还是 \(90^\circ\),茶壶的“向上”向量在规范空间中始终是“向上”的。

视角变化的定量影响是显而易见的。如下所示,OmniManip 在所有角度下都保持了高成功率,而基线方法在视角改变时表现明显挣扎。

为什么闭环很重要
研究人员还进行了消融研究,以证明闭环执行的必要性。如果没有实时姿态追踪 (开环) ,如果物体在抓取过程中发生轻微位移或抓取不够完美,机器人将无法进行调整。

如上图所示,如果没有反馈,机器人可能会执行正确的 动作,但由于物体滑落或移动,操作会失败 (例如,将茶倒在桌子上而不是杯子里) 。
自动化数据生成
最后,作者强调了 OmniManip 的一个强大应用: 数据生成 。 通过行为克隆 (模仿演示) 训练机器人很流行,但收集人类演示很繁琐。
OmniManip 的“开箱即用” (零样本) 效果足够好,可以用来自动生成合成演示。研究人员使用 OmniManip 收集了 150 条轨迹,并成功训练了一个单独的策略来执行任务。

6. 结论与关键要点
OmniManip 代表了通用机器人技术迈出的重要一步。它解决了“VLM 鸿沟”——即高层推理与底层控制之间的脱节——不是通过昂贵的训练,而是通过 结构化表征 。
关键要点:
- 不要重新训练,要翻译: OmniManip 不是微调 VLM,而是将其输出翻译为数学空间约束。
- 规范空间为王: 通过功能性 3D 轴理解物体比依赖 2D 图像像素要稳健得多。
- 检查你的工作: 双闭环系统 (计划-检查-修正 和 追踪-执行) 对于现实世界中的鲁棒性至关重要。
通过将 VLM 的语义“大脑”与规范空间的几何“逻辑”相结合,OmniManip 让我们离能够真正处理日常世界中不可预测性的机器人更近了一步。
这篇博文总结了 Pan 等人 (2025) 的研究论文 “OmniManip”。所有图片和数据均归原作者所有。
](https://deep-paper.org/en/paper/2501.03841/images/cover.png)