MoTo：利用零样本学习弥合导航与操控之间的鸿沟

想象你是一个机器人管家。你的人类主人让你“从冰箱里拿一瓶水”。你有一张房子的地图，也知道如何开门。你成功地导航到了厨房，停在了冰箱前。但问题来了: 你停的位置向左偏了六英寸。尽管你的机械臂非常精密，却无法以正确的角度抓到门把手并将其拉开。你卡住了。为了解决这个问题，你必须移动整个底座，但标准的导航系统并不理解如何定位底座才能让机械臂的工作更轻松。

这个“最后一公里”问题正是移动操控 (Mobile Manipulation) 的核心挑战。

在一篇引人入胜的新论文中，研究人员介绍了 MoTo (Move and Touch) , 这是一个解决这种协调问题的框架。MoTo 作为一个“插件”模块，可以在不需要昂贵的新训练数据的情况下连接导航和操控。它通过智能地协调移动底座与机械臂，允许机器人以零样本 (Zero-Shot) 的方式执行复杂的任务。

在这篇深度解读中，我们将探索 MoTo 的工作原理，其轨迹优化背后的巧妙数学原理，以及它如何利用视觉-语言模型 (VLMs) 来“看”到它需要去的地方。

割裂的现状: 为什么移动操控很难

要理解为什么 MoTo 是必要的，我们需要先看看机器人技术的现状。通常，机器人技能被分为两个孤岛:

导航 (Navigation) : 从 A 点到 B 点 (例如 SLAM、路径规划) 。
操控 (Manipulation) : 使用手臂与物体交互 (例如抓取、倾倒) 。

机器人领域最新的“基础模型” (如 OpenVLA 或 RDT-1B) 在操控方面表现惊人。它们可以泛化到新的物体和任务，但通常假设底座是固定的。如果杯子就在面前，它们可以拿起来，但它们无法移动机器人穿过房间去寻找杯子。

另一方面，传统的移动操控方法通常将导航和操控视为分开的顺序步骤。机器人导航到目标附近的通用“停靠点”，然后尝试对其进行操控。正如我们的机器人管家示例所示，如果导航策略不了解手臂的物理约束 (即缺乏交互感知) ，机器人就会失败。

目前的“端到端”解决方案试图一次性学习所有内容，直接将摄像头像素映射到车轮和手臂的电机指令。然而，收集训练这些模型所需的庞大数据集极其昂贵且耗时。

MoTo 登场: “即插即用”的解决方案

MoTo 代表 Move (移动) 和 Touch (触摸) 。研究人员提出了一种具有“交互感知”的模块化方法。MoTo 不仅仅是导航到“冰箱”，而是导航到一个特定的位置，在这个位置上，手臂在数学上被保证有最大的几率成功操控冰箱把手。

MoTo 使用卡通风格的机器人来展示它是如何连接固定底座操控模型与移动轨迹规划的。

如图 1 所示，MoTo 被设计为一个插件。它采用现成的固定底座操控模型 (如 AnyGrasp 或 OpenVLA) ，并赋予其移动能力。至关重要的是，它是零样本 (Zero-Shot) 的，这意味着它不需要在数千小时的移动操控演示数据上进行训练。

MoTo 流水线: 工作原理

MoTo 框架通过一个复杂的流水线运作，将高级指令 (如“我饿了”) 转化为精确的电机运动。

MoTo 的流水线展示了从场景理解到轨迹生成的流程。

如图 2 所示，该过程可以分为四个不同的阶段:

场景理解与任务规划: 机器人扫描房间以建立对世界的 3D 理解，并使用 LLM 将用户指令分解为步骤。
关键点生成: 使用视觉-语言模型 (VLMs) 来识别哪里需要触摸物体，以及机器人的哪个部分应该进行触摸。
交互感知导航: 计算底座的最佳“停靠点”。
轨迹优化: 平滑运动，确保机器人不会碰撞或移动得突兀。

让我们详细分解这些步骤。

1. 场景理解与任务规划

在机器人移动之前，它需要了解环境。机器人扫描区域以创建 3D 点云和场景图 (\(\mathcal{G}\))。场景图就像是房间的结构化数据库: 它知道有一个“桌子”，而在“桌子”上有一个“盘子”。

当用户发出指令 \(\mathcal{T}\) (例如，“我饿了”) 时，大语言模型 (LLM) 利用场景图解析该指令，生成一系列子任务。

显示 LLM 将主任务分解为子任务和目标对象的公式。

例如，“我饿了”可能会变成:

移动并抓取香蕉 (\(o_1\))。
移动到盘子 (\(o_2\))。
将香蕉放在盘子上。

2. 基于 VLM 的关键点生成

这是论文中最具创新性的部分之一。一旦机器人知道它需要与“香蕉”交互，它就需要知道在哪里抓取它。这就是目标关键点 (Target Keypoint, TK) 。同时，它需要知道自己身体的哪个部分 (夹爪？还是手持的工具？) 将进行接触。这就是手臂关键点 (Arm Keypoint, AK) 。

由于研究人员希望避免训练新模型，他们使用了预训练的视觉-语言模型 (VLM) 。

寻找目标关键点 (TK)

机器人从不同角度拍摄目标物体的多张图像。它结合使用 DINOv2 (用于语义特征提取) 和 SAM (Segment Anything 模型) 来提出物体上潜在的交互点。

关键点生成的可视化，显示了红色的候选点和最终投票选出的关键点。

如图 6 所示，系统生成了许多红点 (候选点) 。然后它要求 VLM 根据任务描述选择最好的一个。例如，如果任务是“打开笔记本电脑”，VLM 应该选择盖子上的点，而不是键盘上的点。

为了确保准确性，MoTo 使用多视角投票 。由于单一的 2D 图像在深度方面可能具有误导性，系统将这些关键点从多个相机视图投影到 3D 空间中。然后它进行“投票”，找到代表 3D 空间中真实交互点的点簇。

描述关键点生成和投影函数的公式。

投票机制确保了所选点的鲁棒性和几何一致性:

用于选择最佳关键点的多视角投票机制公式。

寻找手臂关键点 (AK)

同样，系统识别“手臂关键点”。通常，这是夹爪。但是，如果机器人握着工具 (比如扫帚) ，“交互点”就是扫帚的尖端，而不是夹爪本身。VLM 分析腕部摄像头的画面来动态确定这一点。

3. 关键点引导的轨迹优化

现在机器人有了物体上的目标关键点 (TK) 和自身的手臂关键点 (AK) 。导航策略的目标说起来简单但解决起来很难: 移动机器人底座，使 AK 接触到 TK。

研究人员将其表述为一个数学优化问题。他们希望找到一系列底座运动 (\(\theta^{base}\)) 和手臂运动 (\(\theta^{arm}\))，以便随着时间 (\(T\)) 最小化这两点之间的距离。

随时间最小化成本的整体优化目标函数。

然而，仅仅最小化距离是不够的。如果机器人直冲目标，可能会撞上桌子，或者手臂可能会扭曲成不可能的奇异点。为了防止这种情况，MoTo 引入了一个综合成本函数 (\(\mathcal{C}_t\))。

显示由碰撞、平滑度和余量成本组成的总成本函数的公式。

成本函数是三个关键约束的总和:

将成本分解为碰撞、平滑度和余量部分的公式。

让我们分别看看这些约束 (\(\mathcal{F}\))。

A. 碰撞成本 (\(\mathcal{F}^c_t\))

安全至上。机器人在自身机体表面采样点，并计算到环境点云 (\(P\)) 的距离。如果距离低于安全余量 (\(\epsilon_0\))，成本就会剧增。

碰撞成本计算公式。

B. 平滑度成本 (\(\mathcal{F}^s_t\))

我们不希望机器人抖动或做出不稳定的动作，这可能会损坏电机或洒落物品。此成本项惩罚连续时间步 (\(t\) 和 \(t+1\)) 之间关节角度或底座位置的大幅变化。

惩罚位置大幅变化的平滑度成本公式。

C. 余量成本 (\(\mathcal{F}^m_t\))

这是交互感知导航的“独门秘籍”。即使机器人能够接触到物体，它也不应该在手臂完全伸展 (锁定) 或蜷缩在胸前时接触。它需要一个“可操控性余量”——一个手臂可以自由移动以执行实际抓取或倾倒任务的最佳区域。

余量成本定义了手臂的理想半径 (\(r\))，如果手臂必须伸展过远 (\(r_{max}\)) 或收缩过紧 (\(r_{min}\))，则会惩罚机器人。

确保手臂保持在可工作半径内的余量成本公式。

求解器

为了实时解决这个优化问题，MoTo 使用了一种称为双重模拟退火 (Dual Annealing) 的算法。这是一种全局优化技术，通过迭代地“冷却”搜索空间来搜索最佳轨迹，使其能够逃离局部极小值 (即避免陷入次优路径) 。

双重模拟退火轨迹优化的算法伪代码。

实验与结果

理论听起来很扎实，但实际效果如何？研究人员在仿真和现实世界中测试了 MoTo。

仿真: OVMM 基准测试

他们使用了开放词汇移动操控 (OVMM) 基准测试，这是一个严格的测试，机器人必须在模拟的家庭环境中找到物体，捡起它们，并将它们放置在其他地方。

表格比较了 MoTo 与 Home-Robot 和 OpenVLA 等基线的成功率。

表 1 中的结果很有说服力。MoTo 显著优于基线“Home-Robot”方法。

Home-Robot (RL): 14.8% 总体成功率。
Home-Robot w/ MoTo: 18.32% 总体成功率。
OpenVLA w/ MoTo: 20.64% 总体成功率。

虽然这些数字看起来很低 (移动操控很难！) ，但在该领域 2-6% 的绝对提升是显著的。值得注意的是，MoTo 在不需要其他方法所需的庞大训练数据的情况下实现了这一点。

现实世界部署

仿真是一回事；现实世界是另一回事。作者将 MoTo 部署在具有轮式底座和双臂的物理机器人上。他们给它分配了三个复杂的场景:

“Bring me food” (给我拿点吃的) : 拿起水果并装盘。
“Serve me water” (给我端杯水) : 拿一个杯子，接水，然后端上来。
“Prepare a meal” (做顿饭) : 在平底锅里烹饪食材，然后盛在碗里。

条形图显示不同任务在现实世界中的成功率。

图 3 显示了结果。MoTo (由条纹柱表示) 始终取得比标准基线更高的成功率。与 RDT-1B (一种基于扩散的基础模型) 的集成证明特别有效。

机器人动作的可视化突显了生成轨迹的平滑性。

机器人执行“给我端杯水”和“做顿饭”任务的连续照片。

消融研究: 什么最重要？

研究人员还关闭了系统的不同部分，看看会发生什么。

关闭融合 (投票) : 性能显著下降。如果仅依靠单张 2D 图像来猜测 3D 深度，经常会出错。
关闭余量成本: 机器人会行驶到物体处，但停在手臂完全伸展的距离，导致随后的抓取动作无法完成。

表格显示消融结果，强调了碰撞、平滑度和余量成本的重要性。

局限性与失败案例

没有系统是完美的。作者坦诚地讨论了 MoTo 失败的地方，为未来的研究提供了宝贵的见解。

显示四种失败案例的图像: 定位、平滑度、优化和操作失败。

常见的失败模式包括:

定位失败: 如果 SLAM 系统发生漂移，机器人会认为自己在桌子前面，但实际上向左偏了 10 厘米。
平滑失败: 有时轨迹优化会生成一条数学上合理但物理上颠簸的路径，触发机器人的安全急停。
优化循环: 算法有时会陷入在两个解之间震荡的死循环。

此外，MoTo 依赖于目标物体在初始扫描中可见的假设。它还没有一个鲁棒的探索策略来动态地“搜索”隐藏的物体。

结论与未来启示

MoTo 代表了通用移动操控向前迈出的重要一步。通过将“站在哪里”的问题与“如何抓取”的问题解耦，并利用交互感知优化解决前者，它允许研究人员在移动设置中利用强大的预训练操控模型。

主要收获如下:

模块化行之有效: 你并不总是需要端到端的训练。巧妙地将 LLM、VLM 和优化算法结合在一起可以产生最先进的结果。
交互感知是关键: 导航不能对机械臂的需求视而不见。底座和手臂必须被视为一个统一的运动链。
零样本是可能的: 我们可以在没有任务特定微调的情况下实现复杂的行为，这对于在多样化、非结构化的家庭环境中部署机器人至关重要。

随着基础模型的不断改进，像 MoTo 这样的“插件”很可能成为动员这些强大大脑的标准方式，让我们离承诺中的那个乐于助人的机器人管家更近一步。

割裂的现状: 为什么移动操控很难#

MoTo 登场: “即插即用”的解决方案#

MoTo 流水线: 工作原理#

1. 场景理解与任务规划#

2. 基于 VLM 的关键点生成#

寻找目标关键点 (TK)#

寻找手臂关键点 (AK)#

3. 关键点引导的轨迹优化#

A. 碰撞成本 (\(\mathcal{F}^c_t\))#

B. 平滑度成本 (\(\mathcal{F}^s_t\))#

C. 余量成本 (\(\mathcal{F}^m_t\))#

求解器#

实验与结果#

仿真: OVMM 基准测试#

现实世界部署#

消融研究: 什么最重要？#

局限性与失败案例#

结论与未来启示#