想象一下,你正在教朋友如何舀豆子。你拿起一把银勺,舀起豆子,然后把它们倒进碗里。现在,你递给朋友一把巨大的塑料大汤勺。你的朋友毫不犹豫地调整了抓握方式,考虑到了汤勺较大的尺寸,并执行了完全相同的舀取动作。他们理解了这个动作的功能 , 而不仅仅是勺子的特定几何形状。

对于机器人来说,这种简单的迁移极其困难。传统的机器人学习往往依赖于对特定物体的死记硬背。如果你教机器人用红色马克杯倒水,当递给它一个玻璃量杯时,它很可能会失败。尽管“功能” (倒水) 是完全相同的,但形状、尺寸和抓取点在数学上是不同的。

这种局限性是机器人技术的一大瓶颈。我们希望拥有通用机器人,能够观看人类修理水槽或做饭的 YouTube 视频,并利用手头的任何工具立即复制该任务。

在这篇文章中,我们将深入探讨 MimicFunc , 这是由南方科技大学和新加坡国立大学的研究人员提出的一个新框架。MimicFunc 使机器人能够从单个路人视频中模仿工具操作,并通过理解功能对应关系 (而不是仅仅基于视觉相似性) 将该技能泛化到新工具上。

问题所在: 功能内差异

MimicFunc 解决的核心挑战是功能内差异 (Intra-Function Variation) 。 这个术语描述了具有相同用途的工具之间显著的几何差异。

考虑“倒水”这个任务。你可以用马克杯、瓶子、水壶或烧杯来倒水。

  • 马克杯: 侧面有把手,开口宽。
  • 瓶子: 没有把手,瓶颈窄。
  • 水壶: 顶部有把手,有长喷嘴。

对于寻找形状匹配的标准计算机视觉算法来说,这些物体看起来毫无共同之处。以前的方法通常试图建立密集对应关系——将演示工具上的每个像素或点匹配到新工具上。当形状差异过大时 (例如,将刀与切肉刀进行匹配) ,这些方法就会失效。

图 1: 给定单个路人视频,MimicFunc 使机器人能够操作新颖的工具来完成功能等效的任务。通过单次观察泛化能力,MimicFunc 生成的推演数据可以被进一步利用来高效地训练视觉运动策略。

如上图 1 所示,目标是“单次观察泛化 (One-Shot Generalization) ”。机器人观看人类用马克杯倒水 (左上) ,然后应该能够用喷壶或咖啡壶倒水 (右侧网格) 。为了实现这一点,我们需要一个系统来捕捉工具操作中的不变性——即无论工具形状如何,任务的逻辑规则都保持不变。

核心解决方案: 功能对应关系

研究人员认为,虽然工具的形状在变化,但功能的时空模式保持一致。倒水总是涉及接近目标、倾斜容器并将液体引导出来。

为了捕捉这一点,MimicFunc 不再匹配物体网格,而是构建了一个功能坐标系 (Function Frame) 。 这是一个附着在工具活动部分的局部坐标系。

该流程分为三个不同的阶段:

  1. 功能关键点提取: 理解人类视频。
  2. 功能对应建立: 将人类的工具映射到机器人的工具。
  3. 基于功能坐标系的动作生成: 创建机器人的运动轨迹。

图 2: MimicFunc 流程概览。MimicFunc 包含三个阶段: (1) 从人类视频中提取功能关键点,(2) 利用功能坐标系建立功能对应关系,以及 (3) 基于功能坐标系的动作生成。

让我们分解图 2 中所示的每个阶段。

阶段 1: 功能关键点提取

在机器人移动之前,它必须理解人类在做什么。系统分析人类演示的 RGB-D (彩色+深度) 视频。它将视频分解为一个包含关键时刻的“功能规划”: 初始状态、抓取时刻和功能执行时刻 (例如,水离开喷嘴的时刻) 。

至关重要的是,MimicFunc 将工具抽象为三个功能关键点 :

  1. 抓取点 (\(p_{grasp}\)) : 手与工具交互的位置。
  2. 功能点 (\(p_{func}\)) : 工具与目标交互的特定部分 (例如,刀尖、水壶的喷嘴、勺子的勺斗) 。
  3. 中心点 (\(p_{center}\)) : 工具的几何中心,作为一个稳定的参考。

通过将复杂的 3D 物体简化为这三个点,系统忽略了无关的细节 (如把手的颜色或装饰性形状) ,专注于交互的“骨架”。

阶段 2: 利用功能坐标系建立对应关系

这是论文的核心部分。一旦系统从人类视频中获得了关键点,它需要在机器人持有的新工具上找到等效点。

功能坐标系

研究人员引入了功能坐标系 (Function Frame, \(\Pi\)) 的概念。可以将其视为该工具工作的个性化坐标系。

  • 原点: 放置在功能点 (例如刀尖) 。
  • 主轴 (功能轴) : 从工具中心指向功能点的向量。这为机器人提供了关于工具相对于其工作如何定向的方向线索。

系统构建了人类工具的功能坐标系 (\(\Pi_H\)) ,并尝试构建一个对齐的机器人工具坐标系 (\(\Pi_R\)) 。

通过基元和 VLM 进行对齐

机器人如何知道在一个外观新奇的水壶上“喷嘴”在哪里?MimicFunc 使用了一种由粗到细的方法。

  1. 视觉提示: 它使用视觉语言模型 (VLM) 为抓取点和功能点提出一个粗略的区域。
  2. 密集语义对应: 它使用学习到的几何先验来细化这些点。

然而,仅仅几何匹配并不总是足够的。有时,数学上完美的对齐在物理上毫无意义 (例如,机器人可能试图在倒置水壶的情况下倒水) 。为了解决这个问题,MimicFunc 采用了基于 VLM 的语义对齐

系统通过渲染工具和目标的点云来“想象”这种交互。然后它询问 VLM (如 GPT-4V) : “这种交互有效吗?” 如果 VLM 发现问题 (例如,“喷嘴背对着杯子”) ,系统会重新采样对齐方式,直到找到有效的配置。

图 10: 功能轴细化的中间渲染结果。

图 10 可视化了这一细化过程。系统迭代不同的对齐方式 (如面板所示) ,直到语义评估器确认工具的方向对于任务是正确的。

阶段 3: 动作生成

一旦机器人知道新工具如何对应旧工具,它就需要移动。目标是生成一条模仿人类意图的轨迹。

研究人员将其表述为一个约束优化问题。机器人试图随着时间的推移,最小化其功能坐标系与人类功能坐标系之间的差异。

优化方程

在这个方程中:

  • 第一项最小化机器人的功能点 (\(q_{func}\)) 与人类的功能点 (\(p_{func}\)) 之间的距离。
  • 第二项最小化两个坐标系之间的旋转/方向差异。
  • 约束条件确保机器人从正确的位置开始,并在正确的功能关键帧结束。

通过求解这个问题,MimicFunc 生成了一条平滑的路径,复制了“倒水”或“切割”的动作,并根据新工具的几何形状进行了专门调整。

实验与结果

它真的有效吗?研究人员在五个核心任务上测试了 MimicFunc: 倒水 (Pour) 、切割 (Cut) 、舀取 (Scoop) 、刷扫 (Brush) 和敲击 (Pound)

他们将 MimicFunc 与几个基准进行了比较,包括 DINOBot (使用来自 DINOv2 的视觉特征) 和 ORION (使用几何点云匹配) 。

定量成功率

结果非常明显。虽然基准方法在新工具仅发生空间移动时表现尚可,但当工具类别发生变化时 (例如,从刀切换到斧头) ,它们会遭受灾难性的失败。

图 3: 与基准方法的定量比较。高亮显示的工具用于人类视频中。

如图 3 所示,MimicFunc (蓝色柱状图) 在几乎所有类别中都始终优于基准方法 (橙色、绿色、粉色) 。

  • 实例泛化 (Instance Generalization) : 使用不同类型的马克杯。
  • 类别泛化 (Category Generalization) : 使用完全不同的物体 (例如,用茶壶代替马克杯倒水) 。

MimicFunc 在新工具泛化上实现了 79.5% 的平均成功率,显著高于最接近的竞争对手。

定性可视化

视觉结果阐明了 MimicFunc 成功的原因。在下方的图 5 中,你可以看到左侧的人类演示和右侧的机器人执行。

图 5: 倒水、舀取和切割任务的人类演示与机器人推演的抓取及功能关键帧的可视化。

看一看切割 (Cut) 这一行 (底部) 。人类使用的是一把标准的菜刀。使用 MimicFunc 的机器人成功地将这个切割动作迁移到了切肉刀 (切番茄) 甚至斧头 (砍木头) 上。纯几何方法很难将刀的薄刃映射到斧头,但 MimicFunc 理解刀刃是功能点,并据此对齐了动作。

真实世界执行

系统的鲁棒性在真实世界的推演中得到了进一步凸显。下图显示了规划的轨迹 (左) 和机器人实际执行的情况 (右) 。无论是堆积木块还是用长柄勺舀取,从“功能坐标系”规划到现实的对齐都非常精确。

图 9: 真实机器人执行的定性结果。

规模化应用: 为策略生成数据

MimicFunc 最令人兴奋的影响之一是它有可能解决机器人技术中的数据稀缺问题。

训练鲁棒的神经网络 (如视觉运动策略) 需要数千次演示。通过遥操作 (人类远程控制机器人) 收集这些数据既缓慢又乏味——每次演示大约需要 48 秒。

MimicFunc 可以自动化这一过程。

  1. 录制一段人类视频 (耗时约 5 秒) 。
  2. 使用 MimicFunc 在模拟或真实世界中生成数百个使用各种工具的成功推演。
  3. 使用这些生成的数据来训练鲁棒的策略 (如 ACT) 。

图 4: 视觉运动策略训练的性能评估。

图 4 说明了这种影响。“视频 (我们的) ”数据收集速度比遥操作快近 10 倍。更重要的是,使用这种合成数据训练的策略 (ACT+DA) 在泛化任务中显著优于使用昂贵的人类遥操作数据训练的策略。

结论

MimicFunc 代表了机器人模仿学习向前迈出的重要一步。通过将焦点从视觉外观转移到功能对应 , 作者创建了一个能够模仿人类直观使用工具能力的系统。

主要收获如下:

  1. 功能坐标系: 将工具抽象为功能骨架 (抓取点、中心点、功能点) 比匹配网格更鲁棒。
  2. 语义感知: 使用 VLM 来验证“这种交互合理吗?”可以防止纯几何方法可能导致的物理谬误。
  3. 数据引擎: MimicFunc 不仅仅是一个控制器;它还是一个数据生成器,可以为未来的机器人大脑引导大规模学习。

虽然仍存在局限性——它目前依赖深度相机 (RGB-D) 且仅处理单臂任务——但 MimicFunc 为我们要展示了一个未来: 机器人只需在厨房看我们使用一次工具,就能学会使用车库里的任何工具。