引言: “简单”任务背后的挑战

想象一个像给植物浇水这样简单的任务。对人类来说,这轻而易举: 拿起喷壶,瞄准,扣动扳机,然后放回原处。但对机器人而言,这是一个极其复杂的噩梦。

要实现这一点,机器人必须具备灵巧度 (dexterity) ——即用手指而非简单的夹持器操作物体的能力——以及长程规划 (long-horizon planning) 能力,即能够将一系列动作串联起来,而在第一步中的微小错误可能会导致第五步的灾难性失败。

机器人学家长期以来一直通过模仿学习 (Imitation Learning, IL) 来解决这个问题。这个想法很简单: 向机器人演示如何做,然后让它模仿你。然而,这里有个问题。为了学习一个能够处理稍微不同的瓶颈位置或光照条件的鲁棒策略,IL 通常需要海量的数据集。收集数千小时人类专家控制机器人的数据既昂贵又耗时。

在这篇文章中,我们将深入探讨一个名为 LODESTAR 的新框架,该框架发表于 CoRL 2025。这项研究介绍了一种方法,只需极少量的人类演示,就能将其转化为能够执行组装灯泡或处理液体等复杂任务的鲁棒自主策略。

图 1: 我们提出了 LODESTAR,这是一个通过少量人类演示学习鲁棒长程灵巧操作的框架。

核心创新点是什么?LODESTAR 使用“数字孪生”——即现实世界的模拟版本——通过一种称为残差强化学习 (Residual Reinforcement Learning) 的技术来练习并扩充那些少量的人类演示。让我们看看它是如何工作的。

背景: 为什么长程灵巧操作很难?

在解析该方法之前,我们需要了解当前机器人操作中的两个主要瓶颈:

  1. 数据瓶颈: 深度学习极其依赖数据。如果你只用 10 次演示来训练机器人,它很可能会过拟合。它只会在物体处于演示时的精确位置时才知道如何移动。如果你把物体移动一英寸,机器人就会失败。
  2. 交接问题 (The Hand-Off Problem) : 长程任务是技能的链条 (例如,抓取 \(\rightarrow\) 抬起 \(\rightarrow\) 插入 \(\rightarrow\) 扭转) 。如果“抓取”技能结束时物体稍微歪了一点,“抬起”技能可能会把它掉下来。这些误差会随着时间的推移不断累积。

LODESTAR 通过使用仿真生成合成数据 (解决数据瓶颈) 和技能路由 Transformer 来管理步骤之间的连接 (解决交接问题) 来应对这些挑战。

LODESTAR 框架

LODESTAR 流程分为三个不同的阶段。它从现实世界的人类演示开始,以在机器人上运行的鲁棒策略结束。

图 2: LODESTAR 流程。LODESTAR 包含三个顺序阶段。

如上图 2 所示,流程如下:

  1. 技能分割: 将长任务分解为可管理的块。
  2. 合成数据生成: 使用仿真为每个块学习鲁棒的策略。
  3. 技能组合: 将这些块重新缝合在一起。

让我们详细分解这些步骤。

阶段 1: 利用基础模型进行技能分割

机器人如何知道“抓取瓶子”已经结束而“抬起瓶子”已经开始?硬编码这些规则是脆弱的。相反,LODESTAR 利用了现代视觉-语言模型 (VLMs)

研究人员将长演示视为操作技能 (Manipulation Skills) (如扭转等复杂的、接触丰富的动作) 和过渡 (Transitions) (将手从 A 点移动到 B 点) 的序列。

为了自动化这一过程,他们使用了两步法:

  1. 关键点追踪: 他们在一次演示的第一帧中注释物体上的语义关键点 (例如喷嘴的尖端) 。利用名为 Co-Tracker 的模型,他们追踪这些点在所有帧中的移动情况。
  2. VLM 推理: 他们将视觉数据和任务的文本描述输入到 OpenAI 模型 (具体为 o3) 中。该模型编写 Python 函数——判别器 (discriminators) ——通过观察关键点和几何关系来精确决定一项技能何时开始和结束。

图 12: 关键点语义对应和追踪过程。

这创建了一个结构化的任务时间轴,而无需人类手动标记每个视频的每一帧。

阶段 2: 合成数据与残差强化学习

这是 LODESTAR 的核心引擎。系统只有少量的现实世界演示,但它需要成千上万个变化的示例来学习鲁棒性。

现实到仿真的迁移 (Real-to-Sim Transfer)

首先,系统构建一个模拟现实世界的仿真环境。他们扫描物理对象以创建带纹理的 3D 网格,并估计其物理属性 (摩擦力、质量) 。

图 13: 为三个操作任务创建的带纹理网格。

残差强化学习 (Residual RL)

这是最巧妙的部分。研究人员不仅仅使用标准的强化学习 (从头开始训练需要很长时间) 或标准的模仿学习 (会复制错误) 。他们使用的是残差 RL

它的工作原理如下:

  1. 基础策略 (Base Policy): 训练一个策略来精确模仿人类演示。这给了机器人该做什么的“良好猜测”。
  2. 残差策略 (Residual Policy): 训练一个 RL 智能体来输出对基础策略的修正 (残差) 。

这就好比父母扶着车座教孩子骑自行车。父母 (基础策略) 提供一般的运动和平衡。孩子 (残差策略) 学习处理路面颠簸或风所需的微小调整。

通过在仿真中训练,LODESTAR 可以运行数千次试验,随机化物体的位置、手指的摩擦力和传感器噪声。这使得策略能够遇到 (并解决) 那些从未在原始人类演示中出现过的情况。

阶段 3: 技能路由 Transformer (SRT)

现在我们有了用于“抓取”、“插入”和“扭转”的鲁棒策略。但我们需要一个指挥来协调它们。

团队引入了技能路由 Transformer (Skill Routing Transformer, SRT) 。 这是一个高层策略,它接收当前的历史观测数据并决定两件事:

  1. 下一阶段是什么? (我应该处于过渡期吗?还是执行技能 #2?)
  2. 动作是什么? (它输出电机指令) 。

图 14: 技能路由 Transformer 策略架构。

这种架构至关重要,因为它不仅仅是在技能之间盲目切换。它利用过渡 (Transition) 阶段来平滑“交接”。如果“抓取”技能结束时手的姿势略显别扭,SRT 确保机器人在过渡期间调整轨迹,以便以正确的构型到达“插入”阶段。

硬件与设置

实验是在一套严谨的硬件上进行的: 配备多指手的 xArm7 机械臂。他们测试了两种不同的末端执行器:

  • 三指手 (定制设计,9 个自由度) ,用于液体处理。
  • LEAP 手 (4 指,16 个自由度) ,用于更复杂的抓取。

图 6: LODESTAR 的硬件设置。

为了收集人类演示,研究人员没有使用操纵杆。他们构建了一个遥操作装置,使用 Rokoko 智能手套来追踪手指关节,并使用 Vive Ultimate 追踪器来追踪手腕位置。这使得他们能够将人类的灵巧度直接传递给机器人。

图 10: LODESTAR 的遥操作系统的。

实验结果

研究人员在三个需要精细运动技能的高度复杂任务上评估了 LODESTAR:

  1. 液体处理: 使用移液枪吸取液体并将其移至试管中。
  2. 植物浇水: 组装喷雾瓶 (插入喷嘴,扭紧) 并喷洒。
  3. 灯泡组装: 抓取灯泡,在手中重新调整方向,并将其旋入插座。

图 3: 现实世界部署可视化。

性能比较

结果令人印象深刻。该团队将 LODESTAR 与几个最先进的基线进行了比较,包括 MimicGen (通过回放来扩充数据) 和 Real-only (仅现实数据) 训练。

如图 4 所示,LODESTAR (特别是点云版本 “LodeStar-PC”) 显著优于基线,在这些非常困难的任务中实现了接近 50% 的平均成功率 , 而 “Real-only” 方法则在 20% 以下挣扎。

图 4: 三个具有挑战性的现实世界任务的成功率及其平均值。

为什么它表现更好?

秘密在于处理我们前面讨论的“累积误差”。图 5 显示了植物浇水任务的累积失败率。

看那条 Real-only (蓝色) 线。它迅速飙升。这意味着机器人经常在第一步 (抓取) 或第二步 (插入) 就失败了。即使它通过了这些步骤,在“旋紧”阶段也几乎肯定会失败。

相比之下, LODESTAR (紫色) 在整个序列中保持了较低的失败率。因为各个技能是在仿真中通过残差 RL 训练的,它们足够鲁棒,可以从微小的错误中恢复,从而防止了失败的连锁反应。

图 5: 植物浇水任务的累积失败率。

“分布外”的鲁棒性

最后,对机器人的真正考验是它如何处理以前没见过的情况 (分布外,OOD) 。研究人员通过在比训练数据范围大得多的位置初始化物体,并主动干扰机器人来测试灯泡任务。

图 15: 更大初始分布下的 OOD 评估。

在上面的可视化图中,褪色的灯泡代表失败,实心的代表成功。即使灯泡的位置发生变化,LODESTAR (左) 仍保持了很高的成功密度。而 Real-only 基线 (右) ,即使使用更多的演示 (50 次 vs 15 次) 进行训练,也难以泛化到人类演示特定位置之外的区域。

表 1 进一步量化了这一点。在面临干扰时,仅用 15 次演示,LODESTAR 的成功率是使用 50 次演示训练的基线的两倍。

表 1: 灯泡组装任务在 OOD 条件下的成功率。

结论

LODESTAR 代表了机器人操作向前迈出的重要一步。它解决了深度学习的“数据饥渴”问题,不再将人类演示视为最终数据集,而是将其视为一颗种子

通过将这颗种子播种在仿真引擎中,并使用残差 RL 培育它,系统生成了丰富的合成经验。当与智能路由策略相结合时,结果就是一个能够执行长程、多步骤灵巧任务的机器人,其可靠性水平是纯模仿学习难以企及的。

对于机器人学的学生和研究人员来说,结论很明确: 混合方法获胜。 结合基础模型的语义推理、RL 的探索能力以及模仿学习的结构,使我们能够解决这些方法单独都无法解决的问题。