强化学习 (RL) 已经取得了非凡的成就,从在围棋中击败大师到教会机器人如何奔跑。但是,如果你要求机器人执行一项看似简单的任务——比如捡起平放在桌子上的信用卡——它往往会手足无措。

这种特定类型的问题被称为“长视距、接触丰富 (long-horizon, contact-rich) ”的任务。为了成功,机器人不能仅仅闭合它的抓手;它必须将卡片推到桌子边缘,调整手的方向,然后再抓取它。这需要一系列精确的交互 (推、滑动、旋转) ,而奖励 (持有物体) 只有在最后时刻才会出现。标准的 RL 在这里举步维艰,因为搜索空间巨大,且统计上几乎不可能随机碰巧发现这种复杂的序列。

在最近一篇题为 “Learning Long-Horizon Robot Manipulation Skills via Privileged Action” (通过特权动作学习长视距机器人操作技能) 的论文中,来自爱丁堡大学的研究人员提出了一个迷人的解决方案: 让机器人作弊。

通过允许机器人在模拟中打破物理定律——穿透桌子并使用魔法般的“虚拟力”——他们引导策略走向正确的行为。然后,利用一套巧妙的课程学习,他们逐渐移除这些超能力,留给机器人一套稳健、符合物理现实且能迁移到现实世界的技能。

问题: 探索陷阱

在机器人操作中,环境通常被建模为马尔可夫决策过程 (MDP) 。机器人观察状态,采取行动,并获得奖励。目标是最大化随时间累积的奖励。

标准 RL 目标函数。

然而,在接触丰富的操作中,“物理特性”成为了学习的阻碍。

  1. 几何约束: 桌子表面阻挡了抓手伸到物体下方。机器人试图向下移动,撞到桌子,然后停止。它永远学不会只要侧向推一下,物体就会移动。
  2. 稀疏奖励: 机器人只有在物体被举起时才会获得“成功”信号。如果物体处于当前的姿态无法被抓取,机器人就会漫无目的地游荡,永远无法获得那第一个用于学习的积极信号。

传统的解决方案涉及奖励塑形 (为每一寸进展手动设计奖励) 或模仿学习 (向机器人展示人类演示) 。这两种方法都是劳动密集型的,并且限制了机器人只能模仿人类的偏见。

这篇论文的作者问道: 我们可以改变模拟本身来让探索变得更容易吗?

解决方案: 特权动作

该框架引入了特权动作 (Privileged Actions) 的概念。在模拟中,我们拥有“上帝模式”。我们通常利用这一点给机器人提供特权信息 (比如精确的物体重量) 。但在这里,研究人员赋予机器人特权能力

该方法遵循如下图所示的结构化三阶段课程:

三阶段框架概览。阶段 1 允许穿透桌子。阶段 2 增加虚拟力。阶段 3 为标准物理。

第一阶段: 约束松弛 (幽灵手)

想象一下试图抓取一个扁平的盒子。桌子阻止了你的手指包裹住底部。在第一阶段,研究人员松弛了机器人与桌子之间的碰撞约束。

他们引入了一个低于真实桌面的“虚拟桌面”。系统允许机器人穿透真实桌面表面达到一定深度 (\(\Delta_R\)) 而不会产生物理后果。

允许穿透的约束松弛方程。

在这个方程中,\(\phi_R\) 代表到桌子的距离。通过加上 \(\Delta_R\),系统允许机器人像“幽灵”一样穿过桌子表面。这简化了几何问题。机器人现在可以轻松地用抓手包围物体。它学到了“手包住物体 = 好”,即使物理特性还不太对劲。

第二阶段: 虚拟力 (磁铁手)

一旦机器人知道把手放在哪里,它需要学习如何与物体交互。即使松弛了桌子约束,操纵物体仍需要精确的摩擦力和接触力。

为了帮助解决这个问题,研究人员引入了虚拟力 。 可以把它想象成一个临时的磁场。他们修改了系统动力学,使得策略可以对物体施加直接的人工力,以帮助将其拉向抓手 (或推动它) 。

包含物体虚拟力的修正动力学方程。

在这里,控制输入 \(\mathbf{u}\) 被拆分了。机器人控制自己的关节 (\(\mathbf{u}_R\)) ,但它也可以对物体施加“特权”力 (\(\mathbf{u}_O\)) 。然而,我们不希望机器人变成绝地武士,从房间另一头使用原力。这种影响受到矩阵 \(\mathbf{B}(x_t)\) 的门控限制。

门控矩阵 B 确保仅在手靠近时施加力。

该矩阵确保只有当机器人的末端执行器在位置 (\(\delta_p\)) 和速度 (\(\delta_v\)) 上都接近物体时,虚拟力才会激活。这鼓励机器人伸出手并匹配物体的运动,为物理操作提供了一个“辅助轮”。

第三阶段: 课程学习 (戒掉作弊)

如果我们停在第二阶段,机器人在现实世界中会失败,因为现实中的桌子是坚硬的,现实中的手也没有磁力。这就是自动课程 (Auto-Curriculum) 发挥作用的地方。

该框架监测机器人的成功率。随着机器人开始在特权动作的帮助下取得成功,系统会收紧约束。

  1. 抬高桌子: 虚拟桌面的高度逐渐抬升,直到与真实桌子匹配。
  2. 减弱力量: 虚拟力的允许幅度和距离使用课程因子 \(\alpha\) 进行衰减。

特权参数的课程衰减函数。

在训练结束时,机器人将在正常的物理定律下运行 (第三阶段) 。然而,由于它被引导到了状态空间的高奖励区域,它已经学会了合法解决任务所需的运动技能。

实验设置

研究人员使用 Franka Emika Panda 机械臂和灵巧的 Allegro 手在标准的 IsaacGym 环境中测试了该框架。他们使用了一个通用的奖励函数,而没有针对“推”或“旋转”等特定策略进行调整。

奖励函数组成部分: 距离、举起、目标、惩罚和奖励。

奖励 (\(r_{total}\)) 简单地鼓励靠近物体 (\(r_f\)) 、举起物体 (\(r_l\)) 并达到目标 (\(r_k\)) 。它没有明确告诉机器人“把物体推到桌子边缘”。

关键结果

1. 涌现的长视距行为

最引人注目的结果是复杂的行为自然地涌现了。在“推并抓取”任务中,机器人意识到它无法直接抓取扁平物体。它学会了将盒子推到桌子边缘,为抓手手指包裹物体创造空间。

两种涌现技能: 推并抓取 (上) 和支点抓取 (下) 。

在墙壁阻挡了桌子边缘的更受限环境中 (见下图 3) ,机器人发明了一种支点抓取 (Pivot Grasp) 。 它利用桌子表面和自己的底座将物体楔起,将其旋转成垂直姿态以便抓取。

机器人在受限环境中执行支点抓取。

这证实了特权动作允许机器人探索物理特性并发现创造性的解决方案,而标准策略由于碰撞障碍永远无法找到这些方案。

2. 处理复杂物体

该方法还在“YCB 物体”上进行了测试,如剪刀、订书机和扳手,使用的是多指灵巧手。由于它们奇怪的形状和极薄的轮廓,这些物体通常也是出了名的难处理。

机器人学习将剪刀滑到边缘以抓取它们。

如上图所示,机器人学会了将剪刀滑到边缘以捡起它们。这种行为不是硬编码的;它是被发现的。

3. 表现优于最先进技术

研究人员将他们的方法与领先的基线方法进行了比较,如 DexPBT (基于种群的训练) 和 SAPG (分割聚合策略梯度) 。

比较所提方法 (蓝色) 与 DexPBT 和 SAPG 的奖励曲线。

上面的图表很有说服力。对于像订书机这样具有挑战性的物体,基线 (橙色和绿色线) 持平或仅获得非常低的奖励。它们陷入了局部最优——可能只是在物体上方盘旋而从未弄清楚如何将其举起。所提方法 (蓝色线) 始终收敛于高成功率。

4. 为什么我们需要这两个阶段?

一项消融研究表明,两个特权阶段都是至关重要的。

消融研究显示没有阶段 2 (虚拟力) 会导致失败。

  • 无阶段 1 (无松弛) : 机器人能学习,但慢得多。它很难找到初始的抓取姿态。
  • 无阶段 2 (无虚拟力) : 机器人完全失败 (绿色线) 。如果没有“磁力”帮助建立初始接触和移动,探索问题就太难了。

结论

这篇论文展示了一个强有力的概念: 有时学习现实的最好方法是从幻想开始。通过策略性地打破物理定律——允许穿透桌子和拥有磁铁手——我们可以引导机器人穿越强化学习探索中的“死亡之谷”。

该框架的美妙之处在于其通用性。研究人员不需要设计“推的奖励”或“滑动的奖励”。他们使用了一个通用的举起奖励,机器人自己弄明白了推和滑动的策略,因为特权动作给了它探索的自由。

随着我们迈向更通用的机器人,那些能够自动发现复杂技能——而不是要求人类手动编码每一个动作——的方法将变得至关重要。这项工作表明,“特权动作”可能会成为未来机器人学习工具箱中的一个标准工具。