强化学习 (Reinforcement Learning, RL) 彻底改变了机器人的运动方式。我们现在可以训练四足机器人跑过崎岖的地形,或者训练机械臂以惊人的可靠性到达目标位置。然而,一个能成功完成任务的机器人和一个动作看起来自然的机器人之间,往往存在着明显的差异。

纯粹的 RL 策略往往会导致抖动、机械感或“怪异”的行为,因为奖励函数通常严格优先考虑效率——例如最小化能量或最大化速度——而忽略了生物运动的细微之处。为了解决这个问题,研究人员通常求助于模仿学习 (Imitation Learning) , 向机器人投喂人类或动物的动作捕捉数据。

但问题在于: 演示数据很少是完美的。

如果你用在平坦跑步机上记录的数据教机器人走路,当它遇到楼梯时会发生什么?如果机器人严格复制那种风格,它会被绊倒。如果它严格专注于任务,它就会失去那种风格。传统上,平衡这两者一直是一个繁琐的手动调参游戏。

在这篇文章中,我们将深入探讨 ConsMimic , 这是由苏黎世联邦理工学院 (ETH Zurich) 的研究人员提出的一个新框架。他们提出了一种巧妙的数学方法,迫使机器人在确保正确完成工作之后,才去尽可能地“有范儿”。

核心问题: 任务与风格的权衡

想象一下,你想让一个人形机器人在踏脚石上行走。你拥有人类在平坦地面上行走的动作捕捉数据。

  1. 任务目标: 别摔倒,踩在石头上,向前移动。
  2. 风格目标: 像数据中的人类一样摆动手臂和腿。

这两个目标是冲突的。踏脚石所需的步幅可能与人类数据中的步幅不匹配。

在传统方法中,工程师会创建一个加权奖励函数:

\[ Reward = w_{task} \cdot R_{task} + w_{style} \cdot R_{style} \]

找到 \(w_{task}\) 和 \(w_{style}\) 的正确平衡点非常困难。如果 \(w_{style}\) 太高,机器人会为了看起来像人而忽略不摔倒的目标,导致失败。如果 \(w_{task}\) 太高,机器人就会忽略人类数据,发展出不自然的步态。这就是所谓的任务-风格权衡 (Task-Style Trade-off)

ConsMimic 登场: 受限马尔可夫决策过程

研究人员提出,与其寄希望于固定权重能起作用,不如将该问题表述为受限马尔可夫决策过程 (Constrained Markov Decision Process, CMDP)

其哲学很简单: “任务没得商量,风格是加分项。”

ConsMimic 设定的学习问题是: 在确保任务性能保持近乎最优的约束条件下,最大化风格奖励。

ConsMimic 概览。图表显示智能体从任务和风格组件接收输入。一个约束模块确保任务最优性,同时 Critic 估算价值。

如图 1 所示,该架构分离了奖励信号。智能体接收来自“任务 Critic” (我的工作做得怎么样?) 和“风格 Critic” (我看起来酷吗?) 的反馈。神奇之处在于这些信号是如何通过约束结合在一起的。

魔法背后的数学

ConsMimic 的核心目标可以写成一个优化问题。我们希望找到一个策略 \(\pi\),在最大化风格价值 (\(v^s\)) 的同时,确保任务价值 (\(v^g\)) 至少达到最佳可能任务性能 (\(v^{g*}\)) 的一定比例 (\(\alpha\)) :

优化目标。在任务价值大于 alpha 倍最优任务价值的条件下最大化风格价值。

在这里,\(\alpha\) 是一个用户定义的阈值 (例如 0.9) 。它告诉机器人: “我不在乎你怎么动,只要你能达到最优成功率的 90% 就行。”

为了解决这个受限问题,作者使用了拉格朗日乘子法 (Lagrangian Multiplier method) 。 这将约束转换为损失函数中的惩罚项。

最小化 lambda 并最大化 theta 的拉格朗日公式。

可以将 \(\lambda\) (lambda) 想象成违反规则的动态“代价”。

  • 如果机器人的任务表现低于阈值,\(\lambda\) 会增加。这使得任务失败的“成本”非常高,迫使神经网络专注于任务。
  • 如果机器人能够轻松完成任务,\(\lambda\) 会减少。网络就可以自由地将其优化预算“花费”在改进风格上。

适应未知

上面的方程中有一个棘手的变量: \(v^{g*}\) (最优任务性能) 。在我们还没训练机器人之前,我们怎么知道最优性能是多少?

如果我们要么猜得太高,约束就无法满足。如果我们猜得太低,机器人就会满足于平庸。

ConsMimic 通过在线更新规则解决了这个问题。

  1. 热身阶段 (Warm-up) : 训练开始时 \(\lambda\) 设定得非常高 (纯任务学习) 。机器人学习解决任务,而不必担心风格。
  2. 记录最高分: 系统记录迄今为止获得的最佳任务奖励。
  3. 动态调整: 在训练期间,如果机器人发现了更好的执行任务的方法,\(v^{g*}\) 会被更新。

最优任务价值基线的更新规则。

这确保了约束始终是现实的,但又是令人向往的。机器人实际上确定了自己的性能上限,然后尝试在不跌落该上限太多的情况下注入风格。

如何衡量风格?

在约束风格之前,机器人需要知道什么是“风格”。论文根据任务使用了两种方法:

  1. 动作片段追踪 (Motion Clip Tracking) : 对于操作任务 (如机械臂) ,奖励基于关节与特定轨迹的匹配程度。 追踪奖励方程。

  2. 对抗模仿 (Adversarial Imitation, AMP) : 对于运动任务 (行走/奔跑) ,精确追踪过于受限。相反,他们使用了判别器 (Discriminator,类似于 GANs) 。判别器试图区分机器人的动作和参考动作。如果机器人能骗过判别器,它就能获得奖励。 对抗风格奖励方程。

对称性问题

对抗模仿学习中的一个常见问题是“模式坍塌 (mode collapse) ”。如果演示数据并不完美,机器人可能会学会一种奇怪的、不对称的步态 (例如跛行) ,因为判别器关注了错误的特征。

为了解决这个问题,ConsMimic 通过对称性 (Symmetry) 增强了风格奖励。它在数学上翻转机器人的状态 (镜像左右) ,并对这些变换后的风格奖励取平均值。

对称增强风格奖励方程。

这迫使机器人学会平衡的步态,即使演示数据略有偏差或不完美。

实验结果

研究人员在三个不同的平台上测试了 ConsMimic:

  1. Franka Emika Panda: 一个抓取目标的机械臂。
  2. ANYmal-D: 一个四足机器人 (机器狗) 。
  3. GR1: 一个全身人形机器人。

仿真性能

结果与“仅任务 (Task-Only) ”基线 (无风格) 和固定权重基线 (手动混合任务和风格奖励) 进行了比较。

条形图显示了不同任务中的追踪奖励和模仿分数。ConsMimic 有效地平衡了两者。

在上面的 图 2 中,请看绿色条形图 (ConsMimic) :

  • 第一行 (任务奖励) : ConsMimic 保持了较高的任务性能,几乎与“仅任务” (紫色) 基线持平。固定权重基线 (深灰色) 经常无法完成任务 (参见 Anymal-Lateral) 。
  • 第二行 (模仿分数) : ConsMimic 获得的风格分数明显高于“仅任务”基线。虽然激进的固定权重基线 (深灰色) 有时风格分更高,但这以任务失败为代价 (如第一行所示) 。

可视化权衡

最直观的结果之一来自 Franka 机械臂实验。目标是到达一个目标点 (任务) ,但演示建议了一条弯曲的、有风格的路径 (风格) 。

不同 alpha 值下 Franka 机械臂的轨迹可视化。

图 4 展示了 \(\alpha\) 参数的威力:

  • \(\alpha = 1.0\) (左): 机器人被强制要求 100% 任务最优。它忽略了黄色的演示曲线,走了最短路径 (绿线与红线重合) 。
  • \(\alpha = 0.9\) (中): 机器人被允许在任务最优性上有 10% 的余地。它开始弯曲路径以匹配风格。
  • \(\alpha = 0.8\) (右): 有了 20% 的余地,机器人在仍然到达目标的同时,几乎完美地模仿了演示曲线。

崎岖地形上的人形机器人

GR1 人形机器人的实验表明 ConsMimic 有助于泛化。机器人被展示了平地行走的动作数据,但被迫在楼梯和踏脚石上行走。

图片带显示 GR1 人形机器人在平地、楼梯和踏脚石上行走。

多亏了对称性增强和自适应约束,机器人调整了步态。它为了上楼梯抬高了脚 (任务要求) ,同时保持了人类演示中的上半身姿态和节奏 (风格要求) 。

现实世界验证: ANYmal-D

最后,它在真实硬件上有效吗?团队在 ANYmal-D 机器人上部署了策略。

ANYmal 机器人动作对比。上排是仅任务,下排是 ConsMimic。

视觉上的差异虽然细微但很重要。“仅任务”策略 (上排) 通常导致跺脚或僵硬的腿部动作。 ConsMimic 策略 (下排) 产生了更“敏捷的小跑体态”。

从定量上看,好处显而易见:

  • 机械能: 降低了 14.5%
  • 足部离地高度 (Foot Clearance) : 机器人抬脚更高,移动更平滑。

通过移动得更“自然” (模仿生物运动) ,机器人实际上变得更节能,这证明风格不仅仅是为了美观——它通常关乎物理效率。

结论

ConsMimic 提供了一个强大的框架,弥补了僵硬的机器人控制与自然生物运动之间的差距。通过将问题表述为带有自适应拉格朗日乘子的受限 MDP,该方法消除了繁琐的奖励调整需求。

主要收获如下:

  1. 安全第一: 优先考虑任务完成约束,其次才是风格最大化。
  2. 自适应学习: 随着智能体的学习,自动调整“最优性”的定义。
  3. 对称性很重要: 强制几何约束以防止不自然的跛行或模式坍塌。

这种方法为机器人不仅能有效地,而且能以我们期望生物具备的优雅和敏捷在人类环境中运行铺平了道路。无论是导航施工现场的人形机器人,还是送快递的机器狗,看起来自然是迈向社会接受度和物理鲁棒性的关键一步。