行走与工作：多评论家强化学习如何解决移动操作悖论

想象一下餐厅里的服务员端着一盘饮料穿过拥挤的房间。为了成功，他们必须同时执行两项截然不同的任务: 必须用双腿在房间内导航 (移动) ，同时保持手部完美水平以避免饮料洒出 (操作) 。

对于人类来说，这种协调是第二天性。而对于机器人，特别是配备机械臂的四足机器人来说，这是一个巨大的工程挑战。这个领域被称为移动操作 (Loco-Manipulation) 。

核心问题在于目标的相互冲突。高效的行走通常需要一个稳定、水平的基座。然而，为了接触特定物体或保持手部稳定，机器人可能需要倾斜、扭转或前冲其身体。当我们使用强化学习 (RL) 训练机器人时，这些相互冲突的目标往往会混淆智能体。它是应该优先考虑不跌倒，还是优先考虑手臂的精确运动？

在论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 中，来自苏黎世联邦理工学院 (ETH Zurich) 和 ANYbotics AG 的研究人员提出了一种新颖的框架来解决这个问题。他们引入了一种多评论家 (Multi-Critic) 架构来解耦这些冲突的奖励，并配合基于旋量 (Twist-based) 的控制方案以确保平滑的运动。

执行全身操作、移动中的末端执行器控制以及“鸡头”稳定控制的四足机器人。

如图 1 所示，这种方法使机器人能够执行协调的全身行为，在行走时保持精确控制，甚至执行“鸡头”稳定控制 (即身体在下方移动时，手部在空间中保持固定) 。

在这篇文章中，我们将解构他们是如何实现这一点的，探讨当前方法的局限性以及允许这种流畅运动的具体架构创新。

全身控制中的核心冲突

要理解这篇论文的重要性，我们首先需要了解标准强化学习 (RL) 在机器人技术中的局限性。

在足式机器人的典型 RL 设置中，我们定义了一个“奖励函数”。这个函数是一个数学评分，告诉机器人它做得有多好。如果我们希望机器人同时行走和移动手臂，我们通常会将奖励加总:

\[ \text{Total Reward} = (\text{Walk Reward}) + (\text{Arm Reward}) \]

这种奖励的“标量化”制造了一场拉锯战。

稳定性冲突: 移动策略通常倾向于保持基座平坦和水平以节省能量并保持稳定。操作策略通常要求基座充当杠杆或手臂的延伸，通过倾斜来扩展可达范围。
调参噩梦: 平衡这些奖励之间的权重非常困难。如果“行走奖励”太高，机器人会为了走得完美而忽略手臂指令。如果“手臂奖励”太高，机器人可能会为了够到目标而甩动身体，导致跌倒。

位姿追踪的问题

此外，大多数当前方法使用的是位姿追踪 (Pose Tracking) 。机器人被给定一个目标位置 (\(x, y, z\)) 和方向。它试图最小化当前位姿与目标位姿之间的误差。

虽然这听起来合乎逻辑，但它缺乏关于如何到达那里的信息。它没有指定速度。这通常会导致生硬、僵硬的动作，因为机器人试图在每个时间步将末端执行器“瞬移”到目标状态，而不是沿着平滑的轨迹运动。

解决方案: 多评论家架构

研究人员提出了一种方案，从根本上改变了机器人评估自身表现的方式。他们没有将所有目标压缩成一个单一的标量奖励，而是使用多评论家演员架构 (Multi-Critic Actor Architecture) 来分离学习过程。

教师-学生流程

整个系统使用了教师-学生 (Teacher-Student) 训练流程，这是鲁棒机器人技术中的常用技术。“教师”策略在模拟中训练，可以访问“特权信息” (对地面摩擦力、精确质量、外力的完美知晓) 。一旦教师成为专家，它就会教导“学生”策略，后者只使用真实机器人传感器可用的数据 (本体感觉) 。

展示策略优化循环的图表，包含指令生成、仿真器和多评论家网络。

图 2 展示了这一架构。关键的创新在于图的右侧: 多评论家网络 (Multi-critic network) 。

分解评论家

在标准的演员-评论家 (Actor-Critic) RL 中，“演员”决定做什么 (移动关节) ，而“评论家”预测该动作将产生多少奖励。

在这项工作中，研究人员将评论家分成了三个不同的网络，每个网络负责任务的一个特定方面:

移动评论家 (\(V_{loco}\)): 评估基座速度追踪和稳定性。
操作评论家 (\(V_{mani}\)): 评估末端执行器 (手) 的位置和方向追踪。
接触计划评论家 (\(V_{cs}\)): 评估落脚的时机 (步态) 。

通过分别计算每个组件的“优势函数” (Advantage，即动作有多好) ，然后将它们求和，策略接收到了更清晰的梯度信号。

为什么这有帮助? 如果机器人采取了一个对移动手臂很有利但对行走稍有不利的动作，单一的组合评论家可能会输出一个“中性”值，有效地冲淡了学习信号。而在多评论家模式下，演员会收到具体的反馈: “这对移动手臂来说很棒，但你需要调整脚步的时机。” 这防止了冲突目标在学习过程中相互抵消。

基于旋量的任务公式化

第二个主要贡献是如何告诉机器人去移动。研究人员不仅仅给机器人一个目标位姿 (\(T_g\))，而是定义了一个基于旋量 (Twist) 的指令。

在物理学中，“旋量”代表刚体的速度: 它结合了线速度 (\(v\)) 和角速度 (\(\omega\))。

为什么速度很重要

以前的方法使用分层结构，高层规划器向低层控制器发送位姿目标。这缺乏速度信息，导致了前文提到的生硬动作。

本文将指令 \(c_t\) 公式化为包含基座和末端执行器的显式速度目标:

显示指令向量分量的方程，包括基座速度、末端执行器速度和目标位姿。

这里，\(v_{EE}\) 和 \(\omega_{EE}\) 是机械手期望的线速度和角速度。

为了在训练期间生成这些指令，系统会对起始和目标位姿进行采样，并在它们之间有效地插值路径。发送给策略的每个时间步的指令具体告诉机器人，为了保持在该轨迹上，它现在应该移动多快。

显示基于插值目标计算末端执行器速度和角速度的方程。

这迫使策略学习动态控制。它不仅仅是试图处于某个位置；它是试图在空间中平滑地移动。

实验结果

研究人员在仿真中以及在安装了 Dynaarm 机械臂的 ANYmal D 四足机器人的真实硬件上验证了他们的方法。

1. 轨迹追踪精度

主要的测试是机器人能否用手跟随特定的形状: 直线、圆形和半圆。

显示线形、圆形和半圆形轨迹的位置和速度追踪图表。

图 3 显示了追踪性能。红线代表指令轨迹，绿线代表测量的执行情况。

精度: 注意绿线与红线的贴合程度非常紧密。位置误差极小。
速度: 底部几行显示了速度追踪。机器人不仅到达了航点；它还匹配了控制器要求的速度曲线。

表 1 进一步量化了这一点，显示即使在不同速度下 (0.05 m/s 到 0.2 m/s) ，机器人仍能保持较低的追踪误差 (\(\delta r\))。

展示硬件上不同速度下的追踪误差表格。

2. 多评论家 vs. 单一评论家的威力

拆分评论家真的重要吗？研究人员将他们的方法与标准的单一评论家方法 (即所有奖励在评论家看到之前就被求和) 进行了比较。

比较多评论家和单一评论家方法的训练步数图表。

图 8 揭示了巨大的差异。

单一评论家 (虚线) : 策略学会了追踪末端执行器 (红色虚线下降) ，但它未能正确学会移动 。为了最小化误差，单一评论家智能体倾向于站立不动进行操作，忽略基座速度指令。
多评论家 (实线) : 智能体学会了同时最小化位置误差和速度误差。它成功学会了行走和工作。

我们还可以看看奖励敏感性。在 RL 中，调整奖励的“权重”是枯燥乏味的。

显示奖励敏感性分析的图表。

图 6 显示多评论家方法 (MC) 对缩放具有鲁棒性。即使将奖励乘以 5 倍或 10 倍，性能仍保持稳定。然而，单一评论家 (SC) 方法则会崩溃；如果你增加操作奖励，移动质量就会下降，反之亦然。

3. 涌现行为: 小跑

最迷人的结果之一是“涌现行为”——机器人学会了某种它没有被明确强迫以特定方式去做的行为。

机器人是使用静态行走步态模式进行训练的。然而，由于接触计划被分离到了它自己的评论家中有，策略学会了对脚步时机的泛化理解。

静态行走与小跑期间脚部高度的对比。

如图 4 所示，当机器人需要移动得更快时，它自发地将步态调整为小跑 (Trot) (对角腿一起移动) ，如右图所示。这种适应是在运行时发生的，无需针对小跑步态进行显式编程，证明了多评论家架构允许策略比僵化的奖励结构更好地“理解”移动的底层机制。

4. “鸡头”稳定控制

最后，为了证明基座和手臂的解耦，研究人员测试了“鸡头”控制。这涉及命令基座来回行走，同时命令末端执行器锁定在世界坐标系中的特定点 (XYZ 坐标) 。

显示鸡头模式下的末端执行器位置误差和基座速度的图表。

图 9 显示了结果。蓝线显示基座有显著移动 (高达 0.2 m/s) 。红线显示末端执行器误差。尽管身体在移动，手的平均偏差不到 3 厘米。这要求手臂主动补偿腿部的每一次颠簸和迈步——这是成功全身控制的经典案例。

结论与未来展望

论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 为下一代移动操作机器人提供了令人信服的蓝图。

通过从静态位姿追踪转向旋量 (速度) 追踪 , 研究人员实现了更平滑、更动态的手臂运动。更重要的是，通过采用多评论家架构 , 他们解决了困扰多目标强化学习的“样样通，样样松”的问题。

关键要点:

解耦你的评论家: 当任务发生冲突时 (如稳定性与可达范围) ，让单独的神经网络对其进行评估。这简化了调参并提高了性能。
控制速度，不仅仅是位姿: 为了与世界进行平滑的交互，机器人需要理解轨迹，而不仅仅是目的地。
涌现能力: 一个结构良好的学习环境允许机器人发展出有用的行为 (如小跑) ，而这些行为并非显式硬编码的。

当我们展望机器人协助家庭和工业现场的未来时，能够同时行走和处理物体——而不需要每隔几秒钟停下来保持稳定——的能力，将是新奇玩具与真正有用机器之间的区别。这项研究让我们离这一现实迈出了平滑的一步。

全身控制中的核心冲突#

位姿追踪的问题#

解决方案: 多评论家架构#

教师-学生流程#

分解评论家#

基于旋量的任务公式化#

为什么速度很重要#

实验结果#

1. 轨迹追踪精度#

2. 多评论家 vs. 单一评论家的威力#

3. 涌现行为: 小跑#

4. “鸡头”稳定控制#

结论与未来展望#