想象一下餐厅里的服务员端着一盘饮料穿过拥挤的房间。为了成功,他们必须同时执行两项截然不同的任务: 必须用双腿在房间内导航 (移动) ,同时保持手部完美水平以避免饮料洒出 (操作) 。

对于人类来说,这种协调是第二天性。而对于机器人,特别是配备机械臂的四足机器人来说,这是一个巨大的工程挑战。这个领域被称为移动操作 (Loco-Manipulation)

核心问题在于目标的相互冲突。高效的行走通常需要一个稳定、水平的基座。然而,为了接触特定物体或保持手部稳定,机器人可能需要倾斜、扭转或前冲其身体。当我们使用强化学习 (RL) 训练机器人时,这些相互冲突的目标往往会混淆智能体。它是应该优先考虑不跌倒,还是优先考虑手臂的精确运动?

在论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 中,来自苏黎世联邦理工学院 (ETH Zurich) 和 ANYbotics AG 的研究人员提出了一种新颖的框架来解决这个问题。他们引入了一种多评论家 (Multi-Critic) 架构来解耦这些冲突的奖励,并配合基于旋量 (Twist-based) 的控制方案以确保平滑的运动。

执行全身操作、移动中的末端执行器控制以及“鸡头”稳定控制的四足机器人。

图 1 所示,这种方法使机器人能够执行协调的全身行为,在行走时保持精确控制,甚至执行“鸡头”稳定控制 (即身体在下方移动时,手部在空间中保持固定) 。

在这篇文章中,我们将解构他们是如何实现这一点的,探讨当前方法的局限性以及允许这种流畅运动的具体架构创新。


全身控制中的核心冲突

要理解这篇论文的重要性,我们首先需要了解标准强化学习 (RL) 在机器人技术中的局限性。

在足式机器人的典型 RL 设置中,我们定义了一个“奖励函数”。这个函数是一个数学评分,告诉机器人它做得有多好。如果我们希望机器人同时行走和移动手臂,我们通常会将奖励加总:

\[ \text{Total Reward} = (\text{Walk Reward}) + (\text{Arm Reward}) \]

这种奖励的“标量化”制造了一场拉锯战。

  1. 稳定性冲突: 移动策略通常倾向于保持基座平坦和水平以节省能量并保持稳定。操作策略通常要求基座充当杠杆或手臂的延伸,通过倾斜来扩展可达范围。
  2. 调参噩梦: 平衡这些奖励之间的权重非常困难。如果“行走奖励”太高,机器人会为了走得完美而忽略手臂指令。如果“手臂奖励”太高,机器人可能会为了够到目标而甩动身体,导致跌倒。

位姿追踪的问题

此外,大多数当前方法使用的是位姿追踪 (Pose Tracking) 。 机器人被给定一个目标位置 (\(x, y, z\)) 和方向。它试图最小化当前位姿与目标位姿之间的误差。

虽然这听起来合乎逻辑,但它缺乏关于如何到达那里的信息。它没有指定速度。这通常会导致生硬、僵硬的动作,因为机器人试图在每个时间步将末端执行器“瞬移”到目标状态,而不是沿着平滑的轨迹运动。


解决方案: 多评论家架构

研究人员提出了一种方案,从根本上改变了机器人评估自身表现的方式。他们没有将所有目标压缩成一个单一的标量奖励,而是使用多评论家演员架构 (Multi-Critic Actor Architecture) 来分离学习过程。

教师-学生流程

整个系统使用了教师-学生 (Teacher-Student) 训练流程,这是鲁棒机器人技术中的常用技术。“教师”策略在模拟中训练,可以访问“特权信息” (对地面摩擦力、精确质量、外力的完美知晓) 。一旦教师成为专家,它就会教导“学生”策略,后者只使用真实机器人传感器可用的数据 (本体感觉) 。

展示策略优化循环的图表,包含指令生成、仿真器和多评论家网络。

图 2 展示了这一架构。关键的创新在于图的右侧: 多评论家网络 (Multi-critic network)

分解评论家

在标准的演员-评论家 (Actor-Critic) RL 中,“演员”决定做什么 (移动关节) ,而“评论家”预测该动作将产生多少奖励。

在这项工作中,研究人员将评论家分成了三个不同的网络,每个网络负责任务的一个特定方面:

  1. 移动评论家 (\(V_{loco}\)): 评估基座速度追踪和稳定性。
  2. 操作评论家 (\(V_{mani}\)): 评估末端执行器 (手) 的位置和方向追踪。
  3. 接触计划评论家 (\(V_{cs}\)): 评估落脚的时机 (步态) 。

通过分别计算每个组件的“优势函数” (Advantage,即动作有多好) ,然后将它们求和,策略接收到了更清晰的梯度信号。

为什么这有帮助? 如果机器人采取了一个对移动手臂很有利但对行走稍有不利的动作,单一的组合评论家可能会输出一个“中性”值,有效地冲淡了学习信号。而在多评论家模式下,演员会收到具体的反馈: “这对移动手臂来说很棒,但你需要调整脚步的时机。” 这防止了冲突目标在学习过程中相互抵消。


基于旋量的任务公式化

第二个主要贡献是如何告诉机器人去移动。研究人员不仅仅给机器人一个目标位姿 (\(T_g\)),而是定义了一个基于旋量 (Twist) 的指令。

在物理学中,“旋量”代表刚体的速度: 它结合了线速度 (\(v\)) 和角速度 (\(\omega\))。

为什么速度很重要

以前的方法使用分层结构,高层规划器向低层控制器发送位姿目标。这缺乏速度信息,导致了前文提到的生硬动作。

本文将指令 \(c_t\) 公式化为包含基座和末端执行器的显式速度目标:

显示指令向量分量的方程,包括基座速度、末端执行器速度和目标位姿。

这里,\(v_{EE}\) 和 \(\omega_{EE}\) 是机械手期望的线速度和角速度。

为了在训练期间生成这些指令,系统会对起始和目标位姿进行采样,并在它们之间有效地插值路径。发送给策略的每个时间步的指令具体告诉机器人,为了保持在该轨迹上,它现在应该移动多快。

显示基于插值目标计算末端执行器速度和角速度的方程。

这迫使策略学习动态控制。它不仅仅是试图处于某个位置;它是试图在空间中平滑地移动


实验结果

研究人员在仿真中以及在安装了 Dynaarm 机械臂的 ANYmal D 四足机器人的真实硬件上验证了他们的方法。

1. 轨迹追踪精度

主要的测试是机器人能否用手跟随特定的形状: 直线、圆形和半圆。

显示线形、圆形和半圆形轨迹的位置和速度追踪图表。

图 3 显示了追踪性能。红线代表指令轨迹,绿线代表测量的执行情况。

  • 精度: 注意绿线与红线的贴合程度非常紧密。位置误差极小。
  • 速度: 底部几行显示了速度追踪。机器人不仅到达了航点;它还匹配了控制器要求的速度曲线。

表 1 进一步量化了这一点,显示即使在不同速度下 (0.05 m/s 到 0.2 m/s) ,机器人仍能保持较低的追踪误差 (\(\delta r\))。

展示硬件上不同速度下的追踪误差表格。

2. 多评论家 vs. 单一评论家的威力

拆分评论家真的重要吗?研究人员将他们的方法与标准的单一评论家方法 (即所有奖励在评论家看到之前就被求和) 进行了比较。

比较多评论家和单一评论家方法的训练步数图表。

图 8 揭示了巨大的差异。

  • 单一评论家 (虚线) : 策略学会了追踪末端执行器 (红色虚线下降) ,但它未能正确学会移动 。 为了最小化误差,单一评论家智能体倾向于站立不动进行操作,忽略基座速度指令。
  • 多评论家 (实线) : 智能体学会了同时最小化位置误差和速度误差。它成功学会了行走工作。

我们还可以看看奖励敏感性。在 RL 中,调整奖励的“权重”是枯燥乏味的。

显示奖励敏感性分析的图表。

图 6 显示多评论家方法 (MC) 对缩放具有鲁棒性。即使将奖励乘以 5 倍或 10 倍,性能仍保持稳定。然而,单一评论家 (SC) 方法则会崩溃;如果你增加操作奖励,移动质量就会下降,反之亦然。

3. 涌现行为: 小跑

最迷人的结果之一是“涌现行为”——机器人学会了某种它没有被明确强迫以特定方式去做的行为。

机器人是使用静态行走步态模式进行训练的。然而,由于接触计划被分离到了它自己的评论家中有,策略学会了对脚步时机的泛化理解。

静态行走与小跑期间脚部高度的对比。

图 4 所示,当机器人需要移动得更快时,它自发地将步态调整为小跑 (Trot) (对角腿一起移动) ,如右图所示。这种适应是在运行时发生的,无需针对小跑步态进行显式编程,证明了多评论家架构允许策略比僵化的奖励结构更好地“理解”移动的底层机制。

4. “鸡头”稳定控制

最后,为了证明基座和手臂的解耦,研究人员测试了“鸡头”控制。这涉及命令基座来回行走,同时命令末端执行器锁定在世界坐标系中的特定点 (XYZ 坐标) 。

显示鸡头模式下的末端执行器位置误差和基座速度的图表。

图 9 显示了结果。蓝线显示基座有显著移动 (高达 0.2 m/s) 。红线显示末端执行器误差。尽管身体在移动,手的平均偏差不到 3 厘米。这要求手臂主动补偿腿部的每一次颠簸和迈步——这是成功全身控制的经典案例。


结论与未来展望

论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 为下一代移动操作机器人提供了令人信服的蓝图。

通过从静态位姿追踪转向旋量 (速度) 追踪 , 研究人员实现了更平滑、更动态的手臂运动。更重要的是,通过采用多评论家架构 , 他们解决了困扰多目标强化学习的“样样通,样样松”的问题。

关键要点:

  1. 解耦你的评论家: 当任务发生冲突时 (如稳定性与可达范围) ,让单独的神经网络对其进行评估。这简化了调参并提高了性能。
  2. 控制速度,不仅仅是位姿: 为了与世界进行平滑的交互,机器人需要理解轨迹,而不仅仅是目的地。
  3. 涌现能力: 一个结构良好的学习环境允许机器人发展出有用的行为 (如小跑) ,而这些行为并非显式硬编码的。

当我们展望机器人协助家庭和工业现场的未来时,能够同时行走和处理物体——而不需要每隔几秒钟停下来保持稳定——的能力,将是新奇玩具与真正有用机器之间的区别。这项研究让我们离这一现实迈出了平滑的一步。