想象一下餐厅里的服务员端着一盘饮料穿过拥挤的房间。为了成功,他们必须同时执行两项截然不同的任务: 必须用双腿在房间内导航 (移动) ,同时保持手部完美水平以避免饮料洒出 (操作) 。
对于人类来说,这种协调是第二天性。而对于机器人,特别是配备机械臂的四足机器人来说,这是一个巨大的工程挑战。这个领域被称为移动操作 (Loco-Manipulation) 。
核心问题在于目标的相互冲突。高效的行走通常需要一个稳定、水平的基座。然而,为了接触特定物体或保持手部稳定,机器人可能需要倾斜、扭转或前冲其身体。当我们使用强化学习 (RL) 训练机器人时,这些相互冲突的目标往往会混淆智能体。它是应该优先考虑不跌倒,还是优先考虑手臂的精确运动?
在论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 中,来自苏黎世联邦理工学院 (ETH Zurich) 和 ANYbotics AG 的研究人员提出了一种新颖的框架来解决这个问题。他们引入了一种多评论家 (Multi-Critic) 架构来解耦这些冲突的奖励,并配合基于旋量 (Twist-based) 的控制方案以确保平滑的运动。

如图 1 所示,这种方法使机器人能够执行协调的全身行为,在行走时保持精确控制,甚至执行“鸡头”稳定控制 (即身体在下方移动时,手部在空间中保持固定) 。
在这篇文章中,我们将解构他们是如何实现这一点的,探讨当前方法的局限性以及允许这种流畅运动的具体架构创新。
全身控制中的核心冲突
要理解这篇论文的重要性,我们首先需要了解标准强化学习 (RL) 在机器人技术中的局限性。
在足式机器人的典型 RL 设置中,我们定义了一个“奖励函数”。这个函数是一个数学评分,告诉机器人它做得有多好。如果我们希望机器人同时行走和移动手臂,我们通常会将奖励加总:
\[ \text{Total Reward} = (\text{Walk Reward}) + (\text{Arm Reward}) \]这种奖励的“标量化”制造了一场拉锯战。
- 稳定性冲突: 移动策略通常倾向于保持基座平坦和水平以节省能量并保持稳定。操作策略通常要求基座充当杠杆或手臂的延伸,通过倾斜来扩展可达范围。
- 调参噩梦: 平衡这些奖励之间的权重非常困难。如果“行走奖励”太高,机器人会为了走得完美而忽略手臂指令。如果“手臂奖励”太高,机器人可能会为了够到目标而甩动身体,导致跌倒。
位姿追踪的问题
此外,大多数当前方法使用的是位姿追踪 (Pose Tracking) 。 机器人被给定一个目标位置 (\(x, y, z\)) 和方向。它试图最小化当前位姿与目标位姿之间的误差。
虽然这听起来合乎逻辑,但它缺乏关于如何到达那里的信息。它没有指定速度。这通常会导致生硬、僵硬的动作,因为机器人试图在每个时间步将末端执行器“瞬移”到目标状态,而不是沿着平滑的轨迹运动。
解决方案: 多评论家架构
研究人员提出了一种方案,从根本上改变了机器人评估自身表现的方式。他们没有将所有目标压缩成一个单一的标量奖励,而是使用多评论家演员架构 (Multi-Critic Actor Architecture) 来分离学习过程。
教师-学生流程
整个系统使用了教师-学生 (Teacher-Student) 训练流程,这是鲁棒机器人技术中的常用技术。“教师”策略在模拟中训练,可以访问“特权信息” (对地面摩擦力、精确质量、外力的完美知晓) 。一旦教师成为专家,它就会教导“学生”策略,后者只使用真实机器人传感器可用的数据 (本体感觉) 。

图 2 展示了这一架构。关键的创新在于图的右侧: 多评论家网络 (Multi-critic network) 。
分解评论家
在标准的演员-评论家 (Actor-Critic) RL 中,“演员”决定做什么 (移动关节) ,而“评论家”预测该动作将产生多少奖励。
在这项工作中,研究人员将评论家分成了三个不同的网络,每个网络负责任务的一个特定方面:
- 移动评论家 (\(V_{loco}\)): 评估基座速度追踪和稳定性。
- 操作评论家 (\(V_{mani}\)): 评估末端执行器 (手) 的位置和方向追踪。
- 接触计划评论家 (\(V_{cs}\)): 评估落脚的时机 (步态) 。
通过分别计算每个组件的“优势函数” (Advantage,即动作有多好) ,然后将它们求和,策略接收到了更清晰的梯度信号。
为什么这有帮助? 如果机器人采取了一个对移动手臂很有利但对行走稍有不利的动作,单一的组合评论家可能会输出一个“中性”值,有效地冲淡了学习信号。而在多评论家模式下,演员会收到具体的反馈: “这对移动手臂来说很棒,但你需要调整脚步的时机。” 这防止了冲突目标在学习过程中相互抵消。
基于旋量的任务公式化
第二个主要贡献是如何告诉机器人去移动。研究人员不仅仅给机器人一个目标位姿 (\(T_g\)),而是定义了一个基于旋量 (Twist) 的指令。
在物理学中,“旋量”代表刚体的速度: 它结合了线速度 (\(v\)) 和角速度 (\(\omega\))。
为什么速度很重要
以前的方法使用分层结构,高层规划器向低层控制器发送位姿目标。这缺乏速度信息,导致了前文提到的生硬动作。
本文将指令 \(c_t\) 公式化为包含基座和末端执行器的显式速度目标:

这里,\(v_{EE}\) 和 \(\omega_{EE}\) 是机械手期望的线速度和角速度。
为了在训练期间生成这些指令,系统会对起始和目标位姿进行采样,并在它们之间有效地插值路径。发送给策略的每个时间步的指令具体告诉机器人,为了保持在该轨迹上,它现在应该移动多快。

这迫使策略学习动态控制。它不仅仅是试图处于某个位置;它是试图在空间中平滑地移动。
实验结果
研究人员在仿真中以及在安装了 Dynaarm 机械臂的 ANYmal D 四足机器人的真实硬件上验证了他们的方法。
1. 轨迹追踪精度
主要的测试是机器人能否用手跟随特定的形状: 直线、圆形和半圆。

图 3 显示了追踪性能。红线代表指令轨迹,绿线代表测量的执行情况。
- 精度: 注意绿线与红线的贴合程度非常紧密。位置误差极小。
- 速度: 底部几行显示了速度追踪。机器人不仅到达了航点;它还匹配了控制器要求的速度曲线。
表 1 进一步量化了这一点,显示即使在不同速度下 (0.05 m/s 到 0.2 m/s) ,机器人仍能保持较低的追踪误差 (\(\delta r\))。

2. 多评论家 vs. 单一评论家的威力
拆分评论家真的重要吗?研究人员将他们的方法与标准的单一评论家方法 (即所有奖励在评论家看到之前就被求和) 进行了比较。

图 8 揭示了巨大的差异。
- 单一评论家 (虚线) : 策略学会了追踪末端执行器 (红色虚线下降) ,但它未能正确学会移动 。 为了最小化误差,单一评论家智能体倾向于站立不动进行操作,忽略基座速度指令。
- 多评论家 (实线) : 智能体学会了同时最小化位置误差和速度误差。它成功学会了行走和工作。
我们还可以看看奖励敏感性。在 RL 中,调整奖励的“权重”是枯燥乏味的。

图 6 显示多评论家方法 (MC) 对缩放具有鲁棒性。即使将奖励乘以 5 倍或 10 倍,性能仍保持稳定。然而,单一评论家 (SC) 方法则会崩溃;如果你增加操作奖励,移动质量就会下降,反之亦然。
3. 涌现行为: 小跑
最迷人的结果之一是“涌现行为”——机器人学会了某种它没有被明确强迫以特定方式去做的行为。
机器人是使用静态行走步态模式进行训练的。然而,由于接触计划被分离到了它自己的评论家中有,策略学会了对脚步时机的泛化理解。

如图 4 所示,当机器人需要移动得更快时,它自发地将步态调整为小跑 (Trot) (对角腿一起移动) ,如右图所示。这种适应是在运行时发生的,无需针对小跑步态进行显式编程,证明了多评论家架构允许策略比僵化的奖励结构更好地“理解”移动的底层机制。
4. “鸡头”稳定控制
最后,为了证明基座和手臂的解耦,研究人员测试了“鸡头”控制。这涉及命令基座来回行走,同时命令末端执行器锁定在世界坐标系中的特定点 (XYZ 坐标) 。

图 9 显示了结果。蓝线显示基座有显著移动 (高达 0.2 m/s) 。红线显示末端执行器误差。尽管身体在移动,手的平均偏差不到 3 厘米。这要求手臂主动补偿腿部的每一次颠簸和迈步——这是成功全身控制的经典案例。
结论与未来展望
论文 “Mult-i-critic Learning for Whole-body End-effector Twist Tracking” 为下一代移动操作机器人提供了令人信服的蓝图。
通过从静态位姿追踪转向旋量 (速度) 追踪 , 研究人员实现了更平滑、更动态的手臂运动。更重要的是,通过采用多评论家架构 , 他们解决了困扰多目标强化学习的“样样通,样样松”的问题。
关键要点:
- 解耦你的评论家: 当任务发生冲突时 (如稳定性与可达范围) ,让单独的神经网络对其进行评估。这简化了调参并提高了性能。
- 控制速度,不仅仅是位姿: 为了与世界进行平滑的交互,机器人需要理解轨迹,而不仅仅是目的地。
- 涌现能力: 一个结构良好的学习环境允许机器人发展出有用的行为 (如小跑) ,而这些行为并非显式硬编码的。
当我们展望机器人协助家庭和工业现场的未来时,能够同时行走和处理物体——而不需要每隔几秒钟停下来保持稳定——的能力,将是新奇玩具与真正有用机器之间的区别。这项研究让我们离这一现实迈出了平滑的一步。
](https://deep-paper.org/en/paper/2507.08656/images/cover.png)