人体是机械工程的奇迹。想一想单腿站立并将另一条腿高高抬起的动作——即“李小龙式踢腿”。对你来说,这可能只是感觉肌肉在用力 (尽管这对体能有要求) 。但对机器人学家来说,这简直是物理学上的噩梦。它需要精确的质心控制、对抗重力的主动稳定性,以及处理肌肉细微抖动 (在机器人中即电机抖动) 的能力。

在人形机器人领域,我们在动态运动 (跑步、行走和跳跃) 方面已经看到了惊人的进步。然而, 准静态平衡 (quasi-static balance) ——即长时间保持高难度、不稳定姿势的能力——仍然是一个巨大的障碍。当机器人试图模仿人类做瑜伽或武术姿势时,它往往会摔倒或无法控制地颤抖。

在这篇文章中,我们将剖析一种名为 HuB (Humanoid Balance) 的新框架。这项研究指出了为什么当前的强化学习 (RL) 方法在极限平衡任务中会失败,并提出了一个统一的管道来解决这个问题。我们将探索 HuB 如何使宇树 G1 机器人能够完成“燕式平衡”并承受足球的大力踢击,而这些任务是基准方法始终无法完成的。

极限平衡任务。HuB 使人形机器人能够以高稳定性执行极限准静态平衡任务。图 (a) 展示了燕式平衡;(b) 展示了高踢腿;(c) 到 (f) 展示了其他各种具有挑战性的姿势,包括深蹲和单腿站立。

问题所在: 为什么站着不动这么难?

在深入研究解决方案之前,我们需要了解当前方法的失败模式。现代人形机器人控制的标准方法通常涉及基于跟踪的强化学习 (tracking-based Reinforcement Learning) 。 其流程通常如下:

  1. 动作捕捉 (MoCap): 记录人类执行技能的动作。
  2. 重定向 (Retargeting): 将人类的关节角度映射到机器人的关节上。
  3. 仿真训练 (Simulation Training): 在物理模拟器 (如 Isaac Gym) 中训练 RL 策略以模仿这些动作。
  4. 虚实迁移 (Sim-to-Real Transfer): 将策略部署到物理机器人上。

虽然这种方法适用于行走,但由于 HuB 作者指出的三个特定挑战,它在极限平衡任务中会崩溃:

  1. 参考动作误差: MoCap 数据存在噪声。如果参考动作显示支撑脚有轻微滑动 (录制时的伪影) ,机器人在平衡时也会试图滑动脚,导致摔倒。
  2. 形态不匹配: 机器人不是生物人。它们的质量分布 (质心 - COM) 是不同的。如果机器人严格复制人类单腿站立的关节角度,机器人的 COM 可能不在其脚部上方,导致立即失稳。
  3. 虚实差距: 真实的传感器存在噪声。IMU (惯性测量单元) 会漂移和抖动。如果策略没有经过针对这种特定类型噪声的训练,机器人在现实世界中就会震荡并摔倒。

HuB 框架

HuB 旨在直接应对这三个问题。它是一个统一的框架,由三个不同的阶段组成: 参考动作优化平衡感知策略学习虚实鲁棒性训练

HuB 概览。该图展示了三个关键组件: (a) 参考动作优化,(b) 平衡感知策略学习,以及 (c) 虚实鲁棒性训练。

让我们从数学和概念上分解该架构的每个组件。

1. 参考动作优化

第一步是清理数据。俗话说,“垃圾进,垃圾出”。如果老师 (人类动作数据) 有缺陷,学生 (机器人) 就会失败。

基于 SMPL 初始化的重定向

标准的重定向通常从处于“零位姿势” (直立站立) 的机器人开始,并使用优化算法来匹配人类的姿势。这是一个非凸优化问题,意味着求解器可能会陷入“局部极小值”——即那些在数学上看起来很接近,但在机器人学上却很怪异、不自然的关节配置。

HuB 通过使用 SMPL 参数初始化求解器来改进这一点。SMPL 是一个标准化的人体 3D 模型。由于人形机器人的关节本质上是人类关节的一个子集,使用 SMPL 欧拉角作为优化的起点,可以使求解器更接近正确答案,确保生成的动作在物理上是自然的。

着地足修正与 COM 过滤

对数据应用了两个特定的物理检查:

  1. 无滑动: 在单腿站立期间,人类的脚在视频中可能看起来在抖动。HuB 通过算法锁定参考数据中支撑脚的位置,强制“目标”必须是一个稳定、着地的脚。
  2. 物理检查: 由于前面提到的质量差异,某些人类姿势对机器人来说在物理上是不可能的。系统根据机器人的 URDF (统一机器人描述格式) 计算其理论质心 (COM) 。如果 COM 的投影落在支撑脚外超过 0.2m,该动作帧将被丢弃。

如下表所示,使用 SMPL 初始化重定向显著减少了预期动作与重定向动作之间的误差 (损失) ,特别是对于深蹲等复杂任务。

重定向对比柱状图。该图比较了在六种姿势下,使用和不使用 SMPL 初始化重定向的重定向损失。包含 SMPL 初始化重定向的方法在所有测试姿势中都降低了损失。

2. 平衡感知策略学习

一旦数据经过优化,我们就进入强化学习阶段。这是机器人学习如何执行动作的地方。

“松弛跟踪”理念

这是该论文的一个关键见解。以前的方法强迫机器人尽可能紧密地跟踪参考动作。然而,由于机器人的体型与人类不同,“完美”的人类姿势对机器人来说可能是不稳定的。

HuB 采用 松弛参考跟踪 (Relaxed Reference Tracking) 。 与其惩罚每一毫米的偏差,奖励函数包含了一个容差参数 (\(\sigma\))。

  • 严格跟踪: “你必须精确地处于角度 \(X\)。” (结果: 机器人摔倒,因为该角度不适合其身体平衡) 。
  • 松弛跟踪: “处于角度 \(X\) 附近,但要找到一个不会摔倒的位置。”

作者发现,设定 \(\sigma = 0.6\) 米的容差允许策略在保持动作外观的同时,探索并找到其自己的平衡点。

塑形奖励

为了在这个“松弛”空间内引导机器人,RL 目标中添加了特定的塑形奖励 (Shaping Rewards) :

  1. 质心 (COM) 奖励: 鼓励机器人将其垂直 COM 投影保持在支撑多边形 (脚) 内。
  2. 足部接触不匹配惩罚: 这对于单腿任务至关重要。如果参考动作说“左腿抬起”,而机器人的左脚接触地面,它将受到严厉惩罚。这防止了机器人通过放下脚来“作弊”自救。
  3. 双脚过近惩罚: 防止双脚碰撞,这是导致自我绊倒的常见原因。

3. 虚实鲁棒性训练

拼图的最后一块是弥合完美仿真与混乱现实世界之间的差距。

本地化参考跟踪

机器人通常依靠视觉惯性里程计 (VIO) 来知道自己在房间里的位置。VIO 以漂移而闻名。如果机器人认为自己偏离了实际位置 10 厘米,它就会试图修正一个不存在的误差,从而导致失去平衡。

HuB 移除了这种依赖。在训练和部署期间,机器人相对于其自身的根部 (骨盆) 跟踪参考动作。它不在乎自己在房间的哪里,只在乎肢体相对于身体的位置。这有效地消除了作为失败模式的 VIO 漂移。

以 IMU 为中心的观测扰动

大多数 RL 论文会在观测中添加“均匀噪声”以使策略具有鲁棒性。作者认为这对于平衡来说是不够的。真实的 IMU 噪声是时间相关的——它不会随机跳变;它会随时间漂移和摆动。

HuB 使用 Ornstein-Uhlenbeck (OU) 噪声对此进行建模。他们将此噪声注入到观测到的根部方向 (欧拉角) 中。

用于模拟 IMU 传感器误差的 Ornstein-Uhlenbeck 噪声方程。

在这里,\(X_t\) 是噪声,\(\theta\) 是回归率 (将噪声拉回零,使其不会漂移到无限大) ,\(\sigma\) 是强度。通过训练机器人即使在“平衡感” (IMU) 通过这个特定方程对其撒谎时也能保持平衡,策略变得对现实世界的传感器缺陷具有极强的鲁棒性。

高频推力扰动

最后,为了模拟真实硬件的微抖动和齿轮间隙,机器人在仿真中会被推来推去。与以前使用大的、不频繁的推力 (用于测试恢复能力) 的工作不同,HuB 使用小的、高频的推力 (每 1 秒一次,速度高达 0.5 m/s) 。这迫使策略不断进行微调,从而创建一个对于静态平衡至关重要的“紧密”控制回路。

实验与结果

团队在 宇树 G1 人形机器人上验证了 HuB。他们将其与两个基准进行了比较: H2OOmniH2O (最先进的基于跟踪的控制器) 。

仿真指标

下表显示了仿真结果。指标非常有说服力:

  • Succ (成功率) : HuB 在燕式平衡和李小龙式踢腿上实现了 100% 的成功率 。 基准方法分别仅为 0%4%
  • Cont (接触不匹配) : 基准方法的错配分数很高,意味着它们不断地放下非支撑脚以防止摔倒。HuB 的错配几乎为零。

HuB 与基准方法 H2O 和 OmniH2O 的仿真结果对比表。HuB 在燕式平衡和李小龙式踢腿中显示出 100% 的成功率,显著优于基准方法。

现实世界鲁棒性

最令人印象深刻的演示是物理鲁棒性。在一个实验中,当机器人执行单腿平衡时,研究人员用力将足球踢向机器人的躯干。

如图 4 所示,机器人吸收了冲击力。橙色轨迹显示了球的路径,面板显示了机器人修正姿势以保持站立。标准的策略可能会过度补偿并摔倒,但“松弛跟踪”结合推力干扰训练使得 HuB 策略能够自然反应——偏离姿势以吸收能量,然后返回设定点。

外部扰动。图片展示了一个人形机器人在被足球击中时保持平衡,证明了其鲁棒性。

此外,机器人展示了长时程一致性 。 它可以连续执行 10 次“李小龙式踢腿”,中间无需重置或摔倒。这种可靠性通常是让人形机器人真正变得有用的缺失环节。

结论

HuB 论文强调了机器人学中的一个重要教训: 仅仅将神经网络扔给动作捕捉文件是不够的。为了实现极限能力,我们必须针对机器人的现实情况定制学习过程。

通过优化输入数据使其在物理上可行, 松弛跟踪以允许机器人找到自己的质心,以及模拟真实的传感器噪声 , HuB 将一个笨拙的人形机器人变成了一个武术大师。

这项工作为人形机器人不仅能走路铺平了道路;它开启了一扇大门,让机器人可以在受限空间内操作,执行需要奇怪姿势的复杂维护任务,或者仅仅是以人类的优雅和稳定性进行移动。

关键要点:

  • 不要强迫机器人完全像人一样: 允许松弛跟踪,以便机器人可以补偿自身的形态差异。
  • 针对你拥有的传感器进行训练: 对于虚实迁移,建模噪声 (OU 过程) 优于通用的随机噪声。
  • 数据质量至关重要: 清理参考动作中的足部滑动和质量可行性是成功的一半。