引言

我们正步入一个腿足机器人不再仅仅满足于行走的时代。从波士顿动力 Atlas 做跑酷的病毒视频,到四足机器人展示灵活的跳跃,该领域正向着高动态、特技般的行为发展。但在完美控制的模拟环境中看机器人做后空翻,与在物理硬件上实现这一壮举且不损坏机器人之间,存在着巨大的鸿沟。

旋转机动动作,如前空翻,与跑步有着本质的区别。它们需要产生巨大的角动量,精确调节身体惯量 (就像花样滑冰运动员收紧手臂那样) ,并承受高冲击力的落地。对于强化学习 (RL) 工程师来说,这带来了一个悖论: 你需要机器人足够激进以完成旋转,又要足够保守以尊重电机和齿轮的物理限制。

在这篇深度文章中,我们将探讨一篇正面解决该问题的论文。研究人员使用极简的单腿跳跃机器人 (one-leg hopper) ——本质上是一个机器人“跳跳杆”——提出了一种学习高冲击旋转动作的新框架。他们引入了一种基于质心角速度 (Centroidal Angular Velocity) 的物理启发式奖励系统,并实施了严格的“仿真到现实 (Sim-to-Real) ”技术,对电动机和变速箱的具体限制进行了建模。

结果如何?这是单腿跳跃机器人首次在硬件上成功实现前空翻。让我们来拆解一下他们是如何做到的。

挑战: 为什么空翻很难

在深入解决方案之前,我们需要了解这个平台。研究人员使用了一个定制设计的 3-DOF (自由度) 单腿跳跃机器人。

Figure 2: One-leg hopper used in this study.

如图 2 所示,该机器人极简。它有一个大腿、一个小腿和一个足部,并带有闭链踝关节机构。它的重量约为 12 公斤——大致相当于人类腿部的比例。与四足机器人 (有四条腿来稳定) 或人形机器人 (有手臂帮助产生动量) 不同,这个机器人的控制权非常有限。要进行空翻,它必须利用单腿起跳、旋转并接住自己。

这对强化学习提出了两大障碍:

  1. 物理障碍: 如何告诉 RL 智能体“旋转整个身体”?标准奖励往往无法捕捉动量与惯量之间复杂的关系。
  2. 硬件障碍: 物理模拟引擎往往过于乐观。它们假设电机无论转速如何都能输出恒定扭矩,且不模拟内部齿轮的应力。实际上,尝试空翻往往会导致“电压饱和” (电机无法转得更快) 或落地时发生灾难性的齿轮断裂。

第一部分: 旋转的物理学

这篇论文在行为学习方面的核心贡献是一种激励旋转的新方法。要理解这一点,我们要看看通常是如何训练机器人的。

标准奖励的失败

在 RL 中,我们通过奖励函数来塑造行为。如果你想让机器人前空翻 (俯仰旋转) ,直观的方法是奖励基座角速度 (Base Angular Velocity, BAV) 。 本质上,你告诉机器人: “最大化你主体 (大腿) 的俯仰速度。”

然而,研究人员发现这种方法行不通。为什么?因为角动量守恒。如果机器人猛烈地向前摆动腿部,身体就会向后旋转以进行补偿。内部关节运动得很快,满足了“高速度”奖励,但整个系统并没有旋转。机器人只是在空中乱挥腿,而没有实现净旋转。

另一种方法是奖励质心角动量 (Centroidal Angular Momentum, CAM) 。 该指标考察整个系统绕其质心的动量。虽然这成功地让机器人产生了强大的起跳脉冲,但它产生了一个新问题: 机器人直着腿跳起并保持直腿。它产生了动量,但由于转动惯量很大 (身体伸展) ,旋转速度很慢,在完成空翻前就坠毁了。

解决方案: 质心角速度 (CAV)

为了解决这个问题,作者引入了一种基于质心角速度 (Centroidal Angular Velocity, CAV) 的奖励。

在物理学中,角动量 (\(L\)) 是转动惯量 (\(I\)) 与角速度 (\(\omega\)) 的乘积:

\[ L = I \omega \]

要成功空翻,你需要高角速度 (\(\omega\)) 。重新排列方程得 \(\omega = L / I\)。这意味着要最大化旋转速度,机器人必须同时做两件事:

  1. 最大化动量 (\(L\)) : 起跳时用力蹬地。
  2. 最小化惯量 (\(I\)) : 在空中收腿以减小回转半径。

CAV 奖励本质上鼓励了这两种行为。它驱动策略在发射时产生巨大的脉冲,然后在飞行过程中立即弯曲膝盖以加速旋转——这正是跳水运动员做团身动作的方式。

Figure 4: Comparison of policies trained with different aerial-phase rewards (0.5-1.O5 s) for frontflip motion. (a)-(b) show base pitch rotation and vertical height (relative to initial pose); (c) shows base angular velocity about the pitch axis. (d)-(f) present centroidal angular momentum (CAM), centroidal angular velocity (CAV),and composite pitch-axis inertia for CAM- and CAV-maximizing policies. Key events (take-off, knee fold,landing) are marked in (d)-(f) for both policies.

数据上的差异非常明显。看图 4 :

  • 蓝线 (提出的 CAV) : 注意图 (f) 。 复合惯量在空中显著下降,因为机器人正在收腿。因此,在图 (e) 中,速度激增,使机器人能够完成图 (a) 所示的完整 \(2\pi\) 旋转。
  • 橙线 (CAM) : 机器人产生了动量,但未能减小惯量 (图 f 保持高位) 。旋转迟缓,空翻失败。

第二部分: 跨越虚实鸿沟

即使有完美的物理奖励,在标准模拟中训练出的策略也很可能在真实机器人上失败。这是因为高动态动作将硬件推向了极限。

电机工作区域 (MOR)

在大多数模拟中,我们对电机扭矩设置一个简单的“削波” (例如,“最大扭矩 = 30 Nm”) 。这这就形成了一个允许动作的矩形框。

真正的电动机不是那样工作的。随着电机转速加快,它会产生对抗驱动电压的“反电动势” (back-EMF) 。这意味着电机转得越快,它能产生的扭矩就越小。

研究人员为跳跃机器人的执行器建立了这种特定的电机工作区域 (Motor Operating Region, MOR) 模型。

Figure 3: Motor Operating Region (MOR) at the knee actuator. Simulation data were collected within \\(\\pm 0 . 2 5\\) seconds during the flip motion around take-off,with take-off and knee fold events also noted in the figure. Red regions denote areas beyond the MOR.

图 3中,你可以看到“电压限制斜率” (红线) 。

  • 起跳 (绿色箭头向右移动) 期间,机器人需要高扭矩和高速度。
  • 膝盖折叠 (绿色箭头向左移动) 期间,它需要快速团身。

如果 RL 智能体忽略这个斜率 (使用标准的“方框”限制) ,它就会尝试指令在这些高速度下物理上不存在的扭矩。

Figure 5: Comparison of simulation and hardware results for policies with and without MOR constraints. (a-c) show base pitch angular velocity, pitch rotation,and vertical height (simulation only), respectively. (d)-(e) show knee torque around take-off from policies trained without MOR (simulation) and with MOR (hardware experiment),respectively. Shaded regions indicate MOR violations.

图 5 展示了忽略 MOR 的后果。紫色线代表在没有这些限制的情况下训练的模拟。它在模拟中看起来很棒,但当你查看 (d) 时,你会看到策略指令的扭矩 (实心蓝线) 远高于物理极限 (黑线) 。

当这个“乐观”的策略迁移到真实机器人 (或现实的模拟) 时,电机达到电压上限,扭矩下降。机器人旋转不足并坠毁。而使用 MOR 约束训练的拟议方法 (橙/蓝线) ,学会了一种保持在电机能力安全范围内的策略。

保护变速箱: 传动负载正则化

拼图的最后一块是结构完整性。单腿跳跃机器人具有高减速比以产生力量,但这使得齿轮在对抗“冲击”负载时变得脆弱。

当机器人着陆时,冲击力从足部传递,通过连杆,进入变速箱 (特别是太阳轮) 。在实验早期,团队遇到了灾难性的故障,太阳轮在着陆时断裂。

为了防止这种情况,他们实施了传动负载正则化 (Transmission Load Regularization) 。 他们无法在训练期间直接测量机器人上的齿轮负载,因此他们在模拟中使用接触雅可比矩阵和冲击力进行估算。然后,他们在奖励函数中增加了对高传动负载的惩罚。

Figure 8: Pitch rotation across repeated hardware flip trials. The baseline (without load regularization) failed on the second trial due to sun gear fracture (inset photo); the regularized policy completed eight trials without failure.

这种正则化的影响是直观的。 图 8 展示了存活率。红线 (基线) 显示机器人在第二次试验中因齿轮粉碎而失败 (插图照片) 。蓝线 (拟议方法) 显示在八次试验中持续成功。

Figure 7: External torques on the ankle actuator’s sun gear during landing, for policies trained without vs. with transmission load regularization. (a),(b) are simulated; (c),(d) are estimated from hardware experiments.Time was aligned such that landing starts at O.O2 s in all cases.

图 7 解释了原因。经过正则化训练的策略 (蓝色) 学会了一种着陆策略,显著降低了齿轮上的峰值扭矩尖峰 (对比 cd 中巨大的红色尖峰与受控的蓝色线条) 。机器人学会了更柔和地吸收冲击,可能是通过不同地使用踝关节机构或调整接触时机以在更长的时间窗口内分散力。

结果

通过结合质心角速度奖励 (为了更好的物理表现) 与MOR 建模负载正则化 (为了硬件现实) ,团队实现了一个鲁棒的前空翻。

Figure 1: Snapshots of the first successful deployment of the learned front flip on the real one-leg hopper platform. The policy was trained with a centroidal velocity-based reward and sim-to-real techniques to achieve robust, impact-rich rotation on hardware.

图 1 所示,动作既动态又受控。机器人充分伸展起跳,紧紧团身旋转,并再次伸展以接住落地,而没有震碎其变速箱。

研究人员还证明了这个框架具有泛化能力。他们使用相同的奖励结构教跳跃机器人做滚桶动作和偏航旋转,甚至将该方法迁移到四足机器人 (宇树 Go1) 上学习后空翻。

Figure 16: Additional maneuvers learned by the one-leg hopper using the same reward framework.

Figure 17: A backflip trained on the Unitree Gol quadruped.

结论

这项研究强调了现代机器人技术中一个至关重要的教训: 学习算法不能忽视机器的物理现实。

  1. 物理很重要: 像“快速旋转”这样简单的奖励往往会导致局部最优。理解质心动力学 (动量 vs. 惯量) 使我们能够设计出引导机器人采用物理上更优技术的奖励,比如空中团身。
  2. 硬件是极限: 模拟的质量取决于其保真度。通过对电机的电压限制和齿轮的断裂点进行建模,我们可以训练出不仅性能高性能,而且经久耐用的策略。

对于进入腿足机器人领域的学生和研究人员来说,这篇论文是缩小虚实差距的蓝图。在模拟器中获得高分是不够的;你必须尊重电压限制并保护齿轮。只有这样,你才能真正稳稳落地。