稳住，别洒了：SoFTA 如何教会人形机器人“温柔”行走

想象一下，一位服务员端着放满饮料的托盘穿过一家拥挤的餐厅。他们必须避开障碍物，保持平衡，并应对不平坦的地板。与此同时，他们的手必须保持极度平稳，以防止饮料洒出。这是人类几乎下意识就能完成的协调壮举，但对人形机器人来说，这仍是最困难的挑战之一。

我们已经见过机器人做后空翻、跑酷，甚至随着流行音乐跳舞。但是，如果要求同样的机器人手里端着满满一杯咖啡穿过房间而不洒出一滴，你很可能会看到一地狼藉。

为什么这个简单的任务对机器来说如此困难？归根结底，这是控制动力学中的一个基本冲突。行走是一项高冲击力、有节奏的活动，涉及“大幅度”的动作以保持机器人直立。然而，稳定手部 (末端执行器) 需要快速、微小的调整来抵消振动。当你试图训练单个机器人大脑同时完成这两件事时，信号往往会发生混淆。

在一篇题为 “Hold My Beer: Learning Gentle Humanoid Locomotion and End-Effector Stabilization Control” 的精彩新论文中，卡内基梅隆大学的研究人员介绍了一种名为 SoFTA 的解决方案。通过将机器人的控制系统分解为两个以不同速度运行的独立智能体 (agent) ，他们创造出了一种能够进行“温柔”行走的人形机器人——既能稳健地行走，又能保持双手惊人的平稳。

图 1: 使用 SoFTA 学习温柔的人形机器人行走和末端执行器稳定控制: (A) 在 1m/s 大步走期间端着饮料。(B) 机器人原地踏步时的液面。(C) 长曝光照片显示机器人拿着荧光棒向前行走。(D) 即使在受到猛烈推搡后，SoFTA 也能防止饮料洒出。

问题所在: 震动与绊倒

要理解为什么 SoFTA 是必要的，我们首先需要看看今天的人形机器人通常是如何被控制的。大多数现代系统使用深度强化学习 (Deep Reinforcement Learning, RL)。在这种设置中，一个神经网络 (策略) 观察机器人的状态，并同时输出身体所有关节——从脚踝到手腕——的电机指令。

这种“全身”方法在稳健行走方面非常成功。然而，它在精细的稳定化方面表现挣扎，主要有两个原因:

1. 任务目标的错位

行走和操纵有着相反的目标。为了行走，机器人需要是动态的；它必须转移质心并吸收来自地面的冲击。这自然会在全身产生噪音和振动。相反，末端执行器 (EE) 稳定化需要一个静态、无振动的基座。当单个控制器试图同时针对两者进行优化时，它通常会陷入“拔河”僵局。如果它优先考虑行走，手就会抖动。如果它优先考虑手部平稳，机器人可能会变得僵硬或行走过于谨慎，从而面临跌倒的风险。

2. 动力学的错位

这可能是一个更微妙但也更关键的问题。人形机器人的腿和手臂在不同的物理时间尺度上运作:

行走是“慢”的: 行走受步态周期支配——每秒发生几次的脚步。物理过程涉及离散的接触事件 (撞击地面) 和动量管理。这里的控制需要的是稳健性，而不是过度反应。
稳定化是“快”的: 为了在身体颠簸时保持杯子平稳，手臂关节需要立即进行调整。这需要高频控制，以便在检测到加速度的那一刻抵消它。

标准控制器通常以单一的固定频率运行 (例如 50 Hz) 。如果这个频率太低，手臂就太慢而无法稳定杯子。如果太高，腿部就会变得抖动并对传感器噪声敏感，导致机器人摔倒。

解决方案: SoFTA (快慢双智能体框架)

研究人员提出将单一的“大脑”分解为两个专门的智能体，他们称这种方法为 SoFTA 。他们没有使用一个策略来控制一切，而是将上半身与下半身解耦。

图 2: SoFTA 框架概览: 该框架采用两个不同的智能体，它们共享相同的观察结果，但在不同的频率下在独立动作空间内行动，针对两个根本不同的任务: 稳定的末端执行器控制和稳健的行走。稳定的末端执行器控制需要清晰的奖励机制和快速的上半身动作以进行精确操纵，而稳健的行走则专注于在步态奖励下保持稳健性。

如上面的架构概览所示，该框架包含两个关键创新: 频率解耦和奖励分离 。

频率拆分: 慢腿，快手

SoFTA 的核心洞察在于，你不需要以相同的速度控制整个机器人。研究人员为不同的智能体分配了不同的控制频率:

下半身智能体 (50 Hz): 该智能体控制腿部和腰部。它以标准的“慢”频率运行。这对行走来说是理想的，因为它使策略对“仿真到现实 (sim-to-real)”的差距 (物理模拟与现实世界之间的差异) 不那么敏感。较慢的频率几乎起到了低通滤波器的作用，忽略高频传感器噪声，专注于更广泛的步态周期。
上半身智能体 (100 Hz): 该智能体控制手臂。它的运行速度是下半身的两倍。这种高频率使手臂能够对脚步引起的振动立即做出反应。它赋予上半身所需的“反射神经”，以执行主动阻尼和稳定化。

至关重要的是，虽然它们独立行动，但它们共享相同的观察结果 。上半身知道腿在做什么，下半身知道手需要在哪里。这使得它们能够在不干扰彼此主要指令的情况下进行协调。

奖励分离: 解决信用分配问题

在强化学习中，“奖励”告诉机器人什么时候它做得很好。在全身系统中，奖励是一个总结一切的单一数字: “你走得快吗？你没摔倒吗？你保持杯子水平了吗？”

这这就产生了一个信用分配问题 。如果机器人把水洒了，是因为腿迈错了一步，还是因为肘部补偿不够？神经网络很难弄清楚这一点。

SoFTA 解耦了奖励:

下半身奖励: 纯粹关注稳健行走、步态跟踪和平衡。
上半身奖励: 专注于最小化末端执行器的加速度并保持手部水平 (最小化倾斜) 。

通过分离反馈，每个智能体都能更快地学习其特定角色。腿部学会成为坚固的移动基座，而手臂学会成为主动稳定器。

图 3: 训练期间 EE 项和行走项的奖励曲线。

上图突显了这一成功。在标准的全身 RL (蓝线) 中，机器人很难平衡相互冲突的目标。当它试图改善稳定化时，行走性能就会下降，反之亦然。在 SoFTA (绿线) 中，智能体协同学习。这种分离使得机器人能够同时实现高性能的行走和高稳定性的控制。

涌现行为: 主动补偿

这个框架在视觉上最有趣的结果之一是自然涌现的行为。机器人不仅仅是僵硬地举着手臂；它在主动抵消运动。

如果你看下面的数据轨迹，你可以看到“补偿行为”。当机器人的基座加速时 (由于行走或被推搡) ，手臂关节 (特别是手腕翻滚关节) 会以完全相反的模式移动以抵消这种力。

图 4: 涌现出的补偿行为。

这类似于云台相机稳定器的工作原理，或者鸡在身体移动时保持头部完全静止的方式。100 Hz 的上半身策略足够快，可以“感觉”到脚步冲击的开始，并在冲击波到达杯子之前调整手臂轨迹。

仿真与现实世界结果

理论听起来很扎实，但在硬件上行得通吗？研究人员在仿真环境 (Isaac Gym) 和真实机器人 (Unitree G1 和 Booster T1) 上广泛测试了 SoFTA。

击败基线

在仿真中，SoFTA 与两个常见基线进行了比较:

下半身 RL + 逆运动学 (IK): 腿部使用 AI，但手臂使用标准数学计算 (IK)。
全身 RL: 单个神经网络控制一切 (标准方法) 。

表 1: 仿真结果: 在 Isaac Gym 中对各种任务的 EE 稳定性进行评估。SoFTA 在大多数指标上始终优于基线，表现出卓越的 EE 稳定性。

上表显示了明显的胜利。与基线相比，SoFTA 显著降低了末端执行器的加速度 (抖动) 。值得注意的是，它在“推搡 (Push)”场景中表现出色——即机器人被意外推搡的情况。因为上半身以 100 Hz 运行，它可以比 50 Hz 的全身控制器更快地对推搡做出反应并稳定手部。

现实世界的“泼洒测试”

这篇论文的终极测试当然是运送液体。研究人员为 Unitree G1 人形机器人配备了装有水和有色液体的杯子，以便直观地观察稳定性。

图 5: 上图: 人形机器人在踏步时拿着一瓶水而不洒出。下图: 具有 EE 稳定性的人形机器人抗干扰能力。

在上面的图像中，我们可以看到差异。使用 SoFTA (标记为 “with our Stabilization Control”) ，即使机器人在踏步或行走，液面也保持平静。没有它，液体会剧烈晃动。

在一个特别令人印象深刻的演示中，研究人员猛烈地推了机器人一把。下半身 (以 50 Hz 运行) 踉跄了一下，但在摔倒前恢复了平衡。与此同时，上半身 (以 100 Hz 运行) 迅速将手臂甩到反向位置以保持杯子直立。这种解耦的反应能力是双智能体设计独有的。

人形摄像师

稳定性不仅仅是为了端饮料。对于需要使用安装在手腕上的相机或传感器执行任务的机器人来说，这同样至关重要。如果机器人正在检查设施，抖动的视频对计算机视觉算法来说是毫无用处的。

图 6: 人形机器人作为相机稳定器录制视频。

研究人员将一台相机安装在机器人的手上，让它绕圈行走。由 SoFTA 控制的机器人拍摄的画面非常平滑，有效地将机器人的手臂变成了斯坦尼康 (Steadicam)。基线方法导致画面抖动，无法使用。

为什么频率很重要: 深入探讨

你可能会问: “为什么不直接让整个机器人以 100 Hz 运行？那样不是更好吗？”

研究人员专门对此进行了调查。结果表明，对于行走而言，当从仿真转移到现实时，慢一点往往更好。现实世界的传感器有噪声，真实的电机有延迟。腿部的高频策略往往会对传感器噪声反应过度，导致“颤抖”或不稳定。

图 7: 仿真和现实世界中不同控制频率下的最大加速度: 较高的值反映稳定性降低。N/A 表示现实世界测试中不稳定或失败的试验。

这个热图 (图 7) 讲述了这个故事。X 轴代表上半身频率，Y 轴代表下半身频率。

蓝色区域 (低加速度/高稳定性) : 聚集在下半身 50 Hz 且上半身 100 Hz 的位置。
红色区域 (高加速度/不稳定性) : 当下半身试图以 100 Hz 运行 (太敏感) 或上半身以 33 Hz 运行 (太迟钝) 时出现。

这验证了 SoFTA 的核心前提: 腿部的最佳控制频率与手臂的最佳控制频率是不同的。

图 9: 上半身控制频率对 EE 稳定性的影响。上图: 不同上半身频率下的 EE 速度 (m/s) 恢复情况。下图: 100 Hz 与 50 Hz 的响应比较

进一步的分析 (图 9) 显示了恢复时间。红线 (100 Hz 上半身) 比蓝线 (50 Hz) 更快地从干扰中恢复。这一瞬间的差异正是防止液体溢出杯沿的关键。

跨具身性: 它适用于其他机器人吗？

最后，为了证明这不仅仅是针对特定机器人优化的侥幸，团队将 SoFTA 应用于完全不同的人形机器人 Booster T1 。该机器人的肢体比例和质量分布均不相同。

图 8: Booster T1 上的真实世界结果。右手拿着可乐是由我们的稳定控制器控制的。

使用完全相同的框架——腿部 50 Hz，手臂 100 Hz，以及分离的奖励——Booster T1 成功完成了“运送可乐”测试。这表明 SoFTA 的原则 (频率和目标解耦) 是人形机器人控制的基础，并不局限于单一的硬件平台。

结论与未来展望

“Hold My Beer” 这篇论文代表了让形机器人在人类环境中真正发挥作用的重要一步。虽然行走是一个已解决的问题，但温柔行走——允许精细交互的移动——是新的前沿。

通过认识到身体的不同部位有不同的“工作”，因此需要不同的“速度”，SoFTA 架起了稳健生存 (不摔倒) 和精确交互 (不洒出) 之间的桥梁。

当然仍有局限性。论文指出，虽然 SoFTA 比基线好得多，但仍未达到人类的能力水平。人类使用机器人目前缺乏的复杂预测模型和软组织阻尼。此外，完全解耦上半身和下半身在需要动态全身投掷或举重等全身必须作为一个单元行动的任务中可能是一个劣势。

然而，对于服务机器人的日常任务——端托盘、拿手电筒或递工具——SoFTA 证明了，有些时候，最好的合作方式是让腿做腿的事，让手做手的事。

问题所在: 震动与绊倒#

1. 任务目标的错位#

2. 动力学的错位#

解决方案: SoFTA (快慢双智能体框架)#

频率拆分: 慢腿，快手#

奖励分离: 解决信用分配问题#

涌现行为: 主动补偿#

仿真与现实世界结果#

击败基线#

现实世界的“泼洒测试”#

人形摄像师#

为什么频率很重要: 深入探讨#

跨具身性: 它适用于其他机器人吗？#

结论与未来展望#