简介
想象一下,你正提着两个沉重的购物袋进屋。你走近门口,单腿保持平衡,用另一只脚推开门。对你来说,这个动作微不足道。但对于人形机器人来说,这是物理、平衡和协调的噩梦。
人类拥有一种与生俱来的能力,能够以同步的、“全身”的方式将移动 (locomotion) 与操作 (manipulation,使用双手) 结合起来。我们会蹲下拿床底下的东西,会弓步接住物体,会调整站姿投球。为了让人形机器人真正能够在我们家中发挥作用,它们需要具备同样水平的多功能性。
然而,弥合人类运动与机器人控制之间的鸿沟极其困难。大多数当前的遥操作 (teleoperation) 系统将机器人的上半身和下半身分开处理——用操纵杆驱动双腿,用 VR 手柄移动手臂。这种解耦使得复杂的协调动作成为不可能。
这就引出了 TWIST (Teleoperated Whole-Body Imitation System,全身遥操作模仿系统) 。 由斯坦福大学和西蒙菲莎大学的研究人员开发的 TWIST 引入了一种统一的方法,允许人形机器人实时模仿人类操作员的全身动作。通过使用单一的神经网络控制器,TWIST 使机器人能够执行以前无法完成的动作,从蹲下搬运箱子到跳华尔兹。

在这篇文章中,我们将解构 TWIST 的工作原理、使其具有鲁棒性的创新训练流程,以及表明我们距离通用机器人化身更近一步的成果。
挑战: 具身差距 (Embodiment Gap)
在深入解决方案之前,我们必须理解问题所在。遥操作人形机器人并不像将人类关节映射到机器人关节那样简单。这是因为存在具身差距 (Embodiment Gap) 。
- 运动学差异: 机器人和人类拥有不同的肢体长度、关节限制和自由度。
- 动力学: 人类有肌肉和肌腱;机器人有电机和齿轮。平衡人体所需的物理原理与平衡刚性机器人框架所需的物理原理不同。
- 数据质量: 离线人类运动数据 (如动画数据集) 是干净且平滑的。实时遥操作数据往往充满噪声、抖动,并且存在延迟。
以前的尝试通常使用“模块化”控制器——一种算法用于站立,另一种用于行走,还有一种单独用于移动手臂。虽然稳定,但这些系统缺乏执行上下半身必须协同工作的任务的流畅性,例如利用腿部发力投掷物体。
TWIST 方法论
TWIST 将其视为一个实时运动追踪问题 。 目标是接收人类动作流,将其重定向到机器人的身体上,并让控制器立即执行,且不会摔倒。
该系统建立在三个支柱或阶段之上,如下图所示:

阶段 1: 策展“燃料” (运动数据)
深度学习模型渴望数据。为了训练一个懂得如何像人类一样移动的控制器,研究人员编译了一个庞大的数据集。
他们从公开数据集 (AMASS 和 OMOMO) 中的超过 15,000 个动作片段开始,代表了大约 42 小时的人类运动。然而,仅仅使用这些干净的数据是不够的。现实世界的遥操作涉及“在线”重定向——即时将人类运动转换为机器人运动——这会引入噪声和不自然的伪影。
为了让机器人准备好应对现实世界的混乱,团队使用其实际的遥操作设置收集了一个小型的“内部”数据集 (150 个片段) 。然后,他们将所有这些数据重定向到人形机器人结构上。
重定向创新: 标准的在线重定向通常只关注关节方向 (角度) 。研究人员发现这对于精细任务来说不够精确。他们增强了在线重定向器,以联合优化3D 关节位置和方向 。 这确保了如果人类操作员将手放在空间中的特定点,机器人会尝试匹配该笛卡尔位置,而不仅仅是肘部角度。
阶段 2: 训练统一控制器
这是 TWIST 系统的核心。你如何教机器人在基于噪声输入流的情况下保持平衡并移动?研究人员利用仿真环境 (Isaac Gym) 来训练神经网络策略。
他们在这种背景下发现了标准强化学习 (RL) 的一个关键问题。如果策略只能看到动作的当前帧,它往往会犹豫不决且抖动,因为它无法预测下一步动作。这会导致“滑步 (foot sliding) ”和不稳定。
为了解决这个问题,他们实施了一个教师-学生框架 (Teacher-Student Framework) :
- 特权教师 (\(\pi_{tea}\)): 该策略使用“特权信息”进行训练。它可以看到未来——具体来说,是未来 2 秒的参考动作。知道人类要去哪里,使得教师能够规划平滑、平衡的动作。
- 可部署学生 (\(\pi_{stu}\)): 在现实世界中,我们无法看到未来。学生策略只能看到当前状态 (本体感觉) 和当前目标姿态。
训练目标结合了强化学习 (RL) 与行为克隆 (BC) 。 学生试图最大化其物理奖励 (保持直立、追踪目标) ,同时试图最小化其动作与教师动作之间的差异。
学生策略的损失函数定义为:
\[ \begin{array} { r } { L ( \pi _ { \mathrm { s t u } } ) = L _ { \mathrm { R L } } ( \pi _ { \mathrm { s t u } } ) + \lambda D _ { \mathrm { K L } } ( \pi _ { \mathrm { s t u } } \parallel \pi _ { \mathrm { t e a } } ) , } \end{array} \]
这里,\(L_{RL}\) 是标准的强化学习损失,而 \(D_{KL}\) 代表学生策略和教师策略之间的散度。这种混合方法确保学生从 RL 中学习稳健的恢复策略,同时通过 BC 获得教师的平滑性和类似前瞻的品质。
奖励塑造: 为了指导 RL 组件,系统使用了一套特定的奖励和惩罚。

如表 1 所示,系统大力奖励追踪准确性 (根速度和关键身体部位位置) ,但对危险行为 (如脚部打滑或不稳定的关节速度) 实施惩罚。
阶段 3: 现实世界部署
一旦学生策略在仿真中训练完成,它就会被“零样本 (zero-shot) ”部署到真实的机器人上。这意味着无需在物理硬件上进行进一步训练——这证明了仿真的质量。
现实世界的流程以两个频率运行:
- 50Hz: 动捕系统捕捉人类动作,重定向动作,神经网络推断目标关节角度。
- 1000Hz: 机器人上的低级 PD (比例-微分) 控制器接收这些目标角度并驱动电机执行动作。
为了确保仿真与现实相符,团队在训练期间应用了广泛的域随机化 (Domain Randomization) , 改变摩擦力、电机强度和机器人质量等参数,使策略对物理不一致性具有鲁棒性。

实验结果
TWIST 系统在 Unitree G1 (一种中型人形机器人) 和 Booster T1 上进行了测试。结果展示了在基于学习的控制器中罕见的协调水平。
1. 多功能性与协调性
单一控制器成功处理了截然不同的任务,无需切换模式。

如图 2 所示,机器人成功执行了:
- 全身操作: 蹲下捡起箱子 (需要腿部平衡的同时手臂伸出) 。
- 腿部操作: 踢足球 (需要单脚站立平衡的同时摆动另一只脚) 。
- 移动: 侧身行走和倒退行走。
- 表达性动作: 模仿华尔兹舞蹈和拳击动作。
2. 对不同机器人的泛化能力
这种基于学习的方法的优势之一是它并非硬编码于特定机器人的运动学。通过调整重定向并在仿真中重新训练策略,TWIST 成功应用于 Booster T1 机器人。
![图 4: Booster T1 sim2sim 结果。全身控制器在 IsaacGym [40] 中训练并在 MuJoCo [45] 中评估。追踪目标是从训练数据中采样的。](/en/paper/2505.02833/images/007.jpg#center)
3. 为什么选择 RL + BC? (消融研究)
研究人员将他们的方法与纯强化学习 (RL) 和纯行为克隆 (DAgger) 进行了比较。

图 6 中的数据揭示了为什么混合方法更优越。纯 RL (灰线) 导致显著的“滑步”——机器人会不自然地拖着脚走,因为它是在利用物理引擎的漏洞来保持平衡,而不是正确地行走。纯 DAgger (粉线) 在未见过的动作上难以保持稳定。RL+BC 方法 (青线) 在低追踪误差和物理稳定性之间提供了最佳平衡。
4. 鲁棒性与扰动
论文中一个有趣的见解是机器人如何学习施加力。如果机器人只学会模仿位置,当它接触物体时可能会变得无力。为了解决这个问题,训练包括了末端执行器扰动——本质上是在仿真过程中随机推挤机器人的手和脚。

图 7 (左) 显示,如果没有这些扰动 (蓝线) ,机器人在拿着箱子 (一项需要力量的任务) 时会变得不稳定。有了扰动 (红线) ,机器人学会了“支撑”自己并在外部负载下保持稳定。
系统分析与局限性
虽然令人印象深刻,但该系统并非没有缺陷。研究人员对 TWIST 的不足之处进行了透明的分析。
追踪误差: 该系统在躯干和头部最为准确。然而,追踪误差在四肢末端会增加。

如图 8 (右) 所示,脚部表现出最高的追踪误差 (超过 20mm) 。这是意料之中的,因为脚部不断地与地面接触和断开接触,产生了难以完美建模的复杂不连续性。
延迟: 实时遥操作要求很高。测得的系统总延迟约为 0.9 秒。

大部分延迟来自运动生成和重定向流程 (0.7 秒) ,而不是策略推断本身 (0.2 秒) 。虽然 0.9 秒允许有效的控制,但它给操作员带来了一种轻微的“滞后”感,要求他们的动作稍微刻意一些。
可达性与硬件限制: 该系统将硬件推向了绝对极限。在图 9(a) 中,我们看到机器人实现了极限姿态,利用其全部运动范围来触碰脚趾。然而,图 9(b) 凸显了当前人形机器人硬件的现实: 电机过热。

持续的蹲伏或持有重物会产生显著的热量。研究人员指出,机器人在剧烈操作 5-10 分钟后通常需要冷却休息。
结论
TWIST 代表了人形机器人遥操作的一次巨大飞跃。通过将问题表述为全身模仿并使用混合 RL+BC 教师-学生框架来解决,研究人员创建了一个既多功能又稳健的系统。
其意义令人兴奋:
- 统一控制: 我们正从支离破碎的模块化控制器转向处理整个身体动力学的统一神经策略。
- 数据驱动: 混合大型离线数据集与小型、嘈杂的“内部”数据集的成功,为未来的仿真到现实 (sim-to-real) 工作提供了蓝图。
- 复杂交互: 机器人终于开始有效地协调它们的上半身和下半身,这是在人类环境中进行实际工作的先决条件。
尽管在延迟和硬件耐力方面仍面临挑战,但 TWIST 证明,有了正确的数据和训练算法,人形机器人确实可以学会跳舞、踢球,并与我们并肩工作。
](https://deep-paper.org/en/paper/2505.02833/images/cover.png)