远程临场感 (Telepresence) ——像控制自己的身体一样操作人形机器人——是科幻小说中的经典桥段。我们想象着戴上 VR 头显,几英里外的机器人就能完美模仿我们的动作,穿过房间去拿包裹或进行维修工作。

然而,机器人技术的现实往往比梦想笨拙得多。虽然我们在机器人控制方面取得了巨大进步,但两个顽固的“恶棍”一直困扰着人形机器人的遥操作: 不自然的运动位置漂移

目前大多数系统都采取保守策略。为了防止机器人摔倒,它们将上半身 (手臂) 与下半身 (腿部) 的控制分离开来。这导致了僵硬、机械的动作。更糟糕的是,这些系统通常是“开环”运行的。它们盲目地假设机器人完全按照操作员的指令移动了。实际上,微小的打滑和机械缺陷会不断累积。走了十米之后,操作员可能认为机器人在桌子前面,而机器人实际上已经偏离了两英尺,正在对着空气抓取。

在一篇题为 CLONE: Closed-Loop Whole-Body Humanoid Teleoperation for Long-Horizon Tasks (CLONE: 面向长程任务的闭环全身人形机器人遥操作) 的新论文中,研究人员介绍了一种直面这些问题的系统。通过结合“混合专家” (Mixture-of-Experts) 神经网络与实时激光雷达 (LiDAR) 反馈,他们创建了一个系统,既能实现流畅的全身协调,又能在长距离移动中保持精确的轨迹。

图 1: CLONE 采用基于 MoE 的策略,配合闭环误差校正进行人形机器人遥操作,实现了精确的全身协调和长程任务执行。

核心问题: 协调性与漂移

要理解 CLONE 为何重要,我们首先需要了解它所克服的局限性。

1. 协调性差距 (The Coordination Gap)

人类的运动具有“全身协同性”。当你弯腰捡起一个箱子时,你不仅仅是移动手臂;你会同时弯曲膝盖、转动臀部并倾斜躯干。传统的遥操作通常将这些动作解耦。它在你控制手臂时单独稳定腿部。这使得复杂的动作——比如一边侧身走一边去够门把手——变得极其困难。

2. 漂移问题 (The Drift Problem)

这是长程任务 (long-horizon tasks) 的隐形杀手。在开环系统中,控制器根据人类的位置发送指令,但不会收到关于机器人在此刻世界上实际位置的反馈。

试想一下,闭着眼睛穿过一个足球场,试图走出一条完美的直线。你可能觉得自己走得很直,但在 50 米后,你很可能已经明显偏向了一侧。由于脚部打滑和传感器噪声,机器人也会遇到同样的问题。如果没有校正机制,机器人最终会对其相对于操作员的位置产生“幻觉”。

CLONE 解决方案

研究人员提出了 CLONE , 即闭环全身人形机器人遥操作 (Closed-Loop Whole-Body Humanoid Teleoperation) 。该系统使用极简的设置: 人类操作员佩戴商用混合现实 (MR) 头显 (如 Apple Vision Pro) 。系统仅追踪操作员的头部和双手

仅凭这三个数据点,CLONE 就能生成从行走到蹲伏的全身人形动作,同时确保机器人准确地停留在它应该在的位置。

图 2: 极简输入的全身人形机器人遥操作。我们的方法能够仅使用混合现实输入中的头部和手部姿态,直观地控制人形机器人,生成包括自然行走在内的协调全身动作。

如上图所示,该系统创建了一个反馈回路。它不仅发送指令,还不断测量操作员与机器人之间的误差,并实时进行校正。

架构: 它是如何工作的

CLONE 框架建立在三大支柱之上: 专用数据集、教师-学生 (Teacher-Student) 训练流程和闭环部署策略。

图 3: CLONE 框架。(a) CLONED 整理并增强了重定向的 AMASS 数据。(b) 使用特权信息训练教师策略。(c) 一个 MoE 网络作为学生策略,从教师那里蒸馏知识以仅使用现实世界的观测数据运行。(d) 在实际部署中,我们集成激光雷达里程计,以在遥操作期间实现闭环误差校正。

1. 大脑: 混合专家模型 (Mixture-of-Experts, MoE)

控制人形机器人是一个多目标问题。行走的物理特性与蹲伏或静止站立的物理特性截然不同。标准的神经网络 (通常是多层感知机或 MLP) 试图学习一种适用于所有这些动作的单一策略,这往往导致整体表现平庸。机器人可能走得很好,但在蹲下时却会摔倒。

CLONE 使用了混合专家 (MoE) 架构。想象一下,这是一个专家团队,而不是一个通才。

  • 专家 (The Experts) : 网络包含多个子网络 (“专家”) ,每个子网络都能够专门处理不同类型的运动动力学。
  • 路由 (The Router) : 一个门控网络分析机器人的当前状态和操作员的指令。然后,它为专家分配“权重”,决定哪些专家应该处理当前的时刻。

例如,如果操作员开始蹲下,路由可能会激活“专家 3”和“专家 4”,他们擅长稳定的低重心姿势。如果操作员开始奔跑,“专家 1”可能会接管。

为了确保网络有效地利用所有专家 (而不是仅仅依赖其中一个来处理所有事情) ,研究人员实施了一个平衡损失函数:

平衡损失公式。

该方程确保路由在训练期间将工作负载均匀地分配给各个专家,防止出现只有少数专家被使用的“模型坍塌”现象。

2. 眼睛: 闭环误差校正

这是解决漂移问题的功能。在现实世界中,机器人使用激光雷达里程计 (具体来说是一种称为 FAST-LIO2 的算法) 来了解其精确的全局位置。

同时,操作员的头显也会追踪他们在房间内的全局位置。CLONE 策略不断计算操作员位置机器人位置之间的差异。

机器人不仅是模仿姿态 (身体形状) ,还被训练为最小化这种位置差异。如果机器人向左轻微打滑,激光雷达会检测到相对于操作员的偏差,策略随后会生成脚步调整,使机器人重新同步。

3. 知识: CLONED 数据集

你无法学习你没见过的东西。现有的动作捕捉数据集 (如 AMASS) 虽然对计算机图形学很有用,但往往缺乏机器人所需的特定细节,例如精确的手部朝向或不同类型运动之间的过渡。

研究人员构建了 CLONED 数据集。他们过滤了现有数据的可行性,并辅以专注于机器人任务的自定义动作捕捉会话——特别强调手部朝向和连续过渡 (如从行走进入蹲伏状态) 。

实验结果

研究人员在宇树 (Unitree) G1 人形机器人上验证了 CLONE。结果显示,与传统方法相比有了显著的改进。

消除漂移

在“直线路径”测试中,操作员行走了 8.9 米。在开环系统中,机器人走得越远,误差通常就越大。使用 CLONE,平均追踪误差仅保持在 5.1 厘米

图 4: 真实世界实验中的全局位置追踪精度。CLONE 在长达 8.9 米的距离内实现了 5.1 厘米的平均追踪误差。

上图展示了一致性。无论是在 3 米还是近 9 米处,误差分布都保持紧密且低水平。这种可靠性使得“长程”任务成为可能——你可以自信地让机器人从厨房走到客厅,而不用担心它漂移撞到墙上。

全身多功能性

MoE 架构证明了其处理多样化动作的价值。机器人成功执行了:

  • 挥手: 需要上身灵活性,同时不破坏腿部稳定性。
  • 蹲伏: 由于重心转移,这对于双足机器人来说是一项困难的任务。
  • 跳跃: 一种高动态动作,需要爆发力和精确的落地控制。

图 5: Unitree G1 上的全身动作追踪。CLONE 成功追踪了多种技能,包括 (a) 挥手,(b)(d) 蹲伏,和 (c) 跳跃。

为什么 MoE 很重要: 消融实验

为了证明混合专家架构确实是性能提升的原因,研究人员将 CLONE 与使用标准 MLP 的版本 (标记为 CLONE) 进行了比较。

表 1: CLONED 数据集上的动作追踪评估。CLONE 与消融版本的比较。

如表 1 所示,与 MLP 版本 (CLONE) 和使用旧数据集训练的版本 (CLONE*) 相比,完整的 CLONE 系统在各项指标上的误差都显著更低。

此外,在专门测试深蹲 (低高度) 等困难姿势时,MoE 模型保持了更好的追踪精度,而其他模型则难以维持正确的速度或手部朝向。

图 7: 不同站立高度下的动作追踪性能。CLONE (蓝色实线) 、CLONE * (绿色虚线) 和 CLONE † (红色虚线) 之间的比较。

图 7 突出了一个有趣的权衡: 即便在困难的蹲伏位置,CLONE (蓝线) 也优先考虑局部动作的保真度 (保持正确的身体形状和速度) ,而基准方法随着高度降低 (x 轴向左移动) ,表现明显更加吃力。

窥探“大脑”内部

研究人员还可视化了特定专家何时被激活。

图 A2: 每位专家的激活状态。

上面的热力图证实了“专家”理论。请注意激活模式如何根据行 (动作) 发生变化。“蹲伏” (Squat) 和“蹲走” (Crouchwalk) 强烈激活特定的专家,而“站立” (Stand) 则激活另一组。这种专业化使得机器人能够根据操作员的意图瞬间切换动力学策略。

结论与未来展望

CLONE 代表了让人形机器人遥操作走向实用化的重要一步。通过从开环控制转向基于激光雷达数据的闭环系统,它解决了关键的位置漂移问题。同时,混合专家架构使机器人能够处理不同人类动作之间复杂、冲突的动力学,而不至于摔倒。

虽然仍存在局限性——像跳跃这样的高动态动作仍然不如简单的行走稳定,且输入仅限于头部和双手——但这项研究弥合了操作员与化身之间的差距。它让我们离未来更近了一步: 在那个未来,在危险环境中操作机器人将像自己在房间里行走一样自然可靠。