简介

在生物界,适应即生存。刚出生的小牛在几分钟内就能学会走路;一条腿受伤的狗会本能地调整重心,用三条腿继续奔跑。人类可以在沙地、冰面或踩着高跷行走,根据感官反馈实时调整运动控制。

然而,在机器人领域,这种灵活性在很长一段时间里都只是遥不可及的梦想。传统的运动控制器是脆弱的“专才”。一个为四足机器人 (机器狗) 调优的控制器,如果部署到双足机器人上,瞬间就会失效。更糟糕的是,如果机器人的电机烧毁或肢体受损,预编程的控制策略通常会发生灾难性的故障,因为机器人的物理现实已经不再符合其内部模型。

但是,如果我们能构建一个“通才”大脑——一个能够控制任何机器人身体,甚至是它从未见过的身体的人工智能模型,那会怎样?

这就是 LocoFormer 的承诺,它是 Skild AI 研究人员提出的一个突破性模型。正如他们在论文中所详述的,LocoFormer 摒弃了“一种机器人,一种策略”的范式。相反,它利用庞大的 Transformer 架构,能够根据环境动态地适应不同的身体和环境条件。

LocoFormer 展示了对各种现实世界机器人的零样本迁移能力,并能适应未见过的条件。

如上图 1 所示,LocoFormer 可以控制轮式机器人、四足机器人和人形机器人。最令人印象深刻的是,它展现出了涌现出的适应性行为 (emergent adaptation behaviors) : 如果机器人失去了一条腿或被迫踩高跷行走,LocoFormer 会分析传感器历史数据,意识到动力学特性发生了变化,并实时改变其控制策略——所有这些都不需要重新训练。

在这篇文章中,我们将拆解 LocoFormer 的架构,解释为什么“上下文”是机器人适应能力的关键要素,并分析这种向控制基础模型转变所带来的成果。

背景: “短视”控制的问题

要理解 LocoFormer 为何是一次巨大的飞跃,我们首先需要了解当前机器人强化学习 (RL) 方法的局限性。

通常,当工程师训练机器人行走时,他们使用的是“本体感知” (proprioceptive) 历史数据。机器人只查看过去很短一段时间内的关节和传感器状态——通常是最后几百毫秒。我们称这些策略为短视的 (myopic) 。

短视策略非常适合即时反应。如果机器人绊倒了,策略会看到速度的突然变化并进行修正。然而,几百毫秒的时间不足以理解动力学的复杂变化。如果机器人走在湿滑的表面上或拖着重物,短暂的历史数据看起来就像是噪声。机器人无法区分“我绊倒了”和“我的身体发生了根本性的变化”。

由于这些标准策略无法进行深度适应,工程师必须在训练期间“预置”机器人的形态 (身体形状) 和动力学参数。这导致了僵化、专用的控制器。

LocoFormer 的作者从大语言模型 (LLMs) 中汲取了灵感。像 GPT-4 这样的 LLM 并不是为某一次特定的对话而训练的。它们是在互联网规模的数据上训练的,并利用长上下文窗口来理解提示词的细微差别。研究人员假设,如果机器人控制器能够访问更长的传感器数据历史——跨越数秒甚至多次尝试——它就可以执行上下文学习 (in-context learning) 。它可以观察数据流并推断出: “根据我的电机响应情况,我现在的负重肯定很重,”或者“我好像少了一条腿,”并据此进行调整。

LocoFormer 方法

LocoFormer 结合了三个关键要素来实现通才控制: 统一的输入空间、大规模程序化训练以及用于长期记忆的 Transformer-XL 架构。

1. 程序化生成: 在“假”机器人上训练

如果你想要一个通才机器人,你不能只在一种或两种身体类型上训练它。你需要一个包含巨大物理多样性的数据集。由于制造数千个实体机器人是不可能的,研究人员转向了仿真。

他们创建了一个庞大的程序化生成机器人数据集。他们没有针对特定的“Unitree Go2”或“Boston Dynamics Spot”进行训练,而是编写代码来生成随机的机器人身体。

用于训练的程序化生成机器人示例。

如图 6 所示,这些生成的机器人千差万别:

  • 形态: 双足、四足、轮腿混合式。
  • 运动学: 不同的肢体长度、关节排列和身体质量。
  • 动力学: 随机的摩擦力、电机强度和传感器噪声。

通过在这个混乱、随机的“假”机器人集合上进行训练,模型被迫学习运动的一般原理,而不是死记硬背特定身体的特定步态。它学会了如何去学习它当前所栖息的身体。

2. 统一关节空间

通才学习的一个主要挑战是,不同的机器人拥有不同数量的电机 (自由度) 。人形机器人可能有 20 个电机;简单的四足机器人可能有 12 个。神经网络通常需要固定的输入大小。

LocoFormer 通过定义一个统一关节空间 (Unified Joint Space) 解决了这个问题。他们创建了一个涵盖大多数机器人中发现的最大关节数量的“超集”输入。

  • 如果机器人的关节少于超集,多余的输入将用零填充。
  • 策略输出这个超集的目标位置。
  • 机器人只执行与其无关实际关节相关的指令。

这使得单个神经网络权重文件可以处理来自轮式机器人和人形机器人的数据,而无需任何架构更改。

3. 架构: Transformer-XL

LocoFormer 的核心是它的大脑。标准 Transformer (如原始 GPT) 在序列长度上的扩展性较差——计算成本呈二次方增长。如果你希望机器人以 50Hz 的频率记住过去 10 秒的数据 (500 步) ,标准 Transformer 对于实时控制来说太慢了。

作者利用了 Transformer-XL (TXL) 架构。TXL 引入了一种循环机制,允许模型在不重新计算的情况下关注当前处理批次之外的历史。

展示 Transformer-XL 架构如何实现长上下文适应的图解。

图 3 可视化了这种段级循环:

  1. 分段: 输入历史被分解为固定长度的段。
  2. 缓存: 在处理段 3 (当前时刻) 时,模型使用段 2 (紧邻的过去) 的隐藏状态作为“记忆”。
  3. 停止梯度 (蓝线) : 至关重要的是,模型通过缓存的记忆反向传播梯度。这在训练期间节省了大量的内存和计算资源。
  4. 扩展感受野 (绿线) : 通过堆叠多层,有效的“上下文长度”增加了。更深的网络可以通过缓存状态“看到”更久远的过去。

这种循环的数学公式如下所示:

描述 Transformer-XL 中隐藏状态更新的公式。

这里,\(\mathbf{h}_z^{n-1}\) 代表上一段的隐藏状态。运算符 SG 代表停止梯度 (Stop-Gradient) 。当前层关注的是缓存的过去和当前输入的拼接。这使得 LocoFormer 能够保持长达 18 秒的记忆 (假设是一个 6 层网络和特定的段长度) 。这比标准控制器使用的约 0.5 秒长了几个数量级。

4. 多回合学习

适应性不仅仅发生在单次行走中。研究人员构建了支持跨回合适应 (adaptation across trials) 的训练结构。

在这种设置中,“回合” (Trial) 是一次到达目标的尝试。“剧集” (Episode) 由多个回合组成。如果机器人摔倒 (回合失败) ,记忆缓存不会被擦除。隐藏状态会持续到下一个回合。

用于最大化多回合奖励的目标函数。

这个目标函数 (公式 1) 驱动机器人最大化整个回合序列的累积奖励 (\(\sum_{i=1}^{k}\)) 。变量 \(H_{i-1}\) 代表之前回合的历史。这激励机器人“记住”它在第 1 回合为什么摔倒,并调整第 2 回合的策略。这模仿了人类如何在冰面上滑倒后,站起来并立即采取更谨慎步态的过程。

实验结果

研究人员在仿真 (Sim) 和现实世界 (Real) 中评估了 LocoFormer,特别关注分布外 (OOD) 性能——它在训练期间从未见过的机器人和情况下的表现如何?

仿真基准测试

LocoFormer 与三个基准进行了对比:

  1. GRU: 基于循环神经网络的策略 (较旧的架构) 。
  2. Conditioning (条件化) : 接收有关机器人物理特性的显式信息的 Transformer (从某种意义上说是作弊,因为 LocoFormer 无法获得这些信息) 。
  3. Expert Policy (专家策略) : 专门为该特定机器人训练的策略 (理论上限) 。

LocoFormer 与基准方法在未见过的机器人上的比较。

表 1 揭示了结果。平均而言,LocoFormer (零样本) 获得了 0.96 的归一化分数,非常接近专家策略的 0.99 。 它显著优于 GRU (0.37) ,证明了 Transformer 架构是必不可少的。

更有趣的是看 Few-shot (少样本) 这一行。这代表给机器人 5 秒钟的时间四处跑动并在测试前进行适应。性能跃升至 0.98 , 表明机器人与世界互动的时间越长,它就越了解自己的身体。

适应时间的力量

更长的记忆真的有帮助吗?研究人员通过“加倍”域随机化 (使物理环境比训练时更严酷/更狂野) 并测量成功率来测试这一点。

图表显示随着适应窗口的增加,生存时间有所提高。

图 4(a) 显示了一个明显的趋势: 随着适应时间 (x 轴) 从 0 增加到 5 秒,所有类型的机器人 (双足、四足、轮式) 的生存时间都在增加。

图 4(b) 提供了一个迷人的“透视”视角。它可视化了策略的内部神经激活。在 \(t=0s\) 时,不同机器人的表征聚集在一起 (大脑感到困惑) 。到了 \(t=5s\),出现了明显的聚类。模型仅仅通过感知电机对指令的响应,就在内部“识别”出了它是 Unitree H1 还是 Fourier GR1。

图表显示与短视策略相比,延长适应时间带来的性能提升。

图 2 进一步证实了这一点。与标准的短视策略 (瞬间趋于平缓) 不同,LocoFormer 随着收集更多的历史数据 (长达数秒) ,继续提高其奖励获取能力。

现实世界的涌现能力

这篇论文最引人注目的部分是现实世界的部署。研究人员使用了一个标准的 Unitree Go2 机器人,并对其进行了“极限测试”,看看 LocoFormer 是否能适应。

重要提示: 模型没有在“缺腿机器人”或“踩高跷机器人”上进行训练。它只在程序化随机机器人上进行了训练。

现实世界的适应性实验: 锁定肢体、增加负重、高跷和损伤恢复。

图 5 展示了这些涌现出的行为:

  • A (腿部锁定) : 研究人员锁定了一个膝关节,实际上将四足机器人变成了三脚架。标准控制器会翻倒。LocoFormer 踉跄了一下,意识到那条腿动不了,于是转移重心,用剩下的三条腿保持平衡。
  • C (车轮锁定) : 在轮式机器人上,他们锁定了车轮。机器人意识到无法滚动,自发地切换到行走步态,像抬脚一样抬起锁定的车轮。
  • D (高跷) : 他们在机器人上安装了木制高跷。这彻底改变了重心和肢体长度。LocoFormer 调整了步幅时机,以补偿更长的“腿”。
  • F (截肢) : 在一项极端的测试中,他们完全拆除了小腿。经过约 8 秒的挣扎,机器人学会了用“膝盖” (大腿) 行走。

跨回合适应

最后,在仿真中对一个高度不稳定的机器人 (TRON1) 测试了多剧集能力。

连续帧显示机器人在四次尝试中稳定性不断提高。

在图 8 中,我们看到机器人在第 1 回合失败 (翻倒) 。它重置了。在第 2 回合,它坚持了更长时间。到了第 4 回合,它已经综合了之前尝试的失败数据,形成了一种稳定的步态。这种“从失败中学习”是智能系统的标志,在标准的底层控制策略中很少见到。

局限性与计算成本

虽然 LocoFormer 令人印象深刻,但它是有代价的。训练通才基础模型所需的计算量明显多于训练专才模型。

训练计算量与性能的分析。

图 9 强调了这种权衡。为了获得最佳性能 (达到高奖励的蓝/橙曲线) ,你需要大量的计算资源 (64-128 个 GPU) 和一个深层网络 (6 层) 。然而,“摊销”后的成本很低: 一旦训练完成,这一个模型就能替代成千上万个特定控制器。

此外,程序化生成目前是手工制作的。作者指出,未来的版本可以使用生成式 AI 来设计训练机器人,从而确保更广泛地覆盖潜在的物理场景。

结论

LocoFormer 代表了机器人控制的一次范式转变。它让我们从手动调优和特定系统识别的时代,迈向了控制基础模型的时代。

通过结合大规模程序化数据与具备长上下文学习能力的架构 (Transformer-XL) ,Skild AI 创建了一个展现出真正泛化能力的系统。它不仅仅是记忆动作;它理解行动与后果之间的关系。

对于机器人和 AI 的学生来说,LocoFormer 证明了“关于差异性的深刻教训” (Lesson of Bitter Variation) 同样适用于硬件和语言: 如果你希望系统对现实世界具有鲁棒性,不要硬编码规则。相反,要创建一个巨大、多样化的训练沙盒,并赋予模型记忆能力来自己学习规则。结果就是一个即使失去一条腿,也能重新站起来并弄清楚如何继续前进的机器人。