引言

想象一下,如果学会骑自行车能让你立刻更擅长踩高跷或滑冰,那会怎样?在生物界,这种技能迁移不断发生;动物会根据不同的地形和身体变化调整它们的运动控制策略。然而,在机器人领域,这仍然是一个遥不可及的梦想。通常情况下,如果你想训练一个四足机器人 (机器狗) 和一个双足人形机器人,你需要两条完全独立的训练流水线。它们的身体不同,电机不同,支配它们运动的物理规律也截然不同。

这种“孤岛式”的方法效率低下。它阻碍了机器人学习运动的通用概念——如平衡、动量和摩擦力——而理论上,无论机器人有多少条腿,这些概念都应该适用。

在一篇题为 “Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion” (Multi-Loco: 通过强化学习增强扩散模型统一多种具身足式运动) 的新论文中,研究人员提出了一个突破性的框架来解决这个问题。他们开发了一个系统,使用单一的、统一的策略来控制四种完全不同类型的机器人: 点足式双足机器人、轮腿式双足机器人、全尺寸人形机器人和四足机器人。

图 1: 强化学习增强的扩散策略在四个平台 (双足、轮腿双足、人形和四足) 上的部署。实验结果表明,该统一策略可以有效地控制机器人在各种类型的不平坦地形上运动,包括草地、斜坡、楼梯和碎石路。

如上图所示,结果令人印象深刻。这个统一的“大脑”不仅能控制所有这些机器人,还能让它们穿越复杂的地形,如碎石、草地和楼梯——其表现往往超过了专门为单一机器人训练的策略。

在这篇深度文章中,我们将探讨 Multi-Loco 如何将 扩散模型 (Diffusion Models) 的生成能力与 强化学习 (Reinforcement Learning, RL) 的精确性相结合,创造出一个“通才”运动控制器。

跨具身学习的挑战

为什么以前没有做到这一点?主要的障碍是 具身不匹配 (embodiment mismatch)

  1. 观测空间 (Observation Space) : 人形机器人拥有许多传感器 (关节角度、IMU) ,产生大量数据流 (例如 68 维) 。而一个简单的双足机器人可能只有 26 维数据。神经网络通常需要固定的输入大小。
  2. 动作空间 (Action Space) : 控制四足机器人涉及向 12 个电机发送指令。人形机器人可能需要 20 个。如何设计一个既适合前者又适合后者的输出层?
  3. 动力学 (Dynamics) : 轮式机器人行驶;足式机器人行走。保持它们直立所需的物理学 (动力学) 原理有着根本的不同。

以前的尝试通常使用复杂的“形态描述符” (告诉机器人“你有 4 条腿”) 或专用的编码器。Multi-Loco 采取了不同的方法: 它首先将运动视为一个生成问题,其次才是一个控制问题。

Multi-Loco 框架

研究人员设计了一个包含三部分的系统来弥合这些不同机器人之间的差距:

  1. 维度对齐 (Dimension Alignment) : 让数据看起来一致。
  2. 扩散先验 (Diffusion Prior) : 一个抽象理解“运动”的生成模型。
  3. 残差策略 (Residual Policy) : 一个用于微调现实世界运动的强化学习层。

让我们逐一解析。

图 2: Multi-Loco 框架概览。多机器人数据集通过零填充和归一化进行预处理,以对齐各具身之间的观测和动作空间。共享扩散模型使用掩码去噪分数匹配进行离线训练。在推理时,扩散模型生成动作先验,然后由通过多评论家 PPO 训练的残差策略进行细化。每个评论家专门针对一种机器人类型,而策略在所有具身之间共享。

1. 维度对齐: 填充的艺术

为了将不同的机器人输入同一个“大脑”,研究人员标准化了输入和输出。他们查看了复杂度 最高 的机器人 (即所有机器人中观测和动作的最大维度) ,并将其作为标准大小。

对于较小的机器人,他们只是简单地用零填充空位——这种技术被称为 零填充 (zero-padding)

显示通过最大值函数进行维度对齐的公式

在这里,\(\bar{\mathcal{O}}\) 和 \(\bar{\mathcal{A}}\) 代表统一的观测和动作空间。如果一个四足机器人有 12 个电机,但统一空间容纳 20 个,系统会创建一个掩码 (\(b\)) 。这个二进制掩码就像一个过滤器,告诉网络: “注意这 12 个值,忽略末尾的 8 个零。” 这个简单但有效的技巧使得单一神经网络架构能够处理来自该集合中任何机器人的数据。

2. 扩散模型: 运动的“基础模型”

Multi-Loco 的核心是一个 扩散模型 。 如果你熟悉 DALL-E 或 Midjourney 等 AI 艺术生成器,你就知道它们通过将随机噪声去噪为连贯图像来工作。Multi-Loco 将同样的原理应用于机器人动作。

该模型生成的不是像素,而是 动作分布

研究人员在从所有四种机器人收集的大量离线轨迹数据集上训练了一个 扩散 Transformer (DiT) 。 该模型学习在给定机器人当前状态下“好动作”的概率分布。因为它同时在所有机器人的数据上进行训练,所以它学习了一种形态不变的运动表示。它开始理解“平衡”需要某些调整,而不管具体的肢体配置如何。

这个“去噪器”网络 (\(D_{\theta}\)) 的架构如下图所示:

图 5: 用于拟合去噪器函数的 DiT 神经网络结构。

掩码去噪分数匹配 (Masked Denoising Score Matching)

标准的扩散训练必须进行调整以处理零填充数据。如果模型试图“去噪”填充的零,它会感到困惑。研究人员引入了 掩码去噪分数匹配

掩码去噪分数匹配的公式

在这个目标函数中,掩码 \(b\) 确保损失仅在 有效 维度 (特定机器人的实际电机) 上计算。模型学会重构活动关节的正确动作,同时忽略填充的“幻影”关节。

3. 残差策略: 用 RL 弥合虚实鸿沟

扩散模型很强大,但在机器人技术中有两个弱点:

  1. 推理速度: 扩散是一个迭代过程 (逐步去噪) ,对于高频机器人控制 (50Hz+) 来说可能太慢。
  2. 精度: 生成模型擅长捕捉运动的“主旨”,但机器人需要精确的电机扭矩来处理特定的地形颠簸或摩擦变化。

为了解决这个问题,Multi-Loco 不仅仅输出扩散结果。相反,它使用扩散输出作为 先验 (prior) (一个初始猜测) ,并添加一个通过强化学习 (PPO) 训练的 残差策略 (Residual Policy)

显示最终动作为先验和残差之和的公式

其中:

  • \(\bar{a}_{\mathrm{prior}}\) 是扩散模型建议的动作。
  • \(\Delta a\) 是由轻量级 RL 策略计算的修正值 (残差) 。

RL 策略快速且反应灵敏。它从扩散模型中获取运动的“总体思路”,并针对当前的确切情况进行微调。这使得系统能够弥合 虚实迁移鸿沟 (Sim-to-Real gap) ——完美的物理模拟与混乱的现实世界之间的差异。

多评论家架构 (Multi-Critic Architecture)

训练这个残差策略很棘手。对于轮式机器人来说的“好”状态,对于双足机器人来说可能是“坏”状态。为了处理这些相互冲突的成功定义,研究人员使用了 多评论家 (Multi-Critic) 方法。

多评论家损失函数的公式

虽然 Actor (演员/策略) (决定如何移动的策略) 在所有机器人之间共享,但 Critics (评论家) (判断动作好坏的网络) 对于每种机器人类型是独立的。这使得共享大脑能够接收专门的反馈: “对于四足机器人来说这是好的一步”对比“对于人形机器人来说这是坏的一步”。

实验与结果

这种统一的方法真的有效吗?研究人员将 Multi-Loco (特别是标记为 CR-DP+RA 的配置: 跨机器人扩散策略 + 残差适应) 与专门为单个机器人训练的标准 RL 基线进行了对比。

结果具有统计学意义。

图 3: 四种机器人形态 (双足、人形、轮式、四足) 在地形穿越任务中的性能对比分析。SR-DP+RA 比 RL 基线平均提高了 10.35%。

如上图 图 3(a) 所示,Multi-Loco 方法 (绿色条) 的表现始终优于或持平于单机器人 RL 基线 (蓝色条) 。

  • 平均回报提升: 总体提升 10.35%。
  • 轮腿式双足机器人提升: 巨大的 13.57% 增益。

图 3(b)(c) 中的视觉效果展示了真实世界的部署。人形机器人 (右上) 正在穿越室内环境,而点足式双足机器人 (右下) 正成功下楼梯——对于这种不稳定的机器人来说,这是一项众所周知的困难任务。

共享技能的涌现

最迷人的发现之一是技能的“交叉互补”。研究人员分析了通常只会滚动的轮腿式双足机器人。然而,在 Multi-Loco 数据集中,人形和四足机器人经常抬起腿来跨越障碍物。

令人惊讶的是, 轮腿式双足机器人学会了抬腿 来穿越粗糙地形,这种行为在它自己的训练数据中并不明显,而是从共享扩散模型中的其他机器人那里“学到”的。

图 4: 轮腿式双足机器人在不同训练设置下的地形穿越性能。CR-DP+RA 显示出比基线更好的适应性。

图 4 中,你可以看到性能曲线。统一策略 (CR-DP+RA,图 b 中的实线橙色线) 比基线 PPO (虚线蓝色线) 学得更快,并且在粗糙斜坡上达到了更高的性能上限。这表明从其他躯体获得的“通用运动知识”帮助轮式机器人解决了它原本无法解决的问题。

数据集构成重要吗?

研究人员进行了消融实验,以观察数据混合比例如何影响性能。他们发现对于轮腿式双足机器人来说,获得 人形机器人数据 至关重要。

图 8: 数据集构成比例对扩散策略训练的影响。

图 8 中,查看“WHEEL”组。红色条代表减少轮式数据时的性能,但紫色条显示了当减少 人形 数据时会发生什么。性能的下降表明,轮式机器人严重依赖从人形数据转移过来的运动学知识来稳定自身。这证实了模型不仅仅是在记忆独立的机器人;它正在综合一种共享的物理理解。

零样本迁移: 终极测试

也许最令人惊讶的结果出现在研究人员在训练集中 没有 的机器人上测试策略时: Unitree Go2 四足机器人。

通常,将策略迁移到新机器人需要“微调” (稍微重新训练权重) 。然而,Multi-Loco 实现了 零样本迁移 (Zero-Shot Transfer)

图 9: 向 Unitree Go2 的零样本迁移

因为系统依赖于理解通用运动动力学的掩码扩散先验,所以它能够立即控制 Go2 机器人,尽管其质量和电机属性与训练用的四足机器人 (Unitree A1) 不同。

下表量化了这种迁移的结果:

表 5: 四足机器人 a1 和 go2 的性能对比

在未见过的 Go2 (第 3 和 4 行) 上的表现仍然非常高,平均回合长度 (MEL) 和速度跟踪 (LVT) 几乎与其受训的机器人 (A1) 相匹配。

结论与启示

“Multi-Loco” 论文代表了脱离多年来主导机器人技术的“一个机器人,一个大脑”范式的重要一步。通过结合 扩散模型 来捕捉“事物如何移动”的广泛、多模态分布,以及 强化学习 来处理现实世界中尖锐、即时的动力学,作者创造了一个鲁棒的、通用的控制器。

主要收获:

  • 统一是可能的: 单一策略可以控制双足、四足和混合型机器人。
  • 扩散促进迁移: 生成模型作为 RL 的优秀先验,稳定了训练并提高了性能。
  • 技能跨躯体迁移: 机器人可以从形态不同的同伴那里学习策略 (如抬腿) 。
  • 掩码有效: 简单的零填充和掩码损失函数足以处理变化的观测/动作维度。

展望未来,像 Multi-Loco 这样的框架预示着通往“机器人基础模型”的道路——这种大型的、预训练的大脑可以下载到任何机器人中,无论其形状如何,使其能够立即行走、奔跑或滚动。


本文基于 Shunpeng Yang 等人的研究论文 “Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement Learning Augmented Diffusion” 撰写。