引言
两千年前,哲学家赫拉克利特有句名言: “人不能两次踏进同一条河流。”在机器人领域,我们面临着一个类似的、严格基于物理现实的问题: 没有智能体能两次使用完全相同的身体行动。
设想一个部署在现实世界中的机器人。随着时间的推移,它的电机老化,关节松动,甚至肢体可能会受损。即使是刚出厂的同一型号机器人,也存在细微的制造差异。如果我们想构建真正的通用机器人——即不仅能操作一台特定的机器,而是能适应任何物理形态的智能体——我们面临着巨大的障碍。目前深度学习的成功案例,如大型语言模型 (LLMs) ,是通过扩大数据和模型规模而蓬勃发展的。但在机器人技术中,我们拥有第三个尚未被充分探索的维度: 具身 (Embodiment) 。
研究论文 Towards Embodiment Scaling Laws in Robot Locomotion (迈向机器人运动的具身扩展定律) 攻克了这一前沿课题。研究人员假设,就像阅读更多文本能让 LLM 更聪明一样,在更多种类的物理身体 (形态) 上进行训练,能使机器人控制器的鲁棒性更强,并有能力泛化到完全未见过的机器人上。
为了验证这一点,他们通过程序化生成了超过 1,000 种不同的机器人“蓝图”,并训练了一个单一的神经网络来控制所有这些机器人。结果如何?他们得到了一个单一的“大脑”,可以控制模拟的人形机器人、四足机器人和六足机器人,而且——令人瞩目的是——能够开箱即用地控制它从未见过的现实世界机器人。
背景: 跨具身挑战
要理解这篇论文的重要性,我们必须了解如今机器人通常是如何训练的。通常情况下,如果你有一台宇树 (Unitree) Go2 四足机器人,你会针对该机器人的特定骨架、质量分布和电机限制来训练一个特定的策略。如果你试图在人形机器人上运行该软件,它会立即失败。因为输入 (状态空间) 和输出 (动作空间) 完全不同。
跨具身学习 (Cross-Embodiment learning) 旨在解决这个问题。其目标是创建一个单一的策略,能够观察机器人的描述并弄清楚如何移动它。
扩展定律
在计算机视觉和自然语言处理 (NLP) 中,我们观察到了“扩展定律”: 随着训练数据量和神经网络规模的增加,性能会以可预测的方式提升。这篇论文提出了一个问题: 是否存在具身扩展定律?
假设很简单: 增加训练具身 (形态) 的数量应该能提高策略泛化到未见具身的能力。如果这是真的,它为“通用机器人控制器”指明了一条道路。
方法: 一个策略,众多机器人
验证这一假设需要海量的数据。你不可能直接去买 1,000 种不同类型的机器人;它们不存在那么大的数量,而且成本将是天文数字。作者们通过转向仿真模拟解决了这个问题。
1. GENBOT-1K: 程序化机器人大军
研究人员创建了一个名为 GENBOT-1K 的数据集。这是约 1,000 个程序化生成的机器人“蓝图”的集合。

如上图 1 所示,该数据集不仅仅是同一机器人的复制品。它涵盖了三个截然不同的形态类别:
- 人形机器人 (Humanoids) : 双足机器人 (不稳定,难以控制) 。
- 四足机器人 (Quadrupeds) : 四条腿的机器人 (稳定,研究中的标准配置) 。
- 六足机器人 (Hexapods) : 六条腿的机器人 (高度稳定,协调复杂) 。
在这些类别中,程序化生成引擎改变了三个关键方面:
- 拓扑结构 (Topology) : 骨架结构 (例如,增加或移除膝关节) 。
- 几何结构 (Geometry) : 物理尺寸 (例如,大腿的长度,脚的大小) 。
- 运动学特征 (Kinematics) : 运动约束 (例如,电机强度,关节角度限制) 。

图 3 展示了这个数据集的多样性。你可以看到机器人高度、关节数量 (从简单到复杂) 和运动范围的分布。这种多样性至关重要;如果机器人太相似,网络就无法学会泛化。
2. 架构: URMA
如何构建一个既能控制 12 个关节的机器人,又能控制 24 个关节的机器人的神经网络?标准的神经网络需要固定的输入和输出尺寸。
作者使用并扩展了一种名为 URMA (统一机器人形态架构) 的架构。

URMA 的关键创新在于使用了注意力机制 , 类似于 Transformer (如 GPT) 中的机制。它是这样处理机器人的:
- 输入分离: 状态被分为通用观测值 (重力、速度指令、躯干方向) 和关节特定观测值 (每个特定关节的角度、速度和属性) 。
- 注意力编码器: 网络不再处理固定的关节列表,而是将关节视为一个集合。它使用注意力机制来观察每个关节的属性及其当前状态,从而创建一个“关节嵌入”。
- 核心网络: 这些嵌入被聚合并没有与通用观测值结合。
- 动作解码器: 网络通过使用该关节的特定描述查询核心网络,分别为每个关节输出动作。
这种设计使得策略可以处理任何机器人,无论它有多少条腿或关节,只要该机器人符合通用格式即可。
3. 两阶段训练流程
使用强化学习 (RL) 从零开始训练一个策略来掌握 1,000 种不同的身体是出了名的不稳定。为了解决这个问题,作者采用了一种两阶段方法 (图 2) 。

阶段 1: 专家训练 (教师) 他们首先使用 PPO (近端策略优化) 为每一个约 1,000 种机器人训练了一个单独的“专家”策略。这些专家是专才——他们只知道如何控制自己特定的身体行走。他们训练这些专家的仿真步数总计达到了 2 万亿步 。
阶段 2: 蒸馏 (学生) 然后,他们从所有这些专家那里收集数据 (演示) 。单一的 URMA 策略 (学生) 使用行为克隆 (BC) 进行训练,以模仿专家。学生策略将机器人的描述作为输入,并试图复制专家的动作。
这种“蒸馏”方法有效地将 1,000 个专家的智慧压缩到了一个通用的“大脑”中。
实验与结果
主要目标是验证具身扩展定律。增加训练集中的机器人类型真的有帮助吗?
Q1: 扩展示范是否有效?
结果为该假设提供了有力的证据。

观察图 4 中的图表:
- 类别内扩展 (a): 当仅在四足机器人 (橙色) 上训练时,随着四足机器人变体的增加,对未见过的四足机器人的性能随之提高。这同样适用于六足机器人。有趣的是,人形机器人 (蓝色) 显示出陡峭的上升趋势且没有饱和,这表明对于困难的形态,我们远未触及天花板——我们需要更多的数据。
- 跨类别扩展 (b): 绿线 (C8/具身扩展) 代表在所有类别上训练的策略。它始终优于仅在单一类别上训练的策略 (C5, C6, C7) ,即使是在混合的机器人集合上进行测试也是如此。
至关重要的是 , 研究人员比较了具身扩展与数据扩展。他们选取了固定的 5% 的机器人,仅仅增加了轨迹数据 (曲线 C8 与虚线圆圈点对比) 。性能几乎立即进入平台期。这证明了仅仅拥有更多数据是不够的;你需要更多样化的身体。
Q2: 零样本现实世界迁移
仿真结果很有希望,但真正的考验在于硬件。作者将他们表现最好的策略 (在 817 个模拟机器人上训练) 部署到了两个现实世界的机器人上: 宇树 Go2 (四足) 和 宇树 H1 (人形) 。
这两个机器人都不在训练集中。

如图 5 所示:
- Go2 (a-b): 机器人在草地和鹅卵石路面上行走稳定。
- H1 (g-i): 人形机器人在实验室环境中可以向前、向后和侧向行走。
- 鲁棒性 (c-f): 研究人员人为地将 Go2 的膝关节限制了 20%,以模拟损伤。由于策略理解运动学 (它知道关节限制变小了) ,它零样本地适应了一种稳定的跛行步态。
这证实了策略不仅仅是记住了运动模式;它学习了一种基于机器人物理描述的自适应控制策略。
Q3: 大脑学到了什么?
为了理解神经网络如何组织其知识,研究人员使用 t-SNE 可视化了策略的“潜空间” (内部表示) 。

图 6 揭示了一个美妙的结构。网络自然地将机器人分为了人形 (蓝色) 、四足 (橙色) 和六足 (黄色) 的聚类。在这些聚类内部,它进一步按关节数量对它们进行了组织。这种结构不是硬编码的;网络自己学到了这些物理形态需要不同的控制策略,但又共享着底层的原理。
结论与启示
这篇论文提出了机器人运动中具身扩展定律的首次大规模实证验证。其结论对机器人技术的未来意义重大:
- 多样性 > 数量: 要构建通用机器人,我们不仅需要来自一个机器人的更多数据;我们需要来自许多不同机器人的数据。
- 跨形态迁移: 学习用六条腿走路有助于你学习用两条腿走路。运动的物理共性可以跨越不同的身体进行迁移。
- 机器人基础模型: 就像 GPT-4 作为文本的基础一样,我们正在迈向物理控制的“基础策略”。单一的预训练网络有朝一日可能成为我们构建的任何新机器人的“脑干”,从而大幅减少为新硬件编程所需的时间。
通过程序化生成一支多样化的机器人大军,这些研究人员表明,通往通用具身智能的道路在于拥抱物理变化,而不是回避它。随着我们将规模扩大到数万种形态,我们可能很快就会看到能够像我们换新鞋一样轻松适应新身体的机器人。
](https://deep-paper.org/en/paper/2505.05753/images/cover.png)