引言: 泛化鸿沟

几十年来,机器人领域的“圣杯”一直是创造一种能够走进杂乱、陌生的家庭并真正派上用场的机器——无论是打扫厨房、折叠衣物,还是整理卧室。虽然我们已经看到过令人印象深刻的机器人后空翻或组装汽车的视频,但这些壮举通常发生在高度受控的环境或“实验室”中,在那儿机器人确切地知道每样东西的位置。

这就是泛化鸿沟 (Generalization Gap) 。 一个在明亮的实验室里训练去抓取红色马克杯的机器人,往往无法在光线昏暗的厨房里抓起一个蓝色马克杯。扩大数据收集规模会有所帮助,但我们根本无法在地球上所有可能的家庭布局中通过物理方式收集机器人数据。

在 Physical Intelligence 公司的一篇新论文中,研究人员介绍了 \(\pi_{0.5}\) (Pi-zero-point-five),这是一种旨在弥合这一鸿沟的视觉-语言-动作 (VLA) 模型。\(\pi_{0.5}\) 背后的核心理念是,机器人不应仅仅从自己的经验中学习。相反,它应该像人类学徒一样: 向其他机器人学习,阅读“手册” (网络数据) ,并遵循高层语义指令。

图 1: π0.5 模型从异构数据源迁移知识。

如上图 1 所示,\(\pi_{0.5}\) 不仅仅是一个机器人策略;它是一个吸收多样化数据的海绵。它展示了在完全陌生的家庭环境 (从未见过的环境) 中控制移动操作机器人的能力,能够执行复杂的长视距家务任务,如打扫厨房和整理床铺。

背景: VLA 与多样性的需求

要理解 \(\pi_{0.5}\),我们首先需要看看它的前身技术。该领域最近已向 视觉-语言-动作 (Vision-Language-Action, VLA) 模型融合。这些系统采用大型语言模型 (LLM) 和视觉语言模型 (VLM) 的架构,并对其进行微调以输出机器人动作而非仅仅是文本。

像 \(\pi_0\) (这项工作的前身) 这样的模型已经表明,你可以训练 VLA 来执行灵巧的任务。然而,仅依靠特定机器人在特定实验室收集的数据来训练 VLA,会限制其泛化能力。如果机器人遇到了以前没见过的抽屉把手,或者遇到了与训练集不同的光照条件,它往往会冻结或失败。

研究人员假设,解决方案不仅仅是同类型的“更多数据”,而是异构协同训练 (Heterogeneous Co-Training) 。 这意味着同时在以下数据上训练模型:

  1. 来自你想控制的特定机器人的数据。
  2. 来自其他类型机器人的数据 (不同的手臂,不同的抓手) 。
  3. 互联网规模的视觉和语言数据 (图像描述,问答) 。
  4. 高层推理任务 (将大目标分解为子步骤) 。

通过混合这些来源,模型从广泛的数据中学习一般概念 (例如“把手”通常长什么样) ,并从机器人数据中学习具体的运动控制。

\(\pi_{0.5}\) 方法

\(\pi_{0.5}\) 系统建立在一个分层架构之上,该架构将高层推理与底层运动控制分离开来,所有这些都在一个统一的训练框架内。

1. 数据混合

\(\pi_{0.5}\) 的基础在于它的训练“食谱”。该模型消耗了大量的混合数据集,主要分为五大支柱:

  • 移动操作机器人 (MM): 来自目标机器人在大约 100 个不同家庭中执行家务的直接数据。
  • 多环境 (ME): 来自固定在各种家庭桌子上的简单非移动机械臂的数据。这提供了家庭环境的视觉多样性,而没有移动底座的复杂性。
  • 跨具身 (CE): 来自完全不同的机器人在实验室执行各种任务的数据。这教会了模型关于物理和物体交互的知识,即使机器人的身体构造不同。
  • 高层 (HL) & 口头指令 (VI): 将复杂任务分解为子步骤的数据 (例如,“打扫房间” \(\rightarrow\) “捡起衬衫”) 。
  • 网络数据 (WD): 用于图像描述和视觉问答 (VQA) 的标准互联网数据。

图 12: 预训练和后训练任务示例。

图 12 展示了这种多样性。请注意模型是如何从“清理溢出物” (机器人数据) 到识别“大象的腿” (网络数据) 等各种事物中进行学习的。这种广度对于“开放世界”机器人来说至关重要。

2. 架构: 从离散到连续

\(\pi_{0.5}\) 的架构解决了一个特定的工程挑战: 如何在获得 LLM 推理优势的同时,保持机械臂所需的精度。

LLM 处理的是离散的“Token” (独特的信息块) 。机械臂需要连续、平滑的运动值。\(\pi_{0.5}\) 通过两阶段过程来处理这个问题:

  1. 预训练 (“大脑”) : 模型作为标准的 VLM 进行训练 (从 PaliGemma 初始化) 。它将所有内容视为 Token。它预测文本响应和“离散化”的动作 (将连续运动转化为 Token 代码) 。这使它能够高效地吸收上述大量、多样化的数据集。
  2. 后训练 (“手”) : 模型针对行动进行微调。研究人员附加了一个动作专家 (Action Expert) ——这是一个专门用于运动控制的较小模块。

图 3: 模型概览,展示了预训练和后训练阶段。

如图 3 所示,后训练阶段引入了流匹配 (Flow Matching) 。 动作专家不再仅仅选择下一个 Token,而是预测一个向量场——本质上是机器人从当前位置移动到目标位置所需的“流”。这就产生了离散 Token 自身难以实现的平滑、高频控制。

注意力掩码 (模型不同部分如何相互交流) 经过了精心设计。视觉编码器馈送给动作专家,但动作专家不会反馈给视觉编码器,从而确保了信息的清晰流动。

图 11: π0.5 注意力掩码模式示例。

3. 分层推理: 先思考,后行动

当机器人被放置在一个新家中时,它不会盲目反应。它使用了一个层级结构:

\[ \pi_{\theta}(\mathbf{a}_{t:t+H}, \hat{\ell} | \mathbf{o}_t, \ell) = \pi_{\theta}(\mathbf{a}_{t:t+H} | \mathbf{o}_t, \hat{\ell}) \pi_{\theta}(\hat{\ell} | \mathbf{o}_t, \ell) \]

概率分解公式

这个方程简化为一个两步过程:

  1. 高层策略 (\(\pi_{\theta}(\hat{\ell} | \mathbf{o}_t, \ell)\)): 模型观察图像 (\(\mathbf{o}_t\)) 和主要目标 (\(\ell\),例如“打扫厨房”)。它预测一个语义子任务 \(\hat{\ell}\) (例如,“捡起蓝色的盘子”)。
  2. 底层策略 (\(\pi_{\theta}(\mathbf{a}_{t:t+H} | \mathbf{o}_t, \hat{\ell})\)): 动作专家接收该特定子任务 (“捡起蓝色的盘子”) 并生成执行该任务的物理运动指令 (\(\mathbf{a}\))。

这模仿了人类的思维方式: 我们决定什么,然后我们的运动皮层弄清楚肌肉如何运动。

4. 数学基础

训练目标结合了这些离散和连续的世界。损失函数如下所示:

组合损失函数公式

在这里,第一部分 (\(H\)) 是 LLM 中使用的标准交叉熵损失——它训练模型理解文本和高层概念。第二部分 (\(\alpha\) 之后) 是流匹配损失——它最小化预测的运动轨迹与实际最佳轨迹之间的差异。通过同时优化这两者,\(\pi_{0.5}\) 变成了一个“博学者”,在语言和运动方面都很流畅。

实验与结果

研究人员不仅仅是在模拟器中测试这个模型。他们将移动操作机器人部署到了全新的家庭中——这些是机器人训练期间从未见过的 Airbnb 风格出租屋。

图 2: π0.5 正在打扫一个新厨房。

如图 2 所示,机器人成功地在真实的厨房中导航,完成了关闭橱柜、擦拭溢出物和装载水槽等任务。

实验设置

评估涵盖了两个主要设置:

  1. 模拟环境: 用于严格、可重复基准测试的受控设置。
  2. 真实家庭: 三个不同的真实世界家庭,用于测试真正的“野外”泛化能力。

图 4: 评估环境,展示了模拟房间与真实房间。

关键发现 1: 泛化能力随环境数量扩展

机器人技术中的一个关键问题是“缩放定律”。在 LLM 中,更多的文本数据意味着更聪明的模型。在机器人技术中,更多的环境数据是否意味着更好的泛化?

答案是肯定的。

图 9: 评估不同数量地点的性能。

在图 6 (这里对应图组中的图 9) 中,我们可以看到随着训练地点数量的增加,四个测试任务的性能曲线稳步上升。最令人印象深刻的是,绿色柱状图代表了一个专门针对测试家庭训练的模型。\(\pi_{0.5}\) (橙色线) 最终达到了与专家模型相当的性能,尽管它以前从未见过该测试家庭。

关键发现 2: 异构数据的重要性

这也许是论文中最具教育意义的部分。研究人员进行了“消融实验”,系统地移除部分训练数据,看看什么会出问题。

图 8: 训练配方消融实验。

图 8 揭示了不同数据源的影响:

  • 无 ME (多环境) / 无 CE (跨具身): 性能崩溃。这证明了来自其他机器人和静态手臂的数据至关重要。即使具身 (Embodiment) 不同,“抓取东西”的物理规律是可以迁移的。
  • 无 WD (网络数据): 乍一看 (在图 8 中) ,移除网络数据似乎对平均任务影响不大。 然而 , 图 9 (见下文) 讲述了一个不同的故事。

图 9: 语言跟随任务的训练配方消融实验。

当机器人被要求与分布外 (OOD) 物体 (它以前没见过的奇怪物品) 交互时,没有网络数据训练的模型 (深绿色柱) 失败的频率明显高于完整的 \(\pi_{0.5}\) 模型 (黄色柱) 。这证实了网络数据提供了识别新颖物体所需的语义“常识”。

关键发现 3: 与基线的比较

最后,它与以前的最先进模型 (如 \(\pi_0\)) 相比如何?

图 10: 将 π0.5 与其他模型进行比较。

差异是巨大的。\(\pi_{0.5}\) 显著优于 \(\pi_0\) 和 \(\pi_0\) 的增强版本,特别是在需要强大泛化能力的模拟家庭环境中。

结论与启示

\(\pi_{0.5}\) 代表了机器人学习的转变。它不再认为我们需要在一个特定的人形机器人上收集数万亿小时的数据才能使其有用。相反,它采用了一种迁移学习的方法,即每一条数据——从实验室里的静态手臂,到互联网上的图片说明,再到人类口头指导机器人——都有助于对物理世界的普遍理解。

该模型表明:

  1. 架构很重要: 将高层语义规划与底层流匹配控制分离开来,可以同时实现推理和灵巧性。
  2. 多样性是关键: 没有机器人数据 (用于物理) 和网络数据 (用于语义) 的混合,就无法实现开放世界的泛化。
  3. 规模有效: 线性增加独特的训练环境数量,可以提高机器人处理完全陌生房屋的能力。

虽然局限性依然存在——机器人仍然会犯错,80-90% 的成功率对于消费级产品来说还不够——但 \(\pi_{0.5}\) 为未来提供了一个清晰的配方。通过为机器人提供更丰富、更多样化的体验“食谱”,我们要让机器人真正走进任何家庭并帮忙做家务的那一天正越来越近。