想象一下你正试图用刷子把一堆沙子扫进簸箕里。当你移动刷子时,你会直觉地预测沙粒将如何流动、散落和堆积。你不需要有意识地计算每一粒沙子的轨迹;你拥有一个“世界模型”——一个内部的物理引擎——帮助你规划动作以达成目标。

对于机器人来说,培养这种直觉极其困难,尤其是在处理混合材料时。推一个刚性的盒子是一回事;操作一根正在清扫颗粒状材料 (如沙子) 的软绳则是完全另一回事。机器人需要理解绳子如何变形,以及这种变形如何将力传递给沙子。

在这篇文章中,我们将深入探讨 ParticleFormer , 这是一篇提出基于 Transformer 的世界模型的新研究论文。该模型将世界视为粒子的集合,并利用注意力机制直接从视觉数据中预测复杂的多材料交互。

图 1: 动机。由于复杂且异质的相互作用,在多物体、多材料场景中进行动力学建模具有挑战性。在本文中,我们提出了 ParticleFormer,这是一个基于 Transformer 的点云世界模型,采用混合监督训练,能够在机器人操作任务中实现精确的预测和基于模型的控制。

问题: 为什么机器人物理学如此困难?

为了规划复杂的任务,机器人使用世界模型 (World Models) 。 这些神经网络接收世界的当前状态和一个提议的动作,然后预测世界的下一个状态会是什么样子。

\[ x _ { t + 1 } = f ( x _ { t } , u _ { t } , M ) . \]

公式 1: 世界模型预测的一般公式。

如上所示,目标是学习一个函数 \(f\),该函数接收当前状态 \(x_t\)、机器人的动作 \(u_t\) 和材料信息 \(M\),输出下一个状态 \(x_{t+1}\)。

历史上,主要有两种方法来解决这个问题,但都有明显的局限性:

  1. 基于图的神经动力学 (GBND): 这些模型将物体表示为由图连接的粒子。它们使用图神经网络 (GNN) 在邻居之间传递信息来模拟物理。
  • *缺陷: * 它们很脆弱。你必须手动调整参数,比如“粒子相距多近才能连接?” (邻接半径) 或“一个粒子可以有多少个邻居?” (TopK) 。如果这些参数设置错误,模拟就会崩溃。它们通常还需要昂贵的 3D 重建来进行训练。
  1. 2D 图像模型: 这些模型 (如视频生成模型) 逐像素地预测视频的下一帧。
  • *缺陷: * 它们缺乏 3D 理解。预测像素并不等同于理解几何结构。它们难以进行精确的空间推理,例如将钉子放入孔中或将液体倒入杯子所需的推理。

ParticleFormer 弥合了这一差距。它在 3D 空间中使用点云 (像 GNN 一样) 进行操作,但用灵活的 Transformer 架构 (像大型语言模型一样) 取代了僵化的图结构。


ParticleFormer 架构

ParticleFormer 的核心洞察是,我们不应该强迫粒子进入固定的图结构。相反,我们应该让神经网络去学习哪些粒子会相互作用,而无论距离或材料类型如何。

1. 从视觉到粒子

该过程始于机器人观察场景。使用立体相机 (提供深度信息) ,系统创建环境的 3D 点云。

图 2: 概览。ParticleFormer 通过立体匹配和分割从立体图像输入中重建粒子级状态。Transformer 编码器对拼接了位置、材料和运动线索的粒子特征进行建模,捕捉交互感知的动力学。该模型使用混合损失进行训练,该损失是针对从下一帧立体图像中提取的未来真实状态计算得出的。

如上面的概览图所示,系统分割出感兴趣的物体 (使用 Segment Anything 等工具) 并提取一组粒子。

对于 \(t\) 时刻的每个粒子 \(i\),模型构建一个特征向量。这不仅仅是 XYZ 位置;它是一个丰富的嵌入,结合了:

  • 位置: 粒子在哪里?
  • 材料: 它是刚性的、布料还是颗粒状的沙子? (编码为独热向量) 。
  • 运动: 粒子是如何移动的? (专门针对机器人的末端执行器) 。

这些信息被投影到一个潜在表示 \(z_t(i)\) 中:

公式 2: 观察嵌入函数。

2. Transformer 骨干网络 (动力学转换)

这是 ParticleFormer 与传统物理模型分道扬镳的地方。它不使用图神经网络,而是使用 Transformer 编码器

在 GNN 中,一个粒子只能影响其直接的几何邻居。在 Transformer 中, 自注意力 (Self-Attention) 机制允许每个粒子在理论上“关注”其他每一个粒子。模型会学习权重,决定粒子 A 对粒子 B 有多大影响。

这对于多材料交互至关重要。例如,如果机器人拉动一块布,布可能会击中一堆沙子。这种相互作用不仅仅关乎直接的邻近性;它关乎力的传播。Transformer 允许模型隐式地学习这些依赖关系,而无需手动调整超参数。

动力学转换表示为:

公式 3: 通过 Transformer 进行动力学转换。

这里,\(z'_{t+1}\) 是预测的下一时刻所有粒子的潜在状态。

3. 预测运动,而不仅仅是位置

模型并不试图直接猜测下一帧粒子的绝对坐标。相反,它预测位移 (或速度) ——即每个粒子将移动多少。

公式 6: 运动预测解码器。

一旦预测出位移 \(\Delta \hat{x}\),将其加到当前位置以获得最终的预测状态。这种残差学习方法使网络更容易学习稳定的物理规律。

公式 7: 计算最终预测状态。


优化物理: 混合损失

该论文的关键贡献之一是其训练模型的方式。在标准的点云学习中,研究人员通常使用倒角距离 (Chamfer Distance, CD) 。 CD 测量两个点云中点之间的平均距离。它非常适合一般的对齐,但有一个弱点: 它可能会被“嘈杂”的离群点主导,或者无法捕捉形状的精细结构。

作者引入了一种混合监督策略。他们结合了倒角距离和豪斯多夫距离 (Hausdorff Distance, HD) 的可微近似。

  • 倒角距离: 确保大部分粒子处于正确的位置 (局部精度) 。
  • 豪斯多夫距离: 惩罚最差的离群点。它确保保留全局形状,并且物体的边界 (如布的边缘) 是准确的。

公式 8: 结合倒角距离和豪斯多夫距离的混合损失函数。

这种组合使得 ParticleFormer 能够比以前的方法更好地处理“被动”动力学——比如沙粒仅仅因为下面的布被拉动而移动。


实验结果

研究人员在一系列涉及刚性盒子、软绳、可变形布料和颗粒材料 (沙子) 的复杂任务上测试了 ParticleFormer。他们将其与 GBND (领先的基于图的模型) 和 DINO-WM (一种视觉 2D 模型) 进行了比较。

仿真与现实世界设置

实验涵盖了仿真环境 (使用 Nvidia FleX) 和使用 xArm-6 机器人的现实世界场景。

图 6: 仿真实验设置。

图 7: 现实世界实验设置。

定性动力学预测

模型真的理解物理吗?视觉结果表明是的。

在下图中,请看扫绳子 (Rope Sweeping) 任务 (底行) 。目标是移动绳子来清扫颗粒状物体。

  • ParticleFormer (Ours): 正确预测了绳子如何卷曲以及颗粒如何被推动。
  • GBND: 预测“断裂”了——绳子图分裂,物理效果看起来不真实。
  • Ours w/o Hybrid (无混合损失) : 如果没有特殊的损失函数,模型会低估沙子 (被动物体) 的运动。

图 3: 动力学预测的定性结果。我们比较了 ParticleFormer 和基线方法的单步动力学预测。ParticleFormer 在捕捉物体动力学和多材料交互方面表现出卓越的能力。最右侧一列展示了我们方法的块状注意力热图,揭示了学习到的材料内部和材料之间的交互结构。

注意力热图 (上图最右侧) 特别引人入胜。它们显示了模型正在“关注”什么。在扫绳子任务中,你可以看到绳子粒子和颗粒粒子之间有很强的注意力,证明模型已经学会了绳子是沙子运动的原因。

定量精度

数据支持了视觉效果。ParticleFormer 在几乎所有任务中都实现了最低的误差率。

表 1: 动力学预测的定量结果。我们报告了三个多材料仿真任务的预测误差。

值得注意的是,ParticleFormer 在组合的 CD+HD 指标上表现得更好,验证了混合损失函数的选择。

图模型的问题 (GBND 分析)

作者深入研究了为什么基线 GNN 模型会表现挣扎。归根结底就是前面提到的那些手动超参数。

1. 对邻居的敏感性 (TopK): 在 GNN 中,必须决定一个粒子与之交互的最大邻居数 (TopK)。

  • 如果 TopK 太低,物理就不准确 (连接不够) 。
  • 如果 TopK 太高,计算成本就会爆炸。

图 4: TopK 对 GBND 动力学精度的影响。增加允许的邻居数量可以提高 GBND 的预测精度,但仍不及 ParticleFormer,后者无需调整超参数即可实现更低的误差。

2. 计算成本: 当你增加 TopK 以在 GBND 中获得更好的精度时,GPU 内存使用量会激增。ParticleFormer (Ours) 保持高效,因为 Transformer 的注意力机制针对此类密集交互进行了优化,无需在内存中存储显式的邻接矩阵。

图 8: TopK 对 GBND GPU 使用量的影响。随着允许的最大相邻节点数增加,GBND 的 GPU 内存使用量显著增长。这凸显了基于 GNN 的方法的可扩展性瓶颈。相比之下,ParticleFormer 通过使用软注意力机制而无需显式的邻居选择来避免此问题。

3. 对距离的敏感性 (MaxDist): GNN 还需要一个距离阈值 (MaxDist) 来形成连接。下图显示 GBND 的性能会因该设置而剧烈波动。使用软注意力的 ParticleFormer 根本不需要这个阈值。

图 9: MaxDist 对 GBND 动力学精度的影响。由于 GBND 中的信息传播依赖于图拓扑结构,其性能对构建边的最大距离阈值高度敏感。相比之下,ParticleFormer 通过基于注意力的交互避免了这种敏感性。


投入应用: 模型预测控制 (MPC)

预测未来很酷,但机器人真的能用它做什么吗?

研究人员使用 ParticleFormer 作为模型预测路径积分 (MPPI) 控制的核心模拟引擎。本质上,机器人在其“想象”中 (使用 ParticleFormer) 模拟数千个随机动作序列,选择最能使物体接近目标状态的那个序列,并执行它。

结果表明,ParticleFormer 使机器人能够成功完成诸如收集布料或清扫绳子等复杂任务,而基线方法通常无法达到目标配置。

图 5: MPC 推演的实验结果。机器人的任务是使用学习到的世界模型执行闭环反馈控制,以达到训练期间未见过的新的目标状态。与基线相比,ParticleFormer 实现了更精确的规划和控制,在三次推演试验中表现出最低的最终状态失配。

观察上图右侧的推演误差 , ParticleFormer 在较长的时间范围内 (未来多个步骤) 保持较低的误差,这对于规划长期任务至关重要。

图 10: 多材料仿真任务中的 MPC 推演结果。机器人的任务是使用学习到的世界模型执行闭环反馈控制,以达到训练期间未见过的新的目标状态。与基线相比,ParticleFormer 实现了更精确的规划和更低的最终状态失配。

在上面的仿真结果中,注意扫绳子 (Rope Sweeping) 任务 (底行) 。“Ours” 列显示绳子干净利落地清扫地面。“GBND” 列显示绳子缠绕在一起,而 “Ours w/o Hybrid” 的结果完全是一团糟。这证明了 Transformer 架构和混合损失对于成功都是必不可少的。


结论与关键要点

ParticleFormer 代表了机器人世界建模向前迈出的重要一步。通过摆脱僵化的图结构并拥抱 Transformer 的灵活性,研究人员创建了一个能够做到以下几点的系统:

  1. 为异质材料建模: 在同一场景中无缝处理刚性、可变形和颗粒状材料。
  2. 学习隐式结构: 使用注意力机制找出哪些粒子相互作用,而不是依赖手动的“邻居”定义。
  3. 高效扩展: 避免了与高连接度 GNN 相关的内存瓶颈。
  4. 捕捉精细细节: 混合损失函数确保即使是细微的被动运动也能被精确建模。

虽然目前的模型是针对每个场景进行训练的,并且依赖于外部署分割工具,但它为通用物理模型打开了大门,这种模型有朝一日可能让机器人能够像人类一样直观轻松地操纵世界。