想象一下你正试图用刷子把一堆沙子扫进簸箕里。当你移动刷子时,你会直觉地预测沙粒将如何流动、散落和堆积。你不需要有意识地计算每一粒沙子的轨迹;你拥有一个“世界模型”——一个内部的物理引擎——帮助你规划动作以达成目标。
对于机器人来说,培养这种直觉极其困难,尤其是在处理混合材料时。推一个刚性的盒子是一回事;操作一根正在清扫颗粒状材料 (如沙子) 的软绳则是完全另一回事。机器人需要理解绳子如何变形,以及这种变形如何将力传递给沙子。
在这篇文章中,我们将深入探讨 ParticleFormer , 这是一篇提出基于 Transformer 的世界模型的新研究论文。该模型将世界视为粒子的集合,并利用注意力机制直接从视觉数据中预测复杂的多材料交互。

问题: 为什么机器人物理学如此困难?
为了规划复杂的任务,机器人使用世界模型 (World Models) 。 这些神经网络接收世界的当前状态和一个提议的动作,然后预测世界的下一个状态会是什么样子。
\[ x _ { t + 1 } = f ( x _ { t } , u _ { t } , M ) . \]
如上所示,目标是学习一个函数 \(f\),该函数接收当前状态 \(x_t\)、机器人的动作 \(u_t\) 和材料信息 \(M\),输出下一个状态 \(x_{t+1}\)。
历史上,主要有两种方法来解决这个问题,但都有明显的局限性:
- 基于图的神经动力学 (GBND): 这些模型将物体表示为由图连接的粒子。它们使用图神经网络 (GNN) 在邻居之间传递信息来模拟物理。
- *缺陷: * 它们很脆弱。你必须手动调整参数,比如“粒子相距多近才能连接?” (邻接半径) 或“一个粒子可以有多少个邻居?” (TopK) 。如果这些参数设置错误,模拟就会崩溃。它们通常还需要昂贵的 3D 重建来进行训练。
- 2D 图像模型: 这些模型 (如视频生成模型) 逐像素地预测视频的下一帧。
- *缺陷: * 它们缺乏 3D 理解。预测像素并不等同于理解几何结构。它们难以进行精确的空间推理,例如将钉子放入孔中或将液体倒入杯子所需的推理。
ParticleFormer 弥合了这一差距。它在 3D 空间中使用点云 (像 GNN 一样) 进行操作,但用灵活的 Transformer 架构 (像大型语言模型一样) 取代了僵化的图结构。
ParticleFormer 架构
ParticleFormer 的核心洞察是,我们不应该强迫粒子进入固定的图结构。相反,我们应该让神经网络去学习哪些粒子会相互作用,而无论距离或材料类型如何。
1. 从视觉到粒子
该过程始于机器人观察场景。使用立体相机 (提供深度信息) ,系统创建环境的 3D 点云。

如上面的概览图所示,系统分割出感兴趣的物体 (使用 Segment Anything 等工具) 并提取一组粒子。
对于 \(t\) 时刻的每个粒子 \(i\),模型构建一个特征向量。这不仅仅是 XYZ 位置;它是一个丰富的嵌入,结合了:
- 位置: 粒子在哪里?
- 材料: 它是刚性的、布料还是颗粒状的沙子? (编码为独热向量) 。
- 运动: 粒子是如何移动的? (专门针对机器人的末端执行器) 。
这些信息被投影到一个潜在表示 \(z_t(i)\) 中:

2. Transformer 骨干网络 (动力学转换)
这是 ParticleFormer 与传统物理模型分道扬镳的地方。它不使用图神经网络,而是使用 Transformer 编码器 。
在 GNN 中,一个粒子只能影响其直接的几何邻居。在 Transformer 中, 自注意力 (Self-Attention) 机制允许每个粒子在理论上“关注”其他每一个粒子。模型会学习权重,决定粒子 A 对粒子 B 有多大影响。
这对于多材料交互至关重要。例如,如果机器人拉动一块布,布可能会击中一堆沙子。这种相互作用不仅仅关乎直接的邻近性;它关乎力的传播。Transformer 允许模型隐式地学习这些依赖关系,而无需手动调整超参数。
动力学转换表示为:

这里,\(z'_{t+1}\) 是预测的下一时刻所有粒子的潜在状态。
3. 预测运动,而不仅仅是位置
模型并不试图直接猜测下一帧粒子的绝对坐标。相反,它预测位移 (或速度) ——即每个粒子将移动多少。

一旦预测出位移 \(\Delta \hat{x}\),将其加到当前位置以获得最终的预测状态。这种残差学习方法使网络更容易学习稳定的物理规律。

优化物理: 混合损失
该论文的关键贡献之一是其训练模型的方式。在标准的点云学习中,研究人员通常使用倒角距离 (Chamfer Distance, CD) 。 CD 测量两个点云中点之间的平均距离。它非常适合一般的对齐,但有一个弱点: 它可能会被“嘈杂”的离群点主导,或者无法捕捉形状的精细结构。
作者引入了一种混合监督策略。他们结合了倒角距离和豪斯多夫距离 (Hausdorff Distance, HD) 的可微近似。
- 倒角距离: 确保大部分粒子处于正确的位置 (局部精度) 。
- 豪斯多夫距离: 惩罚最差的离群点。它确保保留全局形状,并且物体的边界 (如布的边缘) 是准确的。

这种组合使得 ParticleFormer 能够比以前的方法更好地处理“被动”动力学——比如沙粒仅仅因为下面的布被拉动而移动。
实验结果
研究人员在一系列涉及刚性盒子、软绳、可变形布料和颗粒材料 (沙子) 的复杂任务上测试了 ParticleFormer。他们将其与 GBND (领先的基于图的模型) 和 DINO-WM (一种视觉 2D 模型) 进行了比较。
仿真与现实世界设置
实验涵盖了仿真环境 (使用 Nvidia FleX) 和使用 xArm-6 机器人的现实世界场景。


定性动力学预测
模型真的理解物理吗?视觉结果表明是的。
在下图中,请看扫绳子 (Rope Sweeping) 任务 (底行) 。目标是移动绳子来清扫颗粒状物体。
- ParticleFormer (Ours): 正确预测了绳子如何卷曲以及颗粒如何被推动。
- GBND: 预测“断裂”了——绳子图分裂,物理效果看起来不真实。
- Ours w/o Hybrid (无混合损失) : 如果没有特殊的损失函数,模型会低估沙子 (被动物体) 的运动。

注意力热图 (上图最右侧) 特别引人入胜。它们显示了模型正在“关注”什么。在扫绳子任务中,你可以看到绳子粒子和颗粒粒子之间有很强的注意力,证明模型已经学会了绳子是沙子运动的原因。
定量精度
数据支持了视觉效果。ParticleFormer 在几乎所有任务中都实现了最低的误差率。

值得注意的是,ParticleFormer 在组合的 CD+HD 指标上表现得更好,验证了混合损失函数的选择。
图模型的问题 (GBND 分析)
作者深入研究了为什么基线 GNN 模型会表现挣扎。归根结底就是前面提到的那些手动超参数。
1. 对邻居的敏感性 (TopK):
在 GNN 中,必须决定一个粒子与之交互的最大邻居数 (TopK)。
- 如果
TopK太低,物理就不准确 (连接不够) 。 - 如果
TopK太高,计算成本就会爆炸。

2. 计算成本:
当你增加 TopK 以在 GBND 中获得更好的精度时,GPU 内存使用量会激增。ParticleFormer (Ours) 保持高效,因为 Transformer 的注意力机制针对此类密集交互进行了优化,无需在内存中存储显式的邻接矩阵。

3. 对距离的敏感性 (MaxDist):
GNN 还需要一个距离阈值 (MaxDist) 来形成连接。下图显示 GBND 的性能会因该设置而剧烈波动。使用软注意力的 ParticleFormer 根本不需要这个阈值。

投入应用: 模型预测控制 (MPC)
预测未来很酷,但机器人真的能用它做什么吗?
研究人员使用 ParticleFormer 作为模型预测路径积分 (MPPI) 控制的核心模拟引擎。本质上,机器人在其“想象”中 (使用 ParticleFormer) 模拟数千个随机动作序列,选择最能使物体接近目标状态的那个序列,并执行它。
结果表明,ParticleFormer 使机器人能够成功完成诸如收集布料或清扫绳子等复杂任务,而基线方法通常无法达到目标配置。

观察上图右侧的推演误差 , ParticleFormer 在较长的时间范围内 (未来多个步骤) 保持较低的误差,这对于规划长期任务至关重要。

在上面的仿真结果中,注意扫绳子 (Rope Sweeping) 任务 (底行) 。“Ours” 列显示绳子干净利落地清扫地面。“GBND” 列显示绳子缠绕在一起,而 “Ours w/o Hybrid” 的结果完全是一团糟。这证明了 Transformer 架构和混合损失对于成功都是必不可少的。
结论与关键要点
ParticleFormer 代表了机器人世界建模向前迈出的重要一步。通过摆脱僵化的图结构并拥抱 Transformer 的灵活性,研究人员创建了一个能够做到以下几点的系统:
- 为异质材料建模: 在同一场景中无缝处理刚性、可变形和颗粒状材料。
- 学习隐式结构: 使用注意力机制找出哪些粒子相互作用,而不是依赖手动的“邻居”定义。
- 高效扩展: 避免了与高连接度 GNN 相关的内存瓶颈。
- 捕捉精细细节: 混合损失函数确保即使是细微的被动运动也能被精确建模。
虽然目前的模型是针对每个场景进行训练的,并且依赖于外部署分割工具,但它为通用物理模型打开了大门,这种模型有朝一日可能让机器人能够像人类一样直观轻松地操纵世界。
](https://deep-paper.org/en/paper/2506.23126/images/cover.png)