想象一个部署在沙漠环境执行搜救任务的机器人,或者是一辆在火星陡峭沙坡上行进的探测车。那里的地形充满危险——松散的沙子在脚下流动,巨大的岩石挡住了去路。
传统上,机器人的导航策略严格遵循“避障”原则: 看到岩石,就规划路径绕开它。但是,如果路径被完全堵死怎么办?或者,如果避开岩石会让机器人置身于可能滑落的陡坡之上怎么办?
在迷人的颗粒运动操控 (Granular Loco-Manipulation) 领域,研究人员正在颠覆这一剧本。他们不再让有腿机器人被动地避开障碍物,而是教它们主动操控地形。通过策略性地踢起沙子——制造受控的“沙崩”——机器人可以在向目标移动的同时,将沉重的岩石滑出原本的位置。
这篇博客文章将解析研究论文 《Granular Loco-Manipulation: Repositioning Rocks Through Strategic Sand Avalanche》 , 介绍 DiffusiveGRAIN , 这是一个基于学习的系统,能够让四足机器人通过重塑环境来确保安全通行。
问题所在: 为什么沙子很棘手
颗粒介质 (如沙子、碎石或土壤) 对机器人来说是出了名的难缠。当你站在上面时,它表现得像固体;但当你用力推它时,它又像流体一样流动。
先前的研究探索了“障碍物辅助运动”,即机器人利用岩石作为锚点来借力推动自己。虽然这很聪明,但风险很高。如果机器人踩在岩石上的位置不正确,它可能会打滑、底盘被卡住 (托底) ,甚至完全翻车。

如上图 2 所示,在陡坡上一步算错可能是灾难性的。另一种选择是移动障碍物。然而,在沙子上移动岩石并不像在桌子上推杯子。当你在沙子上推一块岩石时,会引发沙崩。流动的沙子会与附近的其它岩石相互作用,产生复杂的连锁运动反应。
研究人员指出了现有技术中的两个主要空白:
- 干扰 (Interference) : 移动一块岩石会影响它的邻居。以前的模型假设岩石是独立移动的,当岩石聚集在一起时,这种假设是不正确的。
- 机器人状态 (Robot State) : 当机器人将腿插入沙子中移动岩石时,机器人自身也会移动。“挖掘”的物理过程会影响机器人的位置和朝向,可能会使其不稳定。
实验设置
为了研究这个问题,研究人员建立了一个受控的“颗粒轨道”——本质上是一个可以倾斜以模拟陡峭沙丘的高科技沙箱。

他们使用了一个四足机器人和一个独立的龙门架系统 (机械臂装置) 来收集数据。目标是什么?执行运动操控 (Loco-Manipulation) : 这是“Locomotion” (机器人移动) 和“Manipulation” (改变世界) 的组合词。
核心解决方案: DiffusiveGRAIN
团队开发了 DiffusiveGRAIN , 这是一个框架,可以预测沙子、岩石和机器人在特定的腿部动作下将如何移动。
这不仅仅是一个神经网络;它是一个由两个专门的预测器和一个巧妙的调整机制组成的系统。让我们拆解一下它的架构。

1. 环境预测器 (\(f_e\))
系统的核心是一个扩散模型 (Diffusion Model) 。 如果你听说过 DALL-E 或 Stable Diffusion,你就知道这些模型非常擅长生成图像。在这里,研究人员使用带有 U-Net 主干的扩散模型来生成深度图像。
- 输入: 当前地形的深度图 (显示岩石和坡度) 以及机器人腿部动作的视觉表示 (它将在哪里挖掘) 。
- 输出: 预测的图像,显示沙子表面将如何变化。
为什么要用扩散模型?颗粒流动是复杂且随机 (Stochastic) 的。扩散模型特别擅长捕捉这些复杂的多模态分布,使机器人能够预测多块岩石如何同时移动。
2. 机器人状态预测器 (\(f_r\))
当第一个模型观察沙子时,第二个模型则观察机器人。这个 U-Net 接收当前状态和计划的动作,以预测机器人的下一个位置和朝向。
关键在于,研究人员发现机器人的移动很大程度上取决于使用了哪些腿。例如,用所有四条腿挖掘与仅用右前腿挖掘,机器人的移动方式是完全不同的。
3. 应对复杂性: 干扰问题
该论文的一个关键见解是,你不能孤立地对岩石进行建模。

请看图 3 右上角的图表。红色虚线代表如果岩石单独存在时它应该如何移动。柱状图显示了当附近有另一块岩石时它实际如何移动。
- 右上 (0cm): 当岩石紧挨着时,位移显著下降 (降至单独情况下的 42%) 。
- 为什么? 机器人引发的沙崩产生了沙流。如果有另一块岩石挡路,它会阻挡沙流,从而改变目标岩石的运动。DiffusiveGRAIN 的扩散模型捕捉到了简单模型所忽略的这些类似流体的相互作用。
4. 有效动作调整 (EAA)
有一个实际障碍: 用完整的机器人收集训练数据既慢又危险。使用龙门臂 (操纵器) 戳沙子数千次要快得多。
然而,固定的机械臂不像行走的机器人那样移动。机器人在踢沙子时会滑动和旋转。为了弥补这种“仿真到现实”的差距,团队发明了有效动作调整 (Effective Action Adjustment, EAA) 。
当机器人规划一个动作时,系统会计算出机器人在踢腿动作进行到一半时将在哪里 (使用机器人状态预测器) 。然后,它会虚拟地“平移”输入到环境预测器中的动作,以匹配这个预测的中间点。这使得静态的训练数据与行走机器人的动态现实保持一致。
规划移动
有了这些预测器,机器人现在可以“想象”未来。它使用一种称为后退视界规划 (Receding Horizon Planning) 的方法。基本上,机器人会模拟接下来 4 步的各种腿部动作序列。
它基于代价函数 (Cost Function) 对这些计划进行评分。
运动的代价
首先,机器人想要到达目的地 (\(\mathbf{d}^r\))。如果机器人离目标很远,代价就会增加:

但它也必须保持安全。研究人员定义了一个相对于机器人行进方向的“危险区域”。如果一块岩石直接位于机器人前方 (可能会绊倒它) ,代价就会飙升。

这个方程会对位于机器人路径特定角度 (\(\beta\)) 内的障碍物进行惩罚。
操控的代价
如果目标是移动岩石,机器人会计算岩石当前位置与它期望位置之间的距离:

通过结合这些代价,机器人找到了一个“最佳点”: 一系列动作既能将岩石踢向目标位置,又能让机器人向自己的目标微移,同时还能避免翻车。
实验与结果
团队将 DiffusiveGRAIN 与名为 GRAIN 的基准方法 (该方法将障碍物视为独立的) 进行了对比测试。
“运动操控”测试
最困难的任务涉及将 4 个障碍物移动到特定区域 (红线下方) ,同时机器人要导航到绿色目标方块处。

在图 5 中,你可以看到差异:
- DiffusiveGRAIN (上图) : 机器人有条不紊地踢开岩石。到了第 22 步,所有岩石都被清理到红线以外,机器人到达了绿色方块。成功!
- GRAIN (下图) : 机器人专注于移动,但未能考虑到岩石之间的相互作用。它只清理了 4 块岩石中的 2 块就放弃了。
数据支持了这一点:
- 在纯运动 (Locomotion) 任务中,DiffusiveGRAIN 达到了 90% 的成功率 (基准为 80%) 。
- 在运动操控 (Loco-Manipulation) (移动岩石 + 自身) 中,DiffusiveGRAIN 达到了 70% 的成功率,而基准方法严重失败,仅达到 20% 。
基准方法的失败很大程度上是因为它无法预测岩石如何挤在一起,或者机器人自身位置的偏移如何破坏其瞄准。
预测准确性
为什么 DiffusiveGRAIN 效果更好?因为它更了解沙子的物理特性。

图 12 显示了岩石位置的预测误差 (平均绝对误差 MAE) 。
- 粉色柱 (DiffusiveGRAIN) : 误差持续较低。
- 蓝色柱 (GRAIN) : 误差较高,尤其是当岩石靠得很近时 (0cm 距离) 。这证明了对岩石间“干扰”进行建模至关重要。
分布外测试: 真实岩石
训练数据使用的是统一的 3D 打印半球体。但现实世界是混乱的。为了测试鲁棒性,研究人员将真实的、不规则的岩石扔到了斜坡上。

尽管在训练期间从未见过这些形状,机器人还是成功地操控了它们 (图 6) 。扩散模型已经学会了沙崩的底层动力学,这对于质量相似但形状不同的物体具有很好的泛化能力。
结论与启示
DiffusiveGRAIN 代表了我们对机器人导航思考方式的转变。这项研究不再将环境视为静态的障碍训练场,而是将其视为一种可塑的资源。
通过整合基于扩散的环境预测器 (理解沙子和岩石的流动) 与机器人状态预测器 (理解自身的运动) ,机器人可以编排出一场复杂的挖掘与运动之舞。
主要收获:
- 颗粒相互作用是非线性的: 你不能把沙子上的岩石建模为独立的实体;它们通过介质相互影响。
- 运动影响操控: 机器人在移动时会改变世界,而这些改变反过来又会影响机器人。必须对它们进行联合规划。
- 主动地形改造是可能的: 机器人可以成为自主的推土机,清理出自己的道路,以到达原本无法到达的目的地。
这项工作为能力更强的行星探测车和救援机器人铺平了道路,它们不仅仅是在环境中生存,而是主动地为了自身优势去塑造环境。
](https://deep-paper.org/en/paper/2505.12934/images/cover.png)