想象一个部署在沙漠环境执行搜救任务的机器人,或者是一辆在火星陡峭沙坡上行进的探测车。那里的地形充满危险——松散的沙子在脚下流动,巨大的岩石挡住了去路。

传统上,机器人的导航策略严格遵循“避障”原则: 看到岩石,就规划路径绕开它。但是,如果路径被完全堵死怎么办?或者,如果避开岩石会让机器人置身于可能滑落的陡坡之上怎么办?

在迷人的颗粒运动操控 (Granular Loco-Manipulation) 领域,研究人员正在颠覆这一剧本。他们不再让有腿机器人被动地避开障碍物,而是教它们主动操控地形。通过策略性地踢起沙子——制造受控的“沙崩”——机器人可以在向目标移动的同时,将沉重的岩石滑出原本的位置。

这篇博客文章将解析研究论文 《Granular Loco-Manipulation: Repositioning Rocks Through Strategic Sand Avalanche》 , 介绍 DiffusiveGRAIN , 这是一个基于学习的系统,能够让四足机器人通过重塑环境来确保安全通行。

问题所在: 为什么沙子很棘手

颗粒介质 (如沙子、碎石或土壤) 对机器人来说是出了名的难缠。当你站在上面时,它表现得像固体;但当你用力推它时,它又像流体一样流动。

先前的研究探索了“障碍物辅助运动”,即机器人利用岩石作为锚点来借力推动自己。虽然这很聪明,但风险很高。如果机器人踩在岩石上的位置不正确,它可能会打滑、底盘被卡住 (托底) ,甚至完全翻车。

机器人在沙坡上因接触不良而翻倒。

如上图 2 所示,在陡坡上一步算错可能是灾难性的。另一种选择是移动障碍物。然而,在沙子上移动岩石并不像在桌子上推杯子。当你在沙子上推一块岩石时,会引发沙崩。流动的沙子会与附近的其它岩石相互作用,产生复杂的连锁运动反应。

研究人员指出了现有技术中的两个主要空白:

  1. 干扰 (Interference) : 移动一块岩石会影响它的邻居。以前的模型假设岩石是独立移动的,当岩石聚集在一起时,这种假设是不正确的。
  2. 机器人状态 (Robot State) : 当机器人将腿插入沙子中移动岩石时,机器人自身也会移动。“挖掘”的物理过程会影响机器人的位置和朝向,可能会使其不稳定。

实验设置

为了研究这个问题,研究人员建立了一个受控的“颗粒轨道”——本质上是一个可以倾斜以模拟陡峭沙丘的高科技沙箱。

带有颗粒轨道和机器人的实验装置。

他们使用了一个四足机器人和一个独立的龙门架系统 (机械臂装置) 来收集数据。目标是什么?执行运动操控 (Loco-Manipulation) : 这是“Locomotion” (机器人移动) 和“Manipulation” (改变世界) 的组合词。

核心解决方案: DiffusiveGRAIN

团队开发了 DiffusiveGRAIN , 这是一个框架,可以预测沙子、岩石和机器人在特定的腿部动作下将如何移动。

这不仅仅是一个神经网络;它是一个由两个专门的预测器和一个巧妙的调整机制组成的系统。让我们拆解一下它的架构。

展示环境和机器人状态预测器的系统概览。

1. 环境预测器 (\(f_e\))

系统的核心是一个扩散模型 (Diffusion Model) 。 如果你听说过 DALL-E 或 Stable Diffusion,你就知道这些模型非常擅长生成图像。在这里,研究人员使用带有 U-Net 主干的扩散模型来生成深度图像

  • 输入: 当前地形的深度图 (显示岩石和坡度) 以及机器人腿部动作的视觉表示 (它将在哪里挖掘) 。
  • 输出: 预测的图像,显示沙子表面将如何变化。

为什么要用扩散模型?颗粒流动是复杂且随机 (Stochastic) 的。扩散模型特别擅长捕捉这些复杂的多模态分布,使机器人能够预测多块岩石如何同时移动。

2. 机器人状态预测器 (\(f_r\))

当第一个模型观察沙子时,第二个模型则观察机器人。这个 U-Net 接收当前状态和计划的动作,以预测机器人的下一个位置和朝向。

关键在于,研究人员发现机器人的移动很大程度上取决于使用了哪些腿。例如,用所有四条腿挖掘与仅用右前腿挖掘,机器人的移动方式是完全不同的。

3. 应对复杂性: 干扰问题

该论文的一个关键见解是,你不能孤立地对岩石进行建模。

展示障碍物干扰的实验装置。

请看图 3 右上角的图表。红色虚线代表如果岩石单独存在时它应该如何移动。柱状图显示了当附近有另一块岩石时它实际如何移动。

  • 右上 (0cm): 当岩石紧挨着时,位移显著下降 (降至单独情况下的 42%) 。
  • 为什么? 机器人引发的沙崩产生了沙流。如果有另一块岩石挡路,它会阻挡沙流,从而改变目标岩石的运动。DiffusiveGRAIN 的扩散模型捕捉到了简单模型所忽略的这些类似流体的相互作用。

4. 有效动作调整 (EAA)

有一个实际障碍: 用完整的机器人收集训练数据既慢又危险。使用龙门臂 (操纵器) 戳沙子数千次要快得多。

然而,固定的机械臂不像行走的机器人那样移动。机器人在踢沙子时会滑动和旋转。为了弥补这种“仿真到现实”的差距,团队发明了有效动作调整 (Effective Action Adjustment, EAA)

当机器人规划一个动作时,系统会计算出机器人在踢腿动作进行到一半时将在哪里 (使用机器人状态预测器) 。然后,它会虚拟地“平移”输入到环境预测器中的动作,以匹配这个预测的中间点。这使得静态的训练数据与行走机器人的动态现实保持一致。

规划移动

有了这些预测器,机器人现在可以“想象”未来。它使用一种称为后退视界规划 (Receding Horizon Planning) 的方法。基本上,机器人会模拟接下来 4 步的各种腿部动作序列。

它基于代价函数 (Cost Function) 对这些计划进行评分。

运动的代价

首先,机器人想要到达目的地 (\(\mathbf{d}^r\))。如果机器人离目标很远,代价就会增加:

距离代价方程。

但它也必须保持安全。研究人员定义了一个相对于机器人行进方向的“危险区域”。如果一块岩石直接位于机器人前方 (可能会绊倒它) ,代价就会飙升。

安全代价方程。

这个方程会对位于机器人路径特定角度 (\(\beta\)) 内的障碍物进行惩罚。

操控的代价

如果目标是移动岩石,机器人会计算岩石当前位置与它期望位置之间的距离:

操控代价方程。

通过结合这些代价,机器人找到了一个“最佳点”: 一系列动作既能将岩石踢向目标位置,又能让机器人向自己的目标微移,同时还能避免翻车。

实验与结果

团队将 DiffusiveGRAIN 与名为 GRAIN 的基准方法 (该方法将障碍物视为独立的) 进行了对比测试。

“运动操控”测试

最困难的任务涉及将 4 个障碍物移动到特定区域 (红线下方) ,同时机器人要导航到绿色目标方块处。

DiffusiveGRAIN 与 GRAIN 在一次试验中的对比。

在图 5 中,你可以看到差异:

  • DiffusiveGRAIN (上图) : 机器人有条不紊地踢开岩石。到了第 22 步,所有岩石都被清理到红线以外,机器人到达了绿色方块。成功!
  • GRAIN (下图) : 机器人专注于移动,但未能考虑到岩石之间的相互作用。它只清理了 4 块岩石中的 2 块就放弃了。

数据支持了这一点:

  • 在纯运动 (Locomotion) 任务中,DiffusiveGRAIN 达到了 90% 的成功率 (基准为 80%) 。
  • 运动操控 (Loco-Manipulation) (移动岩石 + 自身) 中,DiffusiveGRAIN 达到了 70% 的成功率,而基准方法严重失败,仅达到 20%

基准方法的失败很大程度上是因为它无法预测岩石如何挤在一起,或者机器人自身位置的偏移如何破坏其瞄准。

预测准确性

为什么 DiffusiveGRAIN 效果更好?因为它更了解沙子的物理特性。

显示预测误差的柱状图。

图 12 显示了岩石位置的预测误差 (平均绝对误差 MAE) 。

  • 粉色柱 (DiffusiveGRAIN) : 误差持续较低。
  • 蓝色柱 (GRAIN) : 误差较高,尤其是当岩石靠得很近时 (0cm 距离) 。这证明了对岩石间“干扰”进行建模至关重要。

分布外测试: 真实岩石

训练数据使用的是统一的 3D 打印半球体。但现实世界是混乱的。为了测试鲁棒性,研究人员将真实的、不规则的岩石扔到了斜坡上。

使用真实岩石的实验。

尽管在训练期间从未见过这些形状,机器人还是成功地操控了它们 (图 6) 。扩散模型已经学会了沙崩的底层动力学,这对于质量相似但形状不同的物体具有很好的泛化能力。

结论与启示

DiffusiveGRAIN 代表了我们对机器人导航思考方式的转变。这项研究不再将环境视为静态的障碍训练场,而是将其视为一种可塑的资源。

通过整合基于扩散的环境预测器 (理解沙子和岩石的流动) 与机器人状态预测器 (理解自身的运动) ,机器人可以编排出一场复杂的挖掘与运动之舞。

主要收获:

  1. 颗粒相互作用是非线性的: 你不能把沙子上的岩石建模为独立的实体;它们通过介质相互影响。
  2. 运动影响操控: 机器人在移动时会改变世界,而这些改变反过来又会影响机器人。必须对它们进行联合规划。
  3. 主动地形改造是可能的: 机器人可以成为自主的推土机,清理出自己的道路,以到达原本无法到达的目的地。

这项工作为能力更强的行星探测车和救援机器人铺平了道路,它们不仅仅是在环境中生存,而是主动地为了自身优势去塑造环境。