引言

在机器人领域, 创造力安全性之间始终存在着一场拉锯战。

一方面,我们有数据驱动的方法 , 特别是扩散模型。它们是“艺术家”。它们观察了数以千计的演示,学会了生成复杂且类似人类的动作。它们可以在杂乱的房间中导航,或灵巧地操作物体。然而,像许多艺术家一样,它们并不总是喜欢遵守严格的规则。如果你给扩散模型设定一个它从未见过的安全约束,它可能会通过“幻觉”生成一条直接穿过墙壁的路径。

另一方面,我们有基于模型的优化 。 它们是“检查员”。它们依赖物理学、硬约束和控制理论 (如控制障碍函数) 。它们能保证安全性和稳定性。但它们往往僵化、计算昂贵,并且缺乏在复杂场景中“即兴发挥”的能力。

机器人领域的标准解决方案是让“艺术家”绘制方案,然后让“检查员”拿着红笔进行修改 (事后安全过滤) 。但是,如果“艺术家”画出的东西太不安全,以至于“检查员”无法在不破坏画作的情况下修复它,会发生什么呢?

在最近的一篇论文中,佐治亚理工学院的研究人员提出了一种名为 联合无模型与基于模型扩散 (Joint Model-based Model-free Diffusion, JM2D) 的新框架。JM2D 不采用顺序的“先规划后修复”方法,而是强制数据驱动的规划器和基于模型的优化器共同生成解决方案。

框架概览。左侧展示了传统的“顺序”方法,规划器和优化器相互冲突 (紫色框) 。右侧展示了 JM2D,两者共同扩散以找到相互兼容的解决方案 (绿色框) 。

问题所在: “顺序”陷阱

要理解为什么 JM2D 是必要的,我们需要先看看当前的方法为何会失败。

想象一个机械臂试图去拿一个杯子。 扩散规划器根据其训练数据建议了一条轨迹。然后, 安全过滤器 (基于模型的模块) 检查这条轨迹。如果轨迹即将撞上障碍物,安全过滤器就会介入,将机器人推开。

这被称为顺序采样 (Sequential Sampling) 。 问题在于扩散规划器对安全过滤器的能力是“盲目”的。它可能会提出一条过于激进的轨迹,导致安全过滤器别无选择,只能猛踩刹车,导致机器人冻结或剧烈抖动。这两个模块是未对齐 (misaligned) 的。

一些研究人员尝试了约束引导扩散 (Constraint-Guided Diffusion) , 即利用成本函数的梯度来引导扩散过程。然而,这通常需要可微的约束 (而现实世界中的障碍物往往不是可微的) ,并且可能会将机器人推入“陷阱”——即局部极小值,因为引导将机器人推离了现实动作的流形。

解决方案: 联合采样 (JM2D)

JM2D 的核心理念简单而深刻: 不要只采样规划。要同时采样规划和安全修正。

研究人员制定了一个联合无模型与基于模型生成 (JM2G) 问题。

  • 设 \(x\) 为机器人的规划 (轨迹) 。
  • 设 \(k\) 为基于模型的参数 (例如,特定的控制调整或安全备份计划) 。

JM2D 不是先生成 \(x\) 再求解 \(k\),而是从联合分布中生成一对联合的 \((x, k)\)。将它们联系在一起的“粘合剂”是一个交互势能 (Interaction Potential) , 记为 \(V(x, k)\)。这个势函数简单地问: “\(x\) 和 \(k\) 兼容吗?” 高兼容性意味着在给定 \(k\) 的安全能力下规划 \(x\) 是可行的,且 \(k\) 适用于规划 \(x\)。

工作原理: 联合扩散过程

该框架将高层规划和底层优化参数都视为需要“去噪”的变量。

  1. 从噪声开始: 系统从规划 (\(x_I\)) 和安全参数 (\(k_I\)) 的随机噪声开始。
  2. 前瞻 (神奇的一步) : 在去噪过程的每一步,模型都需要知道往哪个方向迈进。标准扩散使用在数据上训练的分数函数 (score function) 。JM2D 需要一个联合分数 (joint score) , 它既考虑数据先验,又考虑交互势能。

这就带来了一个数学挑战: 交互势能通常涉及硬约束 (如“不要撞墙”) 或复杂的优化,这些都是不可微的。你无法简单地对一堵砖墙求梯度。

为了解决这个问题,作者使用了重要性采样 (Importance Sampling) 。 他们没有试图对约束进行微分,而是采用蒙特卡洛方法。

方程 9: 联合分数的蒙特卡洛估计器。

上述方程背后的直觉如下:

  1. 从当前的噪声状态出发,算法“猜测”出多个最终去噪后的结果可能是什么样子的 (\(\hat{x}_0, \hat{k}_0\)) 。
  2. 它为每个猜测评估交互势能 \(V(\hat{x}_0, \hat{k}_0)\)。基本上,它在检查: “在这个猜测的未来中,我们撞车了吗?”
  3. 它计算加权平均值。导致安全、兼容结果的猜测会获得更高的权重。
  4. 这个加权平均值构成了引导扩散过程的梯度 (分数) 。

通过这种方式,JM2D 引导扩散过程通过规划和安全备份相协调的区域,而无需计算约束本身的梯度。

可视化差异

作者使用一个“甜甜圈”玩具领域来演示这种行为。目标是在一个灰色的甜甜圈形状内规划一条从起点到终点的路径,同时避开一个仅在测试时出现的红色障碍物。

采样方法的比较。顺序采样 (红星) 盲目失败。吉布斯采样 (绿色) 试图修复但很挣扎。JM2D (蓝星) 找到了有效解的聚类。

  • 顺序采样 (左) : 规划器根据训练数据选择一个点,忽略了红色障碍物。优化器试图修复它,但失败了,因为初始猜测偏离太远。
  • JM2D (右) : 扩散过程“感受”到了交互势能。它自然地收敛到规划既有效 (在甜甜圈上) 又安全 (与优化兼容) 的区域。

实验: 它在机器人上有效吗?

研究人员在仿真基准和真实硬件上都测试了 JM2D。

1. PointMaze 挑战

在这个实验中,机器人必须穿越迷宫。棘手的部分在于?在测试时,墙壁被“膨胀” (加宽) 了,使得走廊比机器人训练时看到的更窄。

  • RAIL (基准) : 一种标准方法,先生成规划,然后应用安全过滤器。
  • JM2D (本文方法) : 联合采样方法。

结果图表显示安全成功率、干预率和任务视界。

图 4 中的结果说明了一切。随着墙壁变厚 (x 轴向右移动) :

  • 安全成功率 (左) : 普通扩散策略 (红线) 惨败,因为它不知道墙壁移动了。JM2D (蓝线) 保持了近乎完美的成功率。
  • 干预率 (中) : 这是关键指标。RAIL 基准 (橙色) 保持了安全,但安全过滤器必须不断干预 (高达 40% 的时间) 。这使得机器人动作顿挫且缓慢。JM2D 的干预率要低得多,因为生成的规划已经符合安全约束。
  • 任务视界 (右) : 由于 JM2D 与安全过滤器的冲突较少,它能更快地完成迷宫 (越低越好) 。

2. 真实世界操作

他们在 Franka Emika Panda 机械臂上部署了 JM2D。任务是拿起一个马克杯。难点在于?他们在场景中放置了训练数据中不存在的随机障碍物 (盒子、其他物体) 。

真实机器人实验设置,显示 Franka 机械臂和未见过的障碍物。

标准的扩散规划器会愉快地让机器人撞上新障碍物,因为它们看起来与它训练时的空桌子“足够接近”。

对比条带。上: 普通扩散撞车。下: JM2D 平滑避障。

如上图所示,JM2D 成功引导机械臂绕过了障碍物。“备份规划器” (基于模型的部分) 通知扩散过程直接路径是危险的。然后扩散过程搜索“联合空间”,找到一条既在运动学上可行又无障碍的路径。

为什么不直接“投影”噪声?

该领域的一个常见替代方案是投影 (Projection) 。 如果扩散步骤建议了一个安全区域之外的噪声点,为什么不直接通过数学方法将其“吸附”到最近的安全点呢?

作者认为这会破坏“数据保真度”——即动作的自然性。

轨迹对比。JM2D (左) 平滑。DPCC (右) 不稳定。

在上图中,观察 JM2D (a) 和 DPCC (c) (一种基于投影的方法) 之间的区别。

  • JM2D: 产生平滑、符合逻辑的曲线。约束在整个生成过程中充当温和的向导。
  • DPCC: 产生不稳定、纠缠的路径。通过强制投影噪声样本,该方法破坏了扩散模型的内部逻辑,导致产生“安全”但不可用或不自然的轨迹。

结论

JM2D 代表了弥合现代 AI 与经典机器人技术之间差距的重要一步。

通过将规划制定为联合采样问题 , 作者创建了一个系统,其中“艺术家” (扩散) 和“检查员” (优化) 是协同工作而非相互对立的。蒙特卡洛估计的使用使得该框架能够处理现实世界中混乱、不可微的约束——如墙壁、桌子和杯子——而无需完美的、可微的模拟器。

对于学生和研究人员来说,关键的启示是: 对齐 (Alignment) 至关重要。 仅仅将模块堆叠在一起是不够的。当机器人系统的各个组件——学习、规划和控制——在整个决策过程中共享信息时,才能实现真正的鲁棒性。