当老板听从工人的意见：利用耦合分层扩散解决长程规划问题

规划一系列动作以实现遥远的目标是机器人技术中的基本挑战之一。想象一下让机器人“做一顿鸡肉晚餐”。这不仅仅是一个单一的动作；这是一个复杂的任务层级结构。机器人必须规划高层子目标 (打开冰箱、取出鸡肉、放入锅中、打开炉灶) 并执行低层运动 (关节角度、抓手速度) 来实现这些目标。

扩散模型最近彻底改变了这一领域，将规划视为一种生成建模问题。然而，随着“视界 (horizon) ” (任务的长度) 的增加，这些模型往往会遇到困难。它们要么产生物理上不可能的轨迹，要么陷入局部最优。

在这篇文章中，我们将深入探讨 耦合分层扩散 (Coupled Hierarchical Diffusion, CHD) , 这是新加坡国立大学研究人员提出的一个新框架。这篇论文解决了分层规划中的“松耦合”问题——即高层规划器设定目标，却忽略了低层规划器实现目标的困难。CHD 引入了一个数学框架，让“老板” (高层) 和“工人” (低层) 共同规划，从而实现可自我修正的长程计划。

问题所在: 分层规划中的脱节

要理解为什么 CHD 是必要的，我们需要先看看机器人目前是如何进行长期规划的。

标准的扩散规划器 (如“Diffuser”) 在短期任务中表现良好。它们通过细化随机噪声来生成轨迹。然而，对于长任务，不确定性会爆炸式增长。为了解决这个问题，研究人员使用 分层规划 (Hierarchical Planning) 。这种方法将问题分解为两层:

高层 (HL) 规划器: 生成路径上的子目标 (检查点) 。
低层 (LL) 规划器: 生成连接这些子目标的具体轨迹片段。

业界标准的方法，在这里称为 基线分层扩散 (Baseline Hierarchical Diffusion, BHD) , 将这些视为独立的顺序步骤。HL 规划器规定子目标，然后 LL 规划器尝试连接这些点。

失效模式: 如果 HL 规划器设定的子目标在语义上是有效的，但由于障碍物或运动学原因，LL 规划器在物理上很难或无法到达，会发生什么？在 BHD 中，LL 规划器会陷入困境，试图解决一个不可能的问题，因为子目标是固定的。这里没有反馈回路。“老板”已经离开了大楼，而“工人”正在面临失败。

图 1: 我们的耦合分层扩散 (CHD) 示意图。左图: CHD 通过去噪过程生成 HL 和 LL 的联合分布。HL 子目标可能看起来很合理，但导致的 LL 轨迹却是次优的。右图: 通过耦合分类器，CHD 使得 LL 的反馈能够优化次优的 HL 子目标，从而提高连贯性和性能。

如上图 图 1 所示，这种脱节导致了不连贯。在左侧，标准方法可能会设定一些从鸟瞰视角看还不错的子目标，但会导致不平滑、次优的低层路径。在右侧，CHD 引入了一个反馈回路，低层轨迹会在 规划过程中 通知并优化高层子目标。

背景: 扩散即规划

在剖析 CHD 之前，让我们简要回顾一下数学基础。

扩散模型通过逆转噪声过程来生成数据。在机器人技术中，“数据”是由状态和动作组成的轨迹 \(\tau\)。模型学习一个梯度场 (分数函数) ，将随机的混乱路径“去噪”为平滑、有效的轨迹，以最大化奖励。

在分层设置中，我们将轨迹分为若干片段。

\(\tau^g\) : 高层子目标序列。
\(\tau^x\) : 连接这些子目标的低层轨迹片段序列。

目标是生成 \(\tau^g\) 和 \(\tau^x\)，使它们满足最优性条件，记为 \(\mathcal{O}=1\) (意味着该计划获得了高奖励) 。

分层架构的演变

为了理解 CHD 的贡献，可视化这些架构的演变是很有帮助的。

图 2: CHD 克服了分层扩散规划中的关键限制。(a) BHD 分别规划 HL 子目标和 LL 轨迹，缺乏反馈和并行性。(b) JDM 实现了紧密的 HL 和 LL 耦合，但需要全联合空间扩散。(c) CHD 引入了分类器引导的 LL 到 HL 反馈，并支持异步并行生成。(d) 分段生成通过局部规划进一步降低了视界和复杂度。

图 2 提供了这种演变的路线图:

(a) 基线 (BHD) : HL 规划器生成 \(\tau^g\)，将其向下传递，然后 LL 规划器生成 \(\tau^x\)。箭头只是单向的。
(b) 联合扩散模型 (JDM) : 这是理论上的理想模型。我们将子目标和轨迹视为一个巨大的联合分布并将它们一起扩散。这确保了完美的耦合，但计算成本高昂且难以扩展。
(c) 耦合分层扩散 (CHD) : 这是本文提出的方法。它通过分类器利用巧妙的反馈机制来近似联合模型，允许双向影响，而无需 JDM 那样巨大的计算成本。

核心方法: 耦合分层扩散

研究人员提出 CHD 是为了满足有效规划的三个关键属性:

双向耦合: HL 指导 LL，但 LL 的反馈也会修正 HL。
并行采样: 两个层级同时生成以节省时间。
降低复杂度: 将问题分解为更小的片段以使其易于处理。

1. 联合分布近似

CHD 从联合扩散模型 (JDM) 的理念出发，但简化了依赖关系使其具有实用性。CHD 不再使用混乱、完全纠缠的概率图，而是简化了逆向过程 (规划步骤) 。

在 CHD 中，高层逆向步骤依赖于其自身，但低层逆向步骤依赖于低层状态以及高层子目标。

联合概率建模为:

CHD 联合概率公式

这里，\(p_{\theta^g}\) 是高层去噪器，\(p_{\theta^x}\) 是低层去噪器。注意低层项 \(p_{\theta^x}\) 以高层状态 \(\tau^g_{t-1}\) 为条件。这建立了自上而下的指导。

2. 耦合分类器引导 (反馈回路)

CHD 的“魔力”在于低层如何通知高层。这是通过 分类器引导 (Classifier Guidance) 完成的。

在扩散模型中，我们经常使用分类器来推动生成过程向特定类别或高奖励状态靠拢。CHD 使用一个 分层分类器 \(p_\phi(\mathcal{O}=1 | \tau^g, \tau^x)\) 来评估当前计划的 最优性。

关键在于，因为这个分类器同时观察 子目标 和轨迹，它的梯度可以反向传播以更新两者。

显示带有分类器引导的逆向过程公式

该公式显示了以最优性 (\(\mathcal{O}_{1:N}=1\)) 为条件的完整逆向过程。项 \(p_{\phi}\) 是耦合分类器。它充当了一座桥梁。如果 LL 轨迹看起来呈锯齿状或撞到墙壁，分类器会降低最优性的概率。当我们获取这个分类器的梯度时，它会推动 HL 子目标改变位置，以缓解 LL 轨迹的压力。

3. 异步并行生成

分层规划的一个主要瓶颈是顺序处理 (等待 HL 完成后才能开始 LL) 。CHD 引入了一种异步调度。

因为扩散时间 \(t\) 的低层步骤 (\(\tau^x_t\)) 依赖于高层状态，我们无法完美地同步它们。然而，CHD 构建了一种依赖关系结构，使它们交错进行。

逆向过程被分解为三个阶段:

初始化: 采样先验。
异步核心: 并行更新 \(\tau^g_{t-1}\) 和 \(\tau^x_t\)。
最后一步: 解决最后一个时间步。

分解如下所示:

显示逆向过程异步分解的公式

这种结构允许 GPU 同时处理两个扩散模型，与顺序基线相比显着加快了推理速度。

为了让引导在这个交错设置中工作，作者使用了一个巧妙的链式法则近似，将当前 LL 状态的梯度“上游”传递给上一个 HL 步骤:

显示异步梯度更新的公式

这个公式本质上是在说: “根据高层子目标 (\(\tau^g\)) 能在多大程度上提高当前低层轨迹 (\(\mu_{\theta^x}\)) 的最优性，来调整它。”

4. 分段生成

最后，为了处理非常长的视界，CHD 将低层轨迹分解为 \(N\) 个片段。

显示分段因式分解的公式

模型不是生成一个巨大的轨迹向量，而是生成 \(N\) 个较小的片段，每个片段都以其特定的局部子目标 \(g_i\) 为条件。这降低了问题的维度，并防止了长序列建模中常见的“梯度消失”问题。

实验与结果

作者在三个不同的领域评估了 CHD: 迷宫导航 (连续控制) 、机器人任务规划 (离散/符号化) 和真实世界机器人演示。

1. 迷宫导航

这是长程规划的经典压力测试。智能体必须在大型、复杂的迷宫中导航。“子目标”是路径点，“轨迹”是路径。

结果: CHD 在归一化奖励 (路径效率) 方面始终优于基线 (Diffuser、BHD 等) 。

图 3: 迷宫导航中的长程轨迹规划。左图: 规划轨迹的比较，星号代表子目标。右图: D4RL 中 Maze2D 环境的归一化奖励。CHD 结果是基于 150 个种子计算的。

在 图 3 (左) 中，你可以看到定性差异。BHD (紫色) 设定的子目标迫使智能体进行别扭的急转弯。CHD (橙色) 调整了子目标，创造出一条平滑、宽阔的曲线，执行起来要快得多。

CHD 的优势在困难场景中更为明显，如下面的网格可视化所示:

图 11: Maze2D Large 环境中迷宫导航结果的可视化。轨迹从蓝色起点到红色终点。终点位置始终在右下角，而起点位置各不相同，并在每一行中标出。星号代表 BHD 和 CHD 中的中间子目标。

在 图 11 中，查看行 (7, 4) 或 (1, 4) 。标准的 Diffuser (蓝色) 经常产生抖动的路径。BHD (绿色) 产生有效的路径，但由于子目标次优，通常走的是低效路线。CHD (红色) 始终能找到迷宫结构中最直接、最平滑的路径。

2. 机器人任务规划 (厨房世界)

除导航外，作者还在“烹饪”任务上测试了 CHD。这是一个混合问题，涉及离散状态 (例如 (Chicken, In-Pot) [鸡肉，在锅里]) 和动作。

图 4: Kitchen World 中的任务规划实验。给定当前状态，CHD 规划包含 HL 子目标状态和 LL 动作的任务。在联合逆向过程中，CHD 可以根据 LL 动作调整 HL 子目标。

如 图 4 所示，规划器必须对逻辑步骤进行排序。如果 LL 规划器意识到“打开炉灶”是不可能的，因为机器人的手满了，反馈回路会通知 HL 规划器先插入一个“放置物体”的子目标。

定量结果:

表 1: 机器人任务规划结果

表 1 显示，与 Transformer (如 GPT 风格的模型) 和标准 Diffuser 相比，CHD 实现了最高的成功率 (完成的任务) 和最少的步数 (最高效率) 。它在复杂度最高的“多任务”设置中表现尤为出色。

作者还追踪了“归一化累计步数” (越低越好) ，这表明了计划的效率。

图 5: 子任务的归一化累计步数

图 5 显示，虽然 Transformer (绿色) 和 VLM (红色) 开始时表现良好，但随着任务长度的增加，它们经常陷入重复循环。无论子任务数量多少，CHD (橙色) 都保持稳定和高效。

3. 真实世界机器人演示

最后，该方法被部署在一个物理 Fetch 机器人上，任务是整理杂货和准备饭菜。这涉及抓取、放置、打开橱柜以及在房间之间移动。

图 6: 真实世界任务规划演示。左图: Fetch 移动机器人被指派任务“准备午餐汉堡并整理桌上的杂货”。CHD 规划了超过 25 个 HL 子目标和 LL 动作。右图: 机器人在真实环境中执行规划动作的快照。实施细节见附录 E.3。

图 6 展示了真实世界任务的复杂性。机器人成功规划了超过 25 个子目标和动作。物理执行的成功在很大程度上依赖于计划在 运动学上是可行的，这正是 CHD 通过将高层逻辑与低层物理约束相耦合所确保的。

为什么这很重要？

分层规划从“松耦合”到“紧耦合”的转变是迈向更自主机器人的重要一步。

自我修正: 机器人可以在 规划期间 意识到计划行不通并进行修复，而不是试图执行注定失败的计划然后在现实世界中失败。
效率: 并行采样使扩散规划 (传统上很慢) 的速度快到足以实际应用。
可扩展性: 通过使用分段生成，该方法可以扩展到非常长的视界，而不会导致计算成本爆炸。

结论

耦合分层扩散 (CHD) 代表了生成式规划的成熟。它摆脱了以前分层方法中僵化的“自上而下”指挥结构，转而采用协作式的“联合优化”方法。

通过允许低层轨迹通过分类器引导向高层子目标“回话”，CHD 生成的计划不仅逻辑合理，而且在物理上也很优雅。无论是在复杂的迷宫中导航，还是在杂乱的厨房里做饭，CHD 都证明了只有当老板和工人步调一致时，才能制定出最好的计划。

问题所在: 分层规划中的脱节#

背景: 扩散即规划#

分层架构的演变#

核心方法: 耦合分层扩散#

1. 联合分布近似#

2. 耦合分类器引导 (反馈回路)#

3. 异步并行生成#

4. 分段生成#

实验与结果#

1. 迷宫导航#

2. 机器人任务规划 (厨房世界)#

3. 真实世界机器人演示#

为什么这很重要？#

结论#