规划一系列动作以实现遥远的目标是机器人技术中的基本挑战之一。想象一下让机器人“做一顿鸡肉晚餐”。这不仅仅是一个单一的动作;这是一个复杂的任务层级结构。机器人必须规划高层子目标 (打开冰箱、取出鸡肉、放入锅中、打开炉灶) 并执行低层运动 (关节角度、抓手速度) 来实现这些目标。
扩散模型最近彻底改变了这一领域,将规划视为一种生成建模问题。然而,随着“视界 (horizon) ” (任务的长度) 的增加,这些模型往往会遇到困难。它们要么产生物理上不可能的轨迹,要么陷入局部最优。
在这篇文章中,我们将深入探讨 耦合分层扩散 (Coupled Hierarchical Diffusion, CHD) , 这是新加坡国立大学研究人员提出的一个新框架。这篇论文解决了分层规划中的“松耦合”问题——即高层规划器设定目标,却忽略了低层规划器实现目标的困难。CHD 引入了一个数学框架,让“老板” (高层) 和“工人” (低层) 共同规划,从而实现可自我修正的长程计划。
问题所在: 分层规划中的脱节
要理解为什么 CHD 是必要的,我们需要先看看机器人目前是如何进行长期规划的。
标准的扩散规划器 (如“Diffuser”) 在短期任务中表现良好。它们通过细化随机噪声来生成轨迹。然而,对于长任务,不确定性会爆炸式增长。为了解决这个问题,研究人员使用 分层规划 (Hierarchical Planning) 。 这种方法将问题分解为两层:
- 高层 (HL) 规划器: 生成路径上的子目标 (检查点) 。
- 低层 (LL) 规划器: 生成连接这些子目标的具体轨迹片段。
业界标准的方法,在这里称为 基线分层扩散 (Baseline Hierarchical Diffusion, BHD) , 将这些视为独立的顺序步骤。HL 规划器规定子目标,然后 LL 规划器尝试连接这些点。
失效模式: 如果 HL 规划器设定的子目标在语义上是有效的,但由于障碍物或运动学原因,LL 规划器在物理上很难或无法到达,会发生什么?在 BHD 中,LL 规划器会陷入困境,试图解决一个不可能的问题,因为子目标是固定的。这里没有反馈回路。“老板”已经离开了大楼,而“工人”正在面临失败。

如上图 图 1 所示,这种脱节导致了不连贯。在左侧,标准方法可能会设定一些从鸟瞰视角看还不错的子目标,但会导致不平滑、次优的低层路径。在右侧,CHD 引入了一个反馈回路,低层轨迹会在 规划过程中 通知并优化高层子目标。
背景: 扩散即规划
在剖析 CHD 之前,让我们简要回顾一下数学基础。
扩散模型通过逆转噪声过程来生成数据。在机器人技术中,“数据”是由状态和动作组成的轨迹 \(\tau\)。模型学习一个梯度场 (分数函数) ,将随机的混乱路径“去噪”为平滑、有效的轨迹,以最大化奖励。
在分层设置中,我们将轨迹分为若干片段。
- \(\tau^g\) : 高层子目标序列。
- \(\tau^x\) : 连接这些子目标的低层轨迹片段序列。
目标是生成 \(\tau^g\) 和 \(\tau^x\),使它们满足最优性条件,记为 \(\mathcal{O}=1\) (意味着该计划获得了高奖励) 。
分层架构的演变
为了理解 CHD 的贡献,可视化这些架构的演变是很有帮助的。

图 2 提供了这种演变的路线图:
- (a) 基线 (BHD) : HL 规划器生成 \(\tau^g\),将其向下传递,然后 LL 规划器生成 \(\tau^x\)。箭头只是单向的。
- (b) 联合扩散模型 (JDM) : 这是理论上的理想模型。我们将子目标和轨迹视为一个巨大的联合分布并将它们一起扩散。这确保了完美的耦合,但计算成本高昂且难以扩展。
- (c) 耦合分层扩散 (CHD) : 这是本文提出的方法。它通过分类器利用巧妙的反馈机制来近似联合模型,允许双向影响,而无需 JDM 那样巨大的计算成本。
核心方法: 耦合分层扩散
研究人员提出 CHD 是为了满足有效规划的三个关键属性:
- 双向耦合: HL 指导 LL,但 LL 的反馈也会修正 HL。
- 并行采样: 两个层级同时生成以节省时间。
- 降低复杂度: 将问题分解为更小的片段以使其易于处理。
1. 联合分布近似
CHD 从联合扩散模型 (JDM) 的理念出发,但简化了依赖关系使其具有实用性。CHD 不再使用混乱、完全纠缠的概率图,而是简化了逆向过程 (规划步骤) 。
在 CHD 中,高层逆向步骤依赖于其自身,但低层逆向步骤依赖于低层状态 以及 高层子目标。
联合概率建模为:

这里,\(p_{\theta^g}\) 是高层去噪器,\(p_{\theta^x}\) 是低层去噪器。注意低层项 \(p_{\theta^x}\) 以高层状态 \(\tau^g_{t-1}\) 为条件。这建立了自上而下的指导。
2. 耦合分类器引导 (反馈回路)
CHD 的“魔力”在于低层如何通知高层。这是通过 分类器引导 (Classifier Guidance) 完成的。
在扩散模型中,我们经常使用分类器来推动生成过程向特定类别或高奖励状态靠拢。CHD 使用一个 分层分类器 \(p_\phi(\mathcal{O}=1 | \tau^g, \tau^x)\) 来评估当前计划的 最优性。
关键在于,因为这个分类器同时观察 子目标 和 轨迹,它的梯度可以反向传播以更新 两者。

该公式显示了以最优性 (\(\mathcal{O}_{1:N}=1\)) 为条件的完整逆向过程。项 \(p_{\phi}\) 是耦合分类器。它充当了一座桥梁。如果 LL 轨迹看起来呈锯齿状或撞到墙壁,分类器会降低最优性的概率。当我们获取这个分类器的梯度时,它会推动 HL 子目标改变位置,以缓解 LL 轨迹的压力。
3. 异步并行生成
分层规划的一个主要瓶颈是顺序处理 (等待 HL 完成后才能开始 LL) 。CHD 引入了一种 异步 调度。
因为扩散时间 \(t\) 的低层步骤 (\(\tau^x_t\)) 依赖于高层状态,我们无法完美地同步它们。然而,CHD 构建了一种依赖关系结构,使它们交错进行。
逆向过程被分解为三个阶段:
- 初始化: 采样先验。
- 异步核心: 并行更新 \(\tau^g_{t-1}\) 和 \(\tau^x_t\)。
- 最后一步: 解决最后一个时间步。
分解如下所示:

这种结构允许 GPU 同时处理两个扩散模型,与顺序基线相比显着加快了推理速度。
为了让引导在这个交错设置中工作,作者使用了一个巧妙的链式法则近似,将当前 LL 状态的梯度“上游”传递给上一个 HL 步骤:

这个公式本质上是在说: “根据高层子目标 (\(\tau^g\)) 能在多大程度上提高 当前 低层轨迹 (\(\mu_{\theta^x}\)) 的最优性,来调整它。”
4. 分段生成
最后,为了处理非常长的视界,CHD 将低层轨迹分解为 \(N\) 个片段。

模型不是生成一个巨大的轨迹向量,而是生成 \(N\) 个较小的片段,每个片段都以其特定的局部子目标 \(g_i\) 为条件。这降低了问题的维度,并防止了长序列建模中常见的“梯度消失”问题。
实验与结果
作者在三个不同的领域评估了 CHD: 迷宫导航 (连续控制) 、机器人任务规划 (离散/符号化) 和真实世界机器人演示。
1. 迷宫导航
这是长程规划的经典压力测试。智能体必须在大型、复杂的迷宫中导航。“子目标”是路径点,“轨迹”是路径。
结果: CHD 在归一化奖励 (路径效率) 方面始终优于基线 (Diffuser、BHD 等) 。

在 图 3 (左) 中,你可以看到定性差异。BHD (紫色) 设定的子目标迫使智能体进行别扭的急转弯。CHD (橙色) 调整了子目标,创造出一条平滑、宽阔的曲线,执行起来要快得多。
CHD 的优势在困难场景中更为明显,如下面的网格可视化所示:

在 图 11 中,查看行 (7, 4) 或 (1, 4) 。 标准的 Diffuser (蓝色) 经常产生抖动的路径。BHD (绿色) 产生有效的路径,但由于子目标次优,通常走的是低效路线。CHD (红色) 始终能找到迷宫结构中最直接、最平滑的路径。
2. 机器人任务规划 (厨房世界)
除导航外,作者还在“烹饪”任务上测试了 CHD。这是一个混合问题,涉及离散状态 (例如 (Chicken, In-Pot) [鸡肉,在锅里]) 和动作。

如 图 4 所示,规划器必须对逻辑步骤进行排序。如果 LL 规划器意识到“打开炉灶”是不可能的,因为机器人的手满了,反馈回路会通知 HL 规划器先插入一个“放置物体”的子目标。
定量结果:

表 1 显示,与 Transformer (如 GPT 风格的模型) 和标准 Diffuser 相比,CHD 实现了最高的成功率 (完成的任务) 和最少的步数 (最高效率) 。它在复杂度最高的“多任务”设置中表现尤为出色。
作者还追踪了“归一化累计步数” (越低越好) ,这表明了计划的效率。

图 5 显示,虽然 Transformer (绿色) 和 VLM (红色) 开始时表现良好,但随着任务长度的增加,它们经常陷入重复循环。无论子任务数量多少,CHD (橙色) 都保持稳定和高效。
3. 真实世界机器人演示
最后,该方法被部署在一个物理 Fetch 机器人上,任务是整理杂货和准备饭菜。这涉及抓取、放置、打开橱柜以及在房间之间移动。

图 6 展示了真实世界任务的复杂性。机器人成功规划了超过 25 个子目标和动作。物理执行的成功在很大程度上依赖于计划在 运动学上是可行的,这正是 CHD 通过将高层逻辑与低层物理约束相耦合所确保的。
为什么这很重要?
分层规划从“松耦合”到“紧耦合”的转变是迈向更自主机器人的重要一步。
- 自我修正: 机器人可以在 规划期间 意识到计划行不通并进行修复,而不是试图执行注定失败的计划然后在现实世界中失败。
- 效率: 并行采样使扩散规划 (传统上很慢) 的速度快到足以实际应用。
- 可扩展性: 通过使用分段生成,该方法可以扩展到非常长的视界,而不会导致计算成本爆炸。
结论
耦合分层扩散 (CHD) 代表了生成式规划的成熟。它摆脱了以前分层方法中僵化的“自上而下”指挥结构,转而采用协作式的“联合优化”方法。
通过允许低层轨迹通过分类器引导向高层子目标“回话”,CHD 生成的计划不仅逻辑合理,而且在物理上也很优雅。无论是在复杂的迷宫中导航,还是在杂乱的厨房里做饭,CHD 都证明了只有当老板和工人步调一致时,才能制定出最好的计划。
](https://deep-paper.org/en/paper/2505.07261/images/cover.png)