DiTree：当扩散模型遇上机器人运动规划搜索树

想象一下，你正试着驾驶汽车穿过一个拥挤、陌生的仓库。你不能简单地画一条直线通向出口——你必须转弯、加速、刹车，并避开柱子，同时还要顾及汽车的转弯半径。这就是动力学运动规划 (Kinodynamic Motion Planning, KMP) 的本质。这不仅是几何学问题，更是物理学问题。

几十年来，机器人学家一直在努力高效地解决 KMP 问题。我们本质上只有两个选择: 要么使用数学上保证有效但速度极慢的算法 (搜索，Search) ，要么使用速度极快但经常发生碰撞或产生幻觉的现代 AI 模型 (学习，Learning) 。

如果我们不必二选一呢？在研究论文**“Train-Once Plan-Anywhere: Kinodynamic Motion Planning via Diffusion Trees” (一次训练，随处规划: 基于扩散树的动力学运动规划)** 中，研究人员介绍了 DiTree , 这是一个融合了搜索树的严格安全性与扩散模型生成能力的框架。其结果是一个只需在单张地图上训练，就能在从未见过的复杂环境中 (从赛车到多足步行机器人) 成功导航的规划器。

问题所在: 龟兔赛跑

要理解 DiTree 为何重要，我们首先需要了解运动规划中的两个截然不同的阵营。

乌龟: 基于采样的规划器 (SBPs)

解决这些问题的传统方法是使用像 RRT (快速扩展随机树) 这样的算法。其逻辑很简单:

从机器人的当前位置开始。
在空间中选取一个随机点。
尝试将机器人转向该点。
如果没有碰到障碍物，将该路径添加到你的“树”中。
重复此步骤，直到树的一个分支到达目标。

优点: 它们具备*概率完备性 (Probabilistically Complete) *。如果存在一条路径，RRT 保证在给予足够时间的情况下最终能找到它。它们还能保证路径无碰撞。 缺点: 它们是“盲目”的。因为随机采样动作，它们浪费了大量的计算资源去探索死胡同或尝试不可能的动作。

兔子: 基于学习的方法 (扩散模型)

最近, 扩散模型 (Diffusion Models) (DALL-E 和 Midjourney 背后的技术) 已被应用于机器人技术。它们生成的不是像素，而是轨迹。

向模型输入当前状态和目标。
模型将随机曲线“去噪”，生成一条平滑的、专家级的路径。

优点: 它们速度极快，能产生类似人类的动作。 缺点: 它们缺乏保证。扩散模型可能会生成一条看起来合理但实际上会刮擦墙壁 (碰撞) 或违反物理规律的路径。更糟糕的是，它们遭受分布外 (Out-of-Distribution, OOD) 失效的困扰。如果你在仓库地图上训练一个模型，然后在狭窄的走廊中测试它，它通常会灾难性地失败，因为它依赖于死记硬背全局环境。

DiTree 登场: 两全其美

DiTree (扩散树) 提出了一种混合架构。它保留了 SBP 的“树”结构以确安全性和完备性，但用智能的扩散策略 (Diffusion Policy) 取代了“随机”的盲目猜测。

Visualization of DiTree on D4RL’s AntMaze setting. 图 1: DiTree 在复杂的 “AntMaze” (蚂蚁迷宫) 环境中导航的可视化。该算法在学习到的扩散模型的引导下，生长出一棵树 (白/红线) 来探索空间。

工作原理: “知情”采样器

在标准 RRT 中，机器人选择一个随机方向并尝试移动。在 DiTree 中，机器人观察其周围环境并询问扩散模型: “鉴于我在这里看到的情况，专家会怎么做？”

以下是该框架中的分步过程:

节点选择: 算法在现有的树中选择一个节点进行扩展。
局部观测: 它提取该节点周围的局部地图 (占据栅格) 。这是一个至关重要的设计选择。通过仅观察局部几何结构 (例如，“我的左边有一堵墙”) ，模型学到了随处适用的行为。墙就是墙，无论它是在训练地图 A 还是测试地图 B 中。
扩散推理: 一个条件扩散策略 (具体来说是一个流匹配 (Flow Matching) 模型) 生成一系列动作。它是以局部障碍物和相对目标为条件的。
传播与安全检查: 使用机器人实际的物理引擎模拟生成的动作。系统会检查碰撞。如果路径是安全的，它将作为一条新边添加到树中。

Action sampling process in DiTree. 图 2: DiTree 流程。 (左) 选择一个节点并观测局部环境。 (中) 扩散模型以该局部视图为条件，生成动作序列。 (右) 有效的轨迹被添加到搜索树中。

这种方法解决了前两种方法的最大问题:

与纯扩散不同, 树结构可以捕捉失败。如果模型建议的路径撞墙，物理检查会拒绝它。机器人不会坠毁；它只是尝试不同的分支。
与纯 RRT 不同, 采样是高效的。它不会浪费时间探索随机的空白区域。它探索的是学习模型建议的有希望的区域。

理论支柱: 为什么它是安全的？

有人可能会担心: 如果我们停止随机采样并开始听从神经网络的建议，我们会不会失去最终能找到路径的数学保证？

作者提供了一个基于全支撑 (Full Support) 概念的理论证明。简单来说，要使算法具备“完备性”，必须有非零的概率采样到任何有效动作。标准的神经网络通常会坍缩为单一的确定性输出 (对其他选项的支持为零) 。

然而，扩散模型通过将高斯噪声转换为轨迹来工作。由于高斯分布具有“全支撑” (采样到任何值的概率虽然微小但非零) ，扩散模型在技术上保留了生成任何轨迹的能力。因此，DiTree 继承了 RRT 的概率完备性 。它很聪明，但如果聪明的路径失败了，它保留了“碰运气”的能力。

实验结果: 一次训练，随处规划

这篇论文最大胆的主张在于其标题。你真的可以在一张地图上训练机器人，然后在完全不同的地图上成功规划吗？

实验设置

研究人员测试了两种机器人:

CarMaze: 一辆非完整约束的小车 (不能横向移动，必须转向) ，具有复杂的动力学特性。
AntMaze: 一个 29 维的四足机器人 (基于 MuJoCo 物理引擎) 。由于维度极高，这对基于搜索的规划器来说是出了名的困难。

他们仅在一张地图 (D4RL AntMaze Large) 上训练扩散模型，并在 15 个不同的未见过场景中进行了测试，包括赛道、仓库和狭窄走廊。

Training map versus unseen test maps. 图 3: 泛化测试。左上角展示了用于训练的唯一地图。所有其他地图 (赛道、仓库、走廊等) 在训练期间模型从未见过。

性能表现

结果非常明显。在 AntMaze 环境中——机器人必须协调 8 个关节才能行走——像 RRT 和 SST 这样的传统规划器几乎完全失败 (在许多试验中成功率为 0%) ，因为搜索空间太大了。

然而，DiTree 成功了。通过利用学到的关于如何行走和如何避开局部墙壁的先验知识，它有效地在通过了高维空间。

在 CarMaze 场景中:

纯扩散 (DP) : 在复杂地图中经常失败，因为它无法泛化其全局路径预测。
纯搜索 (RRT/SST) : 最终能起作用，但速度慢且生成的路径“顿挫”。
DiTree: 取得了最高的成功率，并且通常比传统搜索快得多地找到解决方案。

Success rate and trajectory length graphs. 图 4: (左/中) 随时间变化的成功率。注意 DiTree (橙色) 比 RRT (蓝色) 或 SST (绿色) 更快地达到高成功率，特别是在复杂的 AntMaze 中。 (右) DiTree 还产生了明显更短、更高效的路径。

设计选择: 速度与质量的权衡

研究人员进行了消融实验来微调 DiTree 的“扩散”部分。用于图像生成的标准扩散模型可能需要 50 或 100 步来对图像进行“去噪”。在机器人技术中，在搜索循环内运行这么多次太慢了。

他们发现使用流匹配 (Flow Matching) (扩散的一种更快变体) 且仅进行单次迭代效果最好。为什么？因为在搜索树内部，你不需要每次都得到完美的轨迹；你只需要一个足够好的猜测来扩展树。进行一次快速推理使得规划器扩展树的速度比等待“完美”的 10 步扩散采样要快成千上万倍。

Ablation study on diffusion iterations and goal bias. 图 5: 消融结果。中间的图表特别有趣——红线 (1 次迭代) 实际上表现得比更多次迭代更好或相当，因为它允许更快的树生长。

真实世界验证

仿真是另一回事，真实的硬件才是终极考验。作者将 DiTree 部署在试图执行急转弯的物理缩比模型车上。

标准的 RRT 生成了一条数学上有效但锯齿状的路径。当真车试图跟踪它时，物理控制器无法跟上急剧的变化，导致碰撞 (下图中黄色 X 标记处) 。

Real-world tracking failures with RRT. 图 7 (RRT): 标准的 RRT 规划器生成的路径对于真实控制器来说难以跟踪，导致碰撞 (黄色 X) 。

相比之下，DiTree 生成了源自训练数据的平滑、专家级曲线。真车可以轻松跟踪这些轨迹，在实验中实现了 100% 的无碰撞成功率。

Real-world tracking success with DiTree. 图 8 (DiTree): DiTree 规划器生成了真车可以无碰撞执行的平滑、可驾驶路径。

结论

DiTree 代表了机器人运动规划向前迈出的重要一步。它承认了一个基本事实: 我们不需要在经典算法的严格保证和现代 AI 的直观速度之间做出选择。

通过使用局部视图扩散模型作为“大脑”来指导基于采样的规划器这一“身体”，DiTree 实现了:

泛化性: 一处训练，多处部署。
安全性: 树结构保证了碰撞检查和动力学可行性。
高效性: 它搜索复杂空间的速度比随机采样快几个数量级。

随着机器人走出受控的工厂，进入非结构化的家庭和街道，“一次训练，随处规划”的能力将变得至关重要。DiTree 为如何实现这一目标提供了一个稳健的蓝图。

问题所在: 龟兔赛跑#

乌龟: 基于采样的规划器 (SBPs)#

兔子: 基于学习的方法 (扩散模型)#

DiTree 登场: 两全其美#

工作原理: “知情”采样器#

理论支柱: 为什么它是安全的？#

实验结果: 一次训练，随处规划#

实验设置#

性能表现#

设计选择: 速度与质量的权衡#

真实世界验证#

结论#