引言

想象一下，你拿着手电筒走进一座漆黑的建筑。你的目标是找到一个特定的出口或绘制整个楼层的地图。当你走在走廊上时，你不仅看到了面前被照亮的那一小块区域；你的大脑本能地构建了一个心理模型——一张关于黑暗中可能存在事物的“认知地图”。你可能会假设: “这看起来像条走廊，所以它可能会笔直延伸，”或者“这看起来像个大堂，所以两边可能有门。”

这种“构想”未见环境的能力使人类能够做出高效的导航决策。然而，机器人通常缺乏这种先见之明。大多数自主系统都以贪婪的方式运行，朝着最近的“前沿 (frontier) ” (即已知和未知空间之间的边缘) 移动，而没有考虑更广泛的结构背景。

在这篇文章中，我们将探讨由 Wang 等人提出的 CogniPlan , 这是一个旨在弥合这一差距的新颖框架。通过结合 条件生成式 AI (用于预测潜在布局) 和图上的 深度强化学习 (DRL) (用于规划路径) ，CogniPlan 赋予了机器人推理不确定性并“构想”合理未来的能力，从而做出更好的决策。

CogniPlan 的布局预测和轨迹。我们展示了在模拟地图中的半途导航和在 Gazebo 环境中的半途探索。

如图 1 所示，机器人不仅看到当前可见的事物；它还会生成模糊的、概率性的布局预测 (如左下角所示) ，并利用这些预测为探索和点目标导航规划智能路径。

问题: 在未知中规划

在未知环境中的路径规划是一个经典的机器人问题，主要分为两个相互关联的任务:

自主探索: 机器人必须尽可能快地绘制整个环境的地图。
点目标导航: 机器人必须通过最短路径到达未知空间中的特定坐标。

核心挑战在于 不确定性 。传统方法，如基于前沿的探索，依赖于启发式算法。它们本质上是在问: “哪个未绘制地图的边缘最近？”然后移动到那里。虽然这种方法计算成本低，但通常是“短视的”。机器人可能会进入一个房间，扫描一个角落，离开，稍后才意识到需要回去，从而导致低效的折返。

最近的基于学习的方法试图将空间知识编码到神经网络中，但它们往往难以扩展到大型环境，或者无法显式地建模未知区域 看起来 是什么样子的。CogniPlan 通过显式预测地图布局并使用这些预测来指导基于图的规划器，解决了这个问题。

CogniPlan 框架

CogniPlan 的功能就像一个由两部分组成的大脑。一部分是 想象引擎 (生成式修复) ，它预测未知地图的样子。第二部分是 推理引擎 (图注意力规划器) ，它根据这些预测决定移动到哪里。

CogniPlan 框架。我们首先在程序生成的地图上训练一个生成式修复网络，给定其地面实况布局类型向量 (房间、隧道或户外) ，然后冻结该模型以训练基于图注意力的规划器网络。我们的规划器通过将概率信息纳入图特征，对从一组条件向量生成的多个预测进行推理，并迭代输出用于探索或导航的下一个路径点。

图 2 展示了该流程。让我们详细分解这两个主要组件: 生成式修复网络和图注意力规划器。

1. 条件生成式修复 (Conditional Generative Inpainting)

第一步是填补机器人部分地图的空白。研究人员采用了 Wasserstein 生成对抗网络 (WGAN) 来执行图像修复。

然而，单一的预测是不够的。如果机器人在黑暗中面对一个 T 形路口，预测只有左转是危险的，因为路径实际上可能向右延伸。机器人需要理解 不确定性 。

通过条件化生成多种假设

为了捕捉这种不确定性，CogniPlan 生成了多种合理的布局。它通过向生成器输入一组 布局条件向量 ($z$) 来实现这一点。这些向量充当“风格指南”，提示网络生成不同类型的结构，例如房间、隧道或户外空间。

在数学上，生成器接收部分地图 $\mathcal{M}$、未知区域的掩码和条件向量 $z$，以生成预测 $\hat{\mathcal{M}}$。通过使用不同的 $z$ 向量多次运行此过程，机器人会生成一组变化的预测。当这些预测被平均后，结果是一个概率地图，其中像素值代表该区域空闲或被占据的可能性。

训练目标

修复网络使用对抗损失和重建损失的组合进行训练。生成器的总损失函数定义为:

生成器损失方程

各项含义如下:

$-\mathbb{E}[\mathrm{Dis}(\hat{\mathcal{M}})]$ : 对抗损失。生成器试图欺骗判别器，使其认为修复后的地图是真实的。
L1 范数 ($\lambda_1, \lambda_2$) : 这些项确保与地面实况相比的像素级准确性。
空间折扣掩码 ($M_{sd}$) : 这是一个巧妙的设计。作者应用了一个随距已知区域距离呈指数衰减的权重。这迫使网络在机器人当前位置附近 (通过性最重要的地方) 非常准确，同时允许在未知的深处有更多的“自由发挥”。
F1 分数 ($\lambda_3$) : 这优化了预测障碍物与实际障碍物之间的重叠。

2. 不确定性引导的规划器

一旦机器人“想象”出了环境，它就需要规划一条路径。直接在高分辨率像素地图上规划不仅计算量大，而且效率低。相反，CogniPlan 将地图转换为 图 (Graph) 。

构建图

该框架构建了一个无碰撞图，其中节点分布在空闲空间中。至关重要的是，这些节点丰富了源自生成预测的特征:

信号 ($s_i$): 该节点是在已知区域还是预测区域？
概率 ($p_i$): 这个空间是空闲的概率是多少？ (源自平均多个修复预测) 。
效用 ($u_i$): 这个节点有助于发现新的前沿吗？
路标 ($g_i$): 这个节点是否在通往前沿的轨迹上？

这个图 $G'$ 封装了硬数据 (机器人已看到的) 和软数据 (机器人想象的) 。

图注意力网络 (GAT)

规划器本身是一个基于 图注意力 (Graph Attention) 架构的神经网络。它由一个 编码器 和一个 解码器 组成。

编码器: 聚合来自图的信息。它使用自注意力机制允许节点与其邻居“对话”。通过堆叠多个注意力层，一个节点可以从图的远处收集上下文。这赋予了机器人对环境拓扑结构的全局理解。
解码器: 接收全局上下文和机器人的当前位置以输出策略。它有效地为相邻节点打分，决定机器人下一步应该访问哪一个。

规划器使用 软 Actor-Critic (SAC) 进行训练，这是一种强大的深度强化学习算法。奖励函数鼓励机器人发现未知区域 (探索) 或靠近目标 (导航) ，同时最小化移动距离。

实验与结果

研究人员将 CogniPlan 与多个基准进行了广泛的比较，包括经典启发式算法 (最近前沿) 、基于采样的方法 (NBVP) 以及其他基于学习的规划器 (ARiADNE+, TARE) 。

仿真性能

成功的主要衡量标准是 移动路径长度 (travel length)——即机器人完成任务需要行驶多远。越短越好。

表1: 150 张地图上的探索性能比较 (每个环境 50 张) 。我们报告了完成探索的移动路径长度的平均值和标准差 (越低越好) 。表2: 100 张地图上的导航性能比较。我们报告了到达点目标的移动路径长度的平均值和标准差 (越低越好) 。

如表 1 (探索) 所示，CogniPlan 在房间、隧道和户外环境中均优于所有基准。

与“Inpaint+TARE” (使用预测但使用传统规划器的基准) 相比，其移动路径长度 减少了 17.7% 。这证明仅仅拥有预测地图是不够的；规划器必须经过训练才能理解预测的 不确定性。
与 ARiADNE+ (一种不使用生成式修复的最先进 DRL 规划器) 相比，它 减少了 7.0% 。

表 2 (导航) 显示了类似的优势，CogniPlan 比“Inpaint+A*”方法高出 3.9%，比“上下文感知 (CA)”学习基准高出 12.5%。

多重预测的重要性

真的有必要生成多个地图预测吗？作者通过改变 $|Z|$ (预测数量) 来测试这一点。

图3: 移动路径长度减少。4 次和 7 次预测与 1 次预测的比较。

图 3 显示了与仅使用 1 次预测相比，使用 4 次或 7 次预测时的行程长度减少情况。几乎在所有情况下，使用多个预测 (蓝色和绿色条) 都能带来更好的性能。这证实了捕捉不确定性——通过平均多种“想象”的布局——对于鲁棒的规划至关重要。

对起始位置的鲁棒性

一个优秀的探索者无论在哪里出生都应该表现良好。作者在具有随机起始位置的现实平面图上测试了 CogniPlan。

图5: 对随机起点的鲁棒性。不同探索率下的行程长度。

图 5 绘制了平均行程距离 (x 轴) 与标准差 (y 轴) 的关系。理想情况下，方法应位于左下角 (高效且一致) 。CogniPlan (蓝色星号) 明显比基准方法更一致。预测提供了指导规划器的全局结构先验，防止其“迷路”或不必要地折返，无论它从哪里开始。

定性结果: 可视化路径

数字很有说服力，但可视化机器人的行为能让差异更加明显。

图7: CogniPlan 和基准规划器在中型和大型环境中的轨迹。彩色线条代表机器人的运动轨迹，红色到紫色的光谱表示从起点到终点的进程。

在图 7 中，我们看到了不同规划器的轨迹。

CogniPlan (左侧和中间) : 路径平滑且合乎逻辑。机器人系统地清理房间和走廊。
DSVP & TARE (右侧) : 注意那些混乱、重叠的线条。这些传统规划器经常迫使机器人走“之”字形或重新访问区域，导致 DSVP 示例 (右上) 中出现的“意大利面式”轨迹。

真实世界部署

最后，作者证明了 CogniPlan 不仅仅是模拟中的花招。他们将其部署在配备激光雷达传感器的物理移动机器人上，放置在一个杂乱的室内实验室中。

$图6: 在 \$\\mathbf { 3 0 m \\times 1 0 m }\$ 的室内实验室进行的真实世界探索实验。我们展示了我们的移动机器人、实验室环境、中间 Octomap 以及带有机器人轨迹的最终点云。$

如图 6 所示，机器人成功构建了实验室的完整点云。它设法绕过椅子、桌子和移动的人员进行导航，证明了该框架的计算效率足以在真实硬件上运行。

结论

CogniPlan 代表了机器人自主性向前迈出的重要一步。它摆脱了纯粹的反应式、贪婪行为，转向了一种更“认知”的方法，即机器人主动推理它们看不到的东西。

主要结论:

想象与理性的协同: CogniPlan 的力量在于 生成式修复 (提供详细的空间假设) 与 图注意力网络 (对结构不确定性进行推理) 的结合。
不确定性是有用的: 通过生成多个潜在布局，机器人可以识别哪些区域是模糊的，哪些是确定的，从而产生更安全、更高效的路径。
优于各部分之和: 实验表明，简单地将预测地图提供给标准规划器 (Inpaint+TARE) 表现不佳。规划器必须经过训练才能利用预测的概率性质。

这项工作为未来的研究打开了令人兴奋的大门，包括多智能体探索以及视觉数据 (相机) 的整合，以进一步增强机器人的“想象力”。

引言#

问题: 在未知中规划#

CogniPlan 框架#

1. 条件生成式修复 (Conditional Generative Inpainting)#

通过条件化生成多种假设#

训练目标#

2. 不确定性引导的规划器#

构建图#

图注意力网络 (GAT)#

实验与结果#

仿真性能#

多重预测的重要性#

对起始位置的鲁棒性#

定性结果: 可视化路径#

真实世界部署#

结论#

引言