引言

想象一下,你拿着手电筒走进一座漆黑的建筑。你的目标是找到一个特定的出口或绘制整个楼层的地图。当你走在走廊上时,你不仅看到了面前被照亮的那一小块区域;你的大脑本能地构建了一个心理模型——一张关于黑暗中可能存在事物的“认知地图”。你可能会假设: “这看起来像条走廊,所以它可能会笔直延伸,”或者“这看起来像个大堂,所以两边可能有门。”

这种“构想”未见环境的能力使人类能够做出高效的导航决策。然而,机器人通常缺乏这种先见之明。大多数自主系统都以贪婪的方式运行,朝着最近的“前沿 (frontier) ” (即已知和未知空间之间的边缘) 移动,而没有考虑更广泛的结构背景。

在这篇文章中,我们将探讨由 Wang 等人提出的 CogniPlan , 这是一个旨在弥合这一差距的新颖框架。通过结合 条件生成式 AI (用于预测潜在布局) 和图上的 深度强化学习 (DRL) (用于规划路径) ,CogniPlan 赋予了机器人推理不确定性并“构想”合理未来的能力,从而做出更好的决策。

CogniPlan 的布局预测和轨迹。我们展示了在模拟地图中的半途导航和在 Gazebo 环境中的半途探索。

如图 1 所示,机器人不仅看到当前可见的事物;它还会生成模糊的、概率性的布局预测 (如左下角所示) ,并利用这些预测为探索和点目标导航规划智能路径。

问题: 在未知中规划

在未知环境中的路径规划是一个经典的机器人问题,主要分为两个相互关联的任务:

  1. 自主探索: 机器人必须尽可能快地绘制整个环境的地图。
  2. 点目标导航: 机器人必须通过最短路径到达未知空间中的特定坐标。

核心挑战在于 不确定性 。 传统方法,如基于前沿的探索,依赖于启发式算法。它们本质上是在问: “哪个未绘制地图的边缘最近?”然后移动到那里。虽然这种方法计算成本低,但通常是“短视的”。机器人可能会进入一个房间,扫描一个角落,离开,稍后才意识到需要回去,从而导致低效的折返。

最近的基于学习的方法试图将空间知识编码到神经网络中,但它们往往难以扩展到大型环境,或者无法显式地建模未知区域 看起来 是什么样子的。CogniPlan 通过显式预测地图布局并使用这些预测来指导基于图的规划器,解决了这个问题。

CogniPlan 框架

CogniPlan 的功能就像一个由两部分组成的大脑。一部分是 想象引擎 (生成式修复) ,它预测未知地图的样子。第二部分是 推理引擎 (图注意力规划器) ,它根据这些预测决定移动到哪里。

CogniPlan 框架。我们首先在程序生成的地图上训练一个生成式修复网络,给定其地面实况布局类型向量 (房间、隧道或户外) ,然后冻结该模型以训练基于图注意力的规划器网络。我们的规划器通过将概率信息纳入图特征,对从一组条件向量生成的多个预测进行推理,并迭代输出用于探索或导航的下一个路径点。

图 2 展示了该流程。让我们详细分解这两个主要组件: 生成式修复网络和图注意力规划器。

1. 条件生成式修复 (Conditional Generative Inpainting)

第一步是填补机器人部分地图的空白。研究人员采用了 Wasserstein 生成对抗网络 (WGAN) 来执行图像修复。

然而,单一的预测是不够的。如果机器人在黑暗中面对一个 T 形路口,预测只有左转是危险的,因为路径实际上可能向右延伸。机器人需要理解 不确定性

通过条件化生成多种假设

为了捕捉这种不确定性,CogniPlan 生成了 多种 合理的布局。它通过向生成器输入一组 布局条件向量 (\(z\)) 来实现这一点。这些向量充当“风格指南”,提示网络生成不同类型的结构,例如房间、隧道或户外空间。

在数学上,生成器接收部分地图 \(\mathcal{M}\)、未知区域的掩码和条件向量 \(z\),以生成预测 \(\hat{\mathcal{M}}\)。通过使用不同的 \(z\) 向量多次运行此过程,机器人会生成一组变化的预测。当这些预测被平均后,结果是一个概率地图,其中像素值代表该区域空闲或被占据的可能性。

训练目标

修复网络使用对抗损失和重建损失的组合进行训练。生成器的总损失函数定义为:

生成器损失方程

各项含义如下:

  • \(-\mathbb{E}[\mathrm{Dis}(\hat{\mathcal{M}})]\) : 对抗损失。生成器试图欺骗判别器,使其认为修复后的地图是真实的。
  • L1 范数 (\(\lambda_1, \lambda_2\)) : 这些项确保与地面实况相比的像素级准确性。
  • 空间折扣掩码 (\(M_{sd}\)) : 这是一个巧妙的设计。作者应用了一个随距已知区域距离呈指数衰减的权重。这迫使网络在机器人当前位置附近 (通过性最重要的地方) 非常准确,同时允许在未知的深处有更多的“自由发挥”。
  • F1 分数 (\(\lambda_3\)) : 这优化了预测障碍物与实际障碍物之间的重叠。

2. 不确定性引导的规划器

一旦机器人“想象”出了环境,它就需要规划一条路径。直接在高分辨率像素地图上规划不仅计算量大,而且效率低。相反,CogniPlan 将地图转换为 图 (Graph)

构建图

该框架构建了一个无碰撞图,其中节点分布在空闲空间中。至关重要的是,这些节点丰富了源自生成预测的特征:

  • 信号 (\(s_i\)): 该节点是在已知区域还是预测区域?
  • 概率 (\(p_i\)): 这个空间是空闲的概率是多少? (源自平均多个修复预测) 。
  • 效用 (\(u_i\)): 这个节点有助于发现新的前沿吗?
  • 路标 (\(g_i\)): 这个节点是否在通往前沿的轨迹上?

这个图 \(G'\) 封装了硬数据 (机器人已看到的) 和软数据 (机器人想象的) 。

图注意力网络 (GAT)

规划器本身是一个基于 图注意力 (Graph Attention) 架构的神经网络。它由一个 编码器 和一个 解码器 组成。

  1. 编码器: 聚合来自图的信息。它使用自注意力机制允许节点与其邻居“对话”。通过堆叠多个注意力层,一个节点可以从图的远处收集上下文。这赋予了机器人对环境拓扑结构的全局理解。
  2. 解码器: 接收全局上下文和机器人的当前位置以输出策略。它有效地为相邻节点打分,决定机器人下一步应该访问哪一个。

规划器使用 软 Actor-Critic (SAC) 进行训练,这是一种强大的深度强化学习算法。奖励函数鼓励机器人发现未知区域 (探索) 或靠近目标 (导航) ,同时最小化移动距离。

实验与结果

研究人员将 CogniPlan 与多个基准进行了广泛的比较,包括经典启发式算法 (最近前沿) 、基于采样的方法 (NBVP) 以及其他基于学习的规划器 (ARiADNE+, TARE) 。

仿真性能

成功的主要衡量标准是 移动路径长度 (travel length)——即机器人完成任务需要行驶多远。越短越好。

表1: 150 张地图上的探索性能比较 (每个环境 50 张) 。我们报告了完成探索的移动路径长度的平均值和标准差 (越低越好) 。 表2: 100 张地图上的导航性能比较。我们报告了到达点目标的移动路径长度的平均值和标准差 (越低越好) 。

如表 1 (探索) 所示,CogniPlan 在房间、隧道和户外环境中均优于所有基准。

  • 与“Inpaint+TARE” (使用预测但使用传统规划器的基准) 相比,其移动路径长度 减少了 17.7% 。 这证明仅仅拥有预测地图是不够的;规划器必须经过训练才能理解预测的 不确定性
  • 与 ARiADNE+ (一种不使用生成式修复的最先进 DRL 规划器) 相比,它 减少了 7.0%

表 2 (导航) 显示了类似的优势,CogniPlan 比“Inpaint+A*”方法高出 3.9%,比“上下文感知 (CA)”学习基准高出 12.5%。

多重预测的重要性

真的有必要生成多个地图预测吗?作者通过改变 \(|Z|\) (预测数量) 来测试这一点。

图3: 移动路径长度减少。4 次和 7 次预测与 1 次预测的比较。

图 3 显示了与仅使用 1 次预测相比,使用 4 次或 7 次预测时的行程长度减少情况。几乎在所有情况下,使用多个预测 (蓝色和绿色条) 都能带来更好的性能。这证实了捕捉不确定性——通过平均多种“想象”的布局——对于鲁棒的规划至关重要。

对起始位置的鲁棒性

一个优秀的探索者无论在哪里出生都应该表现良好。作者在具有随机起始位置的现实平面图上测试了 CogniPlan。

图5: 对随机起点的鲁棒性。不同探索率下的行程长度。

图 5 绘制了平均行程距离 (x 轴) 与标准差 (y 轴) 的关系。理想情况下,方法应位于左下角 (高效且一致) 。CogniPlan (蓝色星号) 明显比基准方法更一致。预测提供了指导规划器的全局结构先验,防止其“迷路”或不必要地折返,无论它从哪里开始。

定性结果: 可视化路径

数字很有说服力,但可视化机器人的行为能让差异更加明显。

图7: CogniPlan 和基准规划器在中型和大型环境中的轨迹。彩色线条代表机器人的运动轨迹,红色到紫色的光谱表示从起点到终点的进程。

在图 7 中,我们看到了不同规划器的轨迹。

  • CogniPlan (左侧和中间) : 路径平滑且合乎逻辑。机器人系统地清理房间和走廊。
  • DSVP & TARE (右侧) : 注意那些混乱、重叠的线条。这些传统规划器经常迫使机器人走“之”字形或重新访问区域,导致 DSVP 示例 (右上) 中出现的“意大利面式”轨迹。

真实世界部署

最后,作者证明了 CogniPlan 不仅仅是模拟中的花招。他们将其部署在配备激光雷达传感器的物理移动机器人上,放置在一个杂乱的室内实验室中。

图6: 在 \\(\\mathbf { 3 0 m \\times 1 0 m }\\) 的室内实验室进行的真实世界探索实验。我们展示了我们的移动机器人、实验室环境、中间 Octomap 以及带有机器人轨迹的最终点云。

如图 6 所示,机器人成功构建了实验室的完整点云。它设法绕过椅子、桌子和移动的人员进行导航,证明了该框架的计算效率足以在真实硬件上运行。

结论

CogniPlan 代表了机器人自主性向前迈出的重要一步。它摆脱了纯粹的反应式、贪婪行为,转向了一种更“认知”的方法,即机器人主动推理它们看不到的东西。

主要结论:

  1. 想象与理性的协同: CogniPlan 的力量在于 生成式修复 (提供详细的空间假设) 与 图注意力网络 (对结构不确定性进行推理) 的结合。
  2. 不确定性是有用的: 通过生成多个潜在布局,机器人可以识别哪些区域是模糊的,哪些是确定的,从而产生更安全、更高效的路径。
  3. 优于各部分之和: 实验表明,简单地将预测地图提供给标准规划器 (Inpaint+TARE) 表现不佳。规划器 必须 经过训练才能利用预测的概率性质。

这项工作为未来的研究打开了令人兴奋的大门,包括多智能体探索以及视觉数据 (相机) 的整合,以进一步增强机器人的“想象力”。