引言
想象一下,你正在漆黑的森林中徒步。为了安全导航,你带了一个手电筒、一个 GPS 设备和一张地图。一直开着所有设备能保证你不迷路,但这会迅速耗尽电池。如果电池没电了,你就会被困住。另一方面,为了省电而关闭所有设备也是危险的——你可能会掉下悬崖。最聪明的策略是只在必要时才开启设备: 在地形崎岖时使用手电筒,在岔路口检查 GPS,而在道路笔直清晰时摸黑前行。
这种“能量与确定性”之间的困境是现代机器人技术中的一个基本问题。从无人机到海上船只,自主系统都配备了耗电的传感器套件 (如 LiDAR、相机、GPU) 。保持每个传感器持续运行可以确保可靠的定位,但会大大缩短任务时间。
在这篇文章中,我们将探讨论文 “Belief-Conditioned One-Step Diffusion (B-COD)” 中提出的一个引人入胜的解决方案。研究人员提出了一种新颖的导航系统,它不仅能规划路径,还能同时预测如果关闭特定传感器,机器人会迷失到什么程度。通过使用扩散模型在一次快速的前向传播中生成运动规划和不确定性估计,该系统实现了“按需感知 (just-enough sensing) ”——即使用达到安全目标所需的最小能量。
背景: 为什么这很难?
要理解 B-COD 的突破性,我们首先需要看看为什么机器人难以管理自己的传感器。
信念空间规划难题
当机器人移动时,它不知道自己的确切位置 (\(x, y\))。相反,它维护一个信念 (belief) ——即关于它可能在哪里的概率分布。随着机器人的移动,这种分布会扩散 (不确定性增加) 。当它使用传感器时,分布会收缩 (不确定性减少) 。
传统的“信念空间规划器 (Belief-Space Planners) ”试图通过数学方法预测这种膨胀和收缩。它们将协方差矩阵传播到未来。虽然准确,但这在计算上非常昂贵 (\(O(N^2)\) 或更糟) 。在实时检查成千上万种“传感器 A 开启,传感器 B 关闭”的组合,对于嵌入式硬件来说几乎是不可能的。
启发式规则的脆弱性
由于数学计算太慢,工程师通常依赖简单的规则 (启发式方法) 。例如: “如果电池电量低,就关闭 LiDAR。”或者“如果是晚上,就打开夜视相机。”
问题在于启发式规则是脆弱的。它们不考虑环境的具体几何形状。在开阔的海洋中关闭 LiDAR 没问题;但在狭窄的运河中关闭它可能是灾难性的,即使电池电量很低。
核心创新: B-COD
研究人员介绍了 B-COD (信念条件单步扩散) 。 其核心思想是用一种快速、准确且直观的学习型神经网络来取代繁重的数学协方差传播。

如图 1 所示,该架构由三个主要部分组成:
- 信念表示: 将机器人的困惑转化为图像。
- 扩散规划器: 预测轨迹和不确定性。
- 传感器调度器: 一个轻量级的控制器,决定切换哪些开关。
让我们逐一拆解。
1. 可视化不确定性: 信念光栅 (Belief Raster)
神经网络擅长处理图像 (卷积神经网络) 。然而,机器人的信念通常是数千个“粒子” (对位置的猜测) 组成的云。为了让神经网络能够消化这些信息,作者创建了一个 信念光栅 (Belief Raster) 。

光栅化过程将复杂的粒子云压缩成具有五个通道的固定大小 \(64 \times 64\) 图像。
- 质量 (Mass) : 机器人最可能位于哪里?
- 航向 (Heading) : 它面向哪个方向? (编码为正弦和余弦) 。
- 分布 (Spread) : 分布是“平坦”的还是“尖锐”的? (编码为局部协方差的对数行列式) 。
- 圆形方差 (Circular Variance) : 机器人对其航向有多不确定?

这种表示创造了一种标准化的输入,不仅捕捉了机器人的位置,还捕捉了其不确定性的形状。如果机器人对自己的位置不确定,“质量”通道就是模糊的。如果它对方向不确定,“圆形方差”通道就会亮起。
2. 引擎: 单步扩散
这是该方法的核心。扩散模型以生成图像 (如 Stable Diffusion) 而闻名,但在这里它们被用于轨迹规划。
标准的扩散规划器是迭代的: 它们从随机噪声开始,经过 50 或 100 步“去噪”来找到路径。虽然功能强大,但这对于高速移动的机器人来说太慢了。B-COD 使用一种称为 一致性蒸馏 (Consistency Distillation) 的技术解决了这个问题。
老师与学生
团队首先训练了一个“教师 (Teacher) ”模型。这是一个标准的多步扩散模型。它接收信念光栅、地图、目标和 传感器掩码 (Sensor Mask) (当前哪些传感器是开启的) 作为输入。

教师模型学习预测两件事:
- 轨迹: 机器人应该走的物理路径。
- 偶然不确定性 (Aleatoric Uncertainty) : 该路径上每个点的方差评分。
第二个输出至关重要。模型学习到,如果输入的传感器掩码显示 LiDAR 处于关闭状态,结果路径应该具有高方差 (不确定性) 。如果 LiDAR 处于开启状态,方差应该很低。
教师模型的损失函数 (见下式) 明确奖励模型“坦白”其不确定性。\(\hat{\sigma}\) 项确保预测的方差与训练数据中的实际误差分布相匹配。

快速的学生
为了让模型实时运行 (10 毫秒) ,教师模型通过一致性损失被蒸馏成一个“学生 (Student) ”模型。这使得学生模型能够在单次前向传播中预测轨迹和不确定性,实际上瞬间完成了从噪声到解决方案的跳跃。

3. 决策者: 受限 SAC
现在机器人拥有了一个快速的神经网络,它会说: “基于你当前的信念和这些开启的传感器,这是你的路径,以及你将会有多大的不确定性。”
最后一块拼图是调度器。这是一个强化学习 (RL) 智能体 (具体来说是 Soft Actor-Critic) ,它会查看不确定性预测。
优化问题非常优雅: 在满足安全约束的前提下最小化能量消耗。

或者,用强化学习的语言来说:

RL 智能体从扩散模型接收一个称为 CVaR-95 (95% 条件风险价值) 的特定风险指标。如果预测的风险高于安全预算 (例如,漂移超过 2 米) ,智能体就会开启更多传感器。如果风险很低,它就会关闭它们。
实验验证
理论虽好,但在水上行得通吗?研究人员在一艘名为 SeaRobotics Surveyor 的无人水面艇 (ASV) 上部署了 B-COD。

测试环境是一个淡水湖,存在真实的干扰: 风、波浪、喷泉和浮标。团队还使用了一个高保真的 Unity 模拟器,在部署前安全地训练 RL 智能体。

它省电吗?
结果令人印象深刻。团队将 B-COD 与几个基准进行了比较:
- Always-ON (常开) : 安全但浪费的标准方案。
- Greedy-OFF (贪婪关闭) : 根据光照水平和最近的探测结果关闭传感器的启发式方法。
- InfoGain-Greedy (信息增益贪婪) : 一种选择传感器以最大化信息增益的数学方法。

如 表 1 所示:
- 成功率: B-COD 达到了 97.9% 的目标达成率,统计学上与“Always-ON”基准 (100%) 相同。
- 能源效率: 与“Always-ON”相比,B-COD 仅使用了 42.3% 的能量。
- 对比: 启发式的“Greedy-OFF”虽然节省了能量,但近一半的时间会发生碰撞或失败 (47.3% 的成功率) 。数学上的“InfoGain”方法虽然准确,但更频繁地违反安全约束。
它快吗?
该论文的主要主张之一是速度。随着地图变大,解析信念规划器的速度会急剧下降,因为它们必须在更大的网格上计算协方差。

表 2 强调了一个巨大的优势: 无论地图大小如何,B-COD 的运行时间都是恒定的 (约 10ms) 。相比之下,解析规划器 (DESPOT-Lite) 在大地图上每步慢至 9 秒——这对于移动的机器人来说完全无法使用。
规划器的“心理学”
B-COD 最有趣的地方在于观察它为什么做出决定。它不使用硬编码的规则;它使用来自扩散模型的校准后的不确定性。

图 4 证明模型是经过校准的 (calibrated) 。 当 B-COD 预测 1 米的误差 (x 轴) 时,机器人实际上经历了约 1 米的误差 (y 轴) 。它确切地知道自己有多不确定。
我们可以在真实的一圈测试中看到这种智能:

观察 图 3 :
- 开阔水域 (t=40): 机器人在开阔水域。扩散模型预测即使只用 IMU 风险也很低。调度器关闭了昂贵的传感器。
- GPS 拒止 (t=60): 机器人进入 GPS 信号被阻挡的区域。不确定性激增。调度器立即激活 LiDAR 和相机。
- 障碍物 (t=105): 在喷泉附近,需要精确定位。系统保持传感器开启以确保安全。
故障鲁棒性
也许最令人信服的结果是系统如何处理损坏的传感器。在一次测试中,研究人员在任务中途故意禁用了 LiDAR。

如 图 5 所示,LiDAR 被切断的那一刻,预测的风险 (蓝线) 大幅飙升。规划器意识到它实际上失明了。在没有任何人工编程告诉它该怎么做的情况下,RL 智能体立即开启了 相机和 EXO2 探头 。 它意识到为了在没有 LiDAR 的情况下维持安全预算,它需要所有其他可用的数据。风险回落,任务继续进行。
结论与启示
信念条件单步扩散 (B-COD) 代表了机器人自主性的重要一步。通过训练神经网络不仅理解去哪里,还理解它对自己在哪里的认知程度,研究人员创建了一个能够智能管理自身资源的系统。
关键要点是:
- 速度: 一致性蒸馏使得在 10ms 内完成复杂的信念空间规划成为可能。
- 效率: 在不牺牲可靠性的情况下,将感知能耗降低了 50% 以上。
- 简洁: 它用统一的学习型方法取代了复杂的、手动调整的启发式规则。
这项技术的影响不仅限于船只。电池寿命有限的无人机、管理电力循环的火星漫游车以及仓库机器人,都可以从“按需感知”的能力中受益。机器人不再需要害怕黑暗,现在它们可以确切地学会何时需要开灯。
](https://deep-paper.org/en/paper/2508.12166/images/cover.png)