为什么不确定性是机器人人群导航安全的关键

想象一下在早高峰时段穿过繁忙的火车站。你不会精确计算周围每个人的未来轨迹。相反，你会本能地分辨出谁走得很稳，谁在不可预测地匆忙赶路。你会给那些行踪不定的匆忙者留出更多空间——实际上是根据你对他们移动方式的不确定程度，在他们周围放置了一个“安全气泡”。

对于移动机器人来说，复制这种直觉极其困难。虽然深度强化学习 (Deep Reinforcement Learning, RL) 已使机器人能够在模拟环境中穿梭于人群之中，但这些机器人通常面临着“现实差距”的问题。它们在训练环境中表现出色，但当面临 分布外 (Out-of-Distribution, OOD) 场景——例如行走速度的突然变化、群体行为或激进的行人动态——时，往往会发生危险的故障。

在这篇文章中，我们将深入探讨在 CoRL 2025 上发表的一篇近期论文 “Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling” 。研究人员提出了一种新颖的框架，不仅预测人类要去哪里，还能主动量化这些预测可能有多错误，并利用这种不确定性来驱动更安全的行为。

核心问题: 人群导航中的过拟合

传统的人群导航 RL 方法通常将人类轨迹预测视为确定性的输入。机器人观察世界，预测所有行人的未来路径，然后规划路线。

这种方法的缺陷在于 过拟合 (overfitting) 。如果机器人是在每个人都以 1.0 m/s 速度行走的模拟环境中训练的，它就会学会依赖这种特定的动态。如果将其部署到人们以 2.0 m/s 奔跑的真实场景中，它的预测就会失效。因为机器人不知道自己错了，它会带着高度的自信冲向碰撞。

为了解决这个问题，我们需要一个系统能够:

量化不确定性: 意识到其预测何时变得不可靠。
在线适应: 随着人群动态的变化，实时调整其不确定性估计。
约束行为: 利用这些估计值迫使机器人更加谨慎。

解决方案: 不确定性感知导航流程

研究人员引入了一个结合了 自适应共形推断 (Adaptive Conformal Inference, ACI) 和 受限强化学习 (Constrained Reinforcement Learning, CRL) 的框架。

图 1: 我们方法的整体流程。我们用黄色标记与人类相关的组件，蓝色标记与机器人物理信息和决策相关的组件，绿色标记融合特征。

如上图 1 所示，该系统在一个循环中工作:

预测: 轨迹预测器 (如恒定速度模型或 Transformer) 估计人类未来的位置。
不确定性量化 (ACI): 系统在预测点周围计算一个动态的“预测集” (一个安全半径) 。
策略网络: 基于注意力的神经网络处理这些特征。
受限 RL: 训练智能体不仅要到达目标，还要将对这些安全半径的“入侵”保持在特定阈值以下。

第一步: 利用自适应共形推断量化不确定性

该方法的核心在于它如何处理预测误差。标准的不确定性方法 (如贝叶斯网络) 可能计算量大或需要特定的数据分布。相反，作者使用了 自适应共形推断 (ACI) , 特别是动态调整的版本 (DtACI)。

ACI 在预测周围创建一个气泡，保证以一定的概率 (例如 90%) 包含真实值。关键是，如果模型开始预测失误 (真实值落在气泡之外) ，ACI 会自动在下一步扩大气泡。如果预测准确，它会缩小气泡以避免过度保守。

估计预测误差 \(\hat{\delta}\) 的更新规则为:

基于 alpha 和 gamma 更新估计预测误差的公式。

这里，\(\alpha\) 是目标错误率 (例如 0.1 代表 90% 的覆盖率) ，\(\gamma\) 是学习率 (步长) 。err 项简单地跟踪上一次预测是在气泡内 (0) 还是气泡外 (1):

定义误差项 err(t) 的公式。

如果预测错误 (在气泡外) ，估计误差就会增加，为下一步创造更大的安全裕度。

为什么要动态调整? 固定的学习率 \(\gamma\) 对于突然的变化 (比如一个人突然开始奔跑) 可能太慢，或者对于平稳的场景来说太不稳定。DtACI 同时运行多个具有不同学习率的估计器，并根据它们最近的表现动态加权。

显示多个估计器加权机制的公式。

这确保了机器人能对分布偏移做出即时反应。你可以在下面的 图 4 中看到这种行为。注意 ACI 误差 (估计误差与实际误差之差) 虽然有波动，但总体保持在 0 以上，这意味着安全气泡成功覆盖了实际的行人位置。

图 4: 一个行人在五个预测步长内的 ACI 误差可视化。当 ACI 误差大于 0 时，ACI 提供了有效的覆盖。

第二步: 受限强化学习 (CRL)

如果机器人无视不确定性气泡，那么拥有它是没用的。为了强制执行安全性，作者将导航任务制定为 受限马尔可夫决策过程 (CMDP) 。

机器人不仅仅是最大化奖励 (到达目标) ，还必须满足成本约束。成本由“入侵”定义——即进入行人的安全区域。

安全区域被定义为人的当前物理尺寸与其未来不确定性气泡的并集:

定义安全区域 D1 和 D2 的公式。定义半径 r1 和 r2 的公式，包含了不确定性 delta。

这里，\(r_2\) 是关键部分: 它将行人的半径扩大了 \(\hat{\delta}_{h,k}\)——即我们之前计算的不确定性估计值。如果机器人对某人的运动不确定，\(\hat{\delta}\) 就会增大，实际上在机器人的“脑海”中放大了行人的尺寸，迫使机器人保持更大的距离。

优化目标使用 PPO 拉格朗日方法来平衡目标和安全约束:

显示优化目标的公式: 最大化奖励，同时受限于预期入侵小于 d。

系统学习一个乘数 \(\lambda\) (拉格朗日乘数) ，如果估计的成本超过限制 \(\tilde{d}\)，它会严厉惩罚策略。

实验结果

研究人员在 CrowdNav 模拟环境中针对强大的基线方法测试了该框架，包括像 ORCA 这样的经典方法和像 CrowdNav++ 这样的前沿 RL 方法。

分布内 (In-Distribution) 表现

即使在训练和测试场景相匹配的标准环境中，所提出的方法也占据优势。

表 1: 分布内测试结果，显示所提方法具有更高的成功率和更低的碰撞率。

查看 表 1 , “Ours (w/ GST)” 达到了 96.93% 的成功率 , 显着高于 CrowdNav++ (86.11%)。更重要的是, 碰撞率 (CR) 从大约 14% (CrowdNav++) 降至仅 2.93% 。机器人不仅更安全，而且更“礼貌”，正如较低的入侵时间比率 (ITR) 所表明的那样。

分布外 (OOD) 鲁棒性

该方法的真正考验在于环境发生变化时。作者测试了三种困难的 OOD 场景:

匆忙的人群: 20% 的行人以双倍速度移动。
不同的行为模式: 行人从 ORCA (相互避让) 切换到社会力 (SF) 动力学。
群体动力学: 行人以紧密的集群方式移动。

表 2: 分布外测试结果。所提方法在所有偏移中均保持高成功率。

正如 表 2 所示，虽然基线 RL 方法表现崩溃 (例如，在群体动力学中，基线方法的成功率降至约 70-80%) ，但所提出的方法保持了 ~94% 的成功率 。

可视化的适应性 下面的图 2 说明了该方法为何有效。

图 2: 测试用例可视化。(a) 我们的方法安全导航。(b) CrowdNav++ 失败。(c) 我们的方法适应匆忙的行人。

面板 (b) 显示 CrowdNav++ 失败了，因为它依赖于不考虑误差的静态预测。
面板 (c) 特别有趣。它展示了一个有匆忙行人的 OOD 场景。浅蓝色的圆圈代表不确定性气泡。注意到它们有多大吗？因为行人移动得意外地快，DtACI 扩大了气泡。机器人识别出这种高度不确定性，并从它们之间的安全间隙中穿过。

真实世界部署

模拟结果很有希望，但物理世界才是最终的基准。作者将策略直接部署到了 ROSMASTER X3 机器人上，并未进行微调。

图 6: 真实机器人部署结果，显示不确定性可视化、避让和长距离导航。

在 图 6 中，我们可以看到机器人的实际行动:

面板 (a): 显示了 RViz 中的不确定性可视化。当人类移动不可预测时，蓝色气泡很大。当他们静止不动时，不确定性收缩，允许机器人靠得更近。
面板 (b): 展示了 避让行为 (Yielding Behavior) 。机器人检测到潜在碰撞，减速 (t=3s)，等待行人通过，然后恢复行进。
面板 (d): 展示了 长距离导航 (Long-Range Navigation) , 证明机器人可以处理长距离的持续交互。

结论

这篇关于“通用安全性”的论文为机器人技术的未来强调了一个关键教训: 仅有准确性是不够的；我们需要自我意识。 通过承认轨迹预测往往会出错，并建立一个数学框架 (共形推断) 来量化该误差，机器人可以变得更加鲁棒。

这种方法将深度强化学习的“黑盒”转变为一个可控的、具有安全意识的系统。它不只是寄希望于最好的结果；它针对人类行为的最坏情况方差进行规划，这是向在混乱的现实世界中部署机器人迈出的重要一步。

对于机器人领域的学生和研究人员来说，这种方法——将不确定性量化直接耦合到学习循环中——为解决自动驾驶、无人机飞行等其他安全关键领域中的分布偏移问题提供了蓝图。

核心问题: 人群导航中的过拟合#

解决方案: 不确定性感知导航流程#

第一步: 利用自适应共形推断量化不确定性#

第二步: 受限强化学习 (CRL)#

实验结果#

分布内 (In-Distribution) 表现#

分布外 (OOD) 鲁棒性#

真实世界部署#

结论#