想象一下在早高峰时段穿过繁忙的火车站。你不会精确计算周围每个人的未来轨迹。相反,你会本能地分辨出谁走得很稳,谁在不可预测地匆忙赶路。你会给那些行踪不定的匆忙者留出更多空间——实际上是根据你对他们移动方式的不确定程度,在他们周围放置了一个“安全气泡”。
对于移动机器人来说,复制这种直觉极其困难。虽然深度强化学习 (Deep Reinforcement Learning, RL) 已使机器人能够在模拟环境中穿梭于人群之中,但这些机器人通常面临着“现实差距”的问题。它们在训练环境中表现出色,但当面临 分布外 (Out-of-Distribution, OOD) 场景——例如行走速度的突然变化、群体行为或激进的行人动态——时,往往会发生危险的故障。
在这篇文章中,我们将深入探讨在 CoRL 2025 上发表的一篇近期论文 “Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling” 。 研究人员提出了一种新颖的框架,不仅预测人类要去哪里,还能主动量化这些预测可能有多错误,并利用这种不确定性来驱动更安全的行为。
核心问题: 人群导航中的过拟合
传统的人群导航 RL 方法通常将人类轨迹预测视为确定性的输入。机器人观察世界,预测所有行人的未来路径,然后规划路线。
这种方法的缺陷在于 过拟合 (overfitting) 。 如果机器人是在每个人都以 1.0 m/s 速度行走的模拟环境中训练的,它就会学会依赖这种特定的动态。如果将其部署到人们以 2.0 m/s 奔跑的真实场景中,它的预测就会失效。因为机器人不知道自己错了,它会带着高度的自信冲向碰撞。
为了解决这个问题,我们需要一个系统能够:
- 量化不确定性: 意识到其预测何时变得不可靠。
- 在线适应: 随着人群动态的变化,实时调整其不确定性估计。
- 约束行为: 利用这些估计值迫使机器人更加谨慎。
解决方案: 不确定性感知导航流程
研究人员引入了一个结合了 自适应共形推断 (Adaptive Conformal Inference, ACI) 和 受限强化学习 (Constrained Reinforcement Learning, CRL) 的框架。

如上图 1 所示,该系统在一个循环中工作:
- 预测: 轨迹预测器 (如恒定速度模型或 Transformer) 估计人类未来的位置。
- 不确定性量化 (ACI): 系统在预测点周围计算一个动态的“预测集” (一个安全半径) 。
- 策略网络: 基于注意力的神经网络处理这些特征。
- 受限 RL: 训练智能体不仅要到达目标,还要将对这些安全半径的“入侵”保持在特定阈值以下。
第一步: 利用自适应共形推断量化不确定性
该方法的核心在于它如何处理预测误差。标准的不确定性方法 (如贝叶斯网络) 可能计算量大或需要特定的数据分布。相反,作者使用了 自适应共形推断 (ACI) , 特别是动态调整的版本 (DtACI)。
ACI 在预测周围创建一个气泡,保证以一定的概率 (例如 90%) 包含真实值。关键是,如果模型开始预测失误 (真实值落在气泡之外) ,ACI 会自动在下一步扩大气泡。如果预测准确,它会缩小气泡以避免过度保守。
估计预测误差 \(\hat{\delta}\) 的更新规则为:

这里,\(\alpha\) 是目标错误率 (例如 0.1 代表 90% 的覆盖率) ,\(\gamma\) 是学习率 (步长) 。err 项简单地跟踪上一次预测是在气泡内 (0) 还是气泡外 (1):

如果预测错误 (在气泡外) ,估计误差就会增加,为下一步创造更大的安全裕度。
为什么要动态调整? 固定的学习率 \(\gamma\) 对于突然的变化 (比如一个人突然开始奔跑) 可能太慢,或者对于平稳的场景来说太不稳定。DtACI 同时运行多个具有不同学习率的估计器,并根据它们最近的表现动态加权。

这确保了机器人能对分布偏移做出即时反应。你可以在下面的 图 4 中看到这种行为。注意 ACI 误差 (估计误差与实际误差之差) 虽然有波动,但总体保持在 0 以上,这意味着安全气泡成功覆盖了实际的行人位置。

第二步: 受限强化学习 (CRL)
如果机器人无视不确定性气泡,那么拥有它是没用的。为了强制执行安全性,作者将导航任务制定为 受限马尔可夫决策过程 (CMDP) 。
机器人不仅仅是最大化奖励 (到达目标) ,还必须满足成本约束。成本由“入侵”定义——即进入行人的安全区域。
安全区域被定义为人的当前物理尺寸与其未来不确定性气泡的并集:

这里,\(r_2\) 是关键部分: 它将行人的半径扩大了 \(\hat{\delta}_{h,k}\)——即我们之前计算的不确定性估计值。如果机器人对某人的运动不确定,\(\hat{\delta}\) 就会增大,实际上在机器人的“脑海”中放大了行人的尺寸,迫使机器人保持更大的距离。
优化目标使用 PPO 拉格朗日方法来平衡目标和安全约束:

系统学习一个乘数 \(\lambda\) (拉格朗日乘数) ,如果估计的成本超过限制 \(\tilde{d}\),它会严厉惩罚策略。
实验结果
研究人员在 CrowdNav 模拟环境中针对强大的基线方法测试了该框架,包括像 ORCA 这样的经典方法和像 CrowdNav++ 这样的前沿 RL 方法。
分布内 (In-Distribution) 表现
即使在训练和测试场景相匹配的标准环境中,所提出的方法也占据优势。

查看 表 1 , “Ours (w/ GST)” 达到了 96.93% 的成功率 , 显着高于 CrowdNav++ (86.11%)。更重要的是, 碰撞率 (CR) 从大约 14% (CrowdNav++) 降至仅 2.93% 。 机器人不仅更安全,而且更“礼貌”,正如较低的入侵时间比率 (ITR) 所表明的那样。
分布外 (OOD) 鲁棒性
该方法的真正考验在于环境发生变化时。作者测试了三种困难的 OOD 场景:
- 匆忙的人群: 20% 的行人以双倍速度移动。
- 不同的行为模式: 行人从 ORCA (相互避让) 切换到社会力 (SF) 动力学。
- 群体动力学: 行人以紧密的集群方式移动。

正如 表 2 所示,虽然基线 RL 方法表现崩溃 (例如,在群体动力学中,基线方法的成功率降至约 70-80%) ,但所提出的方法保持了 ~94% 的成功率 。
可视化的适应性 下面的图 2 说明了该方法为何有效。

- 面板 (b) 显示 CrowdNav++ 失败了,因为它依赖于不考虑误差的静态预测。
- 面板 (c) 特别有趣。它展示了一个有匆忙行人的 OOD 场景。浅蓝色的圆圈代表不确定性气泡。注意到它们有多大吗?因为行人移动得意外地快,DtACI 扩大了气泡。机器人识别出这种高度不确定性,并从它们之间的安全间隙中穿过。
真实世界部署
模拟结果很有希望,但物理世界才是最终的基准。作者将策略直接部署到了 ROSMASTER X3 机器人上,并未进行微调。

在 图 6 中,我们可以看到机器人的实际行动:
- 面板 (a): 显示了 RViz 中的不确定性可视化。当人类移动不可预测时,蓝色气泡很大。当他们静止不动时,不确定性收缩,允许机器人靠得更近。
- 面板 (b): 展示了 避让行为 (Yielding Behavior) 。 机器人检测到潜在碰撞,减速 (t=3s),等待行人通过,然后恢复行进。
- 面板 (d): 展示了 长距离导航 (Long-Range Navigation) , 证明机器人可以处理长距离的持续交互。
结论
这篇关于“通用安全性”的论文为机器人技术的未来强调了一个关键教训: 仅有准确性是不够的;我们需要自我意识。 通过承认轨迹预测往往会出错,并建立一个数学框架 (共形推断) 来量化该误差,机器人可以变得更加鲁棒。
这种方法将深度强化学习的“黑盒”转变为一个可控的、具有安全意识的系统。它不只是寄希望于最好的结果;它针对人类行为的最坏情况方差进行规划,这是向在混乱的现实世界中部署机器人迈出的重要一步。
对于机器人领域的学生和研究人员来说,这种方法——将不确定性量化直接耦合到学习循环中——为解决自动驾驶、无人机飞行等其他安全关键领域中的分布偏移问题提供了蓝图。
](https://deep-paper.org/en/paper/2508.05634/images/cover.png)