当机器人产生幻觉: 在充满不确定性的世界中确保 AI 安全
想象一下,你正在玩一场高风险的叠叠乐 (Jenga) 游戏。你小心翼翼地轻敲一块积木,观察塔身如何晃动。你的大脑正在运行一个“世界模型”——模拟塔的物理特性以防止你输掉游戏。你预测,如果稍微向左拉,塔会保持稳定;如果向右拉,塔就会倒塌。
现在,想象一个机器人试图做同样的事情。为了处理复杂的视觉数据 (比如通过摄像头看到的叠叠乐塔) ,现代机器人使用潜在世界模型 (Latent World Models) 。 这些 AI 系统将高维摄像头图像压缩成紧凑的表示形式,并“想象”未来的结果。
但这有一个陷阱。AI 模型的优劣取决于它们的训练数据。如果机器人遇到了一种从未见过的情况——即“分布外” (Out-of-Distribution,简称 OOD) 场景——它的世界模型可能会产生幻觉。它可能会自信地预测将塔推倒是绝对安全的,仅仅是因为它不理解特定角度下的物理特性。
我们要如何阻止机器人根据这些危险的幻觉采取行动呢?
在这篇文章中,我们将深入探讨研究论文 “Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures” 。 我们将探索卡内基梅隆大学的研究人员如何开发 UNISafe , 这是一个教机器人识别自身何时感到困惑并主动回归安全的框架。
问题所在: 无知的自信
要理解解决方案,我们需要先了解现代机器人学习的架构。
1. 潜在世界模型 (The Latent World Model)
在现实世界中运行的机器人需要处理海量数据——视频流中的像素。对每一个决策都处理原始像素在计算上既昂贵又低效。因此,研究人员训练了一个潜在世界模型 。
- 编码器 (Encoder) : 将图像观测 (\(o_t\)) 压缩为紧凑的潜在向量 (\(z_t\)) 。
- 动力学模型 (Dynamics Model) : 给定动作 (\(a_t\)) ,预测下一个潜在状态 (\(z_{t+1}\)) 。
这使得机器人能够“做梦”或“想象”未来的状态序列来规划其行动。
2. 安全过滤器 (The Safety Filter)
仅仅规划是不够的;我们需要保证。这就是 Hamilton-Jacobi (HJ) 可达性发挥作用的地方。这是一种控制理论方法,用于计算“后向可达集”——即无论你做什么,都不可避免会导致失败 (如碰撞) 的所有状态的集合。
- 安全价值函数 (\(V\)) : 代表一个状态安全程度的分数。如果 \(V < 0\),你就注定要失败。
- 安全过滤器: 如果机器人的预定动作导致状态的 \(V\) 值太低,过滤器会用一个安全的备用动作覆盖它。
OOD 陷阱
这就是系统崩溃的地方。传统的安全过滤器假设动力学模型是完美的。但学习到的世界模型并非如此。

如上图 图 2 所示,考虑一个简单的机器人小车 (Dubins car) 试图避开紫色故障区域。
- 真实结果: 如果小车驶入紫色区域,它会失败。
- 预测结果: 世界模型没有看过足够多关于紫色区域的数据。当它想象在那里的驾驶情况时,它进入了“分布外” (OOD) 状态。它没有预测碰撞,而是“产生幻觉”,认为小车传送到了一个安全区域。
因为模型 (错误地) 预测了安全,标准的安全过滤器会让机器人径直驶向灾难。机器人不仅仅是错了;它是自信地犯错 。
解决方案: UNISafe
UNISafe (UNcertainty-aware Imagination for Safety filtering,用于安全过滤的不确定性感知想象) 框架的核心理念简单而强大: 将未知视为失败。
如果机器人的世界模型对未来状态高度不确定,安全过滤器应该将该状态视为与撞墙一样危险。为了实现这一点,作者提出了一个三步流程:

让我们分解一下 图 1 中展示的三个阶段:
- 量化不确定性: 测量模型有多少“不知道”。
- 校准: 确定多少不确定性算是“太多”的阈值。
- 增强与过滤: 构建一个既能避免已知失败 (碰撞) 又能避免未知失败 (高不确定性) 的安全过滤器。
第 1 步: 量化认知不确定性
并非所有的不确定性都是一样的。
- 偶然不确定性 (Aleatoric Uncertainty) : 系统固有的噪声 (例如,湿滑的地板) 。
- 认知不确定性 (Epistemic Uncertainty) : 知识的缺乏 (例如,“我以前从未在这个房间里待过”) 。
我们想要检测的是认知不确定性。为此,作者使用了潜在动力学模型的集成 (Ensemble) 。 他们训练了多个独立的模型来预测未来。
- 如果模型们意见一致 , 数据很可能是熟悉的 (分布内,In-Distribution) 。
- 如果模型们意见分歧 , 机器人就处于未知领域 (OOD) 。
他们使用 Jensen-Rényi 散度 (JRD) 来衡量这种分歧:

在这个公式中,项 \(D(z_t, a_t)\) 代表认知不确定性。它有效地从混合总不确定性中减去了平均内部噪声 (偶然性) ,留给我们一个纯粹的“模型分歧”度量。
第 2 步: 使用共形预测进行校准
好了,我们有了一个不确定性分数。但是 0.5 算高吗?100 算高吗?随意的阈值是危险的。
作者使用了共形预测 (Conformal Prediction) , 这是一种统计技术,利用校准数据集来严格确定阈值 \(\epsilon\)。

这个公式保证了对于“正常” (分布内) 数据,不确定性将以高概率 (例如 95%) 保持在 \(\epsilon\) 以下。如果运行期间不确定性越过了这条线,我们可以在统计上断言我们正在目睹一个分布外 (OOD) 事件。
第 3 步: 不确定性感知可达性
这是该方法的核心。研究人员增强了机器人的潜在状态,使其包含不确定性: \(\tilde{z} = (z, u)\)。
然后,他们重新定义了安全裕度函数 (Safety Margin Function) (\(\ell\))。通常,这个函数只是问,“我撞到障碍物了吗?”现在,它问的是,“我撞到障碍物了吗 或者 我的不确定性太高了吗?”

这里,\(\ell_\Xi\) 是新的安全裕度。它取物理安全性 (\(\ell_z\)) 和不确定性裕度 (\(\epsilon - u_t\)) 的最小值。
最后,他们在这个新的增强空间中求解安全 Bellman 方程 。 这训练了一个价值函数 (\(V^\mathfrak{N}\)),它学会了识别“不归点”——不仅是针对碰撞,也针对进入令人困惑的境地。

运行时执行
当机器人运行时,安全过滤器会监控任务策略 (机器人的主要大脑) 。

如上定义,如果过滤器预测提议的动作将导致价值 (\(V^\bullet\)) 过低的状态 (意味着碰撞或高不确定性不可避免) ,它就会进行干预。
最终的逻辑如下所示:

- 检查: 未来是否安全且确定? \(\rightarrow\) 继续。
- 否则: 未来是否危险或令人困惑? \(\rightarrow\) 用安全策略 \(\pi^\nabla\) 覆盖。
- 严重故障: 甚至连安全策略也不确定吗? \(\rightarrow\) 停止 (HALT) 。
它的效果如何?实验与结果
团队在三个环境中将 UNISafe 与标准方法 (如忽略认知不确定性的 LatentSafe )进行了测试对比。
1. Dubins 小车 (仿真)
在这个设置中,一辆小车必须在 2D 平面上行驶,同时避开一个“已知”的故障区域。然而,训练数据只覆盖了地图的特定部分。

请看 图 4 。
- LatentSafe (蓝色) : 模型不知道地图上的空白区域。它假设它们是安全的。“近似不安全集”太小,导致高假阳性率 (FPR) ——它认为不安全的状态是安全的。
- UNISafe (橙色) : 它正确地将“未知”区域 (数据稀疏的地方) 识别为危险区域。安全过滤器阻止小车进入这些未绘图的区域,有效地在已知安全世界周围建立了一道“围栏”。
2. 拔积木 (基于视觉的操纵)
机械臂必须从堆叠的积木中拔出一块而不将其弄倒。这是一个棘手的物理问题。

在 图 5 中,注意前瞻性上的差异:
- LatentSafe: 等到最后一刻。当它意识到积木堆正在倒塌时,动量已经太大了。物理模型在为时已晚之前一直幻觉它是稳定的。
- UNISafe: 检测到动作正在将系统推向模型不太理解的状态 (OOD) 。它在失败变得不可逆转之前触发红色的“不安全”警告。
作者还测试了一个具有不同物理特性 (摩擦力/质量) 的“困难”设置。

如 图 13 所示,在“困难”设置中,标准任务策略 (无过滤器) 导致积木掉落。 LatentSafe 试图干预但笨手笨脚,最终因为高估了自己的能力而弄掉了积木。 UNISafe 提早提出了修正,安全地稳定了积木。
3. 玩叠叠乐 (真实硬件)
终极测试: 人类遥操作真实的 Franka Emika 机器人玩叠叠乐。人类可能会尝试机器人未经过训练的冒险动作。

图 6 展示了真实世界的表现。
- 面板 3: 当人类操作员尝试一个冒险的、不熟悉的动作时,UNISafe 介入以保持积木处于“分布内”的安全区域。
- 面板 4: 底部的图表显示不确定性激增。一旦机器人的想象变为 OOD (“未知”区域) ,不确定性越过阈值,过滤器就会激活。
至关重要的是,系统知道何时该放弃。

在 图 8 中,我们看到了 停止 (Halt) 机制。
- 第一行: 目标积木颜色改变,但仍与训练数据足够相似。模型保持自信 (\(D(z)\) 保持低位) ,操作继续。
- 第二行: 视觉输入截然不同 (严重的 OOD) 。模型的不确定性飙升。安全过滤器意识到没有任何动作是安全的,因为它实际上是瞎的。它触发 停止 以防止损坏。
数据说话
定量结果强化了视觉证据。

在 图 7 中,当在硬件上过滤任务策略时, LatentSafe 的故障率超过 80%。 UNISafe 将其降至 10% 以下。通过承认自己的无知,机器人变得安全多了。
结论
深度学习的“黑盒”性质常被视为一种安全风险。如果我们不知道神经网络为什么做出决定,我们要如何信任它?
UNISafe 提供了一个令人信服的答案: 只要黑盒知道它何时感到困惑,我们就不需要完全理解黑盒。通过结合生成式世界模型、认知不确定性量化和控制理论 , 我们可以构建出具备以下特征的机器人:
- 能力强: 利用视觉数据和潜在想象。
- 谦逊: 能够识别情况何时是新的且具有潜在危险。
- 安全: 使用严格的数学方法引导回熟悉的状态。
这项研究弥合了现代 AI 混乱的数据驱动世界与机器人技术严谨的安全关键世界之间的鸿沟。随着我们将机器人推向更开放的环境——从自动驾驶汽车到家庭助手——赋予它们说“我不确定,所以我打算稳妥行事”的能力,是向前迈出的巨大一步。
本文基于卡内基梅隆大学 Junwon Seo, Kensuke Nakamura 和 Andrea Bajcsy 的论文 “Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures” 撰写。
](https://deep-paper.org/en/paper/2505.00779/images/cover.png)