当机器人产生幻觉: 在充满不确定性的世界中确保 AI 安全

想象一下，你正在玩一场高风险的叠叠乐 (Jenga) 游戏。你小心翼翼地轻敲一块积木，观察塔身如何晃动。你的大脑正在运行一个“世界模型”——模拟塔的物理特性以防止你输掉游戏。你预测，如果稍微向左拉，塔会保持稳定；如果向右拉，塔就会倒塌。

现在，想象一个机器人试图做同样的事情。为了处理复杂的视觉数据 (比如通过摄像头看到的叠叠乐塔) ，现代机器人使用潜在世界模型 (Latent World Models) 。这些 AI 系统将高维摄像头图像压缩成紧凑的表示形式，并“想象”未来的结果。

但这有一个陷阱。AI 模型的优劣取决于它们的训练数据。如果机器人遇到了一种从未见过的情况——即“分布外” (Out-of-Distribution，简称 OOD) 场景——它的世界模型可能会产生幻觉。它可能会自信地预测将塔推倒是绝对安全的，仅仅是因为它不理解特定角度下的物理特性。

我们要如何阻止机器人根据这些危险的幻觉采取行动呢？

在这篇文章中，我们将深入探讨研究论文 “Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures” 。我们将探索卡内基梅隆大学的研究人员如何开发 UNISafe , 这是一个教机器人识别自身何时感到困惑并主动回归安全的框架。

问题所在: 无知的自信

要理解解决方案，我们需要先了解现代机器人学习的架构。

1. 潜在世界模型 (The Latent World Model)

在现实世界中运行的机器人需要处理海量数据——视频流中的像素。对每一个决策都处理原始像素在计算上既昂贵又低效。因此，研究人员训练了一个潜在世界模型 。

编码器 (Encoder) : 将图像观测 (\(o_t\)) 压缩为紧凑的潜在向量 (\(z_t\)) 。
动力学模型 (Dynamics Model) : 给定动作 (\(a_t\)) ，预测下一个潜在状态 (\(z_{t+1}\)) 。

这使得机器人能够“做梦”或“想象”未来的状态序列来规划其行动。

2. 安全过滤器 (The Safety Filter)

仅仅规划是不够的；我们需要保证。这就是 Hamilton-Jacobi (HJ) 可达性发挥作用的地方。这是一种控制理论方法，用于计算“后向可达集”——即无论你做什么，都不可避免会导致失败 (如碰撞) 的所有状态的集合。

安全价值函数 (\(V\)) : 代表一个状态安全程度的分数。如果 \(V < 0\)，你就注定要失败。
安全过滤器: 如果机器人的预定动作导致状态的 \(V\) 值太低，过滤器会用一个安全的备用动作覆盖它。

OOD 陷阱

这就是系统崩溃的地方。传统的安全过滤器假设动力学模型是完美的。但学习到的世界模型并非如此。

图 2: 世界模型的想象可能导致 OOD 失败。

如上图 图 2 所示，考虑一个简单的机器人小车 (Dubins car) 试图避开紫色故障区域。

真实结果: 如果小车驶入紫色区域，它会失败。
预测结果: 世界模型没有看过足够多关于紫色区域的数据。当它想象在那里的驾驶情况时，它进入了“分布外” (OOD) 状态。它没有预测碰撞，而是“产生幻觉”，认为小车传送到了一个安全区域。

因为模型 (错误地) 预测了安全，标准的安全过滤器会让机器人径直驶向灾难。机器人不仅仅是错了；它是自信地犯错 。

解决方案: UNISafe

UNISafe (UNcertainty-aware Imagination for Safety filtering，用于安全过滤的不确定性感知想象) 框架的核心理念简单而强大: 将未知视为失败。

如果机器人的世界模型对未来状态高度不确定，安全过滤器应该将该状态视为与撞墙一样危险。为了实现这一点，作者提出了一个三步流程:

图 1: 左: 量化与校准。中: 可达性分析。右: 运行时执行。

让我们分解一下 图 1 中展示的三个阶段:

量化不确定性: 测量模型有多少“不知道”。
校准: 确定多少不确定性算是“太多”的阈值。
增强与过滤: 构建一个既能避免已知失败 (碰撞) 又能避免未知失败 (高不确定性) 的安全过滤器。

第 1 步: 量化认知不确定性

并非所有的不确定性都是一样的。

偶然不确定性 (Aleatoric Uncertainty) : 系统固有的噪声 (例如，湿滑的地板) 。
认知不确定性 (Epistemic Uncertainty) : 知识的缺乏 (例如，“我以前从未在这个房间里待过”) 。

我们想要检测的是认知不确定性。为此，作者使用了潜在动力学模型的集成 (Ensemble) 。他们训练了多个独立的模型来预测未来。

如果模型们意见一致 , 数据很可能是熟悉的 (分布内，In-Distribution) 。
如果模型们意见分歧 , 机器人就处于未知领域 (OOD) 。

他们使用 Jensen-Rényi 散度 (JRD) 来衡量这种分歧:

JRD 和认知不确定性的公式

在这个公式中，项 \(D(z_t, a_t)\) 代表认知不确定性。它有效地从混合总不确定性中减去了平均内部噪声 (偶然性) ，留给我们一个纯粹的“模型分歧”度量。

第 2 步: 使用共形预测进行校准

好了，我们有了一个不确定性分数。但是 0.5 算高吗？100 算高吗？随意的阈值是危险的。

作者使用了共形预测 (Conformal Prediction) , 这是一种统计技术，利用校准数据集来严格确定阈值 \(\epsilon\)。

共形预测的概率界限

这个公式保证了对于“正常” (分布内) 数据，不确定性将以高概率 (例如 95%) 保持在 \(\epsilon\) 以下。如果运行期间不确定性越过了这条线，我们可以在统计上断言我们正在目睹一个分布外 (OOD) 事件。

第 3 步: 不确定性感知可达性

这是该方法的核心。研究人员增强了机器人的潜在状态，使其包含不确定性: \(\tilde{z} = (z, u)\)。

然后，他们重新定义了安全裕度函数 (Safety Margin Function) (\(\ell\))。通常，这个函数只是问，“我撞到障碍物了吗？”现在，它问的是，“我撞到障碍物了吗或者我的不确定性太高了吗？”

不确定性感知故障集公式

这里，\(\ell_\Xi\) 是新的安全裕度。它取物理安全性 (\(\ell_z\)) 和不确定性裕度 (\(\epsilon - u_t\)) 的最小值。

最后，他们在这个新的增强空间中求解安全 Bellman 方程 。这训练了一个价值函数 (\(V^\mathfrak{N}\))，它学会了识别“不归点”——不仅是针对碰撞，也针对进入令人困惑的境地。

安全价值函数的 Bellman 方程

运行时执行

当机器人运行时，安全过滤器会监控任务策略 (机器人的主要大脑) 。

运行时安全过滤逻辑

如上定义，如果过滤器预测提议的动作将导致价值 (\(V^\bullet\)) 过低的状态 (意味着碰撞或高不确定性不可避免) ，它就会进行干预。

最终的逻辑如下所示:

过滤策略公式

检查: 未来是否安全且确定？ \(\rightarrow\) 继续。
否则: 未来是否危险或令人困惑？ \(\rightarrow\) 用安全策略 \(\pi^\nabla\) 覆盖。
严重故障: 甚至连安全策略也不确定吗？ \(\rightarrow\) 停止 (HALT) 。

它的效果如何？实验与结果

团队在三个环境中将 UNISafe 与标准方法 (如忽略认知不确定性的 LatentSafe )进行了测试对比。

1. Dubins 小车 (仿真)

在这个设置中，一辆小车必须在 2D 平面上行驶，同时避开一个“已知”的故障区域。然而，训练数据只覆盖了地图的特定部分。

图 4: UNISafe 与 LatentSafe 的可视化对比。

请看 图 4 。

LatentSafe (蓝色) : 模型不知道地图上的空白区域。它假设它们是安全的。“近似不安全集”太小，导致高假阳性率 (FPR) ——它认为不安全的状态是安全的。
UNISafe (橙色) : 它正确地将“未知”区域 (数据稀疏的地方) 识别为危险区域。安全过滤器阻止小车进入这些未绘图的区域，有效地在已知安全世界周围建立了一道“围栏”。

2. 拔积木 (基于视觉的操纵)

机械臂必须从堆叠的积木中拔出一块而不将其弄倒。这是一个棘手的物理问题。

图 5: 拔积木序列。

在 图 5 中，注意前瞻性上的差异:

LatentSafe: 等到最后一刻。当它意识到积木堆正在倒塌时，动量已经太大了。物理模型在为时已晚之前一直幻觉它是稳定的。
UNISafe: 检测到动作正在将系统推向模型不太理解的状态 (OOD) 。它在失败变得不可逆转之前触发红色的“不安全”警告。

作者还测试了一个具有不同物理特性 (摩擦力/质量) 的“困难”设置。

图 13: 困难设置下的定性结果。

如 图 13 所示，在“困难”设置中，标准任务策略 (无过滤器) 导致积木掉落。 LatentSafe 试图干预但笨手笨脚，最终因为高估了自己的能力而弄掉了积木。 UNISafe 提早提出了修正，安全地稳定了积木。

3. 玩叠叠乐 (真实硬件)

终极测试: 人类遥操作真实的 Franka Emika 机器人玩叠叠乐。人类可能会尝试机器人未经过训练的冒险动作。

图 6: 遥操作玩叠叠乐。

图 6 展示了真实世界的表现。

面板 3: 当人类操作员尝试一个冒险的、不熟悉的动作时，UNISafe 介入以保持积木处于“分布内”的安全区域。
面板 4: 底部的图表显示不确定性激增。一旦机器人的想象变为 OOD (“未知”区域) ，不确定性越过阈值，过滤器就会激活。

至关重要的是，系统知道何时该放弃。

图 8: 在 OOD 视觉输入下停止。

在 图 8 中，我们看到了 停止 (Halt) 机制。

第一行: 目标积木颜色改变，但仍与训练数据足够相似。模型保持自信 (\(D(z)\) 保持低位) ，操作继续。
第二行: 视觉输入截然不同 (严重的 OOD) 。模型的不确定性飙升。安全过滤器意识到没有任何动作是安全的，因为它实际上是瞎的。它触发停止以防止损坏。

数据说话

定量结果强化了视觉证据。

图 7: 故障率柱状图。

在 图 7 中，当在硬件上过滤任务策略时, LatentSafe 的故障率超过 80%。 UNISafe 将其降至 10% 以下。通过承认自己的无知，机器人变得安全多了。

结论

深度学习的“黑盒”性质常被视为一种安全风险。如果我们不知道神经网络为什么做出决定，我们要如何信任它？

UNISafe 提供了一个令人信服的答案: 只要黑盒知道它何时感到困惑，我们就不需要完全理解黑盒。通过结合生成式世界模型、认知不确定性量化和控制理论 , 我们可以构建出具备以下特征的机器人:

能力强: 利用视觉数据和潜在想象。
谦逊: 能够识别情况何时是新的且具有潜在危险。
安全: 使用严格的数学方法引导回熟悉的状态。

这项研究弥合了现代 AI 混乱的数据驱动世界与机器人技术严谨的安全关键世界之间的鸿沟。随着我们将机器人推向更开放的环境——从自动驾驶汽车到家庭助手——赋予它们说“我不确定，所以我打算稳妥行事”的能力，是向前迈出的巨大一步。

本文基于卡内基梅隆大学 Junwon Seo, Kensuke Nakamura 和 Andrea Bajcsy 的论文 “Uncertainty-aware Latent Safety Filters for Avoiding Out-of-Distribution Failures” 撰写。

当机器人产生幻觉: 在充满不确定性的世界中确保 AI 安全#

问题所在: 无知的自信#

1. 潜在世界模型 (The Latent World Model)#

2. 安全过滤器 (The Safety Filter)#

OOD 陷阱#

解决方案: UNISafe#

第 1 步: 量化认知不确定性#

第 2 步: 使用共形预测进行校准#

第 3 步: 不确定性感知可达性#

运行时执行#

它的效果如何？实验与结果#

1. Dubins 小车 (仿真)#

2. 拔积木 (基于视觉的操纵)#

3. 玩叠叠乐 (真实硬件)#

数据说话#

结论#