引言

我们通常期望人工智能像神谕一样: 一个永远能提供正确答案的系统。但在动态、混乱的现实世界中,这种期望是不切实际的。大型语言模型 (LLMs) 和视觉语言系统经常会“产生幻觉”——它们会生成听起来自信满满,但实际上不符合事实或在物理上无法执行的指令。

在导航场景中——想象一下机器人或 AI 助手引导视障人士穿过建筑物——幻觉不仅仅令人恼火;它可能会让人迷失方向。如果 AI 告诉你“穿过那扇玻璃门”,但那里其实只有一堵实心的墙,信任瞬间就会崩塌。

但是,如果 AI 不需要完美呢?如果 AI 不再假装无所不知,而是能承认自己何时不确定,会怎样?

这意味着从自主解决问题向协作解决问题的转变。本篇博客文章将探讨研究论文《通过高亮潜在错误并建议修正来成功引导人类应对不完美指令》 (Successfully Guiding Humans with Imperfect Instructions by Highlighting Potential Errors and Suggesting Corrections) ,该论文介绍了一个名为 HEAR (Hallucination DEtection And Remedy,幻觉检测与补救) 的系统。

图 1: HEAR 检测导航指令中的错误并建议修正。

如图 1 所示,HEAR 并非简单地生成一条路径,而是检测其自身指令中可能错误的部分,为用户高亮显示,并建议替代方案。结果令人惊讶: 向用户展示 AI 可能出错的地方,实际上能帮助他们更得快、更可靠地到达目的地。

背景: 具身指令的挑战

这项研究解决的具体问题是 视觉语言导航 (Vision-and-Language Navigation, VLN) 。 在这种设置中,一个“说话人 (Speaker) ”模型观察 3D 模拟环境 (具体来说是 Matterport3D 模拟器) 中的路线,并生成自然语言指令来引导人类。

例如,一条路线可能涉及从卧室移动到厨房。模型分析路径上的图像序列并输出: “走出卧室,左转,停在厨房柜台旁。”

幻觉问题

最先进的模型 (通常基于 T5 等架构) 经常会产生幻觉——即与视觉现实不一致的短语。研究人员将其分为两种截然不同的类型:

  1. 内在幻觉 (Intrinsic Hallucinations): 物体或方向存在,但描述错误。
  • *例子: * 指令说“右转”,但正确路径是“左转”。或者它说“经过蓝色沙发”,但沙发是红色的。
  1. 外在幻觉 (Extrinsic Hallucinations): 指令描述了路线中根本不存在的东西。
  • *例子: * “沿着走廊走”,但实际上房间直接通向外面,根本没有走廊。

在检查标准的说话人模型后,研究人员发现 67.5% 的生成指令包含幻觉 。 如此高的错误率使得直接依赖原始模型输出变得非常危险。

核心方法: HEAR

为了解决这个问题,研究人员开发了 HEAR。该系统并不试图从头生成完美的指令。相反,它作为一个后处理层,审计生成的指令,识别风险并提出修正建议。

该架构分为两个不同的模型:

  1. 幻觉检测: 发现错误。
  2. 修正建议: 建议如何修复错误。

图 2: 我们的幻觉检测模型 (上) 和幻觉类型分类模型 (下) 。

1. 幻觉检测

第一个组件 (如图 2 上半部分所示) 是一个二元分类器。它将视觉路线和生成的文本作为输入。它查看指令中的特定短语——通过词性标注 (Part-of-Speech tagging) 识别——并确定特定短语是否与视觉证据相符。

该模型是在 Airbert 的基础上微调的,Airbert 是一个在家庭场景描述上预训练的视觉语言模型。它本质上是在问: 短语“右转”是否与从这张图像到下一张图像的视觉转换相匹配? 如果答案是否定的,该短语就会被标记为幻觉。

2. 建议和排序修正

一旦某个短语被标记,系统需要提供解决方案。它会生成一个候选列表 (例如,“左转”、“直行”、“停止”) 并对其进行排序。

这创造了一个复杂的决策矩阵。系统应该替换该短语 (内在错误) ?还是应该完全删除该短语 (外在错误) ?

为了处理这个问题,研究人员使用了一个结合两个概率的评分函数。如果我们有一个潜在的错误短语 \(x\) 和一个建议的替换 \(\hat{x}\),排序分数 \(R(\hat{x})\) 计算如下:

用于排序修正的公式。

让我们拆解这个公式:

  • \(P_{I}(z=1 | x, y_{x}=1)\): 这是错误属于内在 (需要替换) 而非外在 (需要删除) 的概率。
  • \(P_{H}(y=1 | \hat{x})\): 这是建议 \(\hat{x}\) 实际上是一个有效且无幻觉描述的概率。

本质上,系统在问: 我们需要替换的可能性有多大,以及这个特定的替换有多好?

3. 使用“损坏”数据进行合成训练

训练这些模型的一个主要障碍是缺乏标记数据。我们没有海量的“错误指令”与“修正”配对的数据集。

作者设计了一个聪明的解决方案: 合成数据生成 。 他们选取正确的人工标注指令,并使用 GPT-3.5 和 GPT-4 故意“破坏”它们。

  • 基于规则的扰动: 交换房间名称 (例如,将“厨房”替换为“卧室”) 。
  • LLM 扰动: 要求 GPT-4 重写方向命令,使其与事实相反 (例如,将“穿过门”改为“经过门”) 。

这创建了一个包含正例和负例的庞大数据集,无需昂贵的人工标注即可训练检测和修正模型。

用户界面

技术后端只是战斗的一半。HEAR 的成功取决于如何将这种不确定性传达给用户。

如果你用概率分数 (例如,“这个错的概率是 75%”) 淹没用户,他们可能会感到困惑。相反,HEAR 使用了一种干净、直观的设计:

  • 高亮: 潜在错误用橙色高亮显示。
  • 交互: 用户可以点击高亮的短语查看排名前 3 的修正建议下拉菜单。

图 6: HEAR 和 Oracle 系统使用的界面。

如上图 6 所示,用户看到指令。如果他们怀疑橙色文本“turn right” (右转) 是错误的,点击它,系统可能会建议“turn left” (左转) 或“go straight” (直行) 。这保持了较低的心理负担——信息仅在需要时提供。

实验与结果

研究人员进行了两种类型的评估: 内在评估 (测试模型的准确性) 和外在评估 (测试人类使用该系统导航的效果) 。

内在模型性能

首先,HEAR 真的能发现错误吗?团队将 HEAR 与随机基线及其模型的消融版本进行了比较。

表 1: HEAR 及基线系统的内在评估。

表 1 显示 HEAR 显著优于随机猜测。虽然它并不完美 (测试集上的 F-1 分数为 66.5) ,但它提供了 70.6% 的 Recall@3。这意味着正确的修正大约有 70% 的时间出现在前 3 个建议中。这足以对人类产生帮助。

外在人类评估

真正的考验是让 80 名人类用户在虚拟环境中导航。他们比较了五种设置:

  1. 无沟通 (No communication): 标准指令,无警告。
  2. HEAR (无建议): 高亮错误但不提供修正。
  3. HEAR: 高亮错误并建议修正。
  4. Oracle (无建议): 完美 (人工标记) 的高亮。
  5. Oracle: 完美的高亮和建议。

结果具有统计学意义且非常令人鼓舞。

图 3: 通过成功率和导航误差衡量的表现。

如图 3 (左) 所示,与不提供任何沟通相比, HEAR 将成功率提高了约 13% (从约 68% 上升到约 78%) 。此外,导航误差 (与目标的距离) 下降了 29%。

值得注意的是,HEAR 的表现与“Oracle” (理想化) 系统具有竞争力。这意味着即使 AI 的错误检测并不完美,它也“足够好”以触发更好的人类决策。

为什么表现提升了?

提升不仅仅是因为 AI 给出了正确答案。而是因为 AI 改变了人类的行为

观察下面图 9 中的“检查 (Checks)”图表,我们看到获得高亮和建议的用户更频繁地使用了“检查我是否到达目标 (Check if I’m at the goal)”按钮。

图 9: 用户在任务成功和失败时的检查按钮点击次数。

通过高亮不确定性,HEAR 阻止了用户盲目遵循指令。它鼓励他们:

  1. 停下来思考。
  2. 更仔细地观察周围环境。
  3. 更频繁地验证他们的位置。

即使高亮稍微有些偏差,它们也向用户发出了信号: “这里要小心。”

用户成功的定性示例。

图 4 (上图) 展示了一个成功案例。蓝色路径显示一名由 HEAR 引导的用户正确左转,因为系统将“右转”标记为错误。红色路径显示一名没有 HEAR 的用户盲目遵循错误指令并失败。

“互补”效应

最引人入胜的发现之一如下面的定性分析所示。

图 4 的细节,展示了高亮和建议。

在这个具体案例中,指令是错误的,HEAR 对其进行了高亮。然而,排名第一的建议 ([删除]) 在技术上是不正确的。但是,用户仍然成功了。

为什么?因为高亮和令人困惑的建议加强了用户对该指令是垃圾信息的怀疑。用户不再信任具体的文字,而是运用自己的直觉分析场景,最终找到了正确的路径。AI 没有提供答案;它提供了人类寻找答案所需的怀疑

结论

HEAR 系统为 AI 开发的未来展示了一个重要的教训: 完美并不是实用的唯一途径。

试图构建一个无幻觉的语言模型是一场持久战。然而,这项研究表明,仅通过沟通不确定性,我们就可以显著改善人机协作。

通过赋予模型说“我对这个短语可能搞错了,也许试试 X”的能力,我们将 AI 从一个不可靠的权威变成了一个有帮助但并不完美的助手。导航成功率提升 13% 表明,未来的系统不应仅仅专注于生成更好的文本,还应专注于更好的元认知 (meta-cognition)——知道自己不知道什么,并与用户分享这一点。

这种方法建立了一种共生关系: AI 缩小了搜索空间,而人类利用常识和视觉验证来填补差距。