引言

我们通常期望人工智能像神谕一样: 一个永远能提供正确答案的系统。但在动态、混乱的现实世界中，这种期望是不切实际的。大型语言模型 (LLMs) 和视觉语言系统经常会“产生幻觉”——它们会生成听起来自信满满，但实际上不符合事实或在物理上无法执行的指令。

在导航场景中——想象一下机器人或 AI 助手引导视障人士穿过建筑物——幻觉不仅仅令人恼火；它可能会让人迷失方向。如果 AI 告诉你“穿过那扇玻璃门”，但那里其实只有一堵实心的墙，信任瞬间就会崩塌。

但是，如果 AI 不需要完美呢？如果 AI 不再假装无所不知，而是能承认自己何时不确定，会怎样？

这意味着从自主解决问题向协作解决问题的转变。本篇博客文章将探讨研究论文《通过高亮潜在错误并建议修正来成功引导人类应对不完美指令》 (Successfully Guiding Humans with Imperfect Instructions by Highlighting Potential Errors and Suggesting Corrections) ，该论文介绍了一个名为 HEAR (Hallucination DEtection And Remedy，幻觉检测与补救) 的系统。

图 1: HEAR 检测导航指令中的错误并建议修正。

如图 1 所示，HEAR 并非简单地生成一条路径，而是检测其自身指令中可能错误的部分，为用户高亮显示，并建议替代方案。结果令人惊讶: 向用户展示 AI 可能出错的地方，实际上能帮助他们更得快、更可靠地到达目的地。

背景: 具身指令的挑战

这项研究解决的具体问题是 视觉语言导航 (Vision-and-Language Navigation, VLN) 。在这种设置中，一个“说话人 (Speaker) ”模型观察 3D 模拟环境 (具体来说是 Matterport3D 模拟器) 中的路线，并生成自然语言指令来引导人类。

例如，一条路线可能涉及从卧室移动到厨房。模型分析路径上的图像序列并输出: “走出卧室，左转，停在厨房柜台旁。”

幻觉问题

最先进的模型 (通常基于 T5 等架构) 经常会产生幻觉——即与视觉现实不一致的短语。研究人员将其分为两种截然不同的类型:

内在幻觉 (Intrinsic Hallucinations): 物体或方向存在，但描述错误。

*例子: * 指令说“右转”，但正确路径是“左转”。或者它说“经过蓝色沙发”，但沙发是红色的。

外在幻觉 (Extrinsic Hallucinations): 指令描述了路线中根本不存在的东西。

*例子: * “沿着走廊走”，但实际上房间直接通向外面，根本没有走廊。

在检查标准的说话人模型后，研究人员发现 67.5% 的生成指令包含幻觉 。如此高的错误率使得直接依赖原始模型输出变得非常危险。

核心方法: HEAR

为了解决这个问题，研究人员开发了 HEAR。该系统并不试图从头生成完美的指令。相反，它作为一个后处理层，审计生成的指令，识别风险并提出修正建议。

该架构分为两个不同的模型:

幻觉检测: 发现错误。
修正建议: 建议如何修复错误。

图 2: 我们的幻觉检测模型 (上) 和幻觉类型分类模型 (下) 。

1. 幻觉检测

第一个组件 (如图 2 上半部分所示) 是一个二元分类器。它将视觉路线和生成的文本作为输入。它查看指令中的特定短语——通过词性标注 (Part-of-Speech tagging) 识别——并确定特定短语是否与视觉证据相符。

该模型是在 Airbert 的基础上微调的，Airbert 是一个在家庭场景描述上预训练的视觉语言模型。它本质上是在问: 短语“右转”是否与从这张图像到下一张图像的视觉转换相匹配？ 如果答案是否定的，该短语就会被标记为幻觉。

2. 建议和排序修正

一旦某个短语被标记，系统需要提供解决方案。它会生成一个候选列表 (例如，“左转”、“直行”、“停止”) 并对其进行排序。

这创造了一个复杂的决策矩阵。系统应该替换该短语 (内在错误) ？还是应该完全删除该短语 (外在错误) ？

为了处理这个问题，研究人员使用了一个结合两个概率的评分函数。如果我们有一个潜在的错误短语 \(x\) 和一个建议的替换 \(\hat{x}\)，排序分数 \(R(\hat{x})\) 计算如下:

用于排序修正的公式。

让我们拆解这个公式:

\(P_{I}(z=1 | x, y_{x}=1)\): 这是错误属于内在 (需要替换) 而非外在 (需要删除) 的概率。
\(P_{H}(y=1 | \hat{x})\): 这是新建议 \(\hat{x}\) 实际上是一个有效且无幻觉描述的概率。

本质上，系统在问: 我们需要替换的可能性有多大，以及这个特定的替换有多好？

3. 使用“损坏”数据进行合成训练

训练这些模型的一个主要障碍是缺乏标记数据。我们没有海量的“错误指令”与“修正”配对的数据集。

作者设计了一个聪明的解决方案: 合成数据生成 。他们选取正确的人工标注指令，并使用 GPT-3.5 和 GPT-4 故意“破坏”它们。

基于规则的扰动: 交换房间名称 (例如，将“厨房”替换为“卧室”) 。
LLM 扰动: 要求 GPT-4 重写方向命令，使其与事实相反 (例如，将“穿过门”改为“经过门”) 。

这创建了一个包含正例和负例的庞大数据集，无需昂贵的人工标注即可训练检测和修正模型。

用户界面

技术后端只是战斗的一半。HEAR 的成功取决于如何将这种不确定性传达给用户。

如果你用概率分数 (例如，“这个错的概率是 75%”) 淹没用户，他们可能会感到困惑。相反，HEAR 使用了一种干净、直观的设计:

高亮: 潜在错误用橙色高亮显示。
交互: 用户可以点击高亮的短语查看排名前 3 的修正建议下拉菜单。

图 6: HEAR 和 Oracle 系统使用的界面。

如上图 6 所示，用户看到指令。如果他们怀疑橙色文本“turn right” (右转) 是错误的，点击它，系统可能会建议“turn left” (左转) 或“go straight” (直行) 。这保持了较低的心理负担——信息仅在需要时提供。

实验与结果

研究人员进行了两种类型的评估: 内在评估 (测试模型的准确性) 和外在评估 (测试人类使用该系统导航的效果) 。

内在模型性能

首先，HEAR 真的能发现错误吗？团队将 HEAR 与随机基线及其模型的消融版本进行了比较。

表 1: HEAR 及基线系统的内在评估。

表 1 显示 HEAR 显著优于随机猜测。虽然它并不完美 (测试集上的 F-1 分数为 66.5) ，但它提供了 70.6% 的 Recall@3。这意味着正确的修正大约有 70% 的时间出现在前 3 个建议中。这足以对人类产生帮助。

外在人类评估

真正的考验是让 80 名人类用户在虚拟环境中导航。他们比较了五种设置:

无沟通 (No communication): 标准指令，无警告。
HEAR (无建议): 高亮错误但不提供修正。
HEAR: 高亮错误并建议修正。
Oracle (无建议): 完美 (人工标记) 的高亮。
Oracle: 完美的高亮和建议。

结果具有统计学意义且非常令人鼓舞。

图 3: 通过成功率和导航误差衡量的表现。

如图 3 (左) 所示，与不提供任何沟通相比, HEAR 将成功率提高了约 13% (从约 68% 上升到约 78%) 。此外，导航误差 (与目标的距离) 下降了 29%。

值得注意的是，HEAR 的表现与“Oracle” (理想化) 系统具有竞争力。这意味着即使 AI 的错误检测并不完美，它也“足够好”以触发更好的人类决策。

为什么表现提升了？

提升不仅仅是因为 AI 给出了正确答案。而是因为 AI 改变了人类的行为 。

观察下面图 9 中的“检查 (Checks)”图表，我们看到获得高亮和建议的用户更频繁地使用了“检查我是否到达目标 (Check if I’m at the goal)”按钮。

图 9: 用户在任务成功和失败时的检查按钮点击次数。

通过高亮不确定性，HEAR 阻止了用户盲目遵循指令。它鼓励他们:

停下来思考。
更仔细地观察周围环境。
更频繁地验证他们的位置。

即使高亮稍微有些偏差，它们也向用户发出了信号: “这里要小心。”

用户成功的定性示例。

图 4 (上图) 展示了一个成功案例。蓝色路径显示一名由 HEAR 引导的用户正确左转，因为系统将“右转”标记为错误。红色路径显示一名没有 HEAR 的用户盲目遵循错误指令并失败。

“互补”效应

最引人入胜的发现之一如下面的定性分析所示。

图 4 的细节，展示了高亮和建议。

在这个具体案例中，指令是错误的，HEAR 对其进行了高亮。然而，排名第一的建议 ([删除]) 在技术上也是不正确的。但是，用户仍然成功了。

为什么？因为高亮和令人困惑的建议加强了用户对该指令是垃圾信息的怀疑。用户不再信任具体的文字，而是运用自己的直觉分析场景，最终找到了正确的路径。AI 没有提供答案；它提供了人类寻找答案所需的怀疑。

结论

HEAR 系统为 AI 开发的未来展示了一个重要的教训: 完美并不是实用的唯一途径。

试图构建一个无幻觉的语言模型是一场持久战。然而，这项研究表明，仅通过沟通不确定性，我们就可以显著改善人机协作。

通过赋予模型说“我对这个短语可能搞错了，也许试试 X”的能力，我们将 AI 从一个不可靠的权威变成了一个有帮助但并不完美的助手。导航成功率提升 13% 表明，未来的系统不应仅仅专注于生成更好的文本，还应专注于更好的元认知 (meta-cognition)——知道自己不知道什么，并与用户分享这一点。

这种方法建立了一种共生关系: AI 缩小了搜索空间，而人类利用常识和视觉验证来填补差距。

引言#

背景: 具身指令的挑战#

幻觉问题#

核心方法: HEAR#

1. 幻觉检测#

2. 建议和排序修正#

3. 使用“损坏”数据进行合成训练#

用户界面#

实验与结果#

内在模型性能#

外在人类评估#

为什么表现提升了？#

“互补”效应#

结论#

引言