简介

大型语言模型 (LLM) 彻底改变了我们与信息交互的方式,从编写代码到创作文章无所不能。然而,它们都有一个持久且危险的缺陷: 幻觉 (Hallucination) 。 即模型生成的内容听起来合理且权威,但实际上与现实世界的事实相冲突。

虽然检测简短回答 (例如“法国的首都是哪里?”) 中的幻觉相对成熟,但在开放域长文本生成中,挑战呈指数级增长。当 LLM 撰写传记、历史摘要或复杂解释时,它可能会在三个事实中编织一个微妙的谎言。在一大段准确的文本中检测出那一个捏造的细节极其困难。

大多数现有的解决方案依赖于外部工具,例如使用 Google 搜索来核查每一句话。但是,如果你无法访问互联网怎么办?如果你需要一个独立的系统怎么办?

在这篇文章中,我们将深入探讨一篇最近的研究论文,该论文致力于解决无参考幻觉检测 (Reference-Free Hallucination Detection) 问题。我们将探讨为什么标准方法在长文本内容上会失效,并解析一种名为 RATE-FT (Rationale and Auxiliary Task Enhanced Fine-Tuning,基于理由和辅助任务增强的微调) 的新方法。这种方法通过强制模型从多个角度审视事实——就像学生通过阅读和练习测验来学习一门学科一样——来教导模型进行自我验证。


长文本生成的问题

为什么长文本如此难以进行事实核查?与单个单词的回答不同,长篇回答跨越数百个 Token,通常需要综合多个领域的知识。

考虑一个像 “琥珀屋 (Amber Room) 的意义是什么?” 这样的提示。LLM 可能会生成一段话,正确描述了它在 18 世纪的建造过程,但却捏造了关于其当前位置的细节。由于回答很长且流畅,通常暗示困惑的内部信号可能会被淹没。

这篇论文的研究人员从一个基本问题开始: 我们能否依靠模型的内部状态——比如置信度分数——来捕捉这些谎言?

调查 1: 内部状态能揭示真相吗?

AI 领域有一个普遍的假设: 如果模型在产生幻觉,它会感到“不确定”。因此,检查输出 Token 的概率 (或其熵/随机性) 应该能揭示谎言。研究人员在 LongFact 上测试了这一假设,这是一个涵盖 38 个领域的长文本生成数据集。

他们将长篇回答分解为原子化的主张 (Atomic Claims) ,并以 Google 搜索结果为基准真相,将其分类为“符合事实” (Factual) 或“幻觉” (Hallucinated) 。然后,他们查看了这些特定主张的模型内部指标。

分析概率和熵

首先,他们查看了 Token 概率 。 如果模型是自信的 (高概率) ,该主张应该是符合事实的。如果概率很低,那应该就是幻觉。

Figure 2: Hallucination detection results based on token probability.

如上图 2 所示,结果令人沮丧。蓝色柱状图 (符合事实) 和橙色柱状图 (幻觉) 在各种指标 (平均概率、最低概率 Token 等) 上都有显著重叠。这种“混乱的局面”意味着简单的概率阈值仅比随机猜测好一点点。

接下来,他们查看了 (不确定性) 。

Figure 3: Hallucination detection results based on token entropy (uncertainty).

图 3 讲述了同样的故事。高不确定性 (熵) 与长文本中的幻觉并没有清晰的相关性。

为什么会这样?

研究人员假设噪音可能来自无关紧要的词 (如 “the”, “is”, “a”) 。因此,他们重复了实验, 仅关注实体相关的 Token (人名、日期、地点) 。

Figure 4: Hallucination detection results based on the probability of entity-related tokens.

即使缩小关注范围到关键实体 (图 4) ,分布仍然严重重叠。论文提出了一个至关重要的见解: 在长文本生成中,概率反映的是模型对语法和单词序列的信心,而不一定是事实的正确性 模型可能会自信地犯错,因为它知道句子结构是完美的,即使事实是编造的。


调查 2: 提示工程 vs. 微调

既然内部状态失效了,研究人员评估了另外三种常见策略:

  1. 提示工程 (Prompting) : 明确询问 LLM,“这个主张是真的还是假的?”,或者要求给出一个置信度分数 (0.0 到 1.0) 。
  2. 探针技术 (Probing) : 在模型冻结的嵌入层 (Embeddings) 之上训练一个简单的分类器 (如多层感知机 MLP) 。
  3. 微调 (Fine-Tuning) : 使用参数高效微调 (LoRA) 专门针对幻觉检测任务更新模型。

Figure 6: Prompts for different prompting methods.

图 6 展示了所使用的提示词。例如,Prompt_TF 要求模型回答“True”或“False”。SelfCheckGPT 生成多个样本以查看它们是否一致。

胜出者: 微调

研究人员使用 平衡准确率 (BAcc) 来比较这些方法,该指标考虑了事实样本和幻觉样本之间的不平衡。

Table 1: BAcc (%) of existing hallucination detection methods on LongFact and biography generation.

表 1 揭示了一个清晰的层级结构。简单的提示工程 (Prompt_Prob) 表现不佳——通常比随机猜测还差。SelfCheckGPT 表现尚可,但计算成本高昂 (需要生成 20 个样本) 。 微调 (Fine-Tuning) 始终产生最佳结果 (在 LongFact 上为 76.1%) ,证明更新模型的权重对于“教导”它识别自己的幻觉是必要的。


核心方法: RATE-FT

研究人员确定微调是最有希望的路径。然而,标准微调只是简单地向模型输入主张和标签 (真/假) 。我们能做得更好吗?

这引出了论文的主要贡献: RATE-FT (Rationale and Auxiliary Task Enhanced Fine-Tuning,基于理由和辅助任务增强的微调)

这种直觉灵感来自于人类的学习方式。如果你想精通一门学科,你不会只背诵“对/错”的答案。你会:

  1. 解释理由 (为什么这是对的?) 。
  2. 练习相关任务 (比如回答关于该主题的问题) 。

RATE-FT 将这种方法应用于 LLM,通过两个独特的特征来增强训练过程。

1. 理由增强 (Rationale Augmentation)

模型不再仅仅预测一个标签,而是被训练去生成一个 理由 (Rationale)

  • 对于符合事实的主张: 模型解释 为什么 该主张得到支持。
  • 对于幻觉: 它解释矛盾之处。

这利用了 LLM 的“思维链” (Chain-of-Thought) 推理能力,迫使模型处理事实背后的逻辑,而不是仅仅进行猜测。

2. 辅助任务增强 (问答) (Auxiliary Task Augmentation)

这是“练习测验”部分。研究人员将主张转化为 问题-答案对

  • 如果主张是“太阳从东方升起”,辅助任务就会问“太阳从哪里升起?”,并训练模型回答“东方”。
  • 这提供了一个互补的学习视角。它以 LLM 天生擅长的格式 (QA) 巩固了事实知识,从而稳定了训练过程。

架构

Figure 1: Comparison between Fine-Tuning and RATE-FT for hallucination detection.

图 1 直观地比较了这两种方法。

  • 顶部 (标准微调) : 接收 (Claim, Label) 对并训练一个检测器。
  • 底部 (RATE-FT) : 增强数据。它创建 (Claim, Label, Rationale) 三元组和 (Question, Answer, Rationale) 三元组。这些数据流入不同的路径,最终汇聚以训练一个更加健壮的检测器。

用于生成这些理由和问题的提示词非常具体:

Figure 7: Prompts used for different components of RATE-FT.

通过在数据准备阶段使用图 7 中的提示词,研究人员创建了一个丰富的数据集,其内容远超简单的二元分类。


实验与结果

添加理由和辅助任务真的有帮助吗?研究人员在多个数据集 (LongFact 和 Biology) 以及多个模型 (Llama-3, Mistral, Qwen) 上测试了 RATE-FT 与基线方法的对比。

性能提升

Table 3: BAcc (%) of RATE-FT and baseline methods.

表 3 显示了统计学上显著的改进。在 LongFact 数据集上,RATE-FT 跃升至 79.6% 的准确率 , 明显优于标准微调 (76.1%) 和探针技术 (74.4%) 。

跨模型的鲁棒性

有人可能会想,这是否只适用于 Llama-3。研究人员通过将 RATE-FT 应用于更大的模型 (Llama-3.1-70B) 和更小的模型 (Mistral-7B) 验证了这一点。

Table 7: BAcc (%) of RATE-FT and baselines using different models.

如表 7 所示,无论底层模型架构如何,RATE-FT 始终起到性能助推器的作用。

消融实验: 我们需要这两部分吗?

为了确保理由和辅助任务都是必要的,他们逐一移除了这两个部分。

Table 6: Results of different ablations.

表 6 证实,移除辅助任务 (w.o. aux) 会导致性能从 79.6% 下降到 77.5%。移除理由则下降得更多。这两个组件协同工作以实现最佳结果。

可视化改进

还记得本文开头那些混乱的直方图吗?让我们看看应用 RATE-FT 之后 的概率分布。

Figure 8: Model’s P_factual after applying RATE-FT for both factual and hallucinated claims.

图 8 显示了与初始内部状态分析相比巨大的差异。蓝色分布 (符合事实) 现在清晰地推向高概率 (1.0) ,而橙色分布 (幻觉) 则推向 0.0。这种清晰的分离正是我们在分类器中想要的。


处理不确定性: “我不知道”选项

即使是最好的 AI 也不是完美的。在高风险场景中,模型说“我不知道”比自信地猜错要好。

研究人员引入了一个混合流程。他们设定了两个阈值:

  1. 高置信度: 分类为符合事实。
  2. 低置信度: 分类为幻觉。
  3. 中间地带: 分类为 “未知” (Unknown) 并委托给外部工具 (如 Google 搜索) 。

他们定义了一个新指标 BAcc-unknown 来衡量这种混合方法的有效性:

Equation for BAcc-unknown

该指标奖励模型正确识别事实和幻觉,同时有效地“原谅”它将困难案例传递给外部工具 (假设工具是正确的) 。

Table 8: BAcc-unknown (%) of different methods on LongFact.

表 8 显示,当允许表达不确定性时,RATE-FT 达到了令人印象深刻的 85.0% , 进一步巩固了其作为强大过滤机制的地位。


结论

检测长文本内容中的幻觉是让 LLM 变得可靠的“最后疆域”之一。这项研究系统地证明,我们不能依靠模型原始的内部置信度来捕捉它自己的错误——长文本中的噪音实在太大了。

RATE-FT 方法提供了一个令人信服的解决方案,它承认学习是多方面的。通过教导模型不仅知道 什么 是假的,而且知道 为什么 (理由) ,并通过 练习 (辅助问答) 来巩固事实,我们可以构建出明显更好的自检测器。

关键要点:

  1. 内部状态失效: 不要相信原始概率来进行长文本事实核查。
  2. 微调获胜: 训练模型成为检测器比提示工程更有效。
  3. 多任务学习: 添加理由和 QA 任务 (RATE-FT) 显着提高了检测准确率,且在推理过程中不需要外部工具。

随着 LLM 能力和规模的不断增长,像 RATE-FT 这样的技术对于从仅仅“生成文本”的模型迈向能够批判性评估自身输出的模型至关重要。