你很可能见过这种情况: 你问一个大型语言模型 (LLM) 一个简单的事实性问题,它自信地给出了一个看似合理、细节详尽——但完全错误的答案。

这种行为被称为**幻觉 **(hallucination) ,是当今信任和依赖 AI 系统的最大障碍之一。这很像你在考试时问学生一道难题: 他们不是承认不知道,而是试图用一个看似精良但捏造的答案蒙混过关,以期获得部分分数。

例如,一篇近期研究论文的作者曾向一个最先进的模型询问自己的生日,他在三次独立的提问中得到了三个完全不同 (且错误) 的日期。当被问及其博士论文题目时,个不同的主流 LLM 都给出了文采斐然但错误的回答:

ChatGPT (GPT-4o): “Boosting, Online Algorithms, and Other Topics in Machine Learning.”
DeepSeek: “Algebraic Methods in Interactive Machine Learning”… 2005 年于哈佛大学。
Llama: “Efficient Algorithms for Learning and Playing Games”… 2007 年于麻省理工学院。

而他 2001 年在卡内基梅隆大学的真实论文题目是:
Probabilistic and on-line methods in machine learning.

为什么这些在海量互联网数据上训练出来的模型会捏造事实?幻觉是深度神经架构中不可避免的、神秘的副产品吗?

一篇新论文 **《语言模型为什么会产生幻觉》**认为,答案既简单又更根本。幻觉源于两个关键原因:

  1. 源于预训练阶段 – 幻觉是模型学习模仿人类语言分布时的自然统计结果。它远非什么神秘的涌现特性,而是与机器学习中普通的分类错误密切相关。
  2. 持续于后训练阶段 – 幻觉之所以持续,是因为我们评估 LLM 的方式——主流基准测试奖励猜测,惩罚“我不知道”——实际上鼓励它们在不确定时进行“忽悠”。

让我们来深入解析这个论点,看看数学、数据和激励机制如何共同作用,使幻觉变得不可避免。


1. 幻觉的起源: 预训练的故事

训练 LLM 的第一阶段是预训练,在这一阶段,“基础模型”从海量文本语料中学习统计模式。这本质上是密度估计: 估计人类语言的概率分布。

论文提出了一个颇具颠覆性的观点: 即使训练数据完全真实且无误,学习该分布的统计过程本身也必然会导致错误——包括幻觉。

生成 vs. 分类

想象有两个装句子的“桶”:

  • 有效集 \(\mathcal{V}\) —— 事实正确、格式规范的内容。
  • 错误集 \(\mathcal{E}\) —— 看似合理但错误的陈述、拼写错误、无意义的内容。

生成模型的任务是只产出来自有效集的句子。

作者引入了一个更简单但相关的任务:** 是否有效 **(Is-It-Valid, IIV) 分类问题。即给定一个句子,你能否将它标记为有效 (+) 或错误 (–) ?

生成有效文本严格来说比识别它更难: 如果一个模型能生成正确输出,它必然知道如何区分有效与无效。这个直觉得到了数学上的*规约 *(reduction) 形式化,该规约将生成错误率与分类错误率联系起来。

关键定义:

  • 错误率 (\(err\)) —— 模型 \(\hat{p}\) 生成的句子落入 \(\mathcal{E}\) 中的概率。
    模型错误率的公式。

  • IIV 误分类率 (\(err_{\text{iiv}}\)) —— 基于 \(\hat{p}\) 构建的分类器错误标记句子的概率。
    IIV 误分类率的公式。

通过该规约,论文证明了:

生成错误率不等式。

这意味着: 如果“是否有效”的分类问题在统计上很难 (\(err_{\text{iiv}}\) 高) ,那么任何训练良好的语言模型都必然具有高错误率。幻觉不是偏离常态——它们是区分事实与虚构难度的直接结果


校准与 \(\delta\) 项

方程中的 \(\delta\) 项衡量的是**校准 **(calibration) ——模型的置信度与实际情况是否匹配。一个精确校准的模型在 80% 置信度下,判断正确的概率也应是 80%。

LLM 在预训练时最小化的是交叉熵损失:

交叉熵损失函数。

这会自然促使 \(\delta\) 接近零。如果 \(\delta\) 不够小,那么通过简单重标置信度即可进一步降低损失。

损失函数的导数等于 delta。

经验表明,预训练模型通常校准良好。图 2 (改编自 GPT-4 研究) 表明,在后训练前校准往往很优秀,而在后训练后则常常恶化。

图 2: 预训练模型 (左) 与经强化学习后训练模型 (右) 的校准曲线。完美校准应是虚线;后训练通常会让预测偏离现实。
校准曲线。

由于 \(\delta\) 很小,基础模型产生幻觉的主要原因是 IIV 分类问题本身的内在难度。


为什么 IIV 分类很难

论文总结了三种经典情形,使得区分有效与无效输出在统计上变得困难:

1. 任意事实 (无法学习的模式)

有些事实本质上无规律可循。例如,生日与其他特征无关——除非模型在训练中见过,否则无法预测。

作者用**单例率 **(singleton rate, \(sr\)) 来量化: 指训练集中仅出现一次的事实所占比例。
单一出现率方程。

论文证明幻觉率至少是 \(sr\) 减去一些小项:
任意事实的下界。

如果训练数据中 20% 的生日事实是单例,那么对应的幻觉率至少为 20%。模型缺乏足够样本去从众多错误答案中找出真相。

2. 模型能力不足 (表达限制)

即便存在可学习的模式,架构受限也可能失败。例如,1990 年代的**三元组模型 **(trigram model) 只根据前两个词预测下一个词——不足以在以下句子中正确选择 “her” 或 “his”:

She lost it and was completely out of her mind.
He lost it and was completely out of his mind.

论文证明任何三元组模型在该任务中的错误率至少为 50%。

现代 LLM 也可能出现类似失误——比如数错 DEEPSEEK 中的字母——因为分词会将单词拆成子词单元 (如 D, EEP, SEE, K) ,从而削弱字符级推理能力。

3. 其他因素

  • 垃圾进,垃圾出 (GIGO) —— 模型会重现训练数据中的错误信息。
  • 分布偏移 —— 超出训练分布的提示 (如谜语、刁钻题) 会显著提高错误率。
  • 计算不可解性 —— 某些任务 (如破解加密) 在理论上不可解,必然产生错误。

结论: 幻觉并不神秘,它们是生成任务的“误分类”对应物,源于早已为统计学界所知的现实。


2. 幻觉为什么会持续存在: 后训练的难题

如果幻觉是统计错误,那么通过人类反馈与调优的后训练应该可以修复它们,对吧?

论文的结论是: 在我们的评估激励机制依然鼓励“忽悠”时,这不现实。


考生困境

在标准的选择题考试中:

  • 答错不扣分 → 总是猜。
  • 答错扣分 → 仅在置信度超过阈值时才猜。

多数 LLM 基准测试采用二元 0-1 评分: 答对得满分,答错或“我不知道”均得零分——因此猜总是最优。

论文将此形式化为:
最优回答排除了弃权。

作者调查了来自斯坦福 HELM、Hugging Face Leaderboard 等的 10 个顶级基准。结论是:
基准测试评分方式表格。

几乎所有基准都会惩罚不确定性——保守或弃权的模型得分反而低于胡乱猜的模型。排行榜争夺促使模型过度自信地猜。

即便有专门的幻觉测试,也难以抵消主流基准测试的反向驱动。


3. 前进之路——改变规则

作者建议改革现有基准,而非增加更多小众的幻觉测试。方法是:** 明确置信度目标**。

基准可在提示中写明:

仅当置信度 > t 时才回答。答错扣 t/(1-t) 分;答对加 1 分;“我不知道”得 0 分。

例如:

  • \(t=0.5\) → 扣 1 分
  • \(t=0.75\) → 扣 3 分
  • \(t=0.9\) → 扣 9 分

这样,在置信度 ≤ t 时弃权是最优。这将:

  1. 重塑激励机制 —— 不确定性成为可行策略。
  2. 实现行为校准 —— 评估模型在不同阈值下能否恰当弃权,而无需显式输出概率。

若将这些改变融入 MMLU、SWE-bench、GPQA 等核心排行榜,将促使整个生态系统从鲁莽猜测转向真实求证


4. 核心要点

**《语言模型为什么会产生幻觉》**框架将幻觉重新定义为在当前实践下统计上不可避免的产物:

  1. 这不是魔法——这是数学。
    幻觉源于预训练,因为区分事实与看似真实的谬误是困难的分类任务。稀疏数据 (单例) 、模型局限和嘈杂语料让错误不可避免。

  2. 我们衡量什么,就得到什么。
    当主要测试奖励猜测时,后训练无法去除幻觉。激励机制让模型调优成“会考试的考生”,而非可信的沟通者。

  3. 解决方案是社会技术结合的。
    改革评估标准。通过惩罚自信的错误,并让弃权具竞争力,使排行榜评分与真实、校准良好的行为对齐。

如果想让模型诚实地说出 “我不知道”,就必须停止为此惩罚它们。