为什么AI会一本正经地胡说八道:语言模型幻觉背后的数学原理

你很可能见过这种情况: 你问一个大型语言模型 (LLM) 一个简单的事实性问题，它自信地给出了一个看似合理、细节详尽——但完全错误的答案。

这种行为被称为**幻觉 **(hallucination) ，是当今信任和依赖 AI 系统的最大障碍之一。这很像你在考试时问学生一道难题: 他们不是承认不知道，而是试图用一个看似精良但捏造的答案蒙混过关，以期获得部分分数。

例如，一篇近期研究论文的作者曾向一个最先进的模型询问自己的生日，他在三次独立的提问中得到了三个完全不同 (且错误) 的日期。当被问及其博士论文题目时，三个不同的主流 LLM 都给出了文采斐然但错误的回答:

ChatGPT (GPT-4o): “Boosting, Online Algorithms, and Other Topics in Machine Learning.”
DeepSeek: “Algebraic Methods in Interactive Machine Learning”… 2005 年于哈佛大学。
Llama: “Efficient Algorithms for Learning and Playing Games”… 2007 年于麻省理工学院。

而他 2001 年在卡内基梅隆大学的真实论文题目是:
Probabilistic and on-line methods in machine learning.

为什么这些在海量互联网数据上训练出来的模型会捏造事实？幻觉是深度神经架构中不可避免的、神秘的副产品吗？

一篇新论文 **《语言模型为什么会产生幻觉》**认为，答案既简单又更根本。幻觉源于两个关键原因:

源于预训练阶段 – 幻觉是模型学习模仿人类语言分布时的自然统计结果。它远非什么神秘的涌现特性，而是与机器学习中普通的分类错误密切相关。
持续于后训练阶段 – 幻觉之所以持续，是因为我们评估 LLM 的方式——主流基准测试奖励猜测，惩罚“我不知道”——实际上鼓励它们在不确定时进行“忽悠”。

让我们来深入解析这个论点，看看数学、数据和激励机制如何共同作用，使幻觉变得不可避免。

1. 幻觉的起源: 预训练的故事

训练 LLM 的第一阶段是预训练，在这一阶段，“基础模型”从海量文本语料中学习统计模式。这本质上是密度估计: 估计人类语言的概率分布。

论文提出了一个颇具颠覆性的观点: 即使训练数据完全真实且无误，学习该分布的统计过程本身也必然会导致错误——包括幻觉。

生成 vs. 分类

想象有两个装句子的“桶”:

有效集 \(\mathcal{V}\) —— 事实正确、格式规范的内容。
错误集 \(\mathcal{E}\) —— 看似合理但错误的陈述、拼写错误、无意义的内容。

生成模型的任务是只产出来自有效集的句子。

作者引入了一个更简单但相关的任务:** 是否有效 **(Is-It-Valid, IIV) 分类问题。即给定一个句子，你能否将它标记为有效 (+) 或错误 (–) ？

生成有效文本严格来说比识别它更难: 如果一个模型能生成正确输出，它必然知道如何区分有效与无效。这个直觉得到了数学上的*规约 *(reduction) 形式化，该规约将生成错误率与分类错误率联系起来。

关键定义:

错误率 (\(err\)) —— 模型 \(\hat{p}\) 生成的句子落入 \(\mathcal{E}\) 中的概率。
IIV 误分类率 (\(err_{\text{iiv}}\)) —— 基于 \(\hat{p}\) 构建的分类器错误标记句子的概率。

通过该规约，论文证明了:

生成错误率不等式。

这意味着: 如果“是否有效”的分类问题在统计上很难 (\(err_{\text{iiv}}\) 高) ，那么任何训练良好的语言模型都必然具有高错误率。幻觉不是偏离常态——它们是区分事实与虚构难度的直接结果。

校准与 \(\delta\) 项

方程中的 \(\delta\) 项衡量的是**校准 **(calibration) ——模型的置信度与实际情况是否匹配。一个精确校准的模型在 80% 置信度下，判断正确的概率也应是 80%。

LLM 在预训练时最小化的是交叉熵损失:

交叉熵损失函数。

这会自然促使 \(\delta\) 接近零。如果 \(\delta\) 不够小，那么通过简单重标置信度即可进一步降低损失。

损失函数的导数等于 delta。

经验表明，预训练模型通常校准良好。图 2 (改编自 GPT-4 研究) 表明，在后训练前校准往往很优秀，而在后训练后则常常恶化。

图 2: 预训练模型 (左) 与经强化学习后训练模型 (右) 的校准曲线。完美校准应是虚线；后训练通常会让预测偏离现实。

由于 \(\delta\) 很小，基础模型产生幻觉的主要原因是 IIV 分类问题本身的内在难度。

为什么 IIV 分类很难

论文总结了三种经典情形，使得区分有效与无效输出在统计上变得困难:

1. 任意事实 (无法学习的模式)

有些事实本质上无规律可循。例如，生日与其他特征无关——除非模型在训练中见过，否则无法预测。

作者用**单例率 **(singleton rate, \(sr\)) 来量化: 指训练集中仅出现一次的事实所占比例。
单一出现率方程。

论文证明幻觉率至少是 \(sr\) 减去一些小项:
任意事实的下界。

如果训练数据中 20% 的生日事实是单例，那么对应的幻觉率至少为 20%。模型缺乏足够样本去从众多错误答案中找出真相。

2. 模型能力不足 (表达限制)

即便存在可学习的模式，架构受限也可能失败。例如，1990 年代的**三元组模型 **(trigram model) 只根据前两个词预测下一个词——不足以在以下句子中正确选择 “her” 或 “his”:

She lost it and was completely out of her mind.
He lost it and was completely out of his mind.

论文证明任何三元组模型在该任务中的错误率至少为 50%。

现代 LLM 也可能出现类似失误——比如数错 DEEPSEEK 中的字母——因为分词会将单词拆成子词单元 (如 D, EEP, SEE, K) ，从而削弱字符级推理能力。

3. 其他因素

垃圾进，垃圾出 (GIGO) —— 模型会重现训练数据中的错误信息。
分布偏移 —— 超出训练分布的提示 (如谜语、刁钻题) 会显著提高错误率。
计算不可解性 —— 某些任务 (如破解加密) 在理论上不可解，必然产生错误。

结论: 幻觉并不神秘，它们是生成任务的“误分类”对应物，源于早已为统计学界所知的现实。

2. 幻觉为什么会持续存在: 后训练的难题

如果幻觉是统计错误，那么通过人类反馈与调优的后训练应该可以修复它们，对吧？

论文的结论是: 在我们的评估激励机制依然鼓励“忽悠”时，这不现实。

考生困境

在标准的选择题考试中:

答错不扣分 → 总是猜。
答错扣分 → 仅在置信度超过阈值时才猜。

多数 LLM 基准测试采用二元 0-1 评分: 答对得满分，答错或“我不知道”均得零分——因此猜总是最优。

论文将此形式化为:
最优回答排除了弃权。

作者调查了来自斯坦福 HELM、Hugging Face Leaderboard 等的 10 个顶级基准。结论是:
基准测试评分方式表格。

几乎所有基准都会惩罚不确定性——保守或弃权的模型得分反而低于胡乱猜的模型。排行榜争夺促使模型过度自信地猜。

即便有专门的幻觉测试，也难以抵消主流基准测试的反向驱动。

3. 前进之路——改变规则

作者建议改革现有基准，而非增加更多小众的幻觉测试。方法是:** 明确置信度目标**。

基准可在提示中写明:

仅当置信度 > t 时才回答。答错扣 t/(1-t) 分；答对加 1 分；“我不知道”得 0 分。

例如:

\(t=0.5\) → 扣 1 分
\(t=0.75\) → 扣 3 分
\(t=0.9\) → 扣 9 分

这样，在置信度 ≤ t 时弃权是最优。这将:

重塑激励机制 —— 不确定性成为可行策略。
实现行为校准 —— 评估模型在不同阈值下能否恰当弃权，而无需显式输出概率。

若将这些改变融入 MMLU、SWE-bench、GPQA 等核心排行榜，将促使整个生态系统从鲁莽猜测转向真实求证。

4. 核心要点

**《语言模型为什么会产生幻觉》**框架将幻觉重新定义为在当前实践下统计上不可避免的产物:

这不是魔法——这是数学。
幻觉源于预训练，因为区分事实与看似真实的谬误是困难的分类任务。稀疏数据 (单例) 、模型局限和嘈杂语料让错误不可避免。
我们衡量什么，就得到什么。
当主要测试奖励猜测时，后训练无法去除幻觉。激励机制让模型调优成“会考试的考生”，而非可信的沟通者。
解决方案是社会技术结合的。
改革评估标准。通过惩罚自信的错误，并让弃权具竞争力，使排行榜评分与真实、校准良好的行为对齐。

如果想让模型诚实地说出 “我不知道”，就必须停止为此惩罚它们。

1. 幻觉的起源: 预训练的故事#

生成 vs. 分类#

校准与 \(\delta\) 项#

为什么 IIV 分类很难#

1. 任意事实 (无法学习的模式)#

2. 模型能力不足 (表达限制)#

3. 其他因素#

2. 幻觉为什么会持续存在: 后训练的难题#

考生困境#

3. 前进之路——改变规则#

4. 核心要点#