像 GPT-4 和 LLaMA-2 这样的大型语言模型 (LLMs) 彻底改变了我们与信息交互的方式。它们可以编写代码、总结小说并回答复杂的查询。然而,它们有一个众所周知的缺陷: 幻觉 (Hallucination) 。 LLM 可能会自信地声称埃菲尔铁塔位于柏林,或者编造从未发生过的法庭案件。
这对 AI 研究人员提出了一个引人入胜的、近乎哲学的问题: 模型知道自己在撒谎吗?
当 LLM 输出谬误时,是因为模型真的认为该信息是正确的吗?还是说模型在其内部表示的深处包含了正确的信息,但不知何故未能将其输出?
最近的研究倾向于后者。通过使用一种称为“探针 (probing) ”的技术,研究人员在模型的数学空间中发现了似乎能区分“真”与“假”的方向。然而,之前的尝试有一个主要局限性: 它们通常仅在训练所用的特定类型数据上有效。一个在冷知识问答上训练出来的“测谎仪”,在检查新闻摘要时可能会彻底失效。
在这篇文章中,我们将深入探讨一篇名为 “On the Universal Truthfulness Hyperplane Inside LLMs” (关于 LLM 内部通用真实性超平面的研究) 的论文,该论文试图解决这个泛化问题。研究人员探索了是否在不同的任务、领域和数据集之间存在一个单一的、通用的几何结构——即“真实性超平面”。
问题: 在高维空间中检测谎言
要理解这篇论文,我们需要先了解 线性探针 (Linear Probing) 。
当 LLM 处理文本时,它将 Token (单词或单词的一部分) 转换为向量——代表模型“隐藏状态 (hidden states) ”的一长串数字。这些隐藏状态包含语义信息。“探针”本质上是一个简单的分类器 (通常是线性分类器) ,经过训练后可以通过观察这些隐藏状态来预测某种属性,例如“这句话是真还是假?”
“过拟合”陷阱
在这项工作之前,研究人员通常会在单个数据集上训练真实性探针,例如 TruthfulQA (一个旨在诱导模型模仿人类误解的数据集) 。他们会在隐藏状态中发现一种模式,能够以很高的准确率区分真实答案和虚假答案。
然而,这里有个陷阱。

如 图 1 下半部分所示,当你仅在一种类型的数据 (如 TruthfulQA) 上训练探针时,探针通常会学习到“虚假相关性 (spurious correlations) ”。它可能学到的不是“真理”,而只是该特定数据集中有效答案的特定写作风格。
当研究人员在分布外 (Out-Of-Distribution, OOD) 数据上测试这些基于 TruthfulQA 训练的探针时——例如要求模型检查新闻摘要中的事实——性能会急剧下降,通常跌至接近随机猜测的水平 (约 50%) 。
这引出了论文的核心假设: 如果我们扩大训练数据的多样性,我们能否找到一个在任何地方都有效的“通用真实性超平面”?
方法: 多样性是关键
作者认为,要在模型的权重中找到通用的真理定义,我们不能依赖单一任务。我们需要用多样性来“淹没”探针。
1. 整理海量数据
研究人员构建了一个庞大的幻觉检测数据集集合。他们不仅使用问答 (Q&A) ,还包括了覆盖 40 多个数据集的 17 个不同任务类别。

如 图 2 所示,其种类之多令人印象深刻:
- 训练任务 (蓝色) : 包括释义识别、事实核查、情感分析、推理和主题分类。
- 测试任务 (橙色) : 为了确保真正测试泛化能力,他们保留了完全不同的类别用于测试,例如摘要生成和句子补全。
对于每个数据集,他们生成了正确和错误的样本。例如,在摘要任务中,他们可能会使用 GPT-4 生成一个看似合理但实际上不正确的事实摘要,作为负面样本。
2. 设计探针
目标是找到一个线性边界 (超平面) ,将真实输出的隐藏状态 (\(H^+\)) 与不真实输出的隐藏状态 (\(H^-\)) 区分开来。作者主要测试了两种方法。
方法 A: 逻辑回归 (Logistic Regression, LR) 这是一种标准的监督学习技术。探针学习一个向量 \(\theta\),以最小化真实样本和虚假样本之间的分类误差。
\[ \begin{array} { r } { \theta _ { \mathrm { l r } } = \arg \underset { \theta } { \operatorname* { m i n } } \sum _ { i } \left[ y _ { i } \log \left( \boldsymbol { \sigma } ( \boldsymbol { \theta } ^ { T } h _ { i } ) \right) + \right. } \\ { \left. ( 1 - y _ { i } ) \log \left( 1 - \boldsymbol { \sigma } ( \boldsymbol { \theta } ^ { T } h _ { i } ) \right) \right] , } \end{array} \]方法 B: 质量均值 (Mass Mean, MM) 这种方法在计算上更简单。它计算所有真实表示和所有虚假表示的平均“重心”。“真理方向”仅仅是连接这两个中心的向量。
\[ \theta _ { \mathrm { m m } } = \overline { { H ^ { + } } } - \overline { { H ^ { - } } } , \]有趣的是,虽然逻辑回归通常在训练数据上表现更好,但作者发现 质量均值 (Mass Mean) 通常能更好地泛化 到未见过的任务,因为它不太容易过拟合训练集的特定细微差别。
3. 表示选择 (Representation Selection)
现代 LLM 拥有数十层和数千个维度。使用所有这些维度既低效又充满噪声。
回顾 图 1 的顶部,作者采用了一种“表示选择”策略。他们没有使用模型的原始残差流 (residual stream) ,而是查看了 注意力头 (Attention Heads) 的输出。
他们针对模型中的每一个注意力头训练了微型探针,以观察哪些头最擅长检测真实性。他们选择了表现最好的头 (通常每个验证集只选 1 或 2 个) ,并将它们拼接起来作为最终探针的输入。这有效地过滤掉了噪声,并专注于“大脑”中负责事实性的部分。
实验与关键结果
研究人员将他们的“通用”探针与几个基线进行了测试,包括标准的概率检查 (模型是否给出了高概率的答案?) 和“自我评估 (Self-Eval) ” (通过提示词问模型“这正确吗?”) 。
以下是他们的发现。
1. 实现了泛化
与以前的尝试不同,在多样化数据集集合上训练的探针在保留的测试任务上实现了高准确率 (~70%) 。这明显优于基线。
这证实了论文的主要贡献: 在不同的领域之间存在共享的真实性表示。 定义电影评论情感分析中“真实”的几何结构,与定义医学问答中“真实”的几何结构在数学上是相关的。
2. 注意力头 vs. 层激活
在探测 LLM 时,你可以查看 残差流 (信息的主要通道) 或 注意力头 (将 Token 相互关联的模块) 。

在上图 4 的 图表 (a) 中,研究人员比较了基于注意力头训练的探针与基于层激活训练的探针。结果很明确: 注意力头输出 (顶部两条线) 始终优于层激活。 这表明模型的事实处理集中在特定的注意力机制中,而不是散布在一般的层状态中。
3. 数量 vs. 多样性
也许最令人惊讶的发现与实际需要多少数据有关。
- 图 4 中的图表 (b) 显示,随着 数据集数量 (多样性) 的增加,准确率稳步攀升。
- 图 4 中的图表 (c) 显示了当增加 每个数据集的样本数量 时会发生什么。令人惊讶的是,性能几乎立即进入了平台期。
结论是: 要找到通用的真实性超平面,你不需要数百万个例子。只要你有足够种类的数据集,每个数据集只需要大约 10 个例子 。 真理的“方向”是强烈且容易找到的;你只需要确保不被特定数据集风格的“方向”所干扰。
4. 稀疏性与效率
研究人员还调查了“稀疏性 (sparsity) ”。我们是否需要整个高维向量来检测真理,还是只需要几个关键神经元?

图 3 展示了随着维度数量 (\(k\)) 减少时的性能变化。虽然使用所有维度 (虚线) 通常效果最好,但实线表明,即使剥离大量信息,你仍然可以保持相当不错的准确率。在某些情况下 (如 Trivia QA) ,即使特征被严重压缩,性能仍然稳健。这意味着“真理信号”不是一个微妙、复杂的特征——它是表示中的一个显性、主要特征。
结论: 真理就在其中
这篇论文为关于大型语言模型的“乐观假设”提供了有力的证据。它表明 LLM 通常 确实 知道事实与幻觉之间的区别,并且这种知识以一种在不同任务间一致的方式进行几何编码。
通过扩大训练数据的多样性,作者成功地确定了一个 通用真实性超平面 (Universal Truthfulness Hyperplane) 。
这为什么重要?
- 信任: 我们有可能为 LLM 构建比模型自身的文本输出更可靠的“测谎仪”。
- 控制: 如果我们能识别真理的方向,未来的研究就可以集中在“引导 (steering) ”模型上——即在生成过程中强制其隐藏状态保持在超平面的“真实”一侧,从而减少幻觉。
虽然我们还没到拥有完美无幻觉模型的地步,但这项研究指明了前进的方向。模型知道的比它说的要多;我们只需要知道去哪里 (以及如何) 寻找。
](https://deep-paper.org/en/paper/2407.08582/images/cover.png)