大型语言模型 (LLM) 令人印象深刻,但它们也是黑盒。当 LLM 输出一段陈述时,它到底是“相信”该陈述为真,还是仅仅在模拟一个会说出该陈述的角色?随着我们使用人类偏好对模型进行微调,我们面临着将其训练成“应声虫”的风险——即告诉我们需要听到的内容,而不是事实。
为了构建更安全、更可靠的 AI,我们需要深入黑盒内部。我们需要直接从模型的激活值中提取其内部的“知识”,绕过其文本输出。这一领域被称为知识诱导 (knowledge elicitation) 。
该领域最有前途的方法之一是无监督探针 (unsupervised probing) ——即在不需要标注数据的情况下,在模型的神经活动中找到“真理方向”。然而,最近的研究表明,这些方法很容易受到干扰。如果数据集具有显著特征 (如特定的写作风格或重复出现的随机词) ,无监督探针往往会锁定该特征,而不是真理。
在这篇文章中,我们将深入探讨最近的一篇论文 “Cluster-Norm for Unsupervised Probing of Knowledge” (用于无监督知识探针的聚类归一化) , 该论文针对这一问题提出了一种巧妙的统计修正方法。我们将探讨“显著 (salient) ”但不相关的特征如何混淆当前的方法,以及一种称为 Cluster Normalization (聚类归一化) 的技术如何在噪声中分离出真正的知识信号。
问题所在: 干扰特征
要理解解决方案,我们首先需要了解目前最先进的技术: 对比一致性搜索 (Contrast-Consistent Search, CCS) 。 CCS 由 Burns 等人 (2022) 提出,是一种无需标签即可发现真理的巧妙方法。
CCS 如何工作
CCS 背后的直觉很简单: 逻辑一致性。如果你问模型“天是蓝色的吗?”和“天不是蓝色的吗?”,这两个答案的概率之和应该为 1。如果模型确信天是蓝色的,那么它应该同样确信天不是非蓝色的。
CCS 在模型的内部激活上训练一个小型的“探针” (线性分类器) ,以满足两个条件:
- 一致性 (Consistency) : 一个陈述及其否定的概率之和必须为 1。
- 置信度 (Confidence) : 探针不应模棱两可 (即避免输出 50/50 的概率) 。
在数学上,损失函数如下所示:

这里,\(\mathcal{L}_{\text{consistency}}\) 确保概率相加为 1,而 \(\mathcal{L}_{\text{confidence}}\) 促使探针做出果断的判断。
“显著性”陷阱
虽然 CCS 很出色,但它有一个缺陷。它假设“真理”是满足逻辑一致性的数据中最突出 (显著) 的结构。但是,如果有东西更显著呢?
Farquhar 等人 (2023) 证明 CCS 很容易被欺骗。想象一个数据集,其中每个提示 (prompt) 后面都附有一个随机词——要么是“香蕉 (banana) ”,要么是“棚屋 (shed) ”。
- 提示 A: “埃菲尔铁塔在巴黎。香蕉。”
- 提示 B: “埃菲尔铁塔在罗马。棚屋。”
对于 LLM 来说,“香蕉”和“棚屋”这两个概念之间的差异在激活空间中可能比“真”与“假”之间的差异“响亮”得多。由于 CCS 寻找的是分割数据的最大方差 (置信度) 方向,它可能会意外地学习分类“香蕉 vs. 棚屋”,而不是“真 vs. 假”。
用术语来说,探针锁定了最显著的特征 , 但这并不总是知识。
解决方案: 聚类归一化 (Cluster-Norm)
这篇论文的作者提出了一种名为 Cluster-Norm 的解决方案。其核心思想非常直观: 如果一个干扰特征 (如“香蕉/棚屋”) 在数据中产生了明显的簇,我们应该在这些簇内部对数据进行归一化,以消除这种干扰。
标准方法 vs. Cluster-Norm
在标准的 CCS 流程 (称为 Burns-Norm )中,你获取整个数据集的所有激活值并将它们一起归一化 (均值为 0,方差为 1) 。这保留了全局结构。如果“香蕉”的激活值巨大而“棚屋”的微小,归一化会保留这种巨大的方差。由于 CCS 寻找方差 (置信度) ,它会直接掉进这个陷阱。
Cluster-Norm 增加了一个步骤:
- 采集激活值: 获取对比数对 (陈述 \(x^+\) 和 \(x^-\)) 的模型内部状态。
- 聚类: 对激活值使用聚类算法 (如 HDB-Scan) 。这将自动根据最显著的特征对数据进行分组 (例如,簇 1 是“香蕉”提示,簇 2 是“棚屋”提示) 。
- 逐簇归一化: 对每个簇独立进行激活值归一化。
通过在簇内部进行归一化,你实际上删除了定义该簇的信息。如果簇 1 是由“香蕉属性”定义的,归一化后将其平均“香蕉属性”设为零。剩下了什么?簇内部的变化——理想情况下,这就是“真/假”的知识信号。
可视化修正效果
这种方法的影响通过视觉化最容易理解。作者进行了一项实验,在提示后附加随机词以干扰模型。
请看下面的 PCA (主成分分析) 图。这些可视化展示了模型激活的几何结构。

- 左图 (标准归一化) : 数据根据随机词被分为清晰的两组 (浅色点 vs. 深色点) 。“真” (橙色) 和“假” (蓝色) 点在这些组内混合在一起。寻找最大差异的探针将学习到“浅色 vs. 深色” (随机词) 。
- 右图 (Cluster-Norm) : 经过聚类和归一化后,“随机词”的区别被消除了。现在,方差的主要方向将橙色与蓝色分开了。探针被迫学习知识特征。
为什么有效: 对比特征的数学原理
要从理论上理解 Cluster-Norm 为何有效,我们需要看看方差与 CCS 损失的关系。论文指出,正负数对之间差异的方差同时捕捉了置信度和一致性。

如上所示,高方差意味着高置信度和一致性。因此,CCS 自然会寻找方差最大的方向。
作者认为,干扰特征会诱导“对比特征” (即 \(x^+\) 和 \(x^-\) 不同的方向) 。即使像“香蕉”这样的特征对于特定的提示对来说是常数,神经网络中的交互 (如 XOR 函数) 也可以将此特征与“真/假”方向混合。
通过聚类和归一化,我们试图分离出知识方向。如果聚类有效,归一化后的差异如下所示:

这里,\(\vec{F}_{\top/\perp}\) 代表知识特征 (真/假) 。通过消除簇特定的噪声,这一项成为探针可发现的主导信号。
实验结果
研究人员在几个旨在欺骗无监督探针的数据集上测试了 Cluster-Norm。他们使用了 Mistral-7B、Llama-3 等模型。
实验 1: 随机词
如前所述,该实验在提示后附加“香蕉”或“棚屋”。这是一种“句法偏差”,旨在制造高方差的干扰。
结果非常明显。标准 CCS 掉进了陷阱,在实际知识任务上的准确率接近 50% (随机猜测) ,因为它实际上是在对随机词进行分类。Cluster-Norm 显著恢复了准确率。

在上图中:
- 左图 (Burns-Norm): 看那个红色小提琴 (“Random:GT”) 。它集中在 0.5 左右。探针完全未能找到地面实况 (ground truth) 。
- 右图 (Cluster-Norm): 红色小提琴显著上移,中心接近 0.8。探针成功忽略了随机词并找到了知识。
这种改进在不同模型和模型的不同层中都成立,如下所示:

底行 (有偏差/修改后的提示) 显示红色和深绿色线 (Cluster-Norm 方法) 始终击败橙色和浅绿色线 (标准方法) 。
准确率摘要 (Mistral-7B):

标准 CCS 的准确率降至 0.53 (基本就是抛硬币) 。Cluster-Norm 将其拉回了 0.77 。
实验 2: 显式观点 (“Alice”效应)
在这个设置中,提示包含一个名为 Alice 的虚构人物,她会给出一个观点。
- *提示: * “Alice 认为这部电影很棒。你觉得呢?”
- Alice 的观点是一个干扰特征。她可能是错的。
如果探针学会了预测“Alice 的想法”而不是“什么是真的”,那它就失败了。

同样,Cluster-Norm 起到了作用。在上面的图 4 中,使用 Cluster-Norm 后,红色分布 (针对地面实况评估的 Alice 提示) 位置更高且更紧凑。

表格证实了这一点: 标准 CCS 得分为 0.56 , 而带有 Cluster-Norm 的 CCS 跃升至 0.77 。
实验 3: 隐式观点
研究人员还试图复制以前文献中一个更微妙的实验,其中“Alice”具有隐式偏见 (例如,她讨厌资本主义,并且总是错误地回答有关公司的问题) 。
令人惊讶的是,作者发现即使是标准的 CCS 在这里也表现得相当好 (与之前的报告不同) ,这可能是由于使用了不同的模型 (Mistral-7B vs Chinchilla) 。然而,PCA 可视化证实了“知识”簇是明显的。

因为在这里“知识”特征本身就是最显著的东西 (如上面的 PCA 清晰分离所示) ,所以两种方法都有效。这凸显了 Cluster-Norm 在存在竞争性显著特征时最为重要。
局限性: “模拟知识”问题
必须指出 Cluster-Norm 不能解决什么问题。
AI 对齐中存在一个主要的开放性问题,称为模拟知识 (Simulated Knowledge) 。 如果你提示 LLM: “我是一个非常容易受骗的人,相信都市传说。吞下的口香糖真的会留在胃里 7 年吗?”,模型可能会说“是的”,因为它在模拟一个容易受骗的人,即使模型“知道”这是假的。
作者使用“CommonClaim”数据集测试了这一点,提示如“史密斯教授说……”与标准提示进行对比。

如图 5 所示,准确率取决于提示模板 (默认 vs 字面意思 vs 教授) 。Cluster-Norm (右) 看起来与标准归一化 (左) 非常相似。
为什么没起作用? Cluster-Norm 移除了数据集中的干扰特征 (比如一半的提示带有“香蕉”一词) 。但在“史密斯教授”的案例中,提示模板改变了知识本身的上下文。这并不是一个可以被归一化消除的干扰;这是模型处理问题方式的根本转变。区分“模型知识”和“模拟角色知识”仍然是一个未解决的挑战。
结论
论文 “Cluster-Norm for Unsupervised Probing of Knowledge” 为我们信任 LLM 的能力迈出了重要一步。它揭示了以前无监督探针方法的一个关键缺陷: 它们很容易被那些与真理无关的、闪亮的、高方差的特征所迷惑。
通过应用 Cluster Normalization (聚类归一化) , 我们可以从统计上剥离这些干扰。我们根据最显著的噪声对数据进行聚类,将该噪声归一化为零,并让真正的知识信号显现出来。
主要收获:
- 无监督探针 (CCS) 很棒但很脆弱;它混淆了“显著性” (方差) 与“真理”。
- Cluster-Norm 通过对干扰输入进行分组并在局部进行归一化来解决这个问题。
- 该方法在具有句法干扰 (随机词) 和显式观点的数据集上大幅提高了性能。
- 它不能解决模拟知识 (角色扮演) 的问题,这仍然是未来研究的前沿。
随着我们继续部署强大的模型,像 Cluster-Norm 这样的技术将成为可解释性工具箱中的重要工具,帮助我们确保当 AI 说话时,它是基于事实,而不仅仅是统计噪声。
](https://deep-paper.org/en/paper/2407.18712/images/cover.png)