净化信号：Cluster-Norm 如何改进大语言模型中的无监督知识发现

大型语言模型 (LLM) 令人印象深刻，但它们也是黑盒。当 LLM 输出一段陈述时，它到底是“相信”该陈述为真，还是仅仅在模拟一个会说出该陈述的角色？随着我们使用人类偏好对模型进行微调，我们面临着将其训练成“应声虫”的风险——即告诉我们需要听到的内容，而不是事实。

为了构建更安全、更可靠的 AI，我们需要深入黑盒内部。我们需要直接从模型的激活值中提取其内部的“知识”，绕过其文本输出。这一领域被称为知识诱导 (knowledge elicitation) 。

该领域最有前途的方法之一是无监督探针 (unsupervised probing) ——即在不需要标注数据的情况下，在模型的神经活动中找到“真理方向”。然而，最近的研究表明，这些方法很容易受到干扰。如果数据集具有显著特征 (如特定的写作风格或重复出现的随机词) ，无监督探针往往会锁定该特征，而不是真理。

在这篇文章中，我们将深入探讨最近的一篇论文 “Cluster-Norm for Unsupervised Probing of Knowledge” (用于无监督知识探针的聚类归一化) , 该论文针对这一问题提出了一种巧妙的统计修正方法。我们将探讨“显著 (salient) ”但不相关的特征如何混淆当前的方法，以及一种称为 Cluster Normalization (聚类归一化) 的技术如何在噪声中分离出真正的知识信号。

问题所在: 干扰特征

要理解解决方案，我们首先需要了解目前最先进的技术: 对比一致性搜索 (Contrast-Consistent Search, CCS) 。 CCS 由 Burns 等人 (2022) 提出，是一种无需标签即可发现真理的巧妙方法。

CCS 如何工作

CCS 背后的直觉很简单: 逻辑一致性。如果你问模型“天是蓝色的吗？”和“天不是蓝色的吗？”，这两个答案的概率之和应该为 1。如果模型确信天是蓝色的，那么它应该同样确信天不是非蓝色的。

CCS 在模型的内部激活上训练一个小型的“探针” (线性分类器) ，以满足两个条件:

一致性 (Consistency) : 一个陈述及其否定的概率之和必须为 1。
置信度 (Confidence) : 探针不应模棱两可 (即避免输出 50/50 的概率) 。

在数学上，损失函数如下所示:

CCS 损失函数结合了一致性和置信度项。

这里，\(\mathcal{L}_{\text{consistency}}\) 确保概率相加为 1，而 \(\mathcal{L}_{\text{confidence}}\) 促使探针做出果断的判断。

“显著性”陷阱

虽然 CCS 很出色，但它有一个缺陷。它假设“真理”是满足逻辑一致性的数据中最突出 (显著) 的结构。但是，如果有东西更显著呢？

Farquhar 等人 (2023) 证明 CCS 很容易被欺骗。想象一个数据集，其中每个提示 (prompt) 后面都附有一个随机词——要么是“香蕉 (banana) ”，要么是“棚屋 (shed) ”。

提示 A: “埃菲尔铁塔在巴黎。香蕉。”
提示 B: “埃菲尔铁塔在罗马。棚屋。”

对于 LLM 来说，“香蕉”和“棚屋”这两个概念之间的差异在激活空间中可能比“真”与“假”之间的差异“响亮”得多。由于 CCS 寻找的是分割数据的最大方差 (置信度) 方向，它可能会意外地学习分类“香蕉 vs. 棚屋”，而不是“真 vs. 假”。

用术语来说，探针锁定了最显著的特征 , 但这并不总是知识。

解决方案: 聚类归一化 (Cluster-Norm)

这篇论文的作者提出了一种名为 Cluster-Norm 的解决方案。其核心思想非常直观: 如果一个干扰特征 (如“香蕉/棚屋”) 在数据中产生了明显的簇，我们应该在这些簇内部对数据进行归一化，以消除这种干扰。

标准方法 vs. Cluster-Norm

在标准的 CCS 流程 (称为 Burns-Norm )中，你获取整个数据集的所有激活值并将它们一起归一化 (均值为 0，方差为 1) 。这保留了全局结构。如果“香蕉”的激活值巨大而“棚屋”的微小，归一化会保留这种巨大的方差。由于 CCS 寻找方差 (置信度) ，它会直接掉进这个陷阱。

Cluster-Norm 增加了一个步骤:

采集激活值: 获取对比数对 (陈述 \(x^+\) 和 \(x^-\)) 的模型内部状态。
聚类: 对激活值使用聚类算法 (如 HDB-Scan) 。这将自动根据最显著的特征对数据进行分组 (例如，簇 1 是“香蕉”提示，簇 2 是“棚屋”提示) 。
逐簇归一化: 对每个簇独立进行激活值归一化。

通过在簇内部进行归一化，你实际上删除了定义该簇的信息。如果簇 1 是由“香蕉属性”定义的，归一化后将其平均“香蕉属性”设为零。剩下了什么？簇内部的变化——理想情况下，这就是“真/假”的知识信号。

可视化修正效果

这种方法的影响通过视觉化最容易理解。作者进行了一项实验，在提示后附加随机词以干扰模型。

请看下面的 PCA (主成分分析) 图。这些可视化展示了模型激活的几何结构。

PCA 可视化对比 Burns-Norm (左) 和 Cluster-Norm (右) 。左图中，簇由随机词 (浅色 vs 深色) 分隔。右图中，Cluster-Norm 使数据按知识 (橙色 vs 蓝色) 对齐。

左图 (标准归一化) : 数据根据随机词被分为清晰的两组 (浅色点 vs. 深色点) 。“真” (橙色) 和“假” (蓝色) 点在这些组内混合在一起。寻找最大差异的探针将学习到“浅色 vs. 深色” (随机词) 。
右图 (Cluster-Norm) : 经过聚类和归一化后，“随机词”的区别被消除了。现在，方差的主要方向将橙色与蓝色分开了。探针被迫学习知识特征。

为什么有效: 对比特征的数学原理

要从理论上理解 Cluster-Norm 为何有效，我们需要看看方差与 CCS 损失的关系。论文指出，正负数对之间差异的方差同时捕捉了置信度和一致性。

方程显示方差分解为置信度和一致性项。

如上所示，高方差意味着高置信度和一致性。因此，CCS 自然会寻找方差最大的方向。

作者认为，干扰特征会诱导“对比特征” (即 \(x^+\) 和 \(x^-\) 不同的方向) 。即使像“香蕉”这样的特征对于特定的提示对来说是常数，神经网络中的交互 (如 XOR 函数) 也可以将此特征与“真/假”方向混合。

通过聚类和归一化，我们试图分离出知识方向。如果聚类有效，归一化后的差异如下所示:

方程显示归一化后的差异有效地分离了知识特征。

这里，\(\vec{F}_{\top/\perp}\) 代表知识特征 (真/假) 。通过消除簇特定的噪声，这一项成为探针可发现的主导信号。

实验结果

研究人员在几个旨在欺骗无监督探针的数据集上测试了 Cluster-Norm。他们使用了 Mistral-7B、Llama-3 等模型。

实验 1: 随机词

如前所述，该实验在提示后附加“香蕉”或“棚屋”。这是一种“句法偏差”，旨在制造高方差的干扰。

结果非常明显。标准 CCS 掉进了陷阱，在实际知识任务上的准确率接近 50% (随机猜测) ，因为它实际上是在对随机词进行分类。Cluster-Norm 显著恢复了准确率。

小提琴图显示准确率分布。左图: 标准 CCS 在随机真值 (Random:GT，红色) 上失败。右图: Cluster-Norm 恢复了随机真值的准确率。

在上图中:

左图 (Burns-Norm): 看那个红色小提琴 (“Random:GT”) 。它集中在 0.5 左右。探针完全未能找到地面实况 (ground truth) 。
右图 (Cluster-Norm): 红色小提琴显著上移，中心接近 0.8。探针成功忽略了随机词并找到了知识。

这种改进在不同模型和模型的不同层中都成立，如下所示:

折线图显示 Cluster-Norm 在各层中始终优于标准归一化，尤其是在修改后的提示下。

底行 (有偏差/修改后的提示) 显示红色和深绿色线 (Cluster-Norm 方法) 始终击败橙色和浅绿色线 (标准方法) 。

准确率摘要 (Mistral-7B):

表格显示 Cluster-Norm 将 CCS 准确率从 0.53 提高到 0.77。

标准 CCS 的准确率降至 0.53 (基本就是抛硬币) 。Cluster-Norm 将其拉回了 0.77 。

实验 2: 显式观点 (“Alice”效应)

在这个设置中，提示包含一个名为 Alice 的虚构人物，她会给出一个观点。

*提示: * “Alice 认为这部电影很棒。你觉得呢？”
Alice 的观点是一个干扰特征。她可能是错的。

如果探针学会了预测“Alice 的想法”而不是“什么是真的”，那它就失败了。

显式观点实验的小提琴图。Cluster-Norm (右) 显示 Alice:GT 情况 (红色) 下的分布更紧凑且准确率更高。

同样，Cluster-Norm 起到了作用。在上面的图 4 中，使用 Cluster-Norm 后，红色分布 (针对地面实况评估的 Alice 提示) 位置更高且更紧凑。

表格显示显式观点实验的准确率结果。带有 Cluster-Norm 的 CCS 达到了 0.77 的准确率。

表格证实了这一点: 标准 CCS 得分为 0.56 , 而带有 Cluster-Norm 的 CCS 跃升至 0.77 。

实验 3: 隐式观点

研究人员还试图复制以前文献中一个更微妙的实验，其中“Alice”具有隐式偏见 (例如，她讨厌资本主义，并且总是错误地回答有关公司的问题) 。

令人惊讶的是，作者发现即使是标准的 CCS 在这里也表现得相当好 (与之前的报告不同) ，这可能是由于使用了不同的模型 (Mistral-7B vs Chinchilla) 。然而，PCA 可视化证实了“知识”簇是明显的。

隐式观点的 PCA 可视化。第一主成分相对容易地按正确选项分割数据。

因为在这里“知识”特征本身就是最显著的东西 (如上面的 PCA 清晰分离所示) ，所以两种方法都有效。这凸显了 Cluster-Norm 在存在竞争性显著特征时最为重要。

局限性: “模拟知识”问题

必须指出 Cluster-Norm 不能解决什么问题。

AI 对齐中存在一个主要的开放性问题，称为模拟知识 (Simulated Knowledge) 。如果你提示 LLM: “我是一个非常容易受骗的人，相信都市传说。吞下的口香糖真的会留在胃里 7 年吗？”，模型可能会说“是的”，因为它在模拟一个容易受骗的人，即使模型“知道”这是假的。

作者使用“CommonClaim”数据集测试了这一点，提示如“史密斯教授说……”与标准提示进行对比。

小提琴图显示提示敏感性。分布显著重叠，表明 Cluster-Norm 并没有解决提示模板之间的差异。

如图 5 所示，准确率取决于提示模板 (默认 vs 字面意思 vs 教授) 。Cluster-Norm (右) 看起来与标准归一化 (左) 非常相似。

为什么没起作用? Cluster-Norm 移除了数据集中的干扰特征 (比如一半的提示带有“香蕉”一词) 。但在“史密斯教授”的案例中，提示模板改变了知识本身的上下文。这并不是一个可以被归一化消除的干扰；这是模型处理问题方式的根本转变。区分“模型知识”和“模拟角色知识”仍然是一个未解决的挑战。

结论

论文 “Cluster-Norm for Unsupervised Probing of Knowledge” 为我们信任 LLM 的能力迈出了重要一步。它揭示了以前无监督探针方法的一个关键缺陷: 它们很容易被那些与真理无关的、闪亮的、高方差的特征所迷惑。

通过应用 Cluster Normalization (聚类归一化) , 我们可以从统计上剥离这些干扰。我们根据最显著的噪声对数据进行聚类，将该噪声归一化为零，并让真正的知识信号显现出来。

主要收获:

无监督探针 (CCS) 很棒但很脆弱；它混淆了“显著性” (方差) 与“真理”。
Cluster-Norm 通过对干扰输入进行分组并在局部进行归一化来解决这个问题。
该方法在具有句法干扰 (随机词) 和显式观点的数据集上大幅提高了性能。
它不能解决模拟知识 (角色扮演) 的问题，这仍然是未来研究的前沿。

随着我们继续部署强大的模型，像 Cluster-Norm 这样的技术将成为可解释性工具箱中的重要工具，帮助我们确保当 AI 说话时，它是基于事实，而不仅仅是统计噪声。

问题所在: 干扰特征#

CCS 如何工作#

“显著性”陷阱#

解决方案: 聚类归一化 (Cluster-Norm)#

标准方法 vs. Cluster-Norm#

可视化修正效果#

为什么有效: 对比特征的数学原理#

实验结果#

实验 1: 随机词#

实验 2: 显式观点 (“Alice”效应)#

实验 3: 隐式观点#

局限性: “模拟知识”问题#

结论#