审计审计者: 如何严格度量 AI 概念解释

在飞速发展的大语言模型 (LLM) 世界中,我们要面对一个“黑盒”问题。我们知道这些模型处理海量文本并构建了世界的内部表征,但要理解它们 如何 做到这一点仍然是一个巨大的挑战。当一个 LLM 输出一句关于“计算机安全”的话时,具体是哪些神经元被激活了?模型是真的理解了“安全”这个抽象概念,还是仅仅在进行模式匹配?

为了回答这些问题,研究人员转向了 基于概念的解释 (Concept-based Explanations) 。 与简单高亮显示哪些输入词汇重要的热力图不同,基于概念的解释试图识别编码在模型高维隐藏空间中的高层概念——如“性别”、“编程”或“金融”。

但这引出了一个新的问题: 我们如何知道这些解释是否靠谱?

如果一个解释工具声称发现了一个“快乐”神经元,我们要如何验证?这个解释是 忠实的 (Faithfulness) 吗 (模型真的用这个神经元来表示快乐吗) ?它是 可读的 (Readability) 吗 (这个解释对人类来说有意义吗) ?

今天,我们要深入探讨一篇题为 “Evaluating Readability and Faithfulness of Concept-based Explanations” 的研究论文。这项工作提出了一个统一的框架来审计这些解释。它超越了临时的评分方式,应用严格的 测量理论 (Measurement Theory) ——即心理学中使用的统计学方法——来确定我们可以真正信任哪些指标。

可解释性的蛮荒时代

在我们能够度量解释之前,我们需要了解当前的形势。针对概念的可解释人工智能 (XAI) 领域已经变得有些碎片化。有些方法关注单个神经元,而有些则关注向量空间中的方向 (比如著名的 国王 - 男人 + 女人 = 女王 的例子) 。

如下图所示,评估指标的分类体系庞大且令人困惑。研究人员提出了针对稀疏性、意义性、因果性和鲁棒性的指标,但通常对相似的想法使用不同的定义。

关于基于概念的解释方法的现有自动指标分类体系。

这篇论文的作者认为,为了取得进展,我们需要将这些整合到一个统一的框架中。我们需要形式化定义什么是“概念”,然后聚焦于两个最关键的质量维度:

  1. 忠实度 (Faithfulness) : 解释是否准确反映了模型的内部机制?
  2. 可读性 (Readability) : 人类能否理解所呈现的概念?

第一部分: 概念的统一框架

第一步是标准化。无论你使用的是像 TCAV (概念激活向量测试) 这样的监督方法,还是像稀疏自编码器 (SAE) 这样的无监督方法,作者提出所有基于概念的解释都可以通过 虚拟神经元 (Virtual Neurons) 的视角来看待。

该框架如下图 Figure 1 所示。

该图展示了评估概念提取模型的三个部分的过程: (a) 概念提取,(b) 通过可读性和忠实度进行评估,以及 (c) 使用测量理论进行元评估。

虚拟神经元

在上图的 (a) 面板中,我们看到了形式化定义。一个概念由一个 激活函数 \(a(h)\) 定义。该函数接收一个隐藏表征 \(h\) (模型在特定层的内部状态) 并将其映射为一个实数值。正输出意味着该概念处于“激活”状态。

  • 对于单个神经元: 该函数选择隐藏状态的特定维度。
  • 对于方向 (TCAV) : 该函数是特定向量上的线性投影 (点积) 。
  • 对于稀疏自编码器: 该函数可能涉及对学习到的特征进行 ReLU 激活。

这种统一使得研究人员能够对完全不同的解释方法应用相同的评估指标。

第二部分: 通过扰动度量忠实度

忠实度是可解释性的基石。如果不忠实的解释讲述了一个令人信服的故事,却与模型的实际工作方式无关,那它就是毫无用处的。

为了度量这一点,作者使用了 扰动 (Perturbation) 。 逻辑很简单: 如果一个概念 (例如“礼貌”) 对模型的输出真的很重要,那么在模型的“大脑”中手动篡改该概念应该会极大地改变输出。

忠实度分数 \(\gamma\) 是通过聚合在概念被函数 \(\xi\) 扰动后,数据集上的输出差异 \(\delta\) 来计算的:

忠实度度量 gamma 的方程。

这里,\(y\) 是原始输出,\(y'\) 是扰动后的输出。

优化问题

挑战在于定义 如何 扰动概念。你不能简单地将整层清零;那会破坏一切。你需要像外科手术一样只修改有问题的概念。作者将其公式化为一个优化问题:

概念添加和消融的优化问题。

  • \(\xi_e\) (概念添加) : 我们想要找到一个新的隐藏状态 \(h'\),它最大化概念的激活,但保持在原始状态的微小距离 \(\epsilon\) 之内。这测试了“调大”概念的音量是否会改变输出。
  • \(\xi_a\) (概念消融) : 我们想要找到最近的隐藏状态 \(h'\),其中概念激活实际上为零。这测试了“删除”概念是否会移除相关行为。

对于线性概念 (这非常常见) ,这些优化问题有优雅的闭式解:

梯度添加和消融的闭式解。

定义“差异”

一旦应用了扰动,我们如何度量模型输出的变化?论文提出了三个具体指标:

  1. Loss (损失) : 模型损失函数的变化 (它是否对真实标签变得更加“困惑”?) 。
  2. Div (散度) : 原始概率分布与新分布之间的 KL 散度。
  3. Class (类别) : 特定预测 token 或真实 token 的概率下降。

Loss、Div 和 Class 差异的方程。

通过结合扰动方法 (消融 vs. 添加) 与差异指标 (Loss vs. Div vs. Class) ,研究人员创建了一套忠实度度量标准 (例如 ABL-LossGRAD-TClass) 。

第三部分: 通过连贯性度量可读性

即使一个概念是忠实的,如果它对人类来说像噪音一样,那也是无用的。一个“可读”的概念应该对应一个连贯的语义想法,比如“过去式动词”或“医学术语”。

传统上,度量可读性是昂贵的。你要么需要付钱让人类对解释进行评分,要么使用 LLM (如 GPT-4) 对其评分。然而,作者认为基于 LLM 的评估有局限性——成本高昂且受限于上下文窗口。

相反,他们建议通过度量 连贯性 (Coherence) 来自动化可读性评估。

如果一个概念是可读的,触发它的词汇在语义上应该是彼此相似的。例如,如果一个概念在“北”、“南”、“东”、“西”上激活,这些词是高度连贯的。如果它在“苹果”、“跑”、“蓝”、“概念”上激活,那它很可能是不连贯的。

作者测试了四种自动指标,分为基于 N-gram 的和基于嵌入 (Embedding) 的:

UCI, UMass, EmbDist, 和 EmbCos 的方程。

  • UCI 和 UMass: 这些是基于大型语料库中词共现概率 \(P(x^i, x^j)\) 的经典主题建模指标。
  • EmbDist 和 EmbCos: 这些利用了现代词嵌入 (如 BERT) 。EmbCos (嵌入余弦相似度) 度量了顶部激活词嵌入之间的角度。如果角度很小,这些词在语义上是接近的。

可视化连贯性

为了验证这一点,作者查看了从高激活 token 中提取的“主题”。

展示不同概念提取主题的词云。

在上图 Figure 6 中,我们可以看到这种方法为何有效。

  • Case 1 清楚地将方位词归为一组。
  • Case 2 将数据科学术语归为一组。
  • Case 3 将 LaTeX 数学符号归为一组。

基于嵌入的指标特别擅长捕捉这些关系,因为预训练的嵌入已经“知道”“北”和“南”是相关的,即使它们并没有在句子中紧挨着出现。

第四部分: 元评估——审计度量指标

这是论文中最科学严谨的部分。我们定义了忠实度 (如 ABL-Loss) 和可读性 (如 IN-EmbCos) 的新指标。 但这些指标真的在度量它们声称度量的东西吗?

为了回答这个问题,作者应用了 测量理论 (Measurement Theory) (心理测量学) 。他们对待 AI 指标就像心理学家对待人格测试一样。他们测试 信度 (Reliability)效度 (Validity)

信度: 一致性是关键

一个可信的指标应该产生一致的结果。如果你运行测试两次,或者在不同的数据子集上运行,你应该得到相同的分数。

作者评估了两种类型的信度:

  1. 重测信度 (Test-Retest Reliability) : 我们在重复运行时能得到相同的分数吗?
  2. 子集一致性 (Subset Consistency) : 分数在数据集的不同块上是否保持稳定?

比较信度指标的散点图。

Figure 2 揭示了一些残酷的事实。

  • 失败者: LLM-Score (让 GPT-4 给概念评分) 信度很差。它的波动太大了。同样,GRAD-Loss 和基于 N-gram 的指标 (IN-UCIIN-UMass) 也低于可接受的标准 (红色虚线) 。
  • 赢家: 基于嵌入的指标 (IN-EmbCos) 和基于消融的忠实度指标 (ABL-TClass) 被证明是非常可信的。

效度: 度量正确的事物

效度提出的问题是: 该指标是否实际上与我们关心的现实世界质量相关?

为了测试 可读性效度 , 作者进行了一项用户研究。他们让人类专家对数百个概念的可读性进行评分,并将这些人类评分与自动评分进行比较。

展示自动指标与人类判断之间相关性的表格。

Table 4 展示了一个显著的结果。 EmbCos (嵌入余弦相似度) 在输入和输出侧均与人类判断具有最高的相关性。

  • 这表明 EmbCos 是人类评估的一个有效、廉价且确定性的代理指标。
  • 令人惊讶的是,LLM-Score (让 LLM 解释神经元) 与人类判断的相关性甚至 不如 简单的嵌入数学计算。

为什么 LLM 失败了? 作者提供了一个案例研究 (下图 Figure 7) ,显示由于上下文窗口有限,LLM 有时会产生幻觉或遗漏模式。在 Case 3 中,LLM 未能掌握“LaTeX 符号”这一模式,而简单的嵌入指标却很容易捕捉到了。

展示 LLM 生成与原始激活对比的案例研究。

结构效度: MTMM 矩阵

最后,作者使用多质多法 (MTMM) 矩阵检查了 结构效度 (Construct Validity) 。 这种复杂的可视化检查了那些 应该 相关的指标是否真的相关 (收敛效度) ,以及度量不同事物的指标是否实际上不相关 (发散效度) 。

展示测量指标之间相关性的 MTMM 表热力图。

Figure 3 中,“B. Readability” (右下角) 块显示可读性指标之间有不错的相关性。至关重要的是,左下角的块 (比较忠实度与可读性) 显示出极低的相关性。这是 好消息 。 它证实了“忠实度”和“可读性”确实是不同的结构。一个概念可能非常忠实 (模型使用它) 但完全不可读 (对我们来说像噪音) ,反之亦然。

第五部分: 比较解释方法

利用这些经过验证的指标——特别是用于可读性的 EmbCos 和用于忠实度的 ABL 变体——作者比较了三种流行的解释方法:

  1. TCAV (监督式) : 训练一个向量来寻找特定概念 (如“有害内容”) 。
  2. 稀疏自编码器 (SAE) : 无监督学习以分解隐藏空间。
  3. 神经元: 查看原始神经元激活。

比较 TCAV、SAE 和神经元性能的条形图。

Figure 4 强调了结果:

  • TCAV (蓝色柱) 在可读性上表现最好。这是合理的: 因为它是监督式的,我们明确地在寻找人类定义的概念。
  • 稀疏自编码器 (橙色柱) 始终优于原始神经元 (绿色柱) 。这验证了 AI 研究近期使用 SAE 的趋势;它们确实比单个神经元能发现更有意义的“特征”。

结论

这篇研究论文为可解释人工智能领域提供了一次至关重要的“审计”。它让我们从基于直觉的评估 (“这个神经元看起来很酷!”) 转向了严格的度量。

给学生的关键要点:

  1. 不要盲目相信指标。 仅仅因为一个数字被标记为“可解释性得分”并不意味着它是可信的。作者表明,昂贵的基于 LLM 的评分可能不如简单的余弦相似度可靠。
  2. 使用正确的工具。 如果你需要评估概念可读性, 嵌入余弦相似度 (EmbCos) 是目前作为人类判断的快速、自动且有效的代理指标的 SOTA (最先进方法) 。
  3. 扰动是强大的。 要度量模型是否 使用 一个概念,不要只看梯度。使用 消融 (Ablation) 策略来外科手术般地移除概念,并观察对输出的因果影响。
  4. 概念是各异的。 记住,一个概念可能高度忠实 (对模型很重要) 但对人类完全不可读。如果我们想要安全、透明的 AI,我们必须针对这两者进行优化。

通过标准化我们定义和度量概念的方式,这项工作为未来奠定了基础,在这个未来中,我们不仅可以检查 LLM,还可以真正信任我们所看到的东西。