引言
在计算机视觉快速发展的格局中,视觉 Transformer (ViT) 已成为一股强大的力量。从自动驾驶汽车到医学成像,ViT 正在取得令人瞩目的性能,往往超越传统的卷积神经网络 (CNN)。然而,像许多深度学习模型一样,它们也有一个显著的缺陷: 它们就像“黑盒”。我们输入一张图像,输出一个分类结果,但我们往往对其做出该决定的原因知之甚少。
这种缺乏透明度是在安全关键领域部署 AI 的一个关键瓶颈。如果模型将肿瘤归类为恶性,放射科医生需要知道哪些像素影响了该决定。这就是特征归因 (Feature Attribution) 发挥作用的地方——这是一套旨在生成“热力图”或归因图的技术,用于突出显示对模型预测最相关的输入区域。
虽然已有现成的方法来解释这些模型,但许多方法在处理 Transformer 的独特架构时都很吃力。在这篇文章中,我们将深入探讨一篇题为 “Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers” 的论文。我们将探索一种名为 CoIBA (Comprehensive Information Bottleneck for Attribution,用于归因的综合信息瓶颈) 的新方法,该方法提出了一种更智能、更有数学依据的方式,从网络中“挤出”相关信息,以创建高度准确的解释。
问题: 跨层的不一致性
为了理解为什么我们需要一种新方法,我们首先需要看看当前的方法是如何失败的。一种流行的解释方法是信息瓶颈 (Information Bottleneck, IB) 原则。其想法很简单: 在网络的特定层注入噪声,过滤掉无关信息,只保留预测所需的信号。
然而,现有的基于 IB 的方法通常只关注单个目标层。其假设是,如果我们分析了一层,我们就理解了决策。但深度网络是分层处理信息的。一层认为“重要”的东西可能与另一层不同。

如上图 Figure 1 所示,依赖单一层可能会产生误导。看第一行 (“大炮”图像) 。
- 来自 Layer 2 的归因图突出了炮管。
- Layer 5 突出了轮子的顶部。
- Layer 8 关注轮子的底部。
哪一个是“真实”的解释?事实是,决策过程分布在所有这些层中。通过只隔离其中一层,我们得到的是对模型推理过程的碎片化且不一致的视图。此外,右侧的图表 (b) 显示,对于不同的图像,不同的层提供了“最佳”解释。不存在适用于每张图像的单一“黄金层”。
背景: 信息瓶颈
在揭示解决方案之前,让我们先建立基础: 信息瓶颈 (IB) 原则。
在归因的背景下,目标是找到一个“瓶颈”变量 \(Z\),尽可能地压缩输入表示 \(R\),同时保留关于目标类别 \(Y\) 的信息。
想象一下,你正在看一张公园里狗的照片。要将其识别为“狗”,你不需要知道草地的确切绿色深浅或云彩的形状。那是“无关信息”。IB 原则试图在数学上“抑制”那些无关信号。
这种标准方法被称为 IBA (Information Bottleneck for Attribution) , 它在特定层 \(l\) 插入一个瓶颈。它使用一个“掩码”或阻尼比 (damping ratio) \(\lambda_l\) 来计算瓶颈表示 \(Z_l\):

这里,\(R_l\) 是原始特征图,\(\epsilon_l\) 是高斯噪声。参数 \(\lambda_l\) 控制信噪比。
- 如果 \(\lambda_l \approx 1\),信号清晰通过。
- 如果 \(\lambda_l \approx 0\),信号被噪声取代 (被阻断) 。
目标是学习最佳的 \(\lambda_l\),使原始特征与瓶颈之间的信息最小化 (压缩) ,同时最大化瓶颈与标签之间的信息 (预测) 。

虽然 IBA 很强大,但其局限性在于其层特异性 。 它只限制了一个位置的信息流,忽略了分布在深度网络其余部分的证据。
核心方法: 综合信息瓶颈 (CoIBA)
这篇论文的作者提出了 CoIBA , 它将范式从分析特定层转变为分析跨多个目标层的综合信息流。
1. 通用阻尼比 (Universal Damping Ratio)
传统 IBA 与新 CoIBA 方法之间的根本区别在于它们如何处理瓶颈。

如 Figure 2 所示:
- IBA (左) : 在特定层 (例如第 \(L\) 层) 插入一个瓶颈,并具有特定的阻尼比。要获得全貌,你必须对每一层迭代运行此过程,这在计算上既昂贵又不一致。
- CoIBA (右) : 同时在多个层插入瓶颈。然而,它并没有为每一层学习单独的阻尼参数 (这将是混乱且难以优化的) ,而是在所有目标层之间共享一个通用阻尼比 (\(\lambda\))。
这个共享比例充当了相关性的全局“音量控制”。通过共享此参数,模型被迫寻找在网络深度上普遍重要的特征,补偿可能在单层中被过度压缩或遗漏的信息。
CoIBA 的瓶颈方程看起来略有不同。它将通用 \(\lambda\) 应用于中间瓶颈表示:

这里,\(\lambda\) 源自一个通过 sigmoid 函数传递的可学习参数 (确保其保持在 0 到 1 之间) 。至关重要的是,CoIBA 使用跨通道的均匀扰动 。 这意味着在单个 Token (图像块) 内,所有特征通道都被相同程度地抑制。这防止了模型通过挑选特定神经元作弊,而是迫使它专注于重要的空间“Token” (图像部分) 。
2. 架构
这如何适应实际的 Transformer?

Figure 5 提供了一个原理概览:
- 输入: 图像被分割成块并输入 ViT。
- 瓶颈层: 当特征通过目标层 (例如 Layer 1, Layer 2… Layer \(L\)) 时,CoIBA 注入由通用阻尼比定义的噪声。
- 相关信息: 系统根据当前状态计算相关信息 (均值和方差) 。
- 优化: 模型优化阻尼比 \(\lambda\),以在最终归因图中突出显示最重要的像素。
3. 目标函数与变分上界
这是论文的数学核心。我们要最大化预测信息,同时最小化流经所有瓶颈的信息流。初始目标函数如下所示:

这个方程的意思是: “最大化最后一层 \(Z_L\) 关于标签 \(Y\) 的信息,但减去连续层之间累积的互信息。”
问题在于,计算互信息项 (求和部分) 在数学上是难以处理的——太难精确计算了。我们需要一种方法来估计它。通常,研究人员使用变分下界 (ELBO),但在这里应用它需要对每一层单独的 \(\beta\) 项进行启发式平衡。
为了解决这个问题,作者提出了一个变分上界 (Variational Upper Bound) 。 他们利用了一个属性: 信息不能凭空产生 (数据处理不等式) 。流经后续层的信息不能超过流经第一个瓶颈层的信息。
因此,我们不需要对每一层的压缩项求和,而是可以通过查看第一个目标层 (\(R_1\)) 及其瓶颈 (\(Z_1\)) 的输入来限制整个过程:

这导出了一个极度简化的目标函数:

为什么这很精妙?
- 简单性: 我们只需要计算第一个瓶颈层的互信息。
- 无启发式方法: 我们不需要为每一层手动调整权重 (\(\beta_l\)) 来平衡它们的贡献。数学保证了限制第一层就能有效地限制整个序列的信息流。
- 效率: 它使优化过程更快、更稳定。
实验与结果
这种严格的数学公式是否转化为更好的解释?作者使用 Vision Transformers (ViT, DeiT, Swin) 在 ImageNet 等数据集上进行了广泛的实验。
1. 忠实度 (插入和删除)
一个好的解释应该是忠实的。如果热力图说“这只狗的耳朵很重要”,那么从图像中移除耳朵应该会大大降低模型识别“狗”的置信度。
- 删除指标 (Deletion): 我们从最“重要”的像素开始逐步删除像素。准确率下降得越快,解释就越好。 (越低越好) 。
- 插入指标 (Insertion): 我们从模糊图像开始,根据重要性添加像素。准确率上升得越快,越好。 (越高越好) 。
作者将这些结合成一个表格 (Insertion \(\uparrow\) / Deletion \(\downarrow\)) :

在 Table 1 中,CoIBA (最后一列) 在各种模型 (ViT-B, ViT-L, DeiT) 上始终优于 Chefer-LRP、Generic 和标准 IBA 等现有方法。例如,在 ViT-B 上,CoIBA 实现了 13.01 的删除分数 (越低越好) ,而 IBA 为 17.23。
2. 在“困难”样本上的鲁棒性
最有趣的发现之一是 CoIBA 如何处理不确定性。大多数解释方法在模型非常自信时 (例如,一张清晰的猫的照片) 效果很好。但是,当模型不确定 (低置信度) 时,解释往往会崩溃。

Figure 7 (在论文中也显示为 Figure 4) 可视化了这种难度感知的性能。这些图显示了不同置信度水平下插入和删除分数之间的差异 (\(\Delta\)InsDel)。
- 蓝色/紫色线 (CoIBA) 始终高于其他线,即使在图表左侧置信度较低 (0-20%) 的情况下也是如此。
- 这意味着即使 AI 在处理“困难”或模棱两可的图像时,CoIBA 也能提供可靠的解释。
3. 视觉质量
数字固然重要,但在可解释性 AI 中,我们需要看到结果。

在 Figure E 中,比较 CoIBA (最右侧) 与其他方法。
- 吸尘器 (Vacuum, 第 2 行): 注意 CoIBA 如何突出显示吸尘器的整个机身和软管。其他方法 (如 Generic 或 ViT-CX) 会导致分散的噪声或仅突出显示小的边缘。
- 校车 (School Bus, 第 4 行): CoIBA 清晰地突出了校车结构,而其他方法则关注背景噪声或不连贯的斑块。
4. FunnyBirds: 对照测试
为了进一步验证他们的方法,作者使用了 “FunnyBirds”,这是一个专门用于测试 AI 可解释性的合成数据集。由于这些图像是计算机生成的,我们知道哪些部分重要的基本事实 (ground truth)。

Figure 6 (嵌入在上图的文本中) 显示了雷达图。
- Acc (准确性): 归因与基本事实的匹配程度。
- Con (对比性): 解释能否区分相似的类别?
- Com (完整性): 它是否涵盖了所有相关特征?
CoIBA 在雷达图上实现了最大的面积,表明它是最全面的方法,特别是在对比性 (Con) 方面表现出色,这意味着它非常擅长展示究竟是什么让一只鸟成为“FunnyBird”而不是普通鸟。
讨论
为什么通用比率很重要
你可能会想,“为什么要强制每一层使用相同的阻尼比?灵活的层不是更好吗?”
论文中的消融研究 (如下所示) 揭示了为什么通用比率更优越。

Figure 9(a) 显示了互信息。通过共享比率,CoIBA 补偿了早期层的过度压缩。本质上,后面的层通过共享参数的反向传播“告诉”前面的层什么是重要的。如果我们单独优化每一层,早期层可能会丢弃后期层实际上需要的信息,导致断层。
处理分布外数据
CoIBA 在“困难”样本 (低置信度) 上的鲁棒性表明它更适合分布外数据。在现实场景中——比如自动驾驶汽车看到一辆形状奇怪的卡车——模型的置信度可能会下降。在这种时刻失效的解释方法是无用的。CoIBA 在这方面的稳定性是对 AI 安全的重大贡献。
结论
视觉 Transformer 的“黑盒”性质是其在敏感领域应用的主要障碍。论文 “Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers” 通过 CoIBA 提出了一个令人信服的解决方案。
通过超越分析单层的局限性,转而采用具有通用阻尼比的多层综合方法,CoIBA 成功地:
- 解决不同网络层之间的冲突。
- 通过变分上界提供理论保证 , 即被丢弃的信息确实是不需要的。
- 在定量指标 (插入/删除) 和定性视觉效果上提供卓越的性能 。
对于计算机视觉的学生和研究人员来说,CoIBA 代表了可解释性 AI (XAI) 向前迈出的精妙一步。它提醒我们,要理解深度网络,我们不能只看大脑的一个切片——我们需要看整个思维过程。
本文基于 Jung-Ho Hong 等人的研究论文 “Comprehensive Information Bottleneck for Unveiling Universal Attribution to Interpret Vision Transformers” 撰写。
](https://deep-paper.org/en/paper/2507.04388/images/cover.png)