引言
视觉 Transformer (Vision Transformers, ViTs) 彻底改变了计算机视觉领域,挑战了卷积神经网络 (CNN) 长期以来的统治地位。通过利用自注意力机制,ViT、DeiT 和 Swin Transformer 等模型在分类和检测任务中取得了显著成果。然而,这种高性能伴随着巨大的代价: 庞大的参数量和高昂的计算开销。
为了将这些沉重的模型部署在边缘设备 (如智能手机或嵌入式系统) 上,我们需要对其进行压缩。最流行的方法是训练后量化 (Post-Training Quantization, PTQ) 。 PTQ 将高精度的浮点权重 (32位) 转换为低精度的整数 (如 4 位或 8 位) ,而无需对模型进行完整且昂贵的重新训练。
然而,ViT 的量化难度众所周知。它们的激活分布不规则,标准的量化方法往往会破坏其准确性,尤其是在极低比特宽度 (如 3 位或 4 位) 下。
在本文中,我们将深入探讨一篇名为 “FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation” 的研究论文。这篇论文指出了以往方法在估计“参数重要性”时存在的一个基本数学缺陷,并提出了一种复杂的修正方案,称为DPLR-FIM (对角加低秩费雪信息矩阵) 。
如果你对高等数学如何直接转化为更好、更快、更小的 AI 模型感兴趣,那么这篇深度解读非常适合你。
背景: 量化的挑战
在讨论解决方案之前,我们需要了解问题所在。当我们量化神经网络时,本质上是在向权重添加噪声。我们将精确的数字四舍五入为最接近的整数。有些权重非常稳健——你可以对它们进行相当大的更改而不会损害模型的准确性。而另一些权重则极其敏感——即使微小的变化也会破坏预测结果。
为了执行有效的量化,我们需要一个指标来告诉我们要保留哪些权重,以及哪些权重是敏感的。这通常通过查看海森矩阵 (Hessian Matrix) 来完成。
海森矩阵与费雪信息矩阵 (FIM)
海森矩阵表示损失函数的二阶导数。简单来说,它描绘了损失景观的“曲率”。
- 高曲率 (高海森值) : 损失函数很陡峭。权重的微小变化会导致误差的大幅跳变。必须小心保留这些权重。
- 低曲率 (低海森值) : 损失函数很平坦。我们可以积极地量化这些权重,而不会受到太大的惩罚。
由于计算数百万个参数的精确海森矩阵在计算上是不可能的,研究人员使用一个代理: 费雪信息矩阵 (Fisher Information Matrix, FIM) 。
目前最先进的方法 (如 BRECQ) 使用 FIM 来近似海森矩阵。然而,为了节省内存,它们做了一个巨大的简化: 假设矩阵是对角的。它们忽略了不同参数之间如何相互作用 (非对角元素) ,并使用梯度平方来近似对角线值。
FIMA-Q 的作者认为,这种简化正是现有方法失败的地方。
核心方法: FIMA-Q
FIMA-Q 论文做出了两项主要贡献,改变了我们解决这个问题的方式:
- 信息丢失的视觉证据: 他们展示了费雪信息矩阵中的非对角元素是不可忽略的。
- 数学修正: 他们证明了 FIM 与损失梯度之间的关系是线性的,而不是平方的 (在使用 KL 散度时) 。
问题可视化
让我们来看看视觉 Transformer 中类 token (class token) 的费雪信息矩阵的实际结构。

- (a) 完整 FIM (Complete FIM): 这是真实情况 (Ground Truth) 。注意对角线很亮 (高值) ,但对角线外也有显著的紫色/绿色斑块。这些代表了不同参数之间的相关性。
- (b) 对角 FIM (Diagonal FIM): 这是以前的方法所使用的。它捕捉到了对角线,但将其他所有内容视为零 (黑色) 。它错过了所有参数间的相关性。
- (c) 低秩 FIM (Low-Rank FIM): 这捕捉到了全局结构,但错过了清晰的对角线细节。
- (d) DPLR-FIM (本文提出): 这是 FIMA-Q 的解决方案。它结合了对角结构和低秩结构。注意热力图 (d) 与热力图 (a) 中的真实情况有多么相似。
作者意识到,通过忽略非对角元素 (如 b 所示) ,标准的 PTQ 方法丢弃了在低比特宽度下保持准确性所需的关键信息。
框架
所提出的方法 FIMA-Q 在视觉 Transformer 中逐块运行。它量化一个块,测量误差,并使用新的 FIM 近似重建权重以最小化该误差。

如图 2 所示,该过程包括:
- 计算全精度输出与量化输出之间的差异。
- 计算 KL 散度 (KL Divergence) (衡量概率分布之间差异的指标) 。
- 使用 KL 散度的梯度构建 DPLR-FIM (对角加低秩) 近似。
- 使用这个改进的损失景观优化量化参数。
数学突破
这是论文中最技术性但也最重要的一部分。标准方法假设优化目标如下所示:

这里,\(\mathbf{H}\) 是海森矩阵。以前的工作使用任务损失的梯度平方来近似这个海森矩阵:

FIMA-Q 作者证明,当使用 KL 散度作为任务损失的代理时,这种平方假设是不准确的。他们推导出费雪信息矩阵 (\(\mathbf{F}\)) 实际上与 KL 散度的梯度成线性正比 。
从数学上讲,如果我们定义 KL 散度损失为 \(\mathcal{L}_{KL}\),其关系为:

这种线性关系允许他们在不进行全海森矩阵计算成本的情况下,构建更精确的 FIM 近似。
DPLR 近似策略
为了同时捕捉尖锐的局部敏感性 (对角线) 和全局参数相互作用 (非对角线) ,作者提出了对角加低秩 (Diagonal Plus Low-Rank, DPLR) 近似。
1. 对角分量 他们首先利用上述导出的线性关系计算对角分量。这捕捉了每个参数的个体敏感性。

2. 低秩分量 为了捕捉非对角相关性 (热力图中的“紫色斑块”) ,他们使用了秩为 \(k\) 的近似。这允许他们有效地存储交互数据,而无需计算完整的 \(N \times N\) 矩阵。

3. 组合 (DPLR) 最后,他们使用加权因子 \(\alpha\) 将这两个分量结合起来。这产生了一个既考虑个体权重敏感性又考虑群体相互作用的损失函数。

通过优化这个 \(\mathcal{L}_{DPLR}\) 损失,算法调整量化权重,以最大限度地减少对模型准确性的损害。
实验与结果
理论听起来很扎实,但效果如何?研究人员在各种架构 (ViT, DeiT, Swin) 上测试了 FIMA-Q 在 ImageNet 分类和 COCO 目标检测任务上的表现。
ImageNet 分类
最令人印象深刻的结果出现在激进的 3-bit 量化设置中。3-bit 量化非常困难,因为它留下的容错空间非常小。

表 1 的关键要点:
- 3-bit 性能: 查看 3/3比特宽度部分的 ViT-S 列。
- PTQ4ViT: 0.10% 准确率 (模型完全失效) 。
- QDrop: 41.05% 准确率。
- FIMA-Q (Ours): 64.09% 准确率 。
- 一致性: 在 ViT、DeiT 和 Swin Transformer 中,FIMA-Q 始终优于竞争对手。
- 硬件友好性: 注意 “SQ” 列。许多竞争对手需要“特定量化器”(SQ = \(\checkmark\)),这在硬件上实现起来很复杂。FIMA-Q 使用标准的均匀量化器 (SQ = \(\times\)),使其更容易部署在实际芯片上,但仍能实现更高的准确率。
COCO 目标检测
作者还将他们的方法扩展到了使用 Mask R-CNN 和 Cascade R-CNN 的目标检测任务。

在表 2中,在 4-bit (W4/A4) 设置下,FIMA-Q 获得了最高的平均精度 (AP) 分数,击败了依赖复杂、专用量化器的方法。例如,在基于 Swin-S 的 Cascade Mask R-CNN 上,FIMA-Q 达到了 50.4 AP , 超过了之前的最佳成绩 50.3 AP,同时硬件效率更高。
消融实验: 为什么要用 DPLR?
是对角部分还是低秩部分起作用?作者进行了一项消融研究,以分离每个组件的贡献。

表 3 揭示了:
- BRECQ-FIM (旧方法): 表现不佳 (例如,ViT-S 3-bit 上为 14.65%) ,证实了旧的“梯度平方”近似对 ViT 有缺陷。
- Diag-FIM (新方法): 使用新的线性关系将准确率提高到了 60.02%。
- DPLR-FIM (组合): 结合对角和低秩将准确率推高至 64.09% 。 这证实了捕捉那些非对角相关性对于恢复模型性能至关重要。
对秩的敏感性
低秩近似需要多复杂?参数 \(k\) 决定了秩的大小。

图 3 显示,准确率通常随着秩 \(k\) 的增加而提高,但很快就会趋于平稳。一个相对较小的秩 (大约 \(k=15\)) 足以捕捉足够的信息来最大化性能,而不会导致内存问题。
结论与启示
FIMA-Q 论文强调了深度学习研究中的一个重要教训: 假设至关重要 。 多年来,量化方法依赖于海森近似,假设梯度和参数重要性之间存在平方关系。虽然这对 CNN 来说效果尚可,但视觉 Transformer 独特的分布和敏感性暴露了该理论的裂痕。
通过重新审视费雪信息矩阵的数学基础并证明其与 KL 散度梯度的线性关系,FIMA-Q 的作者解锁了一种更精确的敏感性测量方法。
关键要点:
- 更好的数学,更好的模型: FIMA-Q 在 3-bit ViT 上的准确率比最先进的方法高出多达 23%。
- 硬件高效: 它使用标准的均匀量化实现了这些结果,避免了对复杂、定制硬件逻辑的需求。
- 全局意识: DPLR 近似证明我们不能孤立地处理权重;理解它们的相关性 (非对角元素) 是实现极致压缩的关键。
对于学生和从业者来说,FIMA-Q 表明,即使是像 PTQ 这样“成熟”的技术,也有根本性改进的空间。随着我们推动边缘设备上更小、更快的 AI,像这样的方法将成为让强大的 Transformer 离开数据中心并进入我们口袋的桥梁。
](https://deep-paper.org/en/paper/2506.11543/images/cover.png)