引言
在人工智能快速发展的世界中,大型多模态模型 (LMMs) 已成为新的巨头。像 LLaVA 和 GPT-4V 这样的模型能够看、读和推理,弥合了视觉数据与文本数据之间的鸿沟。然而,这种能力伴随着高昂的代价: 计算资源。
为了更直观地理解这一点,以标准的 16 位精度运行像 LLaVA-Onevision 这样的 700 亿参数模型,大约需要 140GB 的 GPU 显存 。 这实际上将这些强大的模型阻挡在消费级硬件和高效边缘部署的大门之外。为了解决这个问题,研究人员转向了 模型压缩 , 特别是 量化——即降低模型权重的精度 (例如,从 16 位浮点数降低到 4 位或 2 位整数) 。
虽然我们在压缩纯文本的大型语言模型 (LLMs) 方面已经做得很好,但 LMMs 带来了独特的挑战。现有的技术通常在极致压缩率 (如 2-bit 量化) 下会碰壁。在这个级别上,模型的推理能力通常会崩溃,导致输出乱码或产生幻觉。
这就是 CASP (基于注意力稀疏性的压缩,Compression based on Attention SParsity) 登场的地方,这是由华为加拿大技术公司的研究人员提出的一种新方法。CASP 利用多模态模型“看”图片的一个基本属性,在极致压缩机制下实现了最先进的性能。
在这篇深度文章中,我们将探索 CASP 的机制、注意力稀疏性的理论,以及我们如何在不丧失视觉能力的情况下将巨大的模型缩小到其原始大小的一小部分。
核心问题: 2-Bit 壁垒
在理解解决方案之前,我们必须先理解瓶颈所在。训练后量化 (Post-Training Quantization, PTQ) 是在不产生巨大重训练成本的情况下压缩模型的标准做法。像 GPTQ、AQLM 和 QuIP# 这样的技术通过将神经网络的高精度权重映射到一组更小的离散值来工作。
- 4-bit 量化 通常被认为是“安全”的——模型保留了大部分性能。
- 3-bit 量化 是当前的前沿,显示出轻微的性能下降。
- 2-bit 量化 是“危险区”。在这个级别,模型被剥夺了太多信息,准确率通常会直线下降。
然而,CASP 的作者们注意到了一个有趣的现象。虽然 LMMs 构建在 LLMs 之上,但它们处理数据的方式不同。当 LMM 处理图像时,它将视觉数据转换为数百或数千个“视觉 token”。与文本不同 (每个词通常都很重要) ,视觉数据通常是高度冗余的。
洞察: 注意力稀疏性
CASP 的核心假设是 多模态输入导致了高度稀疏的注意力矩阵。
在 Transformer 模型中,“注意力” (Attention) 机制计算每个 token 应该对其他每个 token 投入多少关注。在纯文本模型中,为了理解上下文,token 通常会关注许多其他的词。然而,在 LMMs 中,与文本 token 相比,视觉 token (图像的补丁) 通常受到的关注非常少。

如上图 Figure 2 所示,观察注意力图之间的差异:
- 左侧 (原始) : LLaVA-Next-Video 模型 (一种 LMM) 显示出高度稀疏的图 (大量深紫色/黑色空间) 。这表明对于许多操作,模型实际上忽略了大片的视觉输入。
- 对比: Llama-2 模型 (纯文本) 通常具有更密集的注意力模式。
这一观察结果提出了一个关键问题: 如果模型几乎不使用这些连接,我们为什么要浪费宝贵的比特来存储计算它们的权重呢?
理论基础
研究人员将这种直觉进行了数学形式化。他们专注于负责生成注意力分数的 查询 (Query, \(W_q\)) 和 键 (Key, \(W_k\)) 权重矩阵。
注意力图 \(\mathbf{S}\) 计算如下:

其中 \(X\) 是输入,\(W_q\) 和 \(W_k\) 是我们要压缩的权重矩阵。结果矩阵 \(\mathbf{S}\) 告诉我们“重要性”分数。
研究人员提出,如果 \(\mathbf{S}\) 是稀疏的 (大部分为零) ,我们可以积极地压缩 \(W_q\) 和 \(W_k\) 而只有极小的误差。他们将压缩误差 \(E\) 定义为原始注意力图与从压缩权重得出的近似图之间的差异。

这个不等式是 CASP 的理论支柱。这就是它用通俗语言告诉我们的内容:
- \(D\) 代表密度 (稀疏性的反义词) 。
- 误差 \(E\) 的上限与 \((1 - \frac{1}{ND})^2\) 成正比。
- 因此, 随着密度 \(D\) 降低 (意味着稀疏性增加) ,潜在误差 \(E\) 也会降低。
这证实了由于冗余的视觉 token 而天生具有高稀疏性的 LMMs,在数学上比标准 LLMs 更能容忍对其查询和键矩阵的压缩。

Figure 3 通过实验验证了这一点。红线代表视觉 token 的百分比。随着视觉 token 数量的增加 (向右移动) ,稀疏性增加,压缩的均方误差 (MSE) 降至接近零。
CASP 方法
CASP (基于注意力稀疏性的压缩) 是一个两阶段的训练后压缩框架,旨在利用上述发现。
第一阶段: 数据感知低秩分解
由于注意力矩阵是稀疏的,且权重 \(W_q\) 和 \(W_k\) 表现出低秩结构,CASP 不仅仅是量化它们——而是对它们进行分解。
该方法使用 低秩分解 (Low-Rank Decomposition) 。 想象一个巨大的矩阵 \(W\)。我们可以通过将两个小得多的矩阵 \(A\) 和 \(B\) 相乘来近似它。如果 \(W\) 是 \(N \times N\),那么 \(A\) 可能是 \(N \times r\),而 \(B\) 可能是 \(r \times N\),其中 \(r\) (秩) 是一个非常小的数字。
CASP 专门对查询和键矩阵执行此分解。通过这样做,他们将这些特定权重压缩到其原始大小的 6% 左右,这相当于将它们压缩到 1 bit , 但注意力图的稀疏性质确保了模型性能保持稳定。
第二阶段: 具有最优比特分配的量化
在分解注意力权重之后,模型的其余部分仍然需要量化。然而,对每一层都应用一刀切的“2-bit”策略是低效的。有些层对推理至关重要 (“敏感”) ,而其他层则是冗余的。
CASP 引入了 最优比特分配 策略。目标是给敏感层分配更多比特,给鲁棒层分配更少比特,确保 平均 比特率达到目标 (例如 2 bits) 。
研究人员使用“块影响 (Block Influence) ”分数 \(s_l\) 来确定层的敏感度。然后他们求解一个优化问题来计算每一层的理想位宽 (\(b_l\)) :

在这个公式中:
- \(b_l\) 是第 \(l\) 层的比特数。
- \(B_{avg}\) 是目标平均比特率。
- \(s_l\) 是该层的敏感度。
- \(p_l\) 是该层中的参数数量。
本质上,这个公式充当预算管理器,将“比特预算”花在能换取最多准确率的地方。

Figure 4 可视化了这种分配。你可以看到并非所有层都被同等对待。早期的层 (0-5) 和最后的层获得了更高的比特分配 (有时超过 3 或 4 bits) ,而中间层则被压缩得更厉害。这种非均匀分布是在 2-bit 机制下生存的关键。
实验与结果
这个理论在实践中站得住脚吗?研究人员将 CASP 与最先进的量化方法进行了测试: GPTQ、AQLM 和 QuIP# 。
图像-语言基准测试
第一个测试是使用 LLaVA 系列模型在标准图像理解基准上进行的。使用的指标是 困惑度 (Perplexity, PPL) , 数值越低越好。

Figure 1 显示了鲜明的对比。看看红色柱状图 (CASP) 与蓝色柱状图 (2-bit 的基线方法) :
- 在 GPTQ (2.2 Bit) 中,基线困惑度激增至 26.15。CASP 将其拉回至 10.13。
- 在 AQLM (2 Bit) 中,基线是 31.7。CASP 将其拯救至 13.78。
这是信息的大量恢复。标准的 2-bit 量化破坏了模型;CASP 使其恢复功能。
视频-语言基准测试
当应用于视频时,结果变得更加有趣。视频模型处理多个帧,生成数千个视觉 token。根据稀疏性理论,CASP 在这里应该表现得更好,因为注意力图更稀疏。

Table 2 证实了这一点。在 LLaVA-Next-Video-7B 模型上:
- CASP-AQLM 实现了相对于标准 AQLM 159% 的提升。
- 在 VideoChatGPT 基准测试 (Score) 中,标准 GPTQ 将分数从 1.76 (原始) 降低到 0.40。 CASP-GPTQ 将其恢复到 0.68,几乎使基线量化的性能翻倍。
定性分析: 眼见为实
数字固然好,但模型真的能“看”到吗?让我们看一个梗图解释任务,这既需要视觉识别也需要文化推理。

在 Figure 10 中,模型被要求解释一个“周一狗”的梗图。
- GPTQ (2.2 Bit) 表现非常挣扎 (得分 3/10) 。它产生了幻觉,说狗在桌子或长凳上,并给出了通用的描述。
- CASP-GPTQ (得分 5/10) 正确识别了语境,解释了关于“周一”主题和工作周开始的戏谑。
- CASP-QuIP# (得分 7/10) 给出了最好的回答,准确捕捉到了幽默感 (“滑稽的图像”,“周一日常的俏皮表现”) 。
这种定性差异至关重要。在基准测试中,稍微高一点的困惑度看起来可能只是一个小数字。但在实际部署中,这就是一个能理解笑话的聊天机器人和一个幻想不存在的桌子的聊天机器人之间的区别。
结论与启示
“CASP”论文为大型多模态模型的民主化迈出了重要一步。通过识别出 注意力稀疏性 是 LMM 冗余的阿喀琉斯之踵,作者们解锁了一种将这些巨大模型压缩成 2-bit 表示的方法,而没有出现通常在该级别看到的灾难性故障。
关键要点:
- 视觉冗余是关键: LMMs 在不太重要的视觉 token 上花费了大量计算。这产生了稀疏的注意力图。
- 稀疏性允许压缩: 理论界限证明,高度稀疏的注意力图允许对查询和键矩阵进行积极的低秩分解。
- 智能分配: 对每一层一视同仁是低效的。CASP 的数据感知比特分配确保了比特被用在刀刃上。
- 2-Bit 是可行的: CASP 证明了 2-bit LMMs 不再是理论上的好奇心,而是一种实际的可能性,以巨大的优势超越了当前最先进的方法。
对于学生和从业者来说,CASP 强调了一个重要的教训: 简单地将为一个领域 (纯文本 LLMs) 设计的技术应用到另一个领域 (LMMs) 往往是次优的。理解模型的独特数据属性——在本例中是视觉注意力的稀疏性——可以揭示通用方法所遗漏的优化机会。
](https://deep-paper.org/en/paper/2503.05936/images/cover.png)