超越权重：通过重组注意力头微调 Transformer

如果你曾经尝试过微调大语言模型 (LLM) 或大型视觉 Transformer (ViT) ，你肯定知道其中的痛苦: 这些模型非常笨重。全参数微调既昂贵又极其消耗内存。

为了解决这个问题，社区转向了 参数高效微调 (PEFT) 。最著名的例子是 LoRA (低秩自适应) , 它冻结预训练模型并注入小的、可训练的秩分解矩阵。这些方法大多集中在这一线性投影层上——即转换数据的权重 (\(W_q, W_k, W_v\)) 。

但是，如果我们关注错了地方怎么办？

在一篇引人入胜的新论文 “Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models” 中，来自普渡大学的研究人员提出了一种正交 (截然不同) 的方法。他们不再调整权重矩阵，而是着眼于 注意力图本身 。他们提出了一种方法，通过调整极少量的系数——仅引入 0.001% 的额外参数——就能达到最先进的结果，同时为信息处理提供了一种数学上更丰富的方式。

让我们深入了解他们是如何将多头注意力转化为图卷积问题的，以及为什么“重组”注意力头可能是微调的未来。

Coeff-Tuning 与 LoRA 性能及参数效率的对比。

设定: 重新构想注意力机制

要理解 Coeff-Tuning，我们需要通过不同的视角来看待 Transformer 的多头注意力 (MHA) 。

通常，我们认为注意力是一种计算查询 (Query) 和键 (Key) 之间对齐分数的机制。然而，这篇论文主张从 图信号处理 的角度来看待它。

想象一下，序列中的每个 token (或图像中的每个 patch) 都是全连接图中的一个节点。注意力机制定义了这些节点之间的边 (连接) 。

注意力图 充当 图滤波器 。它决定了信息如何从一个节点流向另一个节点。
投影权重 (\(W_v\)) 充当节点上的特征变换。

当 Transformer 执行注意力操作时，本质上是在运行一个图卷积，其中的滤波器是动态的 (依赖于数据的) 。

\[ \mathbf { F } ^ { h } ( \mathbf { X } ) = \operatorname { s o f t m a x } ( \mathbf { X } \mathbf { W } _ { q } \mathbf { W } _ { k } ^ { \top } \mathbf { X } ^ { \top } ) . \]

在多头注意力中，我们有几个这样的“滤波器” (\(H\) 个头) 并行工作。模型学习了 \(H\) 种不同的方式来聚合图上的信息。

问题所在: 凸包陷阱

这是论文的核心洞察，它指出了标准注意力机制的一个主要局限性。

在标准注意力中，我们对查询-键相关性应用 Softmax 函数。Softmax 有两个刚性属性:

所有值都是正数 (0 到 1 之间) 。
一行中的所有值之和为 1。

从数学上讲，这意味着注意力层的输出是输入值向量的 凸组合 。在几何学中，如果你取一组点并创建它们的凸组合，结果必须位于“凸包” (连接最外层点形成的形状) 内部。

这有什么不好? 它限制了模型在微调期间的 表达能力 。即使你使用 LoRA 调整了权重矩阵 (\(W_q, W_k\)) ，注意力分数仍然被限制在 0 和 1 之间。模型可以移动这些点，但无法将输出向量移动到输入值的几何边界之外。

作者用一个玩具示例完美地展示了这一局限性:

凸包限制与 Coeff-Tuning 提供的扩展能力的视觉对比。

在上面的 图 3 中:

输入 X (左) : 一个菱形。
目标 O (左二) : 一个旋转的正方形。
微调 F(X) (左三) : 如果只微调注意力权重 (标准微调) ，输出会被困在输入的边界内。因为被困在凸包中，模型无法匹配目标形状。
微调 \(\alpha\) (右) : 这是提出的方法。通过打破约束，模型成功地将输入转换为目标。

解决方案: Coeff-Tuning (系数微调)

为了逃离凸包，研究人员提出了 Coeff-Tuning 。

作者不再将 \(H\) 个注意力头视为固定的、独立的实体，而是将它们视为跨越“滤波器子空间”的基组。他们建议学习一个小的 子空间系数矩阵 (\(\alpha\)) , 将这些现有的注意力头线性组合成新的、更强大的滤波器。

工作原理

子空间: 我们获取所有头的预训练注意力图: \(\{ \mathbf{F}^1, \mathbf{F}^2, ..., \mathbf{F}^H \}\)。
重组: 我们定义一个可学习的系数矩阵 \(\alpha \in \mathbb{R}^{H \times H}\)。
新滤波器: 我们通过使用 \(\alpha\) 计算所有原始头的加权和，为头 \(h\) 创建一个新的注意力图 \(\hat{\mathbf{F}}^h\)。 \[ \hat { \mathbf { F } } ^ { h } ( \mathbf { X } ) = \sum _ { i = 1 } ^ { H } \alpha [ h , i ] \mathbf { F } ^ { i } ( \mathbf { X } ) . \]
关键点: \(\alpha\) 中的系数是 无约束的 。它们可以是负数！

因为 \(\alpha\) 可以是负数，新的注意力图不再受 Softmax 约束的限制。它可以有负值，或者总和不为 1。这使得模型能够执行减法操作 (例如，“取头 1 的焦点并移除头 2 的模式”) 。

这个简单的改变扩展了特征空间，允许输出落在值的凸包之外，从而在几乎不增加计算成本的情况下大幅提高模型的表达能力。

Coeff-Tuning 架构和流程图。

如 图 2 所示，该过程无缝集成到标准 Transformer 块中。图卷积发生在右侧，子空间系数 (\(\alpha\)) 在最终输出之前混合滤波器。

稳定性和正则化

为了使训练稳定，作者引入了两个巧妙的工程技巧:

残差参数化: 他们不是从头开始学习 \(\alpha\)，而是将其作为单位矩阵的残差来学习: \(\alpha' = \alpha + I\)。这意味着在训练开始时，模型的行为与预训练的原始模型完全相同。
系数 Dropout: 由于 \(\alpha\) 非常小但功能强大，它可能会过拟合。他们在训练期间直接对 \(\alpha\) 矩阵应用 Dropout，随机将元素归零，以迫使模型学习鲁棒的组合。

实验与结果

该论文在各种任务中验证了 Coeff-Tuning，表明它与其他方法兼容性良好 (可以与 LoRA 结合) ，并且通常优于更重的方法。

1. 少样本图像分类 (ViT)

研究人员使用视觉 Transformer (ViT-B/16) 在 VTAB-1k 基准上测试了该方法。

展示 VTAB-1k 分类结果的表格。

表 1 的关键要点:

效率: 看“Param.” (参数量) 这一列。标准的“Full fine-tuning” (全量微调) 更新 85.8M 个参数。LoRA 更新 0.30M 个。 Coeff. \(\alpha\) Only 仅更新 0.002M 个参数 (总共约 2,000 个参数！) 。
性能: 尽管使用的参数只是九牛一毛，“Coeff. \(\alpha\) Only” (69.78%) 击败了线性探测 (Linear Probing, 52.94%) 并与 LoRA (72.91%) 旗鼓相当。
组合: 当与其他方法 (如 SSF 或 LoRA) 结合使用时，它在几乎不增加成本的情况下实现了最佳性能 (74.70%)。

2. 个性化文本到图像生成

视觉上最引人注目的结果可能来自微调 Stable Diffusion (SDXL) 进行概念定制 (例如，教模型特定的毛绒玩具长什么样) 。

在生成模型中，微调的一个常见问题是“概念泄露”——模型学会了对象，但也过拟合了背景或失去了文本对齐 (例如，你要雪中的熊猫，但它忽略了“雪”的部分) 。

图像生成的 LoRA 与 Coeff-Tuning 视觉对比。

在 图 4 中，比较中间行 (LoRA) 和底行 (Coeff-Tuning):

第 4 列 (猫) : 提示词要求“一只背景是山的猫”。LoRA 保留了原始背景。Coeff-Tuning 成功地将猫放在了山上，同时保留了猫的身份特征。
第 2 列 (树懒) : 提示词是“雪中的毛绒树懒”。LoRA 生成的树懒在草地上 (过拟合了训练数据？) 。Coeff-Tuning 正确地将其放置在雪中。

无约束系数使模型能够更好地将“对象”特征与“背景”特征分离开来，从而实现更高的保真度和更好的文本对齐。

3. 复杂度分析

Coeff-Tuning 最有力的论据之一是它的成本。

LoRA 引入的参数与秩 \(r\) 和模型维度 \(d\) 成正比: \(\approx 2 \cdot L \cdot d \cdot r\)。
Coeff-Tuning 引入的参数仅与头数 \(H\) 的平方成正比: \(L \cdot H^2\)。

由于 \(H\) (通常为 12 或 16) 远小于隐藏维度 \(d\) (通常为 768 或 1024) ，Coeff-Tuning 非常轻量级。对于标准的 ViT，它仅增加了约 0.001% 的额外参数。

结论

“Coeff-Tuning” 为 Transformer 的架构提供了一个全新的视角。通过退一步将多头注意力视为具有滤波器子空间的图卷积，作者确定了一个限制标准微调的几何瓶颈 (凸包) 。

他们的解决方案——学习用无约束系数“重组”注意力头——既优雅，又有理论依据，且在经验上行之有效。它表明，我们并不总是需要调整巨大的权重矩阵来适应模型；有时，对注意力机制进行微小、策略性的推动就足够了。

对于学生和从业者来说，这种方法特别令人兴奋，因为它是 即插即用 的。它可以以几乎可以忽略不计的开销添加到 LoRA、DoRA 或 Adapters 之上，为你的下一个微调项目提供“免费”的表达能力提升。

设定: 重新构想注意力机制#

问题所在: 凸包陷阱#

解决方案: Coeff-Tuning (系数微调)#

工作原理#

稳定性和正则化#

实验与结果#

1. 少样本图像分类 (ViT)#

2. 个性化文本到图像生成#

3. 复杂度分析#

结论#