如果你曾经尝试过微调大语言模型 (LLM) 或大型视觉 Transformer (ViT) ,你肯定知道其中的痛苦: 这些模型非常笨重。全参数微调既昂贵又极其消耗内存。

为了解决这个问题,社区转向了 参数高效微调 (PEFT) 。 最著名的例子是 LoRA (低秩自适应) , 它冻结预训练模型并注入小的、可训练的秩分解矩阵。这些方法大多集中在这一线性投影层上——即转换数据的权重 (\(W_q, W_k, W_v\)) 。

但是,如果我们关注错了地方怎么办?

在一篇引人入胜的新论文 “Coeff-Tuning: A Graph Filter Subspace View for Tuning Attention-Based Large Models” 中,来自普渡大学的研究人员提出了一种正交 (截然不同) 的方法。他们不再调整权重矩阵,而是着眼于 注意力图本身 。 他们提出了一种方法,通过调整极少量的系数——仅引入 0.001% 的额外参数——就能达到最先进的结果,同时为信息处理提供了一种数学上更丰富的方式。

让我们深入了解他们是如何将多头注意力转化为图卷积问题的,以及为什么“重组”注意力头可能是微调的未来。

Coeff-Tuning 与 LoRA 性能及参数效率的对比。

设定: 重新构想注意力机制

要理解 Coeff-Tuning,我们需要通过不同的视角来看待 Transformer 的多头注意力 (MHA) 。

通常,我们认为注意力是一种计算查询 (Query) 和键 (Key) 之间对齐分数的机制。然而,这篇论文主张从 图信号处理 的角度来看待它。

想象一下,序列中的每个 token (或图像中的每个 patch) 都是全连接图中的一个 节点 。 注意力机制定义了这些节点之间的边 (连接) 。

  • 注意力图 充当 图滤波器 。 它决定了信息如何从一个节点流向另一个节点。
  • 投影权重 (\(W_v\)) 充当节点上的特征变换。

当 Transformer 执行注意力操作时,本质上是在运行一个图卷积,其中的滤波器是动态的 (依赖于数据的) 。

\[ \mathbf { F } ^ { h } ( \mathbf { X } ) = \operatorname { s o f t m a x } ( \mathbf { X } \mathbf { W } _ { q } \mathbf { W } _ { k } ^ { \top } \mathbf { X } ^ { \top } ) . \]

在多头注意力中,我们有几个这样的“滤波器” (\(H\) 个头) 并行工作。模型学习了 \(H\) 种不同的方式来聚合图上的信息。

问题所在: 凸包陷阱

这是论文的核心洞察,它指出了标准注意力机制的一个主要局限性。

在标准注意力中,我们对查询-键相关性应用 Softmax 函数。Softmax 有两个刚性属性:

  1. 所有值都是正数 (0 到 1 之间) 。
  2. 一行中的所有值之和为 1。

从数学上讲,这意味着注意力层的输出是输入值向量的 凸组合 。 在几何学中,如果你取一组点并创建它们的凸组合,结果 必须 位于“凸包” (连接最外层点形成的形状) 内部。

这有什么不好? 它限制了模型在微调期间的 表达能力 。 即使你使用 LoRA 调整了权重矩阵 (\(W_q, W_k\)) ,注意力分数仍然被限制在 0 和 1 之间。模型可以移动这些点,但无法将输出向量移动到输入值的几何边界 之外

作者用一个玩具示例完美地展示了这一局限性:

凸包限制与 Coeff-Tuning 提供的扩展能力的视觉对比。

在上面的 图 3 中:

  • 输入 X (左) : 一个菱形。
  • 目标 O (左二) : 一个旋转的正方形。
  • 微调 F(X) (左三) : 如果只微调注意力权重 (标准微调) ,输出会被困在输入的边界内。因为被困在凸包中,模型无法匹配目标形状。
  • 微调 \(\alpha\) (右) : 这是提出的方法。通过打破约束,模型成功地将输入转换为目标。

解决方案: Coeff-Tuning (系数微调)

为了逃离凸包,研究人员提出了 Coeff-Tuning

作者不再将 \(H\) 个注意力头视为固定的、独立的实体,而是将它们视为跨越“滤波器子空间”的 基组 。 他们建议学习一个小的 子空间系数矩阵 (\(\alpha\)) , 将这些现有的注意力头线性组合成新的、更强大的滤波器。

工作原理

  1. 子空间: 我们获取所有头的预训练注意力图: \(\{ \mathbf{F}^1, \mathbf{F}^2, ..., \mathbf{F}^H \}\)。
  2. 重组: 我们定义一个可学习的系数矩阵 \(\alpha \in \mathbb{R}^{H \times H}\)。
  3. 新滤波器: 我们通过使用 \(\alpha\) 计算 所有 原始头的加权和,为头 \(h\) 创建一个 的注意力图 \(\hat{\mathbf{F}}^h\)。 \[ \hat { \mathbf { F } } ^ { h } ( \mathbf { X } ) = \sum _ { i = 1 } ^ { H } \alpha [ h , i ] \mathbf { F } ^ { i } ( \mathbf { X } ) . \]
  4. 关键点: \(\alpha\) 中的系数是 无约束的 。 它们可以是负数!

因为 \(\alpha\) 可以是负数,新的注意力图不再受 Softmax 约束的限制。它可以有负值,或者总和不为 1。这使得模型能够执行 减法 操作 (例如,“取头 1 的焦点并 移除 头 2 的模式”) 。

这个简单的改变扩展了特征空间,允许输出落在值的凸包之外,从而在几乎不增加计算成本的情况下大幅提高模型的表达能力。

Coeff-Tuning 架构和流程图。

图 2 所示,该过程无缝集成到标准 Transformer 块中。图卷积发生在右侧,子空间系数 (\(\alpha\)) 在最终输出之前混合滤波器。

稳定性和正则化

为了使训练稳定,作者引入了两个巧妙的工程技巧:

  1. 残差参数化: 他们不是从头开始学习 \(\alpha\),而是将其作为单位矩阵的残差来学习: \(\alpha' = \alpha + I\)。这意味着在训练开始时,模型的行为与预训练的原始模型完全相同。
  2. 系数 Dropout: 由于 \(\alpha\) 非常小但功能强大,它可能会过拟合。他们在训练期间 直接 对 \(\alpha\) 矩阵应用 Dropout,随机将元素归零,以迫使模型学习鲁棒的组合。

实验与结果

该论文在各种任务中验证了 Coeff-Tuning,表明它与其他方法兼容性良好 (可以与 LoRA 结合) ,并且通常优于更重的方法。

1. 少样本图像分类 (ViT)

研究人员使用视觉 Transformer (ViT-B/16) 在 VTAB-1k 基准上测试了该方法。

展示 VTAB-1k 分类结果的表格。

表 1 的关键要点:

  • 效率: 看“Param.” (参数量) 这一列。标准的“Full fine-tuning” (全量微调) 更新 85.8M 个参数。LoRA 更新 0.30M 个。 Coeff. \(\alpha\) Only 仅更新 0.002M 个参数 (总共约 2,000 个参数!) 。
  • 性能: 尽管使用的参数只是九牛一毛,“Coeff. \(\alpha\) Only” (69.78%) 击败了线性探测 (Linear Probing, 52.94%) 并与 LoRA (72.91%) 旗鼓相当。
  • 组合: 当与其他方法 (如 SSF 或 LoRA) 结合使用时,它在几乎不增加成本的情况下实现了最佳性能 (74.70%)。

2. 个性化文本到图像生成

视觉上最引人注目的结果可能来自微调 Stable Diffusion (SDXL) 进行概念定制 (例如,教模型特定的毛绒玩具长什么样) 。

在生成模型中,微调的一个常见问题是“概念泄露”——模型学会了对象,但也过拟合了背景或失去了文本对齐 (例如,你要雪中的熊猫,但它忽略了“雪”的部分) 。

图像生成的 LoRA 与 Coeff-Tuning 视觉对比。

图 4 中,比较中间行 (LoRA) 和底行 (Coeff-Tuning):

  • 第 4 列 (猫) : 提示词要求“一只背景是山的猫”。LoRA 保留了原始背景。Coeff-Tuning 成功地将猫放在了山上,同时保留了猫的身份特征。
  • 第 2 列 (树懒) : 提示词是“雪中的毛绒树懒”。LoRA 生成的树懒在草地上 (过拟合了训练数据?) 。Coeff-Tuning 正确地将其放置在雪中。

无约束系数使模型能够更好地将“对象”特征与“背景”特征分离开来,从而实现更高的保真度和更好的文本对齐。

3. 复杂度分析

Coeff-Tuning 最有力的论据之一是它的成本。

  • LoRA 引入的参数与秩 \(r\) 和模型维度 \(d\) 成正比: \(\approx 2 \cdot L \cdot d \cdot r\)。
  • Coeff-Tuning 引入的参数仅与头数 \(H\) 的平方成正比: \(L \cdot H^2\)。

由于 \(H\) (通常为 12 或 16) 远小于隐藏维度 \(d\) (通常为 768 或 1024) ,Coeff-Tuning 非常轻量级。对于标准的 ViT,它仅增加了约 0.001% 的额外参数。

结论

“Coeff-Tuning” 为 Transformer 的架构提供了一个全新的视角。通过退一步将多头注意力视为具有滤波器子空间的图卷积,作者确定了一个限制标准微调的几何瓶颈 (凸包) 。

他们的解决方案——学习用无约束系数“重组”注意力头——既优雅,又有理论依据,且在经验上行之有效。它表明,我们并不总是需要调整巨大的权重矩阵来适应模型;有时,对注意力机制进行微小、策略性的推动就足够了。

对于学生和从业者来说,这种方法特别令人兴奋,因为它是 即插即用 的。它可以以几乎可以忽略不计的开销添加到 LoRA、DoRA 或 Adapters 之上,为你的下一个微调项目提供“免费”的表达能力提升。