如果你在过去两年中接触过大型语言模型 (LLMs),那么你几乎肯定遇到过 LoRA (Low-Rank Adaptation,低秩自适应)。它已成为在消费级硬件上微调大模型的默认标准。
但在数学视角下,LoRA 多少有点像个谜题。它涉及优化矩阵分解——这是一个众所周知的非凸问题,潜在地充满了“虚假”局部极小值 (即模型停止学习但并未解决任务的陷阱) 。然而在实践中,LoRA 几乎总是行之有效。它能收敛,而且收敛得很好。
为什么?
以往试图解释这一点的理论尝试依赖于“线性化”——本质上是假设模型在训练过程中表现为线性的。虽然这简化了数学推导,但它无法捕捉深度神经网络训练的真实情况。
在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 “LoRA Training Provably Converges to a Low-Rank Global Minimum or It Fails Loudly (But it Probably Won’t Fail)” (LoRA 训练被证明收敛于低秩全局极小值,否则就会高调失败 (但它可能不会失败) ) 。研究人员剥离了先前工作中的简化假设,分析了 LoRA 真实的损失景观 (loss landscape) 。他们得出了一个惊人的结论: LoRA 训练要么找到完美的低秩解,要么以一种显而易见的方式 (高秩、巨大的权重) 失败,让你绝不会错过。此外,他们还解释了为何标准的训练实践使得这种失败极不可能发生。
让我们来拆解其中的数学原理、方法和含义。
1. 设定: LoRA 如何改变问题
要理解景观分析,我们需要首先要在数学上对 LoRA 的实际操作达成一致。
当我们微调一个预训练模型时,通常有一个权重矩阵 \(W_0 \in \mathbb{R}^{m \times n}\)。在“全量微调”中,我们会更新这个矩阵中的每一个参数。LoRA 冻结了 \(W_0\),转而学习一个低秩更新 \(X\)。这个更新被分解为两个较小的矩阵 \(A\) 和 \(B\),使得新的权重为:

在这里,秩 \(r\) 远小于模型的维度 (\(m\) 或 \(n\)) 。\(A\) 使用随机高斯噪声初始化,而 \(B\) 初始化为零,确保在训练开始时更新 \(X\) 为零。
目标函数
微调的目标是在数据集上最小化损失函数 (如交叉熵) 。让我们将全量微调的损失表示为 \(\widehat{\mathcal{L}}^{\mathrm{full}}(\mathbf{X})\)。
当我们使用 LoRA 时,我们优化的是同一个目标,但是由 \(A\) 和 \(B\) 参数化的。

这种参数化方式的简单改变引入了非凸性 。 即使 \(X\) 的原始损失景观是一个平滑的碗状 (凸的) ,将 \(X\) 拆分为 \(AB^\top\) 也会产生对称性和脊线,这在理论上可能会将优化器困在糟糕的位置。
2. 核心问题: 虚假局部极小值
在优化理论中,我们经常寻找“驻点” (梯度为零的点) 或“二阶驻点” (SOSPs) ,即梯度为零且曲率 (黑塞矩阵/Hessian) 为正的点——这意味着我们处于山谷的底部。

非凸优化中的担忧是收敛到一个虚假局部极小值 。 这是一个谷底,但不是景观中的最低点 (全局极小值) 。如果你的优化器卡在这里,模型的表现会很差,而且再多的额外训练也无法修复它。
这篇论文的作者着手确定 LoRA 训练中是否存在这些虚假极小值,以及它们存在于何处。
3. 主要结果: 解的二分法
研究人员根据损失函数的几何性质定义了两种“情形”: 特殊情形和一般情形 。
为了做到这一点,他们依赖于两个复杂的数学概念:
- 限制强凸性 (RSC): 粗略地说,这意味着损失函数在重要的方向 (低秩方向) 上呈现良好的向上弯曲。
- 限制平滑性 (RSM): 这意味着函数在这些方向上的弯曲不会太剧烈。
“高调失败”定理
该论文的主要贡献是一个定理,证明了在“一般情形” (代表现实的训练场景) 下,损失景观具有非常特殊的结构。
如果你在 LoRA 训练中找到了一个局部极小值 (具体来说是一个二阶驻点) ,它只可能属于以下两类之一:
- 它是全局极小值: 它具有低秩和小幅度。这是我们想要的解。
- 它是虚假局部极小值: 它具有高秩 (等于 LoRA 的秩 \(r\)) 和大幅度 (巨大的权重) 。
这是一个强有力的结果。它表明不存在“微妙”的失败。你不会卡在一个看起来有点像好解的糟糕局部极小值中。如果 LoRA 失败,它会失败得非常戏剧化。
下面的可视化完美地总结了这个定理:

如图 1 所示,全局极小值 \(X_{\star}\) 位于中心。它的秩低于或等于真实所需的秩 \(r_{\star}\),并且存在于初始化点 (0) 附近。
然而,虚假局部极小值 (\(X_{\text{spurious}}\)) 位于远离该区域的地方。它们对应于矩阵 \(A\) 和 \(B\) 幅度爆炸并使用了最大可能秩 \(r\) 的解。
在数学上,作者证明了如果一个解 \(X_{\square}\) 是虚假的,其范数满足一个下界:

这个不等式本质上表明,与全局最优解相比,虚假解距离原点的距离非常大。
4. 为什么 LoRA 可能不会失败
如果存在虚假局部极小值,为什么 LoRA 不会卡在里面?作者认为,LoRA 训练的具体设计——特别是零初始化和权重衰减——产生了一种隐式偏差,引导优化器朝向图 1 的中心 (好解) 并远离外边缘 (坏解) 。
1. 零初始化的力量
回想一下,LoRA 初始化 \(B=0\),这意味着更新矩阵 \(X = AB^\top\) 从完全的 0 开始。
由于我们是在微调一个预训练模型,我们假设所需的更新 \(X_{\star}\) 相对较小。预训练模型已经知道了很多;它只需要一点推动。因此,全局极小值在概念上“接近”于 0。
根据定理证明,虚假极小值距离 0 很“远”。
像 SGD 或 Adam 这样的标准优化器在景观中进行局部移动。从 0 开始将优化器置于低幅度全局极小值的直接吸引域中。要到达虚假极小值,优化器必须行进很长一段距离,逃离全局极小值的牵引,并爬升到一个高范数区域。
2. 权重衰减的作用
从业者在 LoRA 微调过程中几乎总是使用权重衰减 (L2 正则化) 。论文强调了这里的一个关键等价性。
在 \(A\) 和 \(B\) 上带权重衰减地优化 LoRA,在数学上等同于对全矩阵 \(X\) 进行带核范数正则化的优化。

核范数 (记为 \(\|X\|_*\)) 是矩阵奇异值的和。最小化核范数鼓励矩阵保持低秩 。
这提供了一种理论力量,将解推离“高秩”的虚假极小值。
- 定理 1 指出虚假极小值具有高秩 (满秩 \(r\)) 。
- 权重衰减 惩罚高秩解。
因此,从零开始 (小幅度) 和使用权重衰减 (偏好低秩) 的结合,有效地使得虚假区域对优化器来说是“上坡”的或不可达的。
5. 实验证据
作者并没有止步于数学推导;他们在 RoBERTa (NLP) 和 Vision Transformers (ViT) 上进行了实验以验证他们的主张。
验证 1: 权重衰减真的能降低秩吗?
该理论依赖于真实全局极小值是低秩的这一假设。为了测试这一点,他们进行了全量微调 (非 LoRA) ,配合核范数正则化,并检查结果矩阵的秩。

如图 3 所示,随着权重衰减参数 \(\lambda\) 的增加 (从粉色线移动到蓝色/绿色线) ,收敛解的秩急剧下降。这证实了找到低秩解是正则化微调的自然结果。
验证 2: 我们能强制触发“高调失败”吗?
为了测试定理预测的虚假极小值的存在,作者试图破坏 LoRA。他们比较了标准的零初始化与大随机初始化 (用大的随机值初始化 \(A\) 和 \(B\),使起点的远离零点) 。
结果证实了“高调失败”理论:

在图 2 中,观察蓝线 (零初始化) 与橙线 (随机非零初始化) 的对比:
- 左上 (训练损失) : 零初始化收敛到低损失。随机初始化卡在更高的损失处。
- 左下 (秩) : 零初始化找到了秩约为 1 的解。随机初始化卡在最大秩 (8)。
- 右下 (范数) : 零初始化保持矩阵范数较小。随机初始化导致范数爆炸。
这就是二分法的实际表现。随机初始化将模型困在了图 1 中描述的那些外部、高秩、高范数的“虚假”山谷之一中。它失败了,而且失败得很“高调”——指标清楚地表明出了问题。
相反,标准的零初始化 (蓝线) 成功导航到了低秩、低范数的全局极小值。
6. 结论
这篇论文弥合了 LoRA 的经验性成功与我们对其理论理解之间的差距。通过摆脱简化的线性化假设并分析真实的非凸景观,作者为从业者提供了一幅令人安心的图景。
关键要点:
- 景观是有结构的: LoRA 不仅仅是靠运气有效。损失景观的设置使得糟糕的局部极小值与好的全局极小值截然不同。
- 糟糕的极小值很明显: 如果 LoRA 失败,它不会是微妙的。你会看到高秩 (如果你检查奇异值) 和巨大的权重幅度。
- 标准实践是最优的: 社区的默认习惯——初始化 \(B=0\) 并使用权重衰减——是理论上合理的机制,可以保护训练过程免受这些失败的影响。
所以,下一次当你启动 LoRA 微调任务时,你可以放心了。数学告诉我们要么它大概率不会失败——如果真的失败了,你一定会察觉到的。
](https://deep-paper.org/en/paper/2502.09376/images/cover.png)