引言
如果你训练过深度神经网络,你一定知道学习率调度的“玄学”。你选择了一个优化器 (如 Adam 或 SGD) ,但这仅仅是个开始。为了获得最先进 (SOTA) 的收敛效果,你不可避免地需要随着时间的推移衰减学习率。是用阶梯衰减?余弦退火?还是预热 (Warmup) 阶段?选择无穷无尽,而调整这些参数消耗了大量的算力和研究人员的时间。
最近,一种名为 Schedule-Free SGD 的方法受到了关注。由 Defazio 等人开发,它承诺了一个根本不需要学习率调度的世界。你只需选择一个参数,算法就会处理剩下的事情,并达到与精心调优的调度策略相媲美的性能。
虽然在经验上令人印象深刻,但在理论上却存在空白。Schedule-Free 方法最初的理论仅限于 凸 (convex) 优化。然而,深度学习本质上是一个 非凸 (nonconvex) 问题。我们知道它在实践中有效,但我们知道 为什么 吗?
这正是论文 “General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization” (在线到非凸转换的通用框架: Schedule-free SGD 对非凸优化同样有效) 切入的地方。研究人员填补了凸优化理论与深度学习现实之间的鸿沟。他们不仅证明了 Schedule-Free SGD 对于非凸问题是最优的,而且还提供了一个通用的框架,将抽象的在线学习概念转化为具体的优化算法。
在这篇文章中,我们将解构这篇论文。我们将探讨“在线学习”如何与训练神经网络相关联,作者是如何构建一个通用的机器来创建优化器的,以及 Schedule-Free SGD 是如何从这个框架中自然诞生的。
背景: 优化的图景
在深入证明之前,我们需要建立游戏的基本规则。
非凸与非光滑
在深度学习中,我们试图最小化损失函数 \(F(x)\)。
- 非凸 (Nonconvex) : 损失地形有山峰、低谷和鞍点。我们不能保证找到全局最小值,所以我们寻找一个“驻点” (梯度为零的点) 。
- 非光滑 (Nonsmooth) : 现代网络使用 ReLU 激活函数和最大池化,这使得损失函数在某些点上技术上是不可微的。
因为函数可能是非光滑的,我们不能简单地说“找到梯度为零的地方”,因为梯度可能并非在所有地方都存在。相反,作者使用了一个称为 \((\lambda, \epsilon)\)-平稳性 (\((\lambda, \epsilon)\)-stationarity) 的概念。

通俗地说,这个定义寻找的是一个点 \(x\),它“接近”一个梯度很小的区域。如果一个算法能有效地找到这样一个点,它就被认为是成功的。
在线学习: 引擎盖下的引擎
本文使用的核心理论工具是 在线学习 (Online Learning) 。 在在线学习的游戏中,一个“学习者”做出决策,承受损失,并更新其策略。目标是最小化 遗憾 (Regret) ——即学习者的累积损失与他们在事后诸葛亮的情况下能做出的最佳固定决策的损失之间的差值。
作者特别关注 折扣遗憾 (Discounted Regret) , 即最近的错误比旧的错误更重要。这对于非凸优化至关重要,因为随着我们的移动,地形也在变化;旧的信息会变得陈旧。

在这里,\(\beta\) 是一个折扣因子 (接近 1) 。如果一个算法具有较低的折扣遗憾,它就能很好地适应变化的环境。
通用框架: 优化器生成机
这篇论文的第一个主要贡献是一个通用的算法框架 (算法 1) ,它可以将 任何 在线学习算法转换为非凸优化算法。这被称为 在线到非凸转换 (Online-to-Nonconvex Conversion) 。
直觉如下:
- 我们有一个 在线学习者 (Online Learner) (我们称之为 \(\mathcal{A}\)) ,它预测更新方向。
- 我们使用这些预测来移动我们的权重 (\(w_t\)) 。
- 我们维护一个单独的参考点 (\(x_t\)) 。
- 我们在 \(x_t\) 和 \(w_t\) 之间的插值点 (\(y_t\)) 处计算梯度。
这个框架的神奇之处在于它的灵活性。它维护三个变量序列:
- \(w_t\) : 源自在线学习者的“当前”权重。
- \(x_t\) : 一个我们可以任意设计的“中心”或“锚”点。
- \(y_t\) : 我们实际要求 PyTorch (或你选择的框架) 计算梯度的点。
通过为 \(x_t\) 选择不同的更新策略,这个单一框架可以恢复出带动量的标准 SGD、Adam,或者——正如我们将看到的——Schedule-Free SGD。
保证
作者证明了一个强有力的定理: 如果你的在线学习者具有低遗憾 (它善于预测梯度) ,并且你选择的 \(x_t\) 是“稳定”的 (它不会剧烈跳动) ,那么算法将收敛到一个驻点。
收敛界如下所示:

这个等式表明,梯度大小 (平稳性) 由一个小的常数 \(\epsilon\) 加上一项取决于“损失减少量之和” (\(F(x_t) - F(w_t)\)) 的项来界定。如果我们能保持 \(F(x_t)\) 和 \(F(w_t)\) 接近或形成裂项求和 (telescoping sum) ,算法就能实现最优收敛。
推导 Schedule-Free SGD
现在我们来到了核心贡献部分。这个抽象的框架是如何产生 Schedule-Free SGD 算法的?
第一步: 在线学习者
首先,作者选择了一个特定的在线学习者: 折扣在线镜像下降 (Discounted Online Mirror Descent, OMD) 。 学习者的更新规则 (用 \(\delta\) 表示) 是:

这是在线学习中的一个标准算法。它取前一个方向 \(\delta_t\),减去梯度 \(g_t\) (按学习率 \(\eta\) 缩放) ,并应用折扣因子。
第二步: \(x_t\) 的选择
回想一下,该框架允许我们任意选择 \(x_t\)。为了恢复出 Schedule-Free SGD,作者提出了一个特定的、巧妙的更新,称为 选项 III (Option III) :

这里,\(x_t\) 通过向学习者的输出 \(\delta_t\) 方向移动来更新。为什么要这样选择?它强制变量以一种在证明中产生“裂项求和”的方式对齐,抵消误差项并确保稳定性。
具体来说,它强制锚点 \(x_t\) 和权重 \(w_{t-1}\) 之间存在非常紧密的关系:

这种关系是关键。它确保了我们关心的两个变量之间的距离纯粹由梯度大小控制。
第三步: “Z” 变换
此时,算法看起来像是一堆 \(\delta\)、\(x\) 和 \(w\) 变量的混乱组合。它看起来不像标准的 SGD。为了揭示其结构,作者引入了一个幻影变量 \(z_t\),定义为一种外推 (extrapolation) :

当我们把这个定义代入更新规则时,发生了一些非凡的事情。复杂的更新坍缩为 \(z\) 上的一个简单 SGD 步骤:

这个 \(z_t\) 代表 SGD 的“基础轨迹”。它通过减去梯度来简单移动。与此同时,我们要实际使用的模型权重 (\(y_t\)) 和锚点 (\(x_t\)) 使用平均值围绕这个 \(z\) 轨迹运行。
可视化架构
作者提供了一张图来通过视觉解释这些变量是如何交互的。

在这张图中:
- 虚线 代表 \(z_t\) 的路径 (基础 SGD 轨迹) 。
- 蓝点 (\(x_t\)) 是稳定轨迹的加权平均值。
- 梯度是在中间点 (\(y_t\)) 计算的,但潜在的进展是由 \(z\) 驱动的。
最终算法
当你使用 \(x, y, z\) 符号重写“选项 III”的数学公式时,你会得到 Schedule-Free SGD 的精确公式:

- \(x_t\): “无调度”平均值。
- \(y_t\): 评估点 (插值) 。
- \(z_t\): 基础优化器 (SGD) 。
这一推导证明了 Schedule-Free SGD 不仅仅是一个启发式方法;它是理论上可靠的在线到非凸转换的直接实例。
为什么这很重要: 最优性与参数
这个推导不仅仅是一个数学游戏。它为我们如何使用优化器提供了具体的指导。
1. 最优收敛
论文证明了该方法对于非光滑、非凸函数达到了最优收敛速率:

这个 \(O(1/T)\) 的速率 (或者更准确地说是 \(\epsilon^{-4}\) 复杂度) 与带动量的 SGD 的已知最佳理论极限相匹配。这证实了我们在放弃调度时,在理论上没有任何损失。
2. 解开 \(\kappa\) 之谜
在最初的 Schedule-Free 论文中,有一个参数 \(\kappa\) (kappa) 控制我们在平均值和当前权重之间插值的程度。根据经验,Defazio 等人发现 \(\kappa\) 需要非常接近 1 (例如 0.98 或更高) 才能获得良好的性能。凸优化理论无法解释原因。
这项新的非凸分析提供了答案。从证明中导出的最优参数要求:

数学推导表明 \(1 - \zeta\) (对应于插值权重) 必须与 \(\epsilon^2\) 成比例缩放。由于 \(\epsilon\) 很小 (我们希望梯度很小) ,插值权重必须非常小,这意味着 \(\kappa\) 必须非常接近 1。理论与经验现实完美吻合。
3. 为大学习率正名
另一个经验观察是,Schedule-Free SGD 允许 (并受益于) 比标准 SGD 大得多的学习率。
分析支持了这一点。\(z\) 序列的有效步长被推导为 \(\gamma = \frac{\eta}{1-\zeta}\)。因为 \(1-\zeta\) 非常小,有效学习率 \(\gamma\) 变得明显大于基础在线学习率 \(\eta\)。算法的几何结构自然地稳定了这些大步长。
结论
从理论优化到实际深度学习的过渡通常是混乱的。在实践中有效的方法 (如 Adam 或 Schedule-Free) 通常需要等待数年才能有理论来解释它们。
Ahn、Magakyan 和 Cutkosky 为 Schedule-Free SGD 补全了这一环。通过构建一个通用的 在线到非凸 (Online-to-Nonconvex) 框架,他们证明了:
- Schedule-Free SGD 在数学上适用于深度学习 (非凸/非光滑) 。
- 它在没有调度的情况下实现了最优的收敛速率。
- 实践中使用的特定“魔法数字” (高 \(\kappa\),高学习率) 在理论上是合理的。
这篇论文是一个强烈的信号,表明我们可以超越学习率调度的试错阶段。有了坚实的理论支持,Schedule-Free 方法有望成为深度学习优化器工具箱中的标准工具。
](https://deep-paper.org/en/paper/2411.07061/images/cover.png)