超越 Adam：我们能为神经网络学习一个更好的优化器吗？

在机器学习领域，优化无处不在。从简单的回归模型到庞大的深度网络, 随机梯度下降 (SGD)、Adam 和 RMSprop 等算法是驱动模型训练的引擎。我们花费无数时间微调它们的超参数——学习率、动量、衰减因子——把它们当作精巧但终究固定的工具。

但如果我们把机器学习自身的理念应用到这些工具上呢？如果我们不是手工设计优化器，而是可以学习它们呢？

这正是一个被称为 元学习 (meta-learning) 或“学习如何学习” (learning to learn) 的迷人研究方向背后的问题。其目标是设计能够改进自身学习过程的算法。在一篇著名的论文 “Learning to Optimize for High-Dimensional Stochastic Problems” (Li & Malik，2016) 中，研究者 Ke Li 和 Jitendra Malik 将这一思想推向了新的高度。在他们早期的“学习优化” (Learning to Optimize) 框架基础上，他们攻克了机器学习中最具挑战性的问题之一——训练神经网络。

他们的方法产生了一个学习型优化器，在仅通过一个简单任务 (一个小型 MNIST 网络) 训练之后，便在完全不同的数据集、架构和噪声水平上超越了那些知名的手工设计优化器。这是一个有力的证明: 优化过程本身是可以被学习的。

将优化视为一个强化学习问题

Li 和 Malik 将优化问题重新构建为一个 强化学习 (RL) 任务——这是一个巧妙而直观的见解。

可以将优化器想象为一个在地形中导航的智能体:

智能体 (Agent): 我们试图学习的优化算法。
环境 (Environment): 被训练模型的损失地形。
状态 (State) (\(s_t\)): 每一步可用的信息——当前参数 \(x^{(t)}\)、最近的梯度 \(\nabla \hat{f}(x^{(t)})\) 以及过去的更新。
动作 (Action) (\(a_t\)): 用于更新参数的步长 \(\Delta x\)，从而产生 \(x^{(t+1)} = x^{(t)} + \Delta x\)。
策略 (Policy) (\(\pi\)): 一个将状态映射到动作的函数——即优化器本身 (\(\pi(a_t | s_t)\))。
成本 (Cost) (\(c(s_t)\)): 目标函数值 \(f(x^{(t)})\)，值越低越好。

强化学习的目标是找到最优策略 \(\pi^*\)，以最小化整个优化轨迹上的总期望成本——也就是说，学习如何高效地迈向更小的损失。

强化学习的标准目标是找到一个能最小化累积成本的策略。

强化学习框架为将优化描述为迭代的序贯决策过程提供了一种自然的方式。

整个轨迹由智能体的策略以及环境 (损失曲面) 对每个动作的响应共同决定。

给定轨迹的概率取决于初始状态、策略和环境的转移动态。

每次优化运行都可以看作一条轨迹——一个状态和动作的序列——由学习到的策略和底层损失曲面的几何形状共同支配。

通过将优化问题表述为策略搜索，学习优化器就变成了一个强化学习问题。这个策略——也就是优化器——被建模为一个 循环神经网络 (RNN) , 具体来说是 LSTM , 因为优化器需要记忆过去的梯度和更新 (类似于动量或 Adam 的机制) 。

挑战: 高维优化

虽然强化学习的这种表述很优雅，但应用到神经网络时却会遇到巨大的障碍——高维度 。即使是小型神经网络也有成千上万甚至数百万个参数。状态空间 (参数配置) 和动作空间 (参数更新向量) 都极其庞大。

标准的强化学习算法无法高效处理这种规模。例如，Li 和 Malik 使用的 引导策略搜索 (Guided Policy Search, GPS) 方法，其计算成本随状态空间的大小呈三次方增长。对于神经网络而言，这将是难以承受的。

为了解决这个问题，作者提出了他们的主要技术创新: 卷积引导策略搜索 (Convolutional Guided Policy Search) 。

引导策略搜索 (GPS) 基础

引导策略搜索是一种为连续、高维问题和复杂非线性策略设计的强化学习技术，比如我们基于 RNN 的优化器。它巧妙地结合了两类策略:

复杂策略 (\(\pi\)) – 我们最终想要的、表达能力强的非线性策略 (即学习到的优化器) 。
引导策略 (\(\psi\)) – 一种更简单的、时变的线性高斯策略，更易于解析求解。

在 GPS 中，这两种策略形成一个循环:

引导策略基于局部线性动力学模型生成轨迹。
复杂策略通过监督学习被训练去模仿引导策略。

其优化问题如下所示:

由引导策略搜索解决的约束优化问题。

GPS 将学习过程构建为在引导策略下最小化期望成本，并约束其与复杂策略匹配。

因为完全强制 \(\pi\) 与 \(\psi\) 相等不切实际，问题被放宽为在每个时间步上匹配期望动作。这就得到一个可行算法，使用 Bregman ADMM , 交替更新:

\(\eta\) : 引导策略 (\(\psi\)) 的参数
\(\theta\) : 复杂策略 (\(\pi\)) 的参数
\(\lambda_t\) : 强制两种策略一致的对偶变量

GPS 中使用的 Bregman ADMM 算法的更新步骤。

每次 GPS 迭代都在解析地优化引导策略和训练复杂策略以模仿它之间交替进行。

对于复杂 (非线性) 策略，该子问题简化为一个监督学习任务——匹配来自引导策略的平均动作 (步进方向) 。

更新复杂策略参数的优化子问题。这本质上是一个监督回归任务。

这种基于回归的更新使 GPS 能够在强化学习框架内利用标准的深度学习工具。

这一组合将复杂的强化学习问题转化为一系列可处理的优化和监督学习步骤。然而，当维度极高时仍面临困难——这正是卷积 GPS 发挥作用的地方。

卷积 GPS: 利用神经网络中的结构

关键的洞察在于: 神经网络的参数是结构化的，而不只是一个长向量的独立数值。

例如，一个层中的所有权重可以重新排列而不会改变网络输出。因此，一个优化器应该在这些参数上表现出不变性——即对同层的权重一视同仁。

Li 和 Malik 通过 坐标组 (coordinate groups) 正式引入这一思想:

每个组对应一组具有相似作用的参数 (例如某一层的权重或偏置) 。
优化器为组内所有参数学习一个共享的更新规则。

卷积 GPS 在整个过程中强制这种结构:

GPS 使用的局部动力学模型在组内坐标间共享参数。
引导策略 (\(\psi\)) 对组内所有参数采用相同设置。
学习到的 RNN 策略 (\(\pi\)) 对同一组的坐标输出相同的动作。

这种结构化的共享极大地降低了问题的维度。优化器不再需要为数百万个独立参数学习更新规则，而只需学习少数几个——每个坐标组一个——使得高维训练变得可行。

优化器看到的世界: 设计信息丰富的特征

一个智能优化器需要丰富的信息才能做出良好的决策。Li 和 Malik 为 训练状态 和输入到学习策略中的 观测值 精心设计了特征。

他们没有仅依赖当前的原始梯度，而是计算了最近几次迭代的 摘要统计 (summary statistics) ，以平滑随机训练固有的噪声。

用于为优化器创建稳健特征的摘要统计，对最近 3 个步骤进行平均。

对几个步骤的梯度和目标值进行平均，可以增强对 mini-batch 噪声的稳定性。

基于这些摘要，研究者构建了捕捉训练动态的复合特征:

目标函数的相对变化。
用先前梯度幅度归一化的梯度 (以实现尺度不变性) 。
过去步长幅度的比率 (以捕捉类似动量的行为) 。

提供给学习优化器的特征示例。这些特征捕捉了损失、梯度和参数更新的历史趋势。

特征设计为优化器提供了一个具备时间意识的训练进程表示，使其能够进行自适应和上下文敏感的更新。

总体而言，这些精心设计的特征为优化器提供了多步视角去观察不断演化的损失地形——这是学习稳健更新策略的关键。

实验: 测试学习到的优化器

研究团队在一个单一的元训练任务上训练了他们的优化器——称为 预测步长下降法 (Predicted Step Descent) : 在一个简化 MNIST 数据集上训练一个小型双层神经网络 (48 输入单元，48 隐藏单元，10 输出单元) 。元训练的时长为 400 次迭代，mini-batch 大小为 64。

接下来是真正的考验: 看这个优化器是否能泛化到全新的任务。

他们将“预测步长下降法”与七个标准优化器( SGD、Momentum、Conjugate Gradient、L-BFGS、AdaGrad、Adam、RMSprop )以及一个由 Andrychowicz 等人 (2016) 提出的学习型优化器( L2LBGDBGD )进行了比较。

1. 泛化到新数据集

首先，他们在新的数据集上测试——Toronto Faces Dataset (TFD)、CIFAR-10 和 CIFAR-100 , 使用与训练时相同的网络架构。

图 1: 在使用原始网络架构的新数据集上的性能。仅在 MNIST 上训练的“预测步长下降法”在 TFD (a)、CIFAR-10 (b) 和 CIFAR-100 (c) 上始终收敛最快。

“预测步长下降法”在不同数据集上都表现出快速且稳定的收敛，而不像那些手工设计的优化器，其效果在不同任务间波动。

该学习优化器虽然只在 MNIST 上训练，却在所有数据集上都取得了最佳表现——显示出非凡的泛化能力。

2. 扩展到更大的架构

接着，他们将网络规模扩大了八倍 (100 输入单元，200 隐藏单元) 。尽管从未在如此大的网络上训练，“预测步长下降法”仍超越了所有基线方法。

图 2: 在更大网络架构 (参数增加 8 倍) 上的性能。“预测步长下降法”再次在所有三个数据集上表现最佳，证明它可以泛化到不同的模型规模。

即使参数数量显著增加，“预测步长下降法”依旧保持优势，展现出架构上的泛化能力。

尽管前期出现了一些振荡，但学习到的优化器很快自我调整——体现出动态修正的行为。

3. 对梯度噪声的鲁棒性

为了测试鲁棒性，研究者将 mini-batch 大小从 64 减少至 10，引入了显著的梯度噪声。

图 3: 在原始架构上使用更小 mini-batch (更多噪声) 的性能。学习到的优化器很好地处理了增加的随机性，优于那些收敛困难或发散的基线方法。

尽管梯度更加嘈杂，“预测步长下降法”仍能高效收敛。

图 4: 在更大架构上使用更小 mini-batch 的性能。即使在这种极具挑战性的设置下，“预测步长下降法”也取得了比所有其他方法更好的最终目标值。

该学习优化器应对极端随机性的能力远胜于传统方法，后者在此条件下往往会发散。

在那些使其他算法失效的噪声水平下，“预测步长下降法”依然稳定有效，展现出强大的韧性。

4. 超越训练时长的表现

一个有趣的实验是将训练时长从 400 次迭代增加到 800 次。这个优化器是否会在超过训练范围后“崩溃”呢？

图 5: 运行 800 次迭代 (训练时长的两倍) 时的性能。学习到的优化器继续稳步前进，而不是仅仅重复一个记住的 400 步轨迹。

“预测步长下降法”在超出训练时长后仍能持续改进——它学到的是优化的普遍原理，而非固定行为。

优化器持续保持合理的进展，表明其学到的是可泛化策略而非短期的动作序列。

结论: 迈向学习型优化

Li 和 Malik 的工作是追求自我改进学习系统中的一个里程碑。他们证明了:

优化可以被重新构建为一个强化学习任务。
可以通过在参数空间中引入结构来利用卷积 GPS 克服高维困境。
在单一任务上训练的学习型优化器能够泛化到新的数据集、架构和噪声设置。

“预测步长下降法”的成功预示着一个未来: 优化器不再由人工精心设计，而是直接从数据中学习得到——并有潜力超越现有的最佳方法。

尽管该研究聚焦于浅层网络，但其意义深远。它启发我们去想象一个机器学习生态系统: 连核心工具——优化器、网络架构、超参数调度——都通过学习而非工程不断演化。

我们能学会更好的学习方式吗? Li 和 Malik 的答案是一个坚定的“是”，而这也许将重塑我们构建下一代智能系统的方式。

将优化视为一个强化学习问题#

挑战: 高维优化#

引导策略搜索 (GPS) 基础#

卷积 GPS: 利用神经网络中的结构#

优化器看到的世界: 设计信息丰富的特征#

实验: 测试学习到的优化器#

1. 泛化到新数据集#

2. 扩展到更大的架构#

3. 对梯度噪声的鲁棒性#

4. 超越训练时长的表现#

结论: 迈向学习型优化#