超越 Adam：AI 如何学会优化神经网络

训练深度神经网络依然是现代机器学习中最令人沮丧的手动环节之一。研究人员费尽心思地调整数十个优化器超参数——学习率、动量、权重衰减——希望能找到让模型平稳学习的“甜点区”。只要一个参数没调好，训练就可能发散或停滞。

如果我们能将整个调参过程自动化呢？如果 AI 能够学习优化的艺术本身呢？

这正是学习型优化器的理念——这类算法可以通过自动调整学习动态来学习如何训练神经网络，从而取代像 SGD 和 Adam 这样的传统人工设计方法。然而，多年来该方向一直受制于一个顽固的问题: 泛化能力 。学习型优化器在与训练任务相似的场景中表现出色，但应用于新架构或新数据类型时却往往失败。

OpenAI 最近发表的论文 《一种可泛化的学习优化器方法》 (A Generalizable Approach to Learning Optimizers) 正面应对这一挑战。研究人员提出了一种范式转变: 他们的系统不直接学习如何更新模型参数，而是学习如何更新优化器的超参数 。这种更高层级的策略使优化器能够以前所未有的规模在任务、架构和数据模态之间实现泛化。

这个系统被称为学习型超参数优化器 (Learned Hyperparameter Optimizer，LHOPT) ——在 ImageNet 训练中实现了高达 2× 的加速，在大型语言模型上实现了 2.5× 的加速。更令人惊讶的是，它能够从仅需几分钟计算的训练任务泛化到需耗费 数百 GPU 天 的真实任务。这标志着自改进优化器设计的重大突破: 既能匹敌人类调参专家的水平，又显著降低计算成本。

学习优化的难题

早期的学习型优化器尝试主要集中在训练直接输出参数更新的神经网络。一般会使用小型 RNN，输入原始梯度或移动平均等统计量，然后决定如何修改每个权重。

然而，这种方法无法扩展或泛化。原始统计量在不同问题之间差异极大——在一个模型中梯度很大，在另一个模型中可能微不足道。结果，这些学习型优化器变得高度任务特定，并在未见过的架构、损失函数或规模下表现异常。最终只在玩具问题上有效，却无法应对现实任务。

LHOPT 的解决方案: 泛化优先的设计

OpenAI 团队采取了完全不同的思路。他们的指导原则十分明确: 以泛化为首要目标 。 LHOPT 的架构、特征选择和奖励设计全部围绕这一原则展开。

该方法采用一种双循环训练结构 , 如下图所示。

图表展示了 LHOPT 的双循环架构。一个外部 LSTM 控制器根据内部训练循环的统计数据，周期性地更新优化器超参数。

图 1: LHOPT 内外双循环训练过程的简化示意图。内循环执行标准模型更新，而外循环通过强化学习调整优化器的超参数。

内循环 — 使用内部优化器 (实验中为定制的类 Adam 变体) 进行常规模型训练。
外循环 — 训练会周期性暂停, LSTM 控制器观察摘要统计量——如验证损失、梯度稳定性等特征——并决定在训练继续之前如何修改内部优化器的超参数 (学习率、权重衰减等) 。

通过将外循环与每步梯度更新解耦，LHOPT 能以更高层次进行决策，关注长期优化而非短期收益。它瞄准的是最终性能。

感知: “无单位”特征实现鲁棒理解

为了让 LSTM 控制器能在极度不同的问题上进行推理——从微型 MLP 到十亿级参数的 Transformer——它必须通过与任务无关的方式观察世界。为此，LHOPT 使用了无单位特征 : 所有输入都以归一化、相对化形式表达，使数值尺度在不同数据集或架构间具有可比性。

例如:

训练损失和验证损失的对数比 (而非原始值) 。
梯度与动量的余弦相似度 , 反映对齐程度而非大小。
训练进度 (0 到 1 之间的值) 。
梯度被裁剪的比例 , 表示稳定性的一种归一化信号。

其中一个特别巧妙的设计是 CDF 特征 。优化器不会直接用绝对值，而是比较当前统计量与其历史分布的关系。系统通过高斯累积分布函数 (CDF) 将每个观察值映射到 [0, 1] 区间。例如，CDF 值接近 1.0 表示当前损失相对过去异常高。这使优化器能够在无需了解具体数值的情况下检测平台期与趋势。

这些特征去除了对原始单位的依赖，使 LHOPT 能识别出在截然不同学习环境中依然可泛化的模式。

执行: “相对动作”实现反应式控制

与特征相对，同样地，LHOPT 的动作也是相对的。控制器不会设定绝对超参数值，而是执行缩放操作——将现有超参数乘以某个系数 (例如 ×0.5 或 ×2) ——或对位于 [0, 1] 范围的参数进行 logit 平移。这种离散的相对动作提高了训练稳定性，并防止模型记忆固定的调度。

此外，LHOPT 拥有强大的探索机制: 检查点重启 。控制器可保存模型状态，尝试高风险的超参数更改，如若训练不稳定，则可回退到保存的检查点。这让 LHOPT 能安全地探索更激进的优化行为，提升了鲁棒性与适应性。

目标: 带有自改进奖励的强化学习

外循环通过强化学习 (PPO) 进行训练。设计适当的奖励函数至关重要。作者没有直接用最终验证损失——它无法衡量任务间的难度——而是采用了受自我博弈启发的动态基线。

对于每个任务，LHOPT 使用自身历史策略权重的指数移动平均版来运行基线。它将基线学习轨迹拟合为幂律曲线。LHOPT 的奖励即为相对此曲线的改进幅度。随着训练进行，基线也随之提高，形成不断上升的性能基准——这实际上构成了一个自我改进的学习流程。

LHOPT 的实证测试

任何学习型优化器的最终考验不是复现训练结果，而是泛化到未见过的真实问题。OpenAI 团队在多个远超训练分布的挑战性基准上测试了 LHOPT，结果颇为出色。

大规模语言建模

为测试大规模任务，研究人员用 LHOPT 在 WikiText‑103 数据集上一轮 (epoch) 训练了一个 7.6 亿参数的 GPT‑2‑Large 模型——未进行任何超参数调优。

模型	测试困惑度
GPT‑2 Large + AdamW (基准)	45.6
+ LHOPT (半时间)	46.1
+ LHOPT	32.5

表 2: 语言模型在 WikiText‑103 上的表现。LHOPT 显著优于基准 AdamW。

GPT‑2 训练学习曲线: LHOPT (绿色) 获得更低的最终损失，而在半时间训练 (橙色) 时几乎达到基准 (蓝色) 的水平。

图 3: GPT‑2 学习曲线展示了 LHOPT 即使扩展到比训练任务大数百倍的任务，仍能实现近 2 倍加速。

有趣的是，LHOPT 的曲线在早期阶段上升比 AdamW 慢——这是一种刻意权衡，类似人类设计的余弦衰减策略。它牺牲即时进展以换取更佳的长期性能，这是高级优化行为的标志。

ResNet 的 ImageNet 分类

接下来，团队在 ImageNet 上测试了 LHOPT 对新架构的泛化能力，使用了 ResNet 模型——这一领域在其训练阶段从未出现。

模型	Epochs	准确率@1	准确率@5	测试损失
ResNet18 + AdamW	90	67.32	87.52	1.39
ResNet18 + LHOPT	90	68.89	88.43	1.31
ResNet50 + AdamW	90	71.42	89.66	1.35
ResNet50 + LHOPT	90	73.52	91.38	1.07

表 3: ImageNet 结果显示，与调优后的 AdamW 相比，训练时间减少约 2 倍且性能更优。

ResNet18 在 ImageNet 上训练的学习曲线: LHOPT (绿色/橙色) 总体上优于调优后的 AdamW (蓝色) 。

图 4: LHOPT 学得的超参数调度使其在全新的 ImageNet 任务上实现更快收敛。

尽管 SGD 仍保持最高原始准确率，LHOPT 在无调优条件下的表现已充分体现其跨领域泛化能力。

超越视觉与文本: MLPerf 基准

为了进一步检验泛化能力，LHOPT 被应用到 MLPerf 套件中的两个完全不同任务:

神经协同过滤 (NeuMF) —— 基于 MovieLens 1M 的推荐任务。
Deep Speech 2 —— 基于 LibriSpeech 的语音识别任务。

模型	NCDG	命中率
NeuMF 基准	0.3859	0.6584
NeuMF + LHOPT	0.3932	0.6705

表 4: LHOPT 即使在推荐模型这一前所未见的模态上也超越了基线。

NeuMF 验证指标随训练轮次变化: LHOPT (橙色) 的曲线波动更大，但最终得分高于基线 (蓝色) 。

图 5: 神经协同过滤任务显示 LHOPT 能有效适应新领域。

对于语音识别:

$Deep Speech\u202f2 验证 CTC 损失与训练轮次关系: LHOPT (橙色) 的损失始终低于基线 (蓝色) 。$

图 6: LHOPT 泛化到使用 FP16 训练的音频任务——均为未见过的条件。

在无需调优的情况下，LHOPT 成功优化了从未遇到过的图像、文本、推荐和语音等多模态任务中的模型。

将学习到的超参数调度迁移到 GPT‑3 规模模型

最令人振奋的泛化示例来自于调度迁移 。团队在一个轻量语言建模任务上训练了较小规模的 LHOPT，记录超参数演变轨迹，并在一个经过精心调优的大规模语言建模代码库上复用该固定调度——与 GPT‑3 的训练流程类似。

计算量与测试损失缩放关系: 使用 LHOPT 调度的模型 (实线) 在所有计算规模上均优于基线 (虚线) 。

图 2: 扩展规律显示 2–2.5× 的持续加速，在 GPT‑3 规模下可达约 3.6×。

令人惊讶的是，在小任务上生成的单一调度，居然能跨越多个数量级的模型尺度与算力预算提升性能——证明 LHOPT 所学习的超参数关系在规模扩展后仍然成立。

$四个超参数 (学习率、权重衰减、epsilon 和 1\u202f−\u202fβ₂) 随归一化训练进度的变化。$

图 8: 迁移至大型模型的学习型超参数调度，其复杂轨迹优于手工设计的余弦或线性衰减方案。

这种直接可迁移性意味着实践者无需运行完整的强化学习优化器，即可复用 LHOPT 所学到的知识——以超参数轨迹形式呈现。

成功的原因: 解耦与设计选择

LHOPT 成功的关键在于以下几点:

解耦的优化层级: 策略网络独立于逐参数更新，从而摆脱了梯度等任务特定统计量的束缚。
特征归一化: 每个输入统计量都进行缩放和裁剪，防止数值不稳定并提高鲁棒性。
相对动作与随机初始化: 促使模型展现反应式行为，而非记忆固定超参数配置。
奖励驱动改进: 通过与自身的移动平均基线竞争确保持续进步。

这些设计共同造就了一个优化器: 仅在必要时施加强力更新，在其他情况下保守保持稳定——这种行为与专家直觉高度契合。

结论: 迈向自改进的 AI 优化器

这项研究展示了学习型优化器终于突破实验范畴，走向实际应用。通过专注于泛化 , LHOPT 学会了可跨数据集、架构乃至输入模态迁移的策略。在 ImageNet 与大规模语言模型等关键基准上的 2–2.5× 加速带来了实实在在的收益——节省了大量计算时间与成本。

LHOPT 的设计打开了更广阔的可能性:

将学习型超参数控制应用到强化学习、GAN 或微调流程中。
将 LHOPT 与逐参数学习型优化器结合，实现分层控制。
探索能在训练过程中持续自适应超参数的动态架构。

启示显而易见: 优化不再需要手动试验的艺术。有了 LHOPT 这样的系统, AI 可以学会自我优化 , 从而在各个规模上推动自主、高效的深度学习进步。

学习优化的难题#

LHOPT 的解决方案: 泛化优先的设计#

感知: “无单位”特征实现鲁棒理解#

执行: “相对动作”实现反应式控制#

目标: 带有自改进奖励的强化学习#

LHOPT 的实证测试#

大规模语言建模#

ResNet 的 ImageNet 分类#

超越视觉与文本: MLPerf 基准#

将学习到的超参数调度迁移到 GPT‑3 规模模型#

成功的原因: 解耦与设计选择#

结论: 迈向自改进的 AI 优化器#