大型语言模型 (LLM) 领域目前正处于一场军备竞赛中。从 GPT-4 到 Llama 再到 Gemini,这种趋势一直是构建更大、能力更强的模型。然而,我们正在撞上一堵墙: 计算成本。训练这些庞大的“稠密 (Dense) ”模型——即每一个参数在每次计算中都被激活——正变得极其昂贵。
混合专家 (Mixture of Experts,简称 MoE) 架构由此登场。MoE 模型通过使用“条件计算”承诺打破这一效率瓶颈。模型不再为每个 Token 激活每一个神经元,而是只激活与当前输入相关的特定“专家”子集。这就像是为了解决一个简单的数学问题,是咨询整所大学的全体教员,还是只去问数学教授的区别。
但这就引出了一个价值数十亿美元的问题: 既定的人工智能训练规则——即“缩放定律 (Scaling Laws) ”——是否适用于这种不同的架构?
从历史上看,我们依赖于从稠密模型 (如著名的 Chinchilla 定律) 得出的缩放定律来预测我们需要多少数据和算力。在这篇文章中,我们将深入探讨 Wang 等人的比较分析,调查这些定律是否可以迁移到 MoE 模型,以及这对高效 AI 的未来意味着什么。
基础: 理解缩放定律
在剖析差异之前,我们需要了解基准。缩放定律本质上是训练神经网络的“物理学”。它们观察到,随着以下三个要素的增加,模型性能 (通过损失值衡量) 会以可预测的方式提升:
- N: 参数数量 (模型规模,Model Scale) 。
- D: 训练数据量 (Tokens) 。
- C: 计算预算 (FLOPs) 。
对于标准的稠密模型,这种关系遵循幂律 (power-law) 。 先前的研究建立了以下方程来预测训练损失:

其约束条件为总计算预算 (\(C\)) 是参数和数据的函数:

这里,\(A\)、\(B\)、\(\alpha\) 和 \(\beta\) 是特定于模型架构的系数,而 \(\sigma\) 代表数据集中不可约的噪声 (即你可能达到的最佳损失值) 。
MoE 面临的挑战
混合专家模型引入了一个新变量: \(E\) (专家数量) 。
在一个 MoE 模型中,你可能有 8 个专家,但对于任何给定的 Token,“门控网络”可能只会将信号路由给其中的 2 个。这意味着模型拥有大量的总参数,但在推理过程中只有少量的激活参数。
先前的研究人员试图通过将专家数量作为一个单独的对数项来让 MoE 模型拟合缩放定律:

然而,这个方程暗示随着模型变得越来越大,增加更多专家的收益将会消失。今天这篇论文背后的研究人员意识到,对于实际的 MoE 设置 (即 \(E < 100\)) ,这种复杂性是不必要的。他们假设基本的幂律框架应该仍然适用,只需要进行统一的调整。
统一缩放定律
研究人员提出了一个新的、统一的缩放定律,弥合了稠密架构和 MoE 架构之间的差距。通过简化模型规模 (\(N\)) 和专家 (\(E\)) 之间的交互,他们推导出了这个优雅的方程:

在这个方程中:
- \(N\) 是模型规模 (具体来说,是非嵌入 FLOPs 除以 Tokens) 。
- \(E\) 是专家数量。
- \(D\) 是训练 Token 数。
这个理论在现实中站得住脚吗?团队在超过 1000 亿个 Token 上训练了各种 MoE 模型 (从 2 亿到 15 亿参数) 来验证这一点。
如下图所示,实验结果 (蓝线) 与预测曲线 (橙线) 几乎完美吻合。

这是一个重大发现。它证明了 MoE 模型遵循与稠密模型相同的基本物理规律。 我们不需要重新发明轮子,只需要校准它。
最佳资源分配: “计算最优”前沿
既然我们有了一个可用的方程,我们就可以提出 AI 工程中最实际的问题: 如果我有固定的计算预算 (\(C\)) ,我应该如何在把模型做大 (\(N\)) 和购买更多数据 (\(D\)) 之间进行分配?
在数学上,我们要解决的是这个最小化问题:

通过对 \(N\) 和 \(D\) 求损失函数的导数,研究人员推导出了针对任何给定预算的最佳 Token 数 (\(D_{opt}\)) 和最佳模型规模 (\(N_{opt}\)) 的公式:


MoE 的“数据饥渴”特性
当研究人员计算这些方程的系数时,他们发现了两种架构之间一个迷人的区别。

请看表 1 中的 MoE Model 一行。
- 最佳模型规模的指数 (\(\alpha_N\)) 是 0.590 , 高于稠密模型的 0.507 。
- 最佳数据的指数 (\(\alpha_D\)) 是 0.410 , 低于稠密模型的 0.493 。
这意味着什么? 这意味着与稠密模型相比,MoE 模型从增加模型大小 (参数) 中获益更多。反之,对于固定的预算,MoE 模型在利用数据方面效率更高。分析表明,MoE 模型的数据利用率比稠密模型高约 16.37% 。 如果你正在训练一个 MoE 模型,你应该比训练稠密模型时更积极地优先扩大模型架构。
超参数调优: 批量大小和学习率
知道模型大小只是战斗的一半。另一半是正确地训练它。深度学习中最关键的两个超参数是批量大小 (Batch Size) 和学习率 (Learning Rate) 。 研究人员发现,这些参数的最佳设置也遵循可预测的幂律。
1. 最佳批量大小 (\(B_{opt}\))
“临界批量大小”是指进一步增加批量大小会在训练速度 (以数据效率衡量) 上产生边际收益递减的点。这与梯度的“噪声”密切相关。如果你的梯度非常嘈杂,你需要更大的批量大小来平均掉这些噪声并获得清晰的信号。
噪声 (\(B_{noise}\)) 与海森矩阵 (\(H\)) 之间的关系定义为:

根据经验,最佳批量大小近似等于这个噪声规模:

研究人员绘制了两种架构的训练损失与最佳批量大小的关系图。

结果如下图的双对数坐标图所示,显示了一致的幂律关系。但是,存在一个至关重要的区别。

洞察: 对于相同的训练损失水平, MoE 模型具有比稠密模型更小的最佳批量大小。
这意味着 MoE 模型具有更小的噪声规模 。 MoE 训练期间计算的梯度比稠密模型中的梯度更“干净”或噪声更小。这使得 MoE 模型能够用每步更少的样本实现稳定的优化。
2. 最佳学习率 (\(\epsilon_{opt}\))
如果 MoE 模型的梯度噪声较小,这对学习率 (LR) 有什么影响?通常,如果你的信号很干净 (低噪声) ,你可以承受更大的步长 (更高的 LR) 而不会冲过极小值点。
理论关系表明,最佳学习率与损失的倒数成正比:

研究人员通过绘制最佳学习率与损失的关系验证了这一点。

并对比趋势:

- (注: 上图包含两个图表。左侧的图 5 显示了学习率缩放。右侧的图 6 显示了泛化能力,我们将在下文讨论。) *
观察 图 5 (上图左侧) ,我们可以看到,对于固定的损失,MoE 模型 (红点) 通常支持比稠密模型更高的学习率 。
综合总结:
- 稠密模型: 高梯度噪声 \(\rightarrow\) 需要更大的批量 \(\rightarrow\) 需要更小的学习率以保持稳定。
- MoE 模型: 低梯度噪声 \(\rightarrow\) 可以使用更小的批量 \(\rightarrow\) 可以处理更大的学习率。
这种组合使得 MoE 模型在训练期间收敛速度明显更快。
泛化能力: 它们真的表现更好吗?
理论上的效率很棒,但这能转化为更好的下游性能吗?
参考 图 6 (上一节所示图像的右侧) ,研究人员绘制了 测试损失 vs. 计算预算 的图表。
你可以清楚地看到 MoE 曲线位于稠密曲线的下方。这表明 对于完全相同的计算预算,MoE 模型实现了更低的测试损失。
研究人员在几个高难度基准测试上验证了这一点,包括 TriviaQA、MATH 和 MMLU。

表 2 证实了这一理论。看看 Dense-1B 和 MoE-1.5B (它们具有相当的激活参数/计算概况) 之间的比较。MoE 模型在像 MATH 这样的重推理任务 (4.24 对 1.48) 和像 TriviaQA 这样的知识任务 (26.25 对 20.56) 上显著优于稠密模型。
结论
这项研究为下一代高效大型语言模型提供了一本“用户手册”。通过严格比较稠密和 MoE 架构,作者证实了我们在扩展混合专家模型时不需要盲目飞行。
给学生和从业者的主要启示:
- 普适性: 为稠密模型开发的幂律缩放框架可以非常好地迁移到 MoE 模型。你可以在训练之前预测性能。
- 效率: MoE 模型不仅在推理过程中计算成本更低;它们在训练期间的数据效率也从根本上更高 (约 16% 的利用率提升) 。
- 稳定性: 由于其稀疏特性,MoE 模型经历的梯度噪声较低。这允许使用更小的批量大小和更高的学习率的训练配方,从而加快收敛速度。
- 策略: 如果你被分配了用于 MoE 模型的固定计算预算,数学计算建议你应该稍微倾向于增加模型规模 (专家数量/参数) ,而不是仅仅堆积更多的 Token。
随着 AI 社区向万亿参数模型迈进,这些关于资源分配和超参数动态的洞察对于在不耗尽预算的情况下训练未来的智能系统将至关重要。
](https://deep-paper.org/en/paper/2410.05661/images/cover.png)