在人工智能的世界里,大型语言模型 (LLM) 似乎是一种现代炼金术。我们将海量数据集、庞大的神经网络和惊人数量的计算资源混合在一起——然后就诞生了能够写诗、调试代码和解释复杂主题的模型。

但这一切为什么会起作用?如果我们拥有十倍的资源,我们能让它进步多少?这背后是否有章可循,还是只是碰运气?

2020年,来自 OpenAI 和约翰斯·霍普金斯大学的一组研究人员发表了里程碑式的论文《神经语言模型的缩放定律》 (Scaling Laws for Neural Language Models) ,为这个混沌的领域带来了非凡的清晰度。他们发现,语言模型的性能一点也不随机,相反,它遵循着简单、可预测的数学规律——具体来说,是幂律——并且这种规律在跨越惊人的七个数量级时都成立。

这篇论文提供了一份类似构建 LLM 的速查表: 它告诉我们如何扩展模型、需要多少数据,以及如何最优分配固定的计算预算。这些见解不仅实用,而且深刻,暗示着人工智能能力的质变可能源于平滑、可预测的量的扩展。

在本文中,我们将解析论文的核心发现,并探索支配着我们时代最复杂技术之一的简单定律。


背景: 衡量模型的“好坏”

在深入探讨之前,让我们先统一一些基本概念。本研究中的模型主要是 Transformer——这种神经网络架构为几乎所有现代 LLM 提供了动力。它们的训练任务很直接: 预测文本序列中的下一个词 (更准确地说是下一个词元) 。

我们如何衡量模型执行该任务的好坏呢?这里的主要指标是**交叉熵损失 **(cross-entropy loss) ——可以把它看作是惊讶程度的量度。

  • 如果模型在看到“the big blue …”后强烈预测下一个词是“sky”,而实际的词确实是“sky”,那么损失就很低。
  • 如果实际的下一个词是“house”,模型会感到惊讶,损失就会高。

损失越低意味着预测越好,这与更强的语言理解能力相关。训练的目标始终是尽可能降低损失。

研究人员训练了数百个 Transformer 模型,调整了许多因素:

  • 参数数量
  • 训练数据量
  • 训练时长
  • 甚至模型的形状 (深度与宽度)

然后,他们测量最终的测试损失,来探究最关键的影响因素。


规模化的三大支柱: 模型大小、数据和算力

该论文的核心发现是,语言模型的性能主要由三个因素决定:

  1. 模型大小 (N): 网络中可训练的非嵌入参数数量。
  2. 数据集大小 (D): 模型在训练中看到的词元总数量。
  3. 算力 (C): 用于训练的总计算量。

至关重要的是,损失与这些因素之间的关系遵循幂律。简单来说,当你增加 N、D 或 C 时,损失会沿着一条平滑、可预测的曲线下降。这一点在该论文的主要总结图中有清楚的展示:

随着算力、数据集大小和非嵌入参数数量的增加,测试损失遵循幂律下降。

图 1: 随着模型大小、数据集大小和算力的提升,语言建模性能平滑改善。当不受另外两个因素的瓶颈限制时,每一个因素与测试损失均呈现幂律关系。

在对数–对数坐标系中绘制时,结果会呈现令人惊讶的直线——这是幂律关系的标志。这种可预测性十分强大: 它意味着我们可以先训练较小模型,观察其性能,然后推算出更大模型在训练前就能达到的表现。

这些缩放关系的简化版本为:

  1. 受模型大小 (N) 限制:

    \[ L(N) = \left( \frac{N_c}{N} \right)^{\alpha_N} \]
  2. 受数据集大小 (D) 限制:

    \[ L(D) = \left( \frac{D_{\rm c}}{D} \right)^{\alpha_D} \]
  3. 受算力 (C) 限制:

    \[ L(C_{\min}) = \left( \frac{C_{\rm c}^{\min}}{C_{\min}} \right)^{\alpha_{\rm c}^{\min}} \]

这里,\(\alpha\) 是对数–对数空间中直线的斜率,而 \(N_c, D_c, C_c\) 是与数据集有关的常数。关键洞见是: 这种关系的形式是普适的。


重要的是大小,而非形状

一个令人惊讶的发现: 什么那么重要。你应该构建一个深而窄的 Transformer,还是一个浅而宽的 Transformer?在合理范围内,只要总参数数量 \(N\) 相同,这对性能影响甚微。

对于固定的参数数量,损失在各种架构形状下都非常稳定。

图 5: 对于固定的非嵌入参数数量,模型性能在架构 (宽高比、前馈比率等) 大幅变化的情况下,仅有几个百分点的波动。

这极大地简化了模型设计。研究人员无需耗费大量精力调节诸如层数或注意力头数等超参数,而只需专注于一件事: 增加总参数数量。


一个关键细节: 只计算非嵌入参数

一个重要的改进是意识到,决定性作用的“模型大小” \(N\) 应只包括非嵌入参数——即 Transformer 层中的参数,而不是词元嵌入中的参数。

一个语言模型包含:

  1. 核心模型: 处理输入并学习模式的 Transformer 层。
  2. 嵌入矩阵: 将每个词/词元映射到一个向量表示。

将嵌入参数计入 \(N\) 会混淆缩放规律。而只统计非嵌入参数可以得到更清晰、更普遍的趋势。

包含嵌入参数会掩盖趋势,排除它们后,无论深度如何,都会得到一条清晰的幂律曲线。

图 6: 左图: 包含嵌入参数时,性能依赖于深度和大小。右图: 排除嵌入参数后,趋势收敛到一条与深度无关的曲线。

实际意义: 减少嵌入矩阵的大小可以在不损害核心性能的前提下提高效率。


数据瓶颈: 多少才够?

模型大小与数据集大小之间的缩放定律提出了一个关键问题: 随着模型变大,我们需要多少额外数据?如果数据集大小固定而模型增大,模型最终会过拟合,性能出现平台期。

论文提出了一个结合 \(N\) 和 \(D\) 的统一公式:

\[ L(N,D) = \left[ \left( \frac{N_c}{N} \right)^{\frac{\alpha_N}{\alpha_D}} + \frac{D_c}{D} \right]^{\alpha_D} \]

对于大数据集,性能随模型大小呈幂律关系;但对于小数据集,性能曲线会变平。过拟合程度与 N^α / D 可预测地一同增长。

图 9: 左图: 当数据集 D 足够大时,性能随 N 平滑提升。右图: 对于较小的 D,过拟合导致增益趋于平缓,且过拟合与 \(N^{\alpha_N / \alpha_D} / D\) 高度相关。

由此,作者们提炼出一个避免数据瓶颈的优雅经验法则:

\[ D \propto N^{0.74} \]

意味着: 模型大小每增加 10 倍,数据量只需增加约 5.5 倍即可避免过拟合。数据需求的增长速度远慢于模型大小——对实践者而言是个好消息。


效率之谜: 更大的模型学得更快

另一个关键发现涉及**样本效率 **(sample efficiency) ——即模型从数据中学习速度的快慢。更大的模型在样本效率上显著高于小模型。

与小模型相比,大模型用更少的处理词元和算力就能达到更低损失。

图 2: 大模型比小模型在处理的词元数和算力消耗上更快达到低损失,因此样本效率更高。

一个十亿参数的模型可能仅用几十亿个词元就能达到 4.0 的损失;而一个微型模型无论训练多久,可能永远达不到这个水平。


最优策略: 训练巨型模型,提前停止

当算力预算 \(C\) 固定时,我们该如何分配?

选项:

  • 将小模型训练至收敛。
  • 将中等模型训练适中时长。
  • 将巨型模型训练较短时间。

缩放定律揭示了一个反直觉的真相:** 最优策略是训练你能负担的最大模型,并在远未完全收敛时就停止训练**。

十亿倍算力增长的最优分配: 大部分用于模型大小,较少用于批次大小/步数。

图 3: 大部分额外算力应投向更大的模型。只需稍微增加数据/批次大小,训练步数几乎不变。

在最优分配下:

\[ N \propto C^{0.73}, \quad S \propto C^{0.03} \]

最优模型大小随算力迅速增长;最优步数几乎不增加。

图 14: 左图: 算力每增加 10 倍,最优模型大小增长约 5 倍。右图: 最优训练步数几乎不变。

这意味着随着算力预算增加,几乎所有额外资源都应该用于扩大模型,而非延长训练时间。


展望未来: 一个矛盾与一个猜想

幂律在不同尺度上都成立——但它们不可能永远持续。语言有固有的熵,因此损失不可能降到零;曲线最终必然趋于平缓。

作者们外推后发现了一个矛盾: 算力高效训练预测的性能提升,最终会超过在数据使用缓慢增长 (\(D \propto C^{0.27}\)) 情况下所能达到的极限。

预测的交叉点,在该点上基于算力的扩展超越了受数据限制的性能。

图 15: 基于算力的扩展将超过数据集增长所能带来的性能。在此之后,缩放定律必将失效。

这一交叉点——约在 \(10^{12}\) 参数规模——可能意味着 Transformer 已经从文本中提取了绝大部分可预测信息。此时的损失 (约 1.7 nats/token) 可能接近自然语言的不可约熵。


结论: 人工智能的未来蓝图

《神经语言模型的缩放定律》这篇论文将该领域从经验技艺转变为科学。它用可预测的、实证的规律替代了猜测,揭示了规模化下支配语言模型性能的法则。

核心要点:

  1. 性能可预测: 模型损失随模型大小、数据集与算力呈幂律缩放——可用于预测更大模型的表现。
  2. 规模胜于形状: 非嵌入参数数量主导性能,在合理范围内深度/宽度影响很小。
  3. 越大越好 (也越快) : 大模型能更充分地利用相同数据。
  4. 训练大模型,提前停止: 在算力预算内尽量扩大模型,即使无法完全收敛。

这些原则奠定了 GPT-3 及后续模型的设计基础,也增强了我们推动规模边界、构建更强大系统的信心。

这些定律描述的平滑量变,可能暗藏能力上的巨大质变——正如物理学家 P.W. Anderson 恰当地指出的: *“量变引起质变” *(More is different) 。这篇论文为我们绘制了探索未来之路的地图,去探究事物究竟能变得多么不同。