](https://deep-paper.org/en/papers/2025-10/2001.08361/images/cover.png)
量变引起质变 —— 语言模型性能惊人的可预测性
在人工智能的世界里,大型语言模型 (LLM) 似乎是一种现代炼金术。我们将海量数据集、庞大的神经网络和惊人数量的计算资源混合在一起——然后就诞生了能够写诗、调试代码和解释复杂主题的模型。 但这一切为什么会起作用?如果我们拥有十倍的资源,我们能让它进步多少?这背后是否有章可循,还是只是碰运气? 2020年,来自 OpenAI 和约翰斯·霍普金斯大学的一组研究人员发表了里程碑式的论文《神经语言模型的缩放定律》 (Scaling Laws for Neural Language Models) ,为这个混沌的领域带来了非凡的清晰度。他们发现,语言模型的性能一点也不随机,相反,它遵循着简单、可预测的数学规律——具体来说,是幂律——并且这种规律在跨越惊人的七个数量级时都成立。 这篇论文提供了一份类似构建 LLM 的速查表: 它告诉我们如何扩展模型、需要多少数据,以及如何最优分配固定的计算预算。这些见解不仅实用,而且深刻,暗示着人工智能能力的质变可能源于平滑、可预测的量的扩展。 在本文中,我们将解析论文的核心发现,并探索支配着我们时代最复杂技术之一的简单定律。 背景: 衡量模型的“好坏” 在深入探讨之前,让我们先统一一些基本概念。本研究中的模型主要是 Transformer——这种神经网络架构为几乎所有现代 LLM 提供了动力。它们的训练任务很直接: 预测文本序列中的下一个词 (更准确地说是下一个词元) 。 我们如何衡量模型执行该任务的好坏呢?这里的主要指标是**交叉熵损失 **(cross-entropy loss) ——可以把它看作是惊讶程度的量度。 如果模型在看到“the big blue …”后强烈预测下一个词是“sky”,而实际的词确实是“sky”,那么损失就很低。 如果实际的下一个词是“house”,模型会感到惊讶,损失就会高。 损失越低意味着预测越好,这与更强的语言理解能力相关。训练的目标始终是尽可能降低损失。 研究人员训练了数百个 Transformer 模型,调整了许多因素: 参数数量 训练数据量 训练时长 甚至模型的形状 (深度与宽度) 然后,他们测量最终的测试损失,来探究最关键的影响因素。 规模化的三大支柱: 模型大小、数据和算力 该论文的核心发现是,语言模型的性能主要由三个因素决定: 模型大小 (N): 网络中可训练的非嵌入参数数量。 数据集大小 (D): 模型在训练中看到的词元总数量。 算力 (C): 用于训练的总计算量。 至关重要的是,损失与这些因素之间的关系遵循幂律。简单来说,当你增加 N、D 或 C 时,损失会沿着一条平滑、可预测的曲线下降。这一点在该论文的主要总结图中有清楚的展示: 图 1: 随着模型大小、数据集大小和算力的提升,语言建模性能平滑改善。当不受另外两个因素的瓶颈限制时,每一个因素与测试损失均呈现幂律关系。 在对数–对数坐标系中绘制时,结果会呈现令人惊讶的直线——这是幂律关系的标志。这种可预测性十分强大: 它意味着我们可以先训练较小模型,观察其性能,然后推算出更大模型在训练前就能达到的表现。 ...