如果你曾尝试从头开始训练大型语言模型 (LLM) ,你一定深知其中的痛苦。这需要海量的计算资源、庞大的数据量,以及通常只有科技巨头才拥有的预算。但有一个问题一直困扰着研究人员: 既然我们已经拥有了精通英语的优秀模型 (如 LLaMA) ,为什么还要花费数百万美元从头训练新模型,仅仅是为了教它们一门新语言 (比如中文) 呢?

我们难道不能……接着英语模型留下的基础继续训练吗?

这个概念被称为持续预训练 (Continual Pre-Training, CPT) 。 虽然听起来很直观,但知识如何在大规模下跨语言迁移的动态机制一直是个谜。著名的“缩放定律 (Scaling Laws) ”还适用吗?模型在学习中文时会忘记英语吗?到底能节省多少算力?

在论文 Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale 中,来自中国科学院、北京大学等机构的研究人员进行了一项大规模实证研究来回答这些问题。他们训练了 40 种不同规模的模型,以绘制跨语言迁移的物理规律。

在这篇文章中,我们将拆解他们的发现,探索他们提出的新“扩展缩放定律 (Extended Scaling Law) ”背后的数学原理,并揭示为什么“教老模型学新把戏”可能是高效 AI 的未来。

问题所在: “白板 (Tabula Rasa) ”的高昂代价

如今大多数基础 LLM 都是 tabula rasa 训练的——也就是从白板 (零基础) 开始。模型从随机初始化的参数 (噪声) 开始,慢慢学习数万亿个 token 上的概率分布。

这很低效。人类不是这样学习的。如果你会说英语并想学中文,你不会忘记什么是“动词”或“名词”;你会将新词汇映射到你现有的语言结构理解上。

研究人员提出系统地测试持续预训练 (CPT) 。 他们在两种策略之间建立了严格的对比:

  1. 从头训练 (Training from Scratch) : 在中文语料库上进行随机初始化的训练。
  2. 持续预训练 (Continual Pre-Training) : 使用预训练的英语模型进行初始化,然后在中文语料库上训练。

实验设置

为了确保结果具有统计显著性并遵循可预测的趋势 (缩放定律) ,作者不仅训练了一个大模型。他们训练了 40 种不同规模的模型 , 参数范围从 40M 到 5B。

Table 1: Training configurations for pre-training. All three sets of models are trained with identical parameter sizes which cover 40 sizes spanning from 50M to 5.5B.

如上表所示,他们保持了批次大小和学习计划的一致性,以确保性能的任何差异纯粹来自初始化策略。

核心发现: CPT 更便宜且更快

预训练成功的主要指标是验证损失 (Validation Loss) ——本质上是模型对新文本的惊讶程度。损失越低意味着模型越聪明。

当研究人员将损失与计算投入 (以 FLOPS 衡量) 绘制成图表时,两种策略之间的差异显而易见。

Figure 1: Loss curves of pre-training and continual pre-training (CPT) across different model sizes.

仔细观察图 1 中的左图蓝线 (CPT) 始终低于品红线 (从头开始)

  • 早期增益: 在训练开始时,CPT 模型的损失下降得快得多。这是合理的;模型已经知道如何处理一般的语言 (句法、语法逻辑) ,即使具体的 token 不同。
  • 持续增益: 即使随着训练的进行,差距缩小了,但仍然存在。

右图放大了一个特定案例 (一个 2B 参数模型) 。它揭示了一个惊人的统计数据: 要达到相同的性能水平 (损失) ,CPT 模型所需的 FLOPS 大约减少了 50% 。 在 LLM 训练的世界里,一次运行可能花费数百万美元,50% 的折扣是革命性的。

重新定义迁移学习的缩放定律

这篇论文最重要的贡献之一是对 CPT 为何有效的数学形式化。

我们普遍接受 Chinchilla 缩放定律 (Hoffmann et al., 2022) 作为理解 LLM 性能的黄金标准。它指出损失 (\(L\)) 是参数 (\(N\)) 和数据 (\(D\)) 的函数。

Standard Chinchilla Scaling Law Equation.

在这个标准方程中:

  • \(E\) 是不可约损失 (自然文本的熵) 。
  • \(A/N^\alpha\) 代表由于模型规模有限而产生的误差。
  • \(B/D^\beta\) 代表由于训练数据有限而产生的误差。

然而,该定律假设你是从头开始的。它未能考虑到知识从源模型的“迁移”。研究人员发现,简单地将此方程拟合到 CPT 数据会导致预测效果不佳。

扩展缩放定律 (Extended Scaling Law)

为了解决这个问题,作者提出了一个新的项。他们假设从英语模型有效“迁移”的数据量不是恒定的——它取决于模型的大小。更大的模型具有更高的容量来存储适用于英语和中文的抽象语言结构 (元知识) 。

他们引入了一个数据-参数联合缩放项 :

Extended Scaling Law Equation.

注意第三项的变化: \(\frac{B'}{D^{\beta'} N^{\gamma}}\)。 数据 (\(D\)) 不再单独起作用,而是通过指数 \(\gamma\) 与参数规模 (\(N\)) 耦合。

  • 如果 \(\gamma\) 为正,意味着在迁移学习期间,更大的模型在利用训练数据方面效率更高。

研究人员将此新方程拟合到其实验数据中,发现 \(\gamma = 0.08\)。这在数学上证实了跨语言迁移与模型规模正相关。相比 100M 参数的模型,5B 参数的模型从预训练的英语权重中获得了更高的“性价比”。

量化节省

这个过程实际上节省了多少数据?研究人员计算了“有效迁移数据 (Effectively Transferred Data) ”——本质上是因为模型已经懂英语,你不必进行的中文训练 token 数。

Figure 2: Reduced computational resources (top) and data consumption (bottom) with CPT.

图 2 中的下图特别具有启发性。

  • Y 轴代表“有效迁移数据”。
  • 线条代表不同的模型规模 (蓝色是 5B,绿色是 100M) 。

你可以看到 蓝线 (5B) 远高于其他线条。这验证了扩展缩放定律: 相比小模型,大模型本质上从其英语初始化中“下载”了更多的知识。

具有普适性吗? (法语、俄语和中文)

你可能想知道这是否仅适用于中文,还是 LLM 的普遍属性。为了测试这一点,作者进行了类似的实验,将英语模型迁移到法语俄语

Figure 3: Zero-shot evaluation for pre-trained and continually pre-trained (CPT) models of different languages.

图 3 显示了各种基准测试中的零样本准确率。

  • 蓝/绿/橙柱: CPT (持续预训练) 。
  • 灰柱: 从头训练。

在每一个案例中——无论是法语 (类似英语) 、俄语 (西里尔字母) 还是中文 (表意文字) ——CPT 模型的表现都优于从头训练的模型。有趣的是, 法语的迁移效果最强,这可能是因为它与源语言 (英语) 具有高度的语言相似性 (词汇和语法) 。

最佳实践: 如何分配你的预算

如果你是计划进行 CPT 运行的工程师,你有一个固定的计算预算 (\(C\)) 。Chinchilla 论文为我们提供了一个著名的配方,用于在从头训练时如何在模型规模 (\(N\)) 和训练数据 (\(D\)) 之间分配预算:

Standard Chinchilla Optimal Allocation.

然而,由于 CPT 提高了学习效率,最优配方也随之改变。利用他们新的扩展缩放定律,研究人员推导出了 CPT 最优分配 :

CPT Optimal Allocation Equation.

这看起来很复杂,所以让我们用“有效前沿 (Efficient Frontier) ”来可视化它。

Figure 5: Predicted compute-optimal efficient frontiers on IsoLoss contour for both strategies.

在图 5 中, 品红线 (CPT) 位于 蓝线 (从头开始) 的左侧。

  • X 轴是 FLOPs (成本) 。
  • Y 轴是参数 (模型规模) 。

对于相同的预算 (在特定 X 值处垂直向上移动) ,最优的 CPT 模型比最优的从头训练模型更大

结论: 因为模型通过英语权重已经“早熟”,你不需要那么多的训练 token 就能达到收敛。因此,如果你有特定的计算预算,你应该把更多的预算花在增加模型规模上,而不是收集更多数据。

灾难性遗忘的危险

CPT 有一个主要的陷阱。当模型学习中文时,它会忘记英语吗?

答案是肯定的 。如果不加干预,模型在英语文本上的困惑度 (perplexity) 会飙升,实际上破坏了其原有的能力。这就是所谓的灾难性遗忘 (Catastrophic Forgetting)

作者提出的解决方案是数据回放 (Data Replaying) : 将一定比例的原始英语数据混合回中文训练流中。但什么是神奇的比例呢?1%?50%?

Figure 4: Scaling of CPT with different English replaying ratios.

图 4 展示了“遗忘缩放定律”。

  • 左图: 英语文本上的损失。
  • 右图: 中文文本上的损失。
  • 颜色: 深蓝色 = 混合的英语数据比例更高。

左图中,注意那个“U 形”。最初,英语损失上升 (遗忘) ,但随着混合数据训练的继续,损失回落。关键是,浅蓝色的线 (1% 或 5% 英语数据) 仍然显示出显著的遗忘 (高损失) 。

然而,看右图 , 添加英语数据几乎完全不会损害中文性能!曲线几乎是相同的。

寻找最佳平衡点

为了找到确切的最佳比例,研究人员在下游任务上对模型进行了基准测试。

Figure 6: Model performance on English and Chinese benchmarks at different English data replaying ratios with 1.4B parameters.

在图 6 中,我们看到了一个交叉点。

  • 实心深蓝线 (预训练英语) : 英语很好,中文很差。
  • 粉线 (预训练中文) : 中文很好,英语很差。
  • 浅蓝线 (继续训练 w/ 20% 英语) : 平衡点。

作者得出的结论是, 10% 到 30% 的回放比例是最佳平衡点。它有效地防止了源语言的灾难性遗忘,同时几乎不会对目标语言的学习造成惩罚。

结论

每个 LLM 都从头开始训练的日子可能屈指可数了。这项研究为持续预训练提供了坚实的理论和实证基础。

通过将预训练模型不视为成品,而是作为初始化检查点,我们可以让新语言的 LLM 开发更加普及。论文证明这种方法不仅可行,而且更优越,提供了:

  1. 效率: 计算量减少 25-50%。
  2. 性能: 比从头训练更低的损失。
  3. 可扩展性: 一个新的缩放定律,帮助我们设计最优模型。

对于学生和从业者来说,教训是显而易见的: 有意义的 AI 进步并不总是需要更大的 GPU 集群。有时,它只需要站在前人 (或者 LLaMA) 的肩膀上。