PreAlign：教大模型在识字前先学会翻译

像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的，但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”，是自发地通过上下文习得，而不是系统性地学习。

这就导致了一种被称为跨语言对齐能力较弱 (weak cross-lingual alignment) 的现象。一个 LLM 可能知道某条英语事实 (例如，“The piano was invented in Italy”) ，但当用中文或俄语询问同样的事实时，它却无法回忆起来。这些知识被“卡”在模型大脑的英语区域中。

在这篇文章中，我们将深入探讨一篇题为 “PREALIGN: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment” (PREALIGN: 通过早期建立多语言对齐来提升跨语言迁移) 的论文。研究人员提出了一个新的框架，颠覆了传统的训练脚本。与其寄希望于模型在训练过程中自己对齐语言，他们强迫模型在开始繁重的预训练工作之前，先学习一部多语言词典。

问题所在: 自发对齐太慢了

如今大多数多语言模型都是通过联合训练 (Joint Training) 训练出来的。你给模型喂入大量的英语、德语、中文和阿拉伯语混合文本，并优化它来预测下一个词。随着时间的推移，模型会注意到一些模式——比如“cat”和“gato”经常出现在相似的语境中。

然而，研究表明这种“自发对齐”效率很低。

太慢: 模型需要数十亿个 token 才能搞清楚语言之间的映射关系。
太浅: 虽然模型可能很好地学习了语法，但它很难跨语言共享事实性知识 。
易忘: 试图在预训练之后修复这个问题 (事后对齐) 往往会降低模型的通用性能。

PREALIGN 的作者们提出了一个简单的问题: 如果我们教模型在阅读数百万本书籍之前，先学会“cat”等于“gato”会怎样?

解决方案: PREALIGN 框架

PREALIGN 是一个两阶段框架，旨在早期注入多语言对齐信息，并在整个训练过程中维持这种对齐。

图 1: PREALIGN 示意图。蓝色、红色和绿色的词分别代表钢琴、吉他和小提琴的翻译。

如上图 图 1 所示，该过程包含两个明显的阶段:

阶段 1: 对齐注入 (预训练前) : 初始化模型，使其为成对的翻译词生成相似的向量表示。
阶段 2: 仅输入端的语码转换 (预训练期间) : 使用一种特殊的数据增强技术，确保模型在学习语言结构时不会忘记对齐关系。

让我们逐一拆解。

阶段 1: 通过对比学习注入对齐

在模型接触海量文本语料库 (如 CulturaX 数据集) 之前，研究人员构建了一个多语言对齐表 。他们提取源语言 (英语) 的词汇表，并使用高质量的翻译器 (如 GPT-4) 在目标语言中找到对应的词 (例如: 德语 Klavier，中文 钢琴) 。

一旦有了这些词对，他们就使用对比学习 (Contrastive Learning) 。目标很简单: 强迫模型内部对“Piano”的表示 (Embedding) 在数学上与“Klavier”和“钢琴”非常接近。

为此，他们提取词 \(w\) 在第 \(l\) 层的表示:

公式 1

在这里，模型将子词 (sub-word) token 聚合为单个词的表示。然后，他们应用对比损失函数。该函数在向量空间中拉近对齐的词，同时推开不相关的词:

公式 2

这个损失是在模型的所有层上计算的 (见下式) ，以确保深度对齐，而不仅仅是在表面层级。

公式 3

最后，为了防止模型学到的表示虽然对齐很好但对语言生成毫无用处，他们在这个阶段加入了一个小的语言建模 (LM) 目标:

公式 4

阶段 2: 仅输入端的语码转换

一旦模型使用这些对齐的嵌入进行了初始化，真正的预训练就开始了。然而，如果我们简单地切换到标准训练，模型可能会灾难性地遗忘刚刚学到的对齐关系。

为了防止这种情况，作者使用了语码转换 (Codeswitching) ——即在一个句子中混合使用多种语言。但他们引入了一个转折。

标准的语码转换会同时改变输入和目标。如果输入是“He plays the Klavier”，模型也被期望输出“Klavier”。这会混淆模型，导致“混合脚本 (mixed-script) ”输出，即模型在回答时开始随机切换语言。

作者提出了仅输入端的语码转换 (Input-Only Codeswitching) 。

图 2: 普通语码转换与所提出的仅输入端语码转换的对比。

如 图 2 所示，他们替换输入中的一个词 (例如，将“Piano”改为“Klavier”) ，但要求模型在输出上下文中预测原始语言的词。

在数学上，不使用预测被替换 token 的普通目标 (公式 5) :

公式 5

他们使用的是仅输入端目标 (公式 6) ，实际上跳过了对外语 token 的预测，而专注于上下文:

公式 6

这迫使模型理解 Klavier 在句子结构中的功能与 Piano 完全相同，从而在不破坏模型生成能力的情况下增强对齐。

实验设置: “英语克隆版 (English-Clone) ”

为了严格测试这一点，作者设计了一个巧妙的实验，使用一种称为 English-Clone 的合成语言。

图 3: English-Clone 创建过程示意图。

如 图 3 所示，English-Clone 在语法和词汇分布上与英语完全相同，但 token 被映射到了不同的 ID (例如，“weather”变成了“weather*”) 。由于词汇表零重叠，任何从英语到 English-Clone 的知识迁移都必须来自于训练方法，而不是靠运气猜对的。

他们在三个指标上评估了模型:

语言建模 (LM): 困惑度 (Perplexity，越低越好) 。
零样本跨语言迁移 (ZS-CLT): 在英语数据上训练分类器，并在目标语言上进行测试。
跨语言知识应用 (CLKA): 这是“圣杯”级别的目标。模型能学会英语中的一个事实，并用目标语言回答出来吗？

结果

1. 合成设置 (英语到 English-Clone)

合成设置下的结果令人震惊。

表 1: PREALIGN 与其他方法的性能对比

观察 表 1 :

联合训练 (Joint Training) (标准方法) 在跨语言知识应用 (CLKA) 上仅达到 26.5% 的准确率。这仅比随机猜测好一点点，证实了标准训练难以迁移知识。
PREALIGN 将该准确率飙升至 90.3% 。
PREALIGN 还实现了更好的困惑度 (16.5 vs 21.6) 和更好的零样本迁移 (79.3 vs 74.9) 。

作者还将 PREALIGN 与其他对齐策略进行了比较，例如“在线 (on-the-fly) ”对齐 (在训练期间进行) 或“事后 (post-hoc) ”对齐 (在训练后进行) 。

表 2: 不同阶段进行对比对齐的比较

表 2 证实，首先进行对齐 (PreAlign) 优于试图在后期修补。

2. 为什么它有效？

作者分析了学习曲线，以查看知识迁移何时发生。

图 4: 不同训练阶段的知识应用准确率

图 4 非常引人入胜。请看下面两张图 (跨语言知识) 。

蓝线 (联合训练) 停留在底部。模型学习了英语事实，但从未弄清楚如何将它们应用到 English-Clone 中。
红线 (PREALIGN) 迅速上升。因为词汇从第 0 步开始就是对齐的，一旦模型学到了关于“Piano”的事实，它立即就适用于“Piano*”。

通过分析训练过程中嵌入的余弦相似度，这一点得到了进一步支持。

图 5: 不同模型中对齐词的词嵌入余弦相似度的演变

在 图 5 中, 绿线 (PREALIGN) 以高相似度开始 (归功于初始化) ，并得益于语码转换而保持了高相似度。 蓝线 (联合训练) 从接近零开始缓慢爬升，但从未达到 PREALIGN 的高对齐度。

3. 真实场景表现

合成语言很有趣，但这适用于真实语言吗？研究人员在中文 (Zh)、德语 (De)、阿拉伯语 (Ar) 和俄语 (Ru) 上测试了 PREALIGN。

表 6: 真实场景下的性能结果

表 6 (如上所示的详细结果表) 显示了全面的胜利:

困惑度 (LM): 与联合训练相比，PREALIGN 降低了所有语言的困惑度。
知识 (CLKA): 显著提升。例如，在中文 (Zh) 中，知识应用从 37.8% 跃升至 63.8% (在 400M 模型中) 。
规模: 即使模型规模从 1.5 亿参数增加到 13 亿参数，这种优势依然存在。

4. 对未见过词汇的泛化

你可能会问: “我是否需要为语言中的每一个词都准备一本词典？”

作者通过仅对齐最常用的 25%、50% 和 75% 的词汇对此进行了测试。

图 6: 根据多语言对齐阶段分类的“见过”和“未见过”词汇的语言建模困惑度

图 6 显示，即使对于未见过的词 (Unseen words) (初始词典中没有的词) ，PREALIGN (橙色柱) 也比联合训练 (蓝色柱) 实现了更低的困惑度。模型学习到了对齐的模式，并将其泛化到了新的词汇上。

结论

PREALIGN 揭示了多语言 LLM 的一个关键见解: 顺序很重要。

通过在强迫模型学习复杂的语法和事实之前，先在模型的神经通路中建立“双语词典”，我们建立了一座桥梁。这座桥梁使得在英语中获取的知识 (占训练数据的绝大部分) 能够无缝地流向其他语言。

给学生和开发者的关键启示:

早期对齐: 初始化不仅仅是随机噪声；它是一个注入结构的机会。
仅输入端的语码转换: 一个简单的数据增强技巧可以防止“遗忘”，同时不会混淆模型的输出生成。
知识迁移: 解决语言障碍不仅仅是翻译；更是关于跨越语言边界共享事实和推理能力。

随着我们努力打造真正的通用 LLM，像 PREALIGN 这样的技术提供了一条充满希望的道路，帮助我们摆脱以英语为中心的偏差，走向能够以概念而非仅仅以关键词进行思考的模型。

问题所在: 自发对齐太慢了#

解决方案: PREALIGN 框架#

阶段 1: 通过对比学习注入对齐#

阶段 2: 仅输入端的语码转换#

实验设置: “英语克隆版 (English-Clone) ”#

结果#

1. 合成设置 (英语到 English-Clone)#

2. 为什么它有效？#

3. 真实场景表现#

4. 对未见过词汇的泛化#

结论#