像 LLaMA 和 GPT-4 这样的大型语言模型 (LLM) 已经彻底改变了我们与技术交互的方式。虽然这些模型在技术上是多语言的,但有一个问题: 它们主要是在英语文本上训练的。它们通常将其他语言视为“二等公民”,是自发地通过上下文习得,而不是系统性地学习。
这就导致了一种被称为跨语言对齐能力较弱 (weak cross-lingual alignment) 的现象。一个 LLM 可能知道某条英语事实 (例如,“The piano was invented in Italy”) ,但当用中文或俄语询问同样的事实时,它却无法回忆起来。这些知识被“卡”在模型大脑的英语区域中。
在这篇文章中,我们将深入探讨一篇题为 “PREALIGN: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment” (PREALIGN: 通过早期建立多语言对齐来提升跨语言迁移) 的论文。研究人员提出了一个新的框架,颠覆了传统的训练脚本。与其寄希望于模型在训练过程中自己对齐语言,他们强迫模型在开始繁重的预训练工作之前,先学习一部多语言词典。
问题所在: 自发对齐太慢了
如今大多数多语言模型都是通过联合训练 (Joint Training) 训练出来的。你给模型喂入大量的英语、德语、中文和阿拉伯语混合文本,并优化它来预测下一个词。随着时间的推移,模型会注意到一些模式——比如“cat”和“gato”经常出现在相似的语境中。
然而,研究表明这种“自发对齐”效率很低。
- 太慢: 模型需要数十亿个 token 才能搞清楚语言之间的映射关系。
- 太浅: 虽然模型可能很好地学习了语法,但它很难跨语言共享事实性知识 。
- 易忘: 试图在预训练之后修复这个问题 (事后对齐) 往往会降低模型的通用性能。
PREALIGN 的作者们提出了一个简单的问题: 如果我们教模型在阅读数百万本书籍之前,先学会“cat”等于“gato”会怎样?
解决方案: PREALIGN 框架
PREALIGN 是一个两阶段框架,旨在早期注入多语言对齐信息,并在整个训练过程中维持这种对齐。

如上图 图 1 所示,该过程包含两个明显的阶段:
- 阶段 1: 对齐注入 (预训练前) : 初始化模型,使其为成对的翻译词生成相似的向量表示。
- 阶段 2: 仅输入端的语码转换 (预训练期间) : 使用一种特殊的数据增强技术,确保模型在学习语言结构时不会忘记对齐关系。
让我们逐一拆解。
阶段 1: 通过对比学习注入对齐
在模型接触海量文本语料库 (如 CulturaX 数据集) 之前,研究人员构建了一个多语言对齐表 。 他们提取源语言 (英语) 的词汇表,并使用高质量的翻译器 (如 GPT-4) 在目标语言中找到对应的词 (例如: 德语 Klavier,中文 钢琴) 。
一旦有了这些词对,他们就使用对比学习 (Contrastive Learning) 。 目标很简单: 强迫模型内部对“Piano”的表示 (Embedding) 在数学上与“Klavier”和“钢琴”非常接近。
为此,他们提取词 \(w\) 在第 \(l\) 层的表示:

在这里,模型将子词 (sub-word) token 聚合为单个词的表示。然后,他们应用对比损失函数。该函数在向量空间中拉近对齐的词,同时推开不相关的词:

这个损失是在模型的所有层上计算的 (见下式) ,以确保深度对齐,而不仅仅是在表面层级。

最后,为了防止模型学到的表示虽然对齐很好但对语言生成毫无用处,他们在这个阶段加入了一个小的语言建模 (LM) 目标:

阶段 2: 仅输入端的语码转换
一旦模型使用这些对齐的嵌入进行了初始化,真正的预训练就开始了。然而,如果我们简单地切换到标准训练,模型可能会灾难性地遗忘刚刚学到的对齐关系。
为了防止这种情况,作者使用了语码转换 (Codeswitching) ——即在一个句子中混合使用多种语言。但他们引入了一个转折。
标准的语码转换会同时改变输入和目标。如果输入是“He plays the Klavier”,模型也被期望输出“Klavier”。这会混淆模型,导致“混合脚本 (mixed-script) ”输出,即模型在回答时开始随机切换语言。
作者提出了仅输入端的语码转换 (Input-Only Codeswitching) 。

如 图 2 所示,他们替换输入中的一个词 (例如,将“Piano”改为“Klavier”) ,但要求模型在输出上下文中预测原始语言的词。
在数学上,不使用预测被替换 token 的普通目标 (公式 5) :

他们使用的是仅输入端目标 (公式 6) ,实际上跳过了对外语 token 的预测,而专注于上下文:

这迫使模型理解 Klavier 在句子结构中的功能与 Piano 完全相同,从而在不破坏模型生成能力的情况下增强对齐。
实验设置: “英语克隆版 (English-Clone) ”
为了严格测试这一点,作者设计了一个巧妙的实验,使用一种称为 English-Clone 的合成语言。

如 图 3 所示,English-Clone 在语法和词汇分布上与英语完全相同,但 token 被映射到了不同的 ID (例如,“weather”变成了“weather*”) 。由于词汇表零重叠,任何从英语到 English-Clone 的知识迁移都必须来自于训练方法,而不是靠运气猜对的。
他们在三个指标上评估了模型:
- 语言建模 (LM): 困惑度 (Perplexity,越低越好) 。
- 零样本跨语言迁移 (ZS-CLT): 在英语数据上训练分类器,并在目标语言上进行测试。
- 跨语言知识应用 (CLKA): 这是“圣杯”级别的目标。模型能学会英语中的一个事实,并用目标语言回答出来吗?
结果
1. 合成设置 (英语到 English-Clone)
合成设置下的结果令人震惊。

观察 表 1 :
- 联合训练 (Joint Training) (标准方法) 在跨语言知识应用 (CLKA) 上仅达到 26.5% 的准确率。这仅比随机猜测好一点点,证实了标准训练难以迁移知识。
- PREALIGN 将该准确率飙升至 90.3% 。
- PREALIGN 还实现了更好的困惑度 (16.5 vs 21.6) 和更好的零样本迁移 (79.3 vs 74.9) 。
作者还将 PREALIGN 与其他对齐策略进行了比较,例如“在线 (on-the-fly) ”对齐 (在训练期间进行) 或“事后 (post-hoc) ”对齐 (在训练后进行) 。

表 2 证实,首先进行对齐 (PreAlign) 优于试图在后期修补。
2. 为什么它有效?
作者分析了学习曲线,以查看知识迁移何时发生。

图 4 非常引人入胜。请看下面两张图 (跨语言知识) 。
- 蓝线 (联合训练) 停留在底部。模型学习了英语事实,但从未弄清楚如何将它们应用到 English-Clone 中。
- 红线 (PREALIGN) 迅速上升。因为词汇从第 0 步开始就是对齐的,一旦模型学到了关于“Piano”的事实,它立即就适用于“Piano*”。
通过分析训练过程中嵌入的余弦相似度,这一点得到了进一步支持。

在 图 5 中, 绿线 (PREALIGN) 以高相似度开始 (归功于初始化) ,并得益于语码转换而保持了高相似度。 蓝线 (联合训练) 从接近零开始缓慢爬升,但从未达到 PREALIGN 的高对齐度。
3. 真实场景表现
合成语言很有趣,但这适用于真实语言吗?研究人员在中文 (Zh)、德语 (De)、阿拉伯语 (Ar) 和俄语 (Ru) 上测试了 PREALIGN。

表 6 (如上所示的详细结果表) 显示了全面的胜利:
- 困惑度 (LM): 与联合训练相比,PREALIGN 降低了所有语言的困惑度。
- 知识 (CLKA): 显著提升。例如,在中文 (Zh) 中,知识应用从 37.8% 跃升至 63.8% (在 400M 模型中) 。
- 规模: 即使模型规模从 1.5 亿参数增加到 13 亿参数,这种优势依然存在。
4. 对未见过词汇的泛化
你可能会问: “我是否需要为语言中的每一个词都准备一本词典?”
作者通过仅对齐最常用的 25%、50% 和 75% 的词汇对此进行了测试。

图 6 显示,即使对于未见过的词 (Unseen words) (初始词典中没有的词) ,PREALIGN (橙色柱) 也比联合训练 (蓝色柱) 实现了更低的困惑度。模型学习到了对齐的模式,并将其泛化到了新的词汇上。
结论
PREALIGN 揭示了多语言 LLM 的一个关键见解: 顺序很重要。
通过在强迫模型学习复杂的语法和事实之前,先在模型的神经通路中建立“双语词典”,我们建立了一座桥梁。这座桥梁使得在英语中获取的知识 (占训练数据的绝大部分) 能够无缝地流向其他语言。
给学生和开发者的关键启示:
- 早期对齐: 初始化不仅仅是随机噪声;它是一个注入结构的机会。
- 仅输入端的语码转换: 一个简单的数据增强技巧可以防止“遗忘”,同时不会混淆模型的输出生成。
- 知识迁移: 解决语言障碍不仅仅是翻译;更是关于跨越语言边界共享事实和推理能力。
随着我们努力打造真正的通用 LLM,像 PREALIGN 这样的技术提供了一条充满希望的道路,帮助我们摆脱以英语为中心的偏差,走向能够以概念而非仅仅以关键词进行思考的模型。
](https://deep-paper.org/en/paper/2407.16222/images/cover.png)