引言
在人工智能的当前格局中,大语言模型 (LLMs) 在从翻译到创意写作等各类任务中都已达到了近乎人类的表现。然而,在这些成就之下隐藏着巨大的不平等。这些模型的有效性与预训练可用数据的庞大规模有着本质的联系。这为低资源语言筑起了一道“数据墙”。
如果你说英语、西班牙语或中文,AI 革命正为你提供良好的服务。但如果你说的是克丘亚语 (Quechua) ——一种拥有数百万使用者但数字足迹相对较小的语言,情况会怎样呢?对于这些语言,标准的训练方法往往失效。模型根本看不到足够的单词示例来有效地学习它们的含义或语法角色。
后果是严重的: 低资源语言面临着被排除在现代自然语言处理 (NLP) 红利之外的风险。研究人员曾试图通过多语言模型 (如 mBERT) 或数据增强 (生成合成文本) 来解决这个问题,但这些解决方案往往导致词汇表代表性不足或生成语义不通顺的句子。
在这篇文章中,我们将深入探讨一篇提出新颖几何解决方案的研究论文: TEMA (词元嵌入映射算法,Token Embedding Mapping Algorithm) 。 研究人员提出,与其在不存在数据的地方试图寻找更多数据,不如将语义知识从资源丰富的语言模型 (如西班牙语) “传送”到资源匮乏的模型 (如克丘亚语) 中。
核心问题: 低资源语言的数据饥渴
要理解为什么需要 TEMA,我们首先必须了解 Transformer 是如何学习的。像 BERT 或 RoBERTa 这样的模型是根据词元 (Token,即单词或子词) 的上下文和频率来学习其含义的。
研究表明,如果一个词元在训练数据中出现的次数少于 15 次,模型实际上会忽略它。它无法为该单词形成稳定的向量表示 (嵌入) 。在低资源语言中,绝大部分词汇都属于这种“低频”类别。
现有的解决方案试图对这个问题进行修补:
- 多语言模型: 同时在 104 种语言上训练一个模型 (例如 mBERT) 。虽然令人印象深刻,但其词汇表被高资源语言主导。低资源语言的词元通常被拆分成毫无语义价值的字符片段。
- 数据增强: 使用机器编写新句子以增加罕见词的计数。然而,确保这些合成句子的合理性非常困难,且往往会引入噪声。
TEMA 的作者提出了一个不同的问题: 如果在西班牙语模型中我们已经有了“狗”这个概念的完美表示,为什么不能直接将这个数学表示赋予克丘亚语中表示“狗”的单词呢?
解决方案: 词元嵌入映射 (TEMA)
TEMA 的核心假设是,不同语言的向量空间具有相似的几何结构。如果在英语模型的向量空间中,“猫”和“狗”靠得很近,那么在一个训练良好的克丘亚语模型中,它们也应该靠得很近。
由于克丘亚语模型训练不足,其向量空间是混乱的。TEMA 提议使用双语词典作为桥梁,将嵌入从充分预训练的模型 (L1) 映射到预训练不足的模型 (L2) 。
映射的几何学
这种方法在几何层面非常迷人。其目标是从丰富的 L1 模型中提取词元嵌入 (\(w_m\)) ,并将其投影到 L2 模型的向量空间中,以创建一个丰富后的嵌入 (\(u'_n\)) 。
为了在两个不同的数学空间 (L1 空间 \(S_r\) 和 L2 空间 \(S_p\)) 之间进行转换,算法需要一个参考点——一个对两个模型都通用的“北极星”。作者选择了数字 “1” 的词元。数字是通用的,几乎出现在所有语料库中,这使它们成为稳定的锚点。

如图 1 所示,该过程包括:
- 在丰富模型 (\(v_x\)) 和贫乏模型 (\(v_y\)) 中识别“1”这个词元。
- 在丰富模型中获取目标单词 (例如 \(w_m\) 代表 “perro”) 。
- 计算丰富空间中“perro”和“1”之间的向量差。
- 将该关系相对于贫乏模型中的“1”投影到贫乏空间中。
这种操作有效地将单词的语义“位置”从丰富语言转移到了贫乏语言中。
数学基础
这种变换由仿射变换定义。作者使用以下方程推导低资源词元的新嵌入 \(u'_n\):

这里,\(u_n\) 是原始 (贫乏的) 嵌入,第二项是丰富语义信息的投影。投影函数本身定义为:

这个公式确保丰富后的词元 \(u'_n\) 不仅仅是复制粘贴;它是经过数学适配的,以符合目标语言向量空间 (\(S_p\)) 的几何结构。
算法实践
TEMA 不仅能改进现有单词,还能扩展词汇表。流程如下:
- 查阅词典: 系统遍历双语词典 (例如西班牙语-克丘亚语) 。
- 词汇扩展: 如果词典中的克丘亚语单词不存在于模型的词汇表中,则将其添加进去。为了初始化这个新词元,模型会在包含该单词的一小组例句上进行简短的微调。
- 投影: 一旦词元存在 (无论是原有的还是新添加的) ,TEMA 利用其西班牙语对应翻译的丰富表示,使用上述方程计算其新向量。
- 更新: 使用这些新向量更新 L2 模型的嵌入层。至关重要的是,Transformer 模型的其余部分 (注意力层) 被冻结或仅进行非常轻微的微调,这意味着模型的“推理”能力保持不变,而其“词汇知识”却突飞猛进。
实验设置
为了证明 TEMA 有效,研究人员设置了严格的对比实验。他们主要关注克丘亚语 (Quechua) , 这是一种多式综合语 (polysynthetic language) ,由于其复杂的形态学 (单词由许多后缀堆叠而成) ,众所周知难以建模。
然而,为了确保结果并非侥幸,他们还通过人为限制训练数据,为英语、德语和法语创建了“模拟”的低资源环境。
模型
他们训练了几个基准模型来与 TEMA 进行比较:
- 单语基础模型: 从头开始在小型 (1000万词元) 语料库上训练的 BERT 和 RoBERTa。
- eB-BERT: 一种扩展词汇表但不使用几何映射的竞争方法。
- 多语言巨头: mBERT 和 XLM-RoBERTa (针对克丘亚语进行了微调) 。
分词器
这项研究中一个关键细节是分词 (tokenization) 。标准分词器如 BPE (字节对编码) 会将罕见词切分成毫无意义的子词片段 (例如,“running”可能变成 “run” + “ning”,但 “uncharacteristically” 可能变成 “un” + “ch” + “ara” + …) 。
为了让 TEMA 发挥作用,模型中的词元必须与词典中的单词匹配。因此,作者测试了 BPE 和 DeepSpin , 后者是一种能产生语言学上合理的片段 (词干) 的分词器,更有可能与词典条目匹配。

表 1 概述了模型架构。请注意,L2 模型是标准的 BERT/RoBERTa 规模,但训练数据量远少于通常情况。
结果与分析
结果提供了令人信服的证据,证明转移几何信息远优于单纯在小数据上训练。
1. 困惑度降低
困惑度 (Perplexity) 是衡量模型在预测下一个单词时“困惑”程度的指标。分数越低越好。
实验显示了巨大的改进。对于克丘亚语,当使用 RoBERTa + TEMA 配合 DeepSpin 分词器时,伪困惑度从惊人的 391.2 (BERT 10M) 下降到了仅 21.1 。 这表明模型从本质上的随机猜测转变为对语言结构和词汇有了扎实的掌握。
2. 改进的语义空间
数字虽好,但可视化更能说明问题。研究人员使用降维技术绘制了 TEMA 应用前后的克丘亚语模型向量空间。

在图 2 中,观察对比:
- 左图 (RoBERTa) : 点是散乱的。语义类别 (地点、动物、食物) 混乱地混合在一起。模型不理解“狗”和“狼”是相似的。
- 右图 (RoBERTa + TEMA) : 不同的颜色聚类在一起。所有紫色的点 (地点) 移动到了一个区域;蓝色的点 (动物) 聚集在另一个区域。
这幅图证明 TEMA 成功地从丰富语言中转移了语义结构。现在的克丘亚语模型“知道”动物属于同一个语义邻域,即使它并没有在克丘亚语中看到很多关于动物的句子。
3. 下游任务: SuperGLUE 和 Xtreme
为了验证这些更好的嵌入是否真的有助于解决问题,模型在 SuperGLUE 基准测试 (逻辑、推理和理解任务) 上进行了测试。

如表 3 所示, RoBERTa + TEMA (R+TEMA) 始终优于单语基线模型和双语微调模型 (eB-BERT)。
一个亮点是 WiC (Word in Context,语境中的单词) 任务,它询问一个单词在两个不同的句子中是否具有相同的含义。这需要深层的语义理解。TEMA 将准确率比基线提高了约 0.11 , 这在 NLP 领域是一个巨大的飞跃。
在 Xtreme 基准测试 (论文附录中的表 8) 中,TEMA 展现了其在克丘亚语上的真正威力。对于克丘亚语的词性标注 (POS) ,TEMA 达到了 0.84 的 F1 分数,显著击败了庞大的 XLM-RoBERTa 模型 (仅达到 0.72 )。这证实了对于真正的低资源语言,通过 TEMA 丰富的小型专用模型优于通用的大型多语言模型。
4. “填空”合理性检查
最后,作者进行了定性测试。他们给模型一些缺失单词 (被掩码) 的句子,并要求模型填空。

表 4 清楚地显示了差异:
- 句子: “The boy ____ to Lima to study.” (那个男孩 ____ 去利马学习。)
- RoBERTa (基础): 猜测 “goes” (去,0.15) ,但也低置信度地猜测 “travels” (旅行) 和 “goes up” (上升) 。
- RoBERTa + TEMA: 以高得多的置信度猜测 “goes” (0.35) 和 “comes” (来,0.18) 。
在表中的第一个例子 (“在晚上吠叫”) 中,基础模型预测“男孩”或“男人”。TEMA 模型正确地预测了“狗”或“狼”。这个简单的测试证明语义转移是成功的: 模型现在将“吠叫”与犬科动物联系在了一起。
结论与启示
TEMA 研究论文提出了一个强有力的论点: 我们并不总是需要更多的数据;有时,我们只需要更好的几何学。通过将高资源语言形态良好的向量空间映射到低资源语言上,TEMA 充当了一座桥梁,转移了否则需要数十亿单词才能学到的知识。
关键要点:
- 词汇转移有效: 你可以使用简单的几何投影将单词的含义从一种语言“移植”到另一种语言。
- 击败巨头: 对于像克丘亚语这样代表性不足的语言,TEMA 允许小型模型超越大规模的行业标准多语言模型。
- 词典要求: 该方法确实需要高质量的双语词典和具有语言学意识的分词器 (如 DeepSpin) 才能发挥最佳效果。
这项工作为 AI 的普惠化带来了希望。它表明,凭借一本好词典和一个聪明的算法,我们可以为那些被 AI 革命遗忘的成千上万种语言构建高质量的语言模型。
](https://deep-paper.org/en/paper/file-3696/images/cover.png)