简介
想象一下学习一门没有字典、没有教科书且不支持谷歌翻译的语言。现在,想象一下教计算机去翻译这门语言。这就是全球成千上万种“低资源”和濒危语言所面临的现实。
现代机器翻译 (MT) 系统,就像我们要日常使用的翻译工具背后的系统一样,是渴求数据的“巨兽”。它们通过观察数百万个翻译句子的示例 (即平行数据 )来学习。例如,要学习英语到西班牙语的翻译,模型需要分析包含英语句子及其对应西班牙语翻译的巨大数据集。
但是,当这些平行数据集不存在时会发生什么呢?
这造成了一个“先有鸡还是先有蛋”的问题。要构建翻译系统,你需要平行数据。要高效地找到平行数据 (这一过程称为句子挖掘 ),通常需要一个强大的多语言模型……但这又需要平行数据来训练。
在这篇文章中,我们将深入探讨一篇名为 “Improving Parallel Sentence Mining for Low-Resource and Endangered Languages” 的研究论文。研究人员正面解决了这个循环难题。他们提出了一种方法,仅使用单语文本 (这更容易获取) ,在不依赖现有平行数据的情况下为濒危语言挖掘平行句子。
我们将探讨他们如何为三个不同的语言对构建新的基准,并利用各向同性增强和无监督对齐等巧妙技术改进挖掘过程。
背景: 句子挖掘的挑战
平行句挖掘的任务是在两个巨大且独立的单语文本集合中 (例如,全部的奥克语维基百科和全部的西班牙语维基百科) 搜索意思相同的句子。
把这想象成大海捞针,而且你有两个草堆,你必须把其中一个草堆里的特定针与另一个草堆里的针配对。
现状
对于英语、法语或中文等主要语言,这个问题在很大程度上已经解决了。研究人员使用强大的句子编码器,如 LaBSE (语言无关的 BERT 句子嵌入) 。这些模型将句子转换为数学向量 (数字列表) 。如果模型足够好,英语中 “Hello” 的向量在向量空间中将非常接近法语中 “Bonjour” 的向量。你只需计算向量之间的距离即可找到匹配项。
然而,LaBSE 等模型是在海量平行数据上训练的。如果尝试在它们没见过的语言 (如楚瓦什语) 上使用,或者在数据极少的语言上使用,其性能会急剧下降。
替代方案: 单语模型
本论文的研究人员主张,对于濒危语言,我们不能依赖需要平行数据进行训练的模型。相反,我们应该关注单语语言模型 。 这些模型仅在单一语言的原始文本上训练,或者独立地在多种语言上训练,没有明确的翻译对。
本研究选择的具体模型是 Glot500 , 这是一个在 500 多种语言上训练的多语言模型。虽然 Glot500 见过这些低资源语言,但它并没有被教过如何将它们翻译成其他语言。因此,挑战在于利用这种原始的单语理解能力,并将其打磨成一种能够发现翻译的工具。
BELOPSEM: 一个新的基准
为了测试他们的方法,研究人员意识到现有的基准测试对于濒危语言来说不够现实。他们创建了 BELOPSEM (Benchmark of low-resource languages for parallel sentence mining,低资源语言平行句挖掘基准) 。
他们关注三个特定的语言对,选择它们是为了代表不同的难度级别。在所有情况下,源语言都是低资源语言,目标语言是高资源语言。
- 奥克语-西班牙语 (OCI-ES): 奥克语是一种在南欧使用的罗曼语族语言。它与西班牙语和法语密切相关。这被认为是“最简单”的一对,因为语言在语言学上是相似的。
- 上索布语-德语 (HSB-DE): 上索布语是一种在德国东部使用的斯拉夫语族语言。虽然它与德语在地理上共享同一区域,但它们属于不同的语系 (斯拉夫语系 vs. 日耳曼语系) 。然而,上索布语与捷克语和波兰语有关联,这有所帮助。
- 楚瓦什语-俄语 (CHV-RU): 楚瓦什语是一种在俄罗斯使用的突厥语族语言。它与俄语 (斯拉夫语族) 截然不同,而且它在语言学上与许多其他突厥语言也有很大距离。这代表了挖掘任务的“困难模式”。
研究人员构建的数据集中,真正的平行句子被隐藏在大量的单语语料库中,模拟了真实世界的挖掘场景。

如上表 1 所示,数据集被分为训练集和测试集。至关重要的是,“parallel” (平行) 行显示了与句子总数相比,真正的匹配是多么稀少 (大约 6%) 。目标是检索出这少量的匹配项,而不会被成千上万的不匹配句子所欺骗。
核心方法: PASEMILL
研究人员开发了一个名为 PASEMILL 的流程。让我们一步步拆解这个挖掘系统的架构。
第 1 步: 句子表示
首先,我们需要把句子变成数学形式。系统将源语言 (例如楚瓦什语) 和目标语言 (例如俄语) 的句子输入到 Glot500 模型中。
由于 Glot500 是标准的 Transformer 模型 (像 BERT 一样) ,它为每个单词输出嵌入。为了获得代表整句的单个向量,研究人员在网络的第 8 层使用了平均池化 (mean-pooling) 。 这只是简单地平均单词向量来创建一个句子向量。
第 2 步: 使用 CSLS 进行相似度搜索
一旦每个句子都变成了一个向量,我们需要找出哪个源向量最接近哪个目标向量。
一个简单的方法是使用余弦相似度 , 它测量两个向量之间的角度。然而,高维向量空间通常深受枢纽问题 (Hubness Problem) 之苦。一些向量充当“枢纽”——它们看起来与所有东西都很接近,甚至是那些不是翻译的句子。这会产生误报。
为了解决这个问题,研究人员使用了 CSLS (跨域相似度局部缩放) 。

正如上面的公式定义的那样,CSLS 计算句子 \(x\) 和 \(y\) 之间的余弦相似度,但它会根据它们周围邻域 (\(k\) 个最近邻) 的“密集程度”减去一个惩罚项。
- 如果句子 \(x\) 处于一个拥挤的区域 (枢纽) ,惩罚就会很高,从而降低分数。
- 这确保了我们只匹配那些彼此独特相似的句子,而不仅仅是与所有东西都普遍相似的句子。
第 3 步: 改进
这里是该论文做出最显著贡献的地方。来自单语模型的标准平均池化通常对于高质量挖掘来说不够准确。研究人员引入了两个后处理步骤来提升性能。
改进 A: 无监督对齐后处理
即使两个句子有相似的向量表示,它们也可能不是精确的翻译。一个更强的检查是查看词级对齐 。
如果 “The cat sat” 与 “Le chat s’est assis” 匹配,我们应该能够在 “cat” 到 “chat” 以及 “sat” 到 “assis” 之间画线连接。
研究人员使用了一个名为 SimAlign 的工具,它利用语言模型在不需要双语词典的情况下对齐单词。他们计算一个对齐分数: 句对中有强匹配关系的单词百分比。
他们使用动态阈值 \(\theta\) 过滤挖掘出的句对:

在这里,阈值由数据集的平均相似度得分加上一个边际 (\(\lambda\)) 乘以标准差来确定。如果句对的对齐分数没有通过这个阈值,它就会被丢弃。这是一个严格的双重检查,用于消除误报。
改进 B: 基于聚类的各向同性增强 (CBIE)
这个概念很复杂但很迷人。它解决了语言模型中被称为各向异性 (Anisotropy) 的几何缺陷。
问题: 在许多语言模型中,句子嵌入并不是均匀分布在向量空间中的 (像一个球体) 。相反,它们倾向于聚集在一个狭窄的圆锥体中。这对于挖掘来说很糟糕,因为当所有向量都被挤进一个狭窄的圆锥体时,它们之间的距离就变得毫无意义。即使是不相关的句子看起来也像是近邻,仅仅是因为所有东西都被挤在房间的同一个角落里。
解决方案 (CBIE): 研究人员应用了基于聚类的各向同性增强 。
- 他们对句子向量进行聚类。
- 对于每个聚类,他们计算“主导方向” (使用主成分分析) 。
- 他们在数学上移除这些主导方向。
这就好比把一个压扁的足球重新充气成一个标准的球体。这迫使向量分散开来,使得真正的翻译对之间有意义的距离变得更加清晰。
让我们看看这种转变的视觉证据。

在上图 1 (奥克语-西班牙语) 中,看左边的图 (a) 。 数据点形成了明显的、线状的簇。这就是各向异性。现在看右边 (b) 。 在 CBIE 之后,点形成了一个均匀的云团。这种数据的“球形化”使得相似度搜索明显更加准确。
对于最难的语言对,楚瓦什语-俄语,我们看到了同样甚至更戏剧性的效果:

在图 3(a) 中,数据具有很强的结构性和聚集性。在 3(b) 中,CBIE 变换成功地归一化了分布,为有效挖掘准备好了空间。
实验与结果
那么,这真的有效吗?研究人员比较了三种主要设置:
- XLM-R: 一个标准的多语言基线。
- LaBSE: 最先进的句子编码器 (在海量平行数据上训练) 。
- Glot500: 提议的仅单语方法,测试了有无改进 (对齐和 CBIE) 的情况。
性能使用 F-score (精确率和召回率的平衡) 来衡量。

表 2 揭示了几个关键见解:
1. 语言距离很重要 看看基线分数 (顶部几行) 。奥克语-西班牙语 (OCI-ES) 得分很高,因为语言相似。楚瓦什语-俄语 (CHV-RU) 得分显著较低。这证实了随着语言距离的增加,挖掘变得更加困难。
2. LaBSE 的陷阱 LaBSE 在奥克语和上索布语上表现极佳。为什么?因为它在庞大的训练过程中可能见过了相关语言 (西班牙语、法语、捷克语、波兰语) 。 然而 , 看看楚瓦什语 (CHV-RU) 这一列。LaBSE 得分为 28.24% 。 Glot500 模型 (经过改进) 得分为 43.62% 。 这是一个重大的发现。对于一种真正独特的、大模型未见过的语言 (如楚瓦什语) ,一个在单语数据上训练的较小模型表现得比最先进的模型更好 , 前提是你正确地增强了它。
3. 改进的力量 比较 “Glot500 (NO/NO)” 和 “Glot500 (YES/YES)”:
- OCI-ES: 从 72.6% 提高到 84.5%。
- HSB-DE: 从 20.9% 跃升至 50.8% (翻了一倍还多!) 。
- CHV-RU: 从 37.8% 提高到 43.6%。
对齐 (过滤掉糟糕的匹配) 和 CBIE (修复向量空间) 的结合持续解锁了更好的性能。
定性分析
数字很棒,但让我们看一个实际的例子来理解为什么这些改进有效。

在表 3 中,我们看到一个关于名古屋大学教授的奥克语句子。
- CBIE 之前: 模型很困惑。它认为最接近的匹配是一个关于名为 Pablo 的人住在 Parácuaro 的随机西班牙语句子。相似度得分为负 (-0.004)。
- CBIE 之后: 向量空间得到了修正。模型现在正确地识别了西班牙语翻译 (“Actualmente, trabaja en la Universidad de Nagoya…")。相似度得分跃升为正的 0.118。
这表明“各向异性”问题实际上使模型对正确的翻译视而不见,而修复几何结构揭示了匹配项。
结论与启示
这项研究为濒危语言的数字化保存提供了一个充满希望的路线图。
关键结论是,我们不需要等到有了海量平行数据集才开始构建翻译技术。通过利用单语数据——这些数据更容易从网络、书籍和文档中收集——并应用CBIE和无监督对齐等智能数学修正,我们可以有效地挖掘所需的平行数据。
为什么这很重要?
- 打破循环: 它打破了“先有鸡还是先有蛋”的循环,使我们能够从零开始为楚瓦什语或上索布语等语言引导翻译系统。
- 效率: 它表明我们并不总是需要最大、最昂贵的模型 (LaBSE) 。在低资源场景中,经过适当后处理的针对性模型 (Glot500) 可以胜出。
- 可扩展性: 所使用的技术 (SimAlign 和 CBIE) 是无监督的。它们不需要人工标注,这使得它们可以扩展到数百种其他语言。
通过改进机器“看待”语言之间关系的方式,我们在通往数字时代不让任何一种语言掉队的道路上迈出了一步。
](https://deep-paper.org/en/paper/file-2348/images/cover.png)