简介

想象一下学习一门没有字典、没有教科书且不支持谷歌翻译的语言。现在，想象一下教计算机去翻译这门语言。这就是全球成千上万种“低资源”和濒危语言所面临的现实。

现代机器翻译 (MT) 系统，就像我们要日常使用的翻译工具背后的系统一样，是渴求数据的“巨兽”。它们通过观察数百万个翻译句子的示例 (即平行数据 )来学习。例如，要学习英语到西班牙语的翻译，模型需要分析包含英语句子及其对应西班牙语翻译的巨大数据集。

但是，当这些平行数据集不存在时会发生什么呢？

这造成了一个“先有鸡还是先有蛋”的问题。要构建翻译系统，你需要平行数据。要高效地找到平行数据 (这一过程称为句子挖掘 )，通常需要一个强大的多语言模型……但这又需要平行数据来训练。

在这篇文章中，我们将深入探讨一篇名为 “Improving Parallel Sentence Mining for Low-Resource and Endangered Languages” 的研究论文。研究人员正面解决了这个循环难题。他们提出了一种方法，仅使用单语文本 (这更容易获取) ，在不依赖现有平行数据的情况下为濒危语言挖掘平行句子。

我们将探讨他们如何为三个不同的语言对构建新的基准，并利用各向同性增强和无监督对齐等巧妙技术改进挖掘过程。

背景: 句子挖掘的挑战

平行句挖掘的任务是在两个巨大且独立的单语文本集合中 (例如，全部的奥克语维基百科和全部的西班牙语维基百科) 搜索意思相同的句子。

把这想象成大海捞针，而且你有两个草堆，你必须把其中一个草堆里的特定针与另一个草堆里的针配对。

现状

对于英语、法语或中文等主要语言，这个问题在很大程度上已经解决了。研究人员使用强大的句子编码器，如 LaBSE (语言无关的 BERT 句子嵌入) 。这些模型将句子转换为数学向量 (数字列表) 。如果模型足够好，英语中 “Hello” 的向量在向量空间中将非常接近法语中 “Bonjour” 的向量。你只需计算向量之间的距离即可找到匹配项。

然而，LaBSE 等模型是在海量平行数据上训练的。如果尝试在它们没见过的语言 (如楚瓦什语) 上使用，或者在数据极少的语言上使用，其性能会急剧下降。

替代方案: 单语模型

本论文的研究人员主张，对于濒危语言，我们不能依赖需要平行数据进行训练的模型。相反，我们应该关注单语语言模型 。这些模型仅在单一语言的原始文本上训练，或者独立地在多种语言上训练，没有明确的翻译对。

本研究选择的具体模型是 Glot500 , 这是一个在 500 多种语言上训练的多语言模型。虽然 Glot500 见过这些低资源语言，但它并没有被教过如何将它们翻译成其他语言。因此，挑战在于利用这种原始的单语理解能力，并将其打磨成一种能够发现翻译的工具。

BELOPSEM: 一个新的基准

为了测试他们的方法，研究人员意识到现有的基准测试对于濒危语言来说不够现实。他们创建了 BELOPSEM (Benchmark of low-resource languages for parallel sentence mining，低资源语言平行句挖掘基准) 。

他们关注三个特定的语言对，选择它们是为了代表不同的难度级别。在所有情况下，源语言都是低资源语言，目标语言是高资源语言。

奥克语-西班牙语 (OCI-ES): 奥克语是一种在南欧使用的罗曼语族语言。它与西班牙语和法语密切相关。这被认为是“最简单”的一对，因为语言在语言学上是相似的。
上索布语-德语 (HSB-DE): 上索布语是一种在德国东部使用的斯拉夫语族语言。虽然它与德语在地理上共享同一区域，但它们属于不同的语系 (斯拉夫语系 vs. 日耳曼语系) 。然而，上索布语与捷克语和波兰语有关联，这有所帮助。
楚瓦什语-俄语 (CHV-RU): 楚瓦什语是一种在俄罗斯使用的突厥语族语言。它与俄语 (斯拉夫语族) 截然不同，而且它在语言学上与许多其他突厥语言也有很大距离。这代表了挖掘任务的“困难模式”。

研究人员构建的数据集中，真正的平行句子被隐藏在大量的单语语料库中，模拟了真实世界的挖掘场景。

Table 1: Number of sentences in the datasets for all three language pairs in BELOPSEM.

如上表 1 所示，数据集被分为训练集和测试集。至关重要的是，“parallel” (平行) 行显示了与句子总数相比，真正的匹配是多么稀少 (大约 6%) 。目标是检索出这少量的匹配项，而不会被成千上万的不匹配句子所欺骗。

核心方法: PASEMILL

研究人员开发了一个名为 PASEMILL 的流程。让我们一步步拆解这个挖掘系统的架构。

第 1 步: 句子表示

首先，我们需要把句子变成数学形式。系统将源语言 (例如楚瓦什语) 和目标语言 (例如俄语) 的句子输入到 Glot500 模型中。

由于 Glot500 是标准的 Transformer 模型 (像 BERT 一样) ，它为每个单词输出嵌入。为了获得代表整句的单个向量，研究人员在网络的第 8 层使用了平均池化 (mean-pooling) 。这只是简单地平均单词向量来创建一个句子向量。

第 2 步: 使用 CSLS 进行相似度搜索

一旦每个句子都变成了一个向量，我们需要找出哪个源向量最接近哪个目标向量。

一个简单的方法是使用余弦相似度 , 它测量两个向量之间的角度。然而，高维向量空间通常深受枢纽问题 (Hubness Problem) 之苦。一些向量充当“枢纽”——它们看起来与所有东西都很接近，甚至是那些不是翻译的句子。这会产生误报。

为了解决这个问题，研究人员使用了 CSLS (跨域相似度局部缩放) 。

CSLS Equation

正如上面的公式定义的那样，CSLS 计算句子 $x$ 和 $y$ 之间的余弦相似度，但它会根据它们周围邻域 ($k$ 个最近邻) 的“密集程度”减去一个惩罚项。

如果句子 $x$ 处于一个拥挤的区域 (枢纽) ，惩罚就会很高，从而降低分数。
这确保了我们只匹配那些彼此独特相似的句子，而不仅仅是与所有东西都普遍相似的句子。

第 3 步: 改进

这里是该论文做出最显著贡献的地方。来自单语模型的标准平均池化通常对于高质量挖掘来说不够准确。研究人员引入了两个后处理步骤来提升性能。

改进 A: 无监督对齐后处理

即使两个句子有相似的向量表示，它们也可能不是精确的翻译。一个更强的检查是查看词级对齐 。

如果 “The cat sat” 与 “Le chat s’est assis” 匹配，我们应该能够在 “cat” 到 “chat” 以及 “sat” 到 “assis” 之间画线连接。

研究人员使用了一个名为 SimAlign 的工具，它利用语言模型在不需要双语词典的情况下对齐单词。他们计算一个对齐分数: 句对中有强匹配关系的单词百分比。

他们使用动态阈值 $\theta$ 过滤挖掘出的句对:

Threshold Equation

在这里，阈值由数据集的平均相似度得分加上一个边际 ($\lambda$) 乘以标准差来确定。如果句对的对齐分数没有通过这个阈值，它就会被丢弃。这是一个严格的双重检查，用于消除误报。

改进 B: 基于聚类的各向同性增强 (CBIE)

这个概念很复杂但很迷人。它解决了语言模型中被称为各向异性 (Anisotropy) 的几何缺陷。

问题: 在许多语言模型中，句子嵌入并不是均匀分布在向量空间中的 (像一个球体) 。相反，它们倾向于聚集在一个狭窄的圆锥体中。这对于挖掘来说很糟糕，因为当所有向量都被挤进一个狭窄的圆锥体时，它们之间的距离就变得毫无意义。即使是不相关的句子看起来也像是近邻，仅仅是因为所有东西都被挤在房间的同一个角落里。

解决方案 (CBIE): 研究人员应用了基于聚类的各向同性增强 。

他们对句子向量进行聚类。
对于每个聚类，他们计算“主导方向” (使用主成分分析) 。
他们在数学上移除这些主导方向。

这就好比把一个压扁的足球重新充气成一个标准的球体。这迫使向量分散开来，使得真正的翻译对之间有意义的距离变得更加清晰。

让我们看看这种转变的视觉证据。

Figure 1: t-SNE plots for 1,OOO parallel Occitan-Spanish sentences before and after CBIE transformation.

在上图 1 (奥克语-西班牙语) 中，看左边的图 (a) 。数据点形成了明显的、线状的簇。这就是各向异性。现在看右边 (b) 。在 CBIE 之后，点形成了一个均匀的云团。这种数据的“球形化”使得相似度搜索明显更加准确。

对于最难的语言对，楚瓦什语-俄语，我们看到了同样甚至更戏剧性的效果:

Figure 3: t-SNE plots for 1,0O parallel Chuvash-Russian sentences before and after CBIE transformation.

在图 3(a) 中，数据具有很强的结构性和聚集性。在 3(b) 中，CBIE 变换成功地归一化了分布，为有效挖掘准备好了空间。

实验与结果

那么，这真的有效吗？研究人员比较了三种主要设置:

XLM-R: 一个标准的多语言基线。
LaBSE: 最先进的句子编码器 (在海量平行数据上训练) 。
Glot500: 提议的仅单语方法，测试了有无改进 (对齐和 CBIE) 的情况。

性能使用 F-score (精确率和召回率的平衡) 来衡量。

$Table 2:F-scores \$( \\% )\$ on the test datasets of the three mining corpora in BELOPSEM.$

表 2 揭示了几个关键见解:

1. 语言距离很重要 看看基线分数 (顶部几行) 。奥克语-西班牙语 (OCI-ES) 得分很高，因为语言相似。楚瓦什语-俄语 (CHV-RU) 得分显著较低。这证实了随着语言距离的增加，挖掘变得更加困难。

2. LaBSE 的陷阱 LaBSE 在奥克语和上索布语上表现极佳。为什么？因为它在庞大的训练过程中可能见过了相关语言 (西班牙语、法语、捷克语、波兰语) 。然而 , 看看楚瓦什语 (CHV-RU) 这一列。LaBSE 得分为 28.24% 。 Glot500 模型 (经过改进) 得分为 43.62% 。这是一个重大的发现。对于一种真正独特的、大模型未见过的语言 (如楚瓦什语) ，一个在单语数据上训练的较小模型表现得比最先进的模型更好 , 前提是你正确地增强了它。

3. 改进的力量 比较 “Glot500 (NO/NO)” 和 “Glot500 (YES/YES)”:

OCI-ES: 从 72.6% 提高到 84.5%。
HSB-DE: 从 20.9% 跃升至 50.8% (翻了一倍还多！) 。
CHV-RU: 从 37.8% 提高到 43.6%。

对齐 (过滤掉糟糕的匹配) 和 CBIE (修复向量空间) 的结合持续解锁了更好的性能。

定性分析

数字很棒，但让我们看一个实际的例子来理解为什么这些改进有效。

Table 3: Example of sentence mined for the OccitanSpanish (OCI-ES) corpus before and after CBIE transformation with corresponding similarity scores.

在表 3 中，我们看到一个关于名古屋大学教授的奥克语句子。

CBIE 之前: 模型很困惑。它认为最接近的匹配是一个关于名为 Pablo 的人住在 Parácuaro 的随机西班牙语句子。相似度得分为负 (-0.004)。
CBIE 之后: 向量空间得到了修正。模型现在正确地识别了西班牙语翻译 (“Actualmente, trabaja en la Universidad de Nagoya…")。相似度得分跃升为正的 0.118。

这表明“各向异性”问题实际上使模型对正确的翻译视而不见，而修复几何结构揭示了匹配项。

结论与启示

这项研究为濒危语言的数字化保存提供了一个充满希望的路线图。

关键结论是，我们不需要等到有了海量平行数据集才开始构建翻译技术。通过利用单语数据——这些数据更容易从网络、书籍和文档中收集——并应用CBIE和无监督对齐等智能数学修正，我们可以有效地挖掘所需的平行数据。

为什么这很重要?

打破循环: 它打破了“先有鸡还是先有蛋”的循环，使我们能够从零开始为楚瓦什语或上索布语等语言引导翻译系统。
效率: 它表明我们并不总是需要最大、最昂贵的模型 (LaBSE) 。在低资源场景中，经过适当后处理的针对性模型 (Glot500) 可以胜出。
可扩展性: 所使用的技术 (SimAlign 和 CBIE) 是无监督的。它们不需要人工标注，这使得它们可以扩展到数百种其他语言。

通过改进机器“看待”语言之间关系的方式，我们在通往数字时代不让任何一种语言掉队的道路上迈出了一步。

简介#

背景: 句子挖掘的挑战#

现状#

替代方案: 单语模型#

BELOPSEM: 一个新的基准#

核心方法: PASEMILL#

第 1 步: 句子表示#

第 2 步: 使用 CSLS 进行相似度搜索#

第 3 步: 改进#

改进 A: 无监督对齐后处理#

改进 B: 基于聚类的各向同性增强 (CBIE)#

实验与结果#

定性分析#

结论与启示#

简介