GlossLM：弥合 NLP 与濒危语言记录之间的鸿沟

现今世界上大约有 7,000 种语言。遗憾的是，其中近一半被认为处于濒危状态。虽然社区和语言学家正在不知疲倦地努力保护和振兴这些语言，但语言记录的过程却以缓慢和劳动密集著称。

想象一下，你是一名田野语言学家，正在记录一位长者用濒危语言讲述的故事。你有了音频和转录文本。但是，要让这些数据对字典、语法书或教学材料有用，你需要执行一项称为行间标注 (Interlinear Glossing) 的任务。这涉及逐个语素 (意义的最小单位) 分析文本，并为它们分配语法标签。这是一项需要深厚专业知识和大量时间的任务。

在这篇文章中，我们将深入探讨 GlossLM , 这篇研究论文旨在利用自然语言处理 (NLP) 加速这一过程。研究人员汇编了迄今为止最大的行间标注文本 (IGT) 语料库，并开发了一个大规模多语言模型，即使对于数据极少的语言，也能自动生成标注。

瓶颈: 什么是行间标注文本？

在看解决方案之前，我们需要了解数据格式。行间标注文本 (IGT) 是语言学中用于解释语言形态句法的标准格式。

如下图所示，IGT 通常由三行组成:

转录 (Transcription): 源语言的句子。
标注 (Gloss): 形态分析。这包括词汇标注 (翻译词根词干) 和语法标注 (如表示过去时的 PAST，或表示第三人称复数的 3PL 等标签) 。
译文 (Translation): 主要语言 (如英语) 的意译。

图 1: 行间标注的组成部分，展示了一个阿拉帕霍语句子和英语翻译。蓝色框显示了未分词 (顶部) 或已分词 (底部) 的转录文本。已分词文本被拆分为语素，这些语素与绿色框中显示的标注标签对齐。

上图突出了一个特定的挑战: 分词 (Segmentation) 。在顶部的蓝色框中，文本是“未分词”的——它只是自然的句子。在底部的蓝色框中，语言学家手动将单词分解为语素 (例如，用连字符分隔前缀和后缀) 。

历史上，自动化系统一直面临困难，因为:

它们通常要求输入文本已经分词 (这需要人工时间) 。
数据稀缺。大多数濒危语言没有训练标准大语言模型 (LLM) 所需的数百万个句子。
不同研究人员的标注习惯差异很大。

第一部分: 构建 GlossLM 语料库

这项研究的第一个主要贡献不是模型，而是数据集。为了训练一个理解标注通用结构的模型，研究人员需要数据——大量的数据。

现有的 IGT 数据分散在 PDF 研究论文、教科书和各种小型数字存储库中。它很少标准化。研究人员进行了一项大规模工作来汇总和清理这些数据，从而产生了 GlossLM 语料库 。

数据规模

研究人员结合了六个主要来源的数据，包括 ODIN (在线行间文本词典) 和各种共享任务的数据。

表 1: GLOSSLM 数据集中每个来源语料库的唯一示例数量和语言数量。

如上表所示，最终的语料库包含覆盖 1,800 种语言 的超过 450,000 个示例 。这是迄今为止最大的数字化 IGT 集合。

“长尾”问题

然而，数量并不意味着平等。在 NLP 中，我们经常处理“长尾”分布。少数语言拥有大量数据，而绝大多数语言只有很少的数据。

图 7: 每种语言的计数。我们只显示数据集中至少有 2k 个样本的语言。阿拉帕霍语 (Arapaho) 是我们数据中代表性最强的语言。

上图说明了这种差异。阿拉帕霍语 (怀俄明州和俄克拉荷马州阿拉帕霍人使用的语言) 以近 100,000 个示例主导了数据集。相比之下，语料库中 50% 的语言只有不到 10 个示例。这种不平衡使得设计一个能够将知识从高资源语言迁移到低资源语言的模型变得至关重要。

标准化的挑战

处理语言数据最大的头痛之一是不一致性。一个语言学家可能将单数名词标记为 SG，另一个标记为 S，还有一个可能使用 SING。

研究人员分析了整个语料库中唯一标注标签的频率，发现了经典的齐普夫 (Zipfian) 分布:

图 2: 所有语言中唯一标注的分布。

有超过 11,000 个唯一的标注标签，但最常见的 200 个标签占数据的 82% 以上。为了解决这个问题，研究人员尝试将这前 200 个标签规范化为 UniMorph 模式 , 这是一套标准化的形态特征标签集。例如，PAST、PST 和 pret 都可能被映射到一个单一的标准标签。这种规范化使得模型能够识别出一种语言中的“过去时”标记与另一种语言中的标记具有相同的功能，从而促进跨语言学习。

第二部分: GlossLM 模型

准备好数据后，研究人员进入了建模阶段。他们的目标是创建一个单一系统，该系统可以接收目标语言的未分词句子 (加上翻译) 并输出标注行。

架构: 为什么选择 ByT5？

研究人员选择了 ByT5 (字节级文本到文本迁移 Transformer) 作为他们的基础架构。

标准的 LLM (如 BERT 或 GPT) 使用“分词器 (tokenizers)”将文本分解为子词。这些分词器通常是在英语或其他主要语言上训练的。当你尝试将它们用于具有复杂形态的土著语言 (例如多式综合语，其中一个词就是一个完整的句子) 时，标准分词器会惨遭失败，导致“未登录词 (Out of Vocabulary)”错误。

然而，ByT5 在字节 (bytes) 层面——文本的原始底层数字表示——上运行。它不需要分词器。它将文本视为字符流，使其在多语言设置和不同书写系统中具有极强的鲁棒性。

训练流程

研究人员采用了两阶段的训练过程:

持续预训练 (Continual Pretraining): 他们采用了一个标准的 ByT5 模型 (已经针对通用文本进行了训练) ，并在大规模 GlossLM 语料库上继续训练。这教会了模型 IGT 的通用结构: 如何分词，如何对齐标签，以及 1,800 种语言的标注是什么样子的。
微调 (Finetuning): 然后，他们采用这个“具有标注意识”的模型，并在特定的目标语言上对其进行微调，以最大化性能。

实验与结果

研究人员在七种不同的语言上评估了他们的模型。至关重要的是，他们专注于未分词设置 (“封闭赛道”) 。这是任务中最难的版本，模型必须找出语素边界在哪里并同时对它们进行标记。

多语言预训练有效吗？

首先，他们检查了大规模多语言模型 (在微调之前) 是否能够与现有的最先进水平 (SOTA) 系统相比“开箱即用”地表现良好。

图 3: 我们的预训练模型与 SOTA (Girrbach, 2023a) 在未分词数据的域内语言上的比较。我们的模型在所有三种语言上都表现更优。

图 3 中的结果很有希望。对于预训练数据中存在的语言 (阿拉帕霍语、采兹语、乌斯潘特克语) ，预训练的 GlossLM 模型 (蓝色条) 在没有任何特定语言微调的情况下，表现优于以前的 SOTA (橙色条) 。这表明模型在预训练阶段成功内化了标注逻辑。

微调以达到 SOTA 性能

接下来，他们在特定的语言数据集上对模型进行了微调，并将其与几个强大的基线进行了比较，包括 Tü-CL (一种使用潜在分词的专用模型) 和 TOKEN-CLASS (基于 RoBERTa 的模型) 。

图 4: 各种系统的语素准确率。

如图 4 所示，微调后的 GlossLM (蓝色条) 在 7 种语言中的 5 种语言上实现了最高的语素准确率。

成功案例: 它在高资源场景 (阿拉帕霍语，arp) 中占主导地位，并在中等资源场景中表现非常出色。
挑战: 对于像吉特克桑语 (git，大约 70 个示例) 这样训练集极小的语言，专门针对分词构建的像 Tü-CL 这样的模型仍然保持优势。然而，GlossLM 仍然极具竞争力。

“低资源”的最佳甜区

当我们观察模型相对于可用数据量的表现时，这篇论文最重要的发现就显现出来了。

研究人员将他们的 GlossLM (预训练 + 微调) 模型与标准的 ByT5 (仅微调) 模型进行了比较。区别在哪里？GlossLM 模型预先见过了 45 万个多语言 IGT 样本。

图 5: 单语微调后的性能，比较了标准预训练 ByT5 与持续预训练 GlossLM 模型。

这张图讲述了最重要的故事:

左侧 (低数据) : 看看 x 轴左侧的语言 (如莱兹吉语和吉特克桑语) 。蓝线 (GlossLM) 和灰线 (标准 ByT5) 之间的差距是巨大的。对于莱兹吉语，预训练将准确率提高了超过 15 个百分点。
右侧 (高数据) : 当我们向右移动 (阿拉帕霍语，arp) 时，线条汇合。如果你有成千上万个示例，预训练就不那么重要了，因为模型可以仅从特定数据中学到足够多的东西。

结论: 多语言预训练是低资源语言的游戏规则改变者。它允许模型将其关于“标注如何工作”的通用知识迁移到一种新语言上，哪怕它只看到几百个示例。

规范化有帮助吗？

最后，研究人员问: 将标签规范化为 UniMorph 模式的所有工作真的有帮助吗？

图 6: 将标注规范化为 UniMorph 模式并微调 GlossLM 后语素准确率的变化。

如图 6 所示，结果喜忧参半。

绿色条 (改进) : 规范化对莱兹吉语 (lez) 和良博语 (nyb) 有显着帮助。这些是未见过的或低资源的语言。标准化标签可能有助于模型弥合语言之间的差距。
左侧条 (下降) : 对于像乌斯潘特克语 (usp) 这样的高资源语言，规范化实际上损害了性能。这很可能是因为规范化是“有损的”——它简化了具有大量数据的模型原本可以完美学习预测的特定细微差别。

结论与启示

GlossLM 项目代表了计算语言学向前迈出的重要一步。通过汇编迄今为止最大的 IGT 语料库并展示多语言预训练的力量，研究人员创建了一个可以真正协助语言记录的工具。

主要收获:

数据为王: 聚合 45 万个示例使模型能够学习语言标注的结构，这可以跨语言迁移。
预训练帮助“资源匮乏者”: 最大的性能提升出现在数据量最少的语言中，这也是绝大多数濒危语言的情况。
没有“多语言诅咒”: 通常，在太多语言上训练会降低个别语言的性能。GlossLM 没有显示出这种迹象，在各个方面都保持了高准确率。

关于伦理的说明: 作者最后提出了一个必要的提醒: 设计这些工具是为了辅助语言学家，而不是取代他们。语言记录是一项涉及文化、历史和社区的深刻人类活动。GlossLM 是一个“副驾驶”，可以处理形态标记的重复性工作，从而让语言学家和社区成员腾出时间专注于语言的振兴和使用。

GlossLM 模型和数据集已在 Hugging Face 上公开，为未来自动化翻译和语言保护的研究打开了大门。

瓶颈: 什么是行间标注文本？#

第一部分: 构建 GlossLM 语料库#

数据规模#

“长尾”问题#

标准化的挑战#

第二部分: GlossLM 模型#

架构: 为什么选择 ByT5？#

训练流程#

实验与结果#

多语言预训练有效吗？#

微调以达到 SOTA 性能#

“低资源”的最佳甜区#

规范化有帮助吗？#

结论与启示#