引言

想象一下,你是一名语言学家,试图记录一种地球上只剩下几十个人还在使用的语言。时间紧迫。据估计,高达 90% 的世界语言在下个世纪面临消失的风险。保存它们不仅仅是录制音频;它涉及一个被称为 跨行对译文本 (Interlinear Glossed Text, IGT) 的艰苦过程。这需要转录语音、翻译、将单词切分为最小的表义单元 (语素) ,并对每一个部分进行语法标注。

这是一项劳动密集型且缓慢的工作,需要极高的专业知识。虽然机器学习已经彻底改变了法语或中文等主流语言的翻译,但在濒危语言上却举步维艰,因为我们根本没有足够的数据来训练那些“极度渴求数据”的神经网络。

但是,如果我们能让模型工作得更聪明,而不是更费力呢?

在论文 “Multiples Sources are Better Than One” (多源胜于单一) 中,来自不列颠哥伦比亚大学的研究人员提出了一种解决数据稀缺问题的新方法。他们不再仅仅依赖源文本,而是模仿人类语言学家的工作方式: 参考翻译、查阅字典,并利用通用的语言学知识。通过整合这些外部来源——并利用现代大语言模型 (LLM) 的力量——他们在低资源语言对译 (Glossing) 方面实现了准确率的巨大飞跃。

图 1: 当对诸如法语句子 Le chien aboie 进行对译时,我们的系统利用了多种信息源: 英语句子层级的翻译、由 LLM 提供的通用语言学知识以及输入标记的字典定义。

如图 1 所示,其核心理念简单而强大: 不要只让模型根据原始文本预测对译结果。给它翻译 (“The dog barks”) ,给它一本字典,并让 LLM 帮助优化答案。

背景: 自动对译的挑战

要理解这篇论文的贡献,我们首先需要了解这项任务。 对译 (Glossing) 是对句子进行逐语素注释的过程。

以吉特克桑语 (Gitksan) 的这个例子为例:

  • 原文 (Original): Ii hahla’lsdi’y goohl IBM
  • 切分 (Segmentation): ii hahla’lst-’y goo-hl IBM
  • 对译 (Gloss): CCNJ work-1SG.II LOC-CN IBM
  • 翻译 (Translation): And I worked for IBM.

自动系统的目标是获取 原文 行并生成 对译 行。这极其困难,因为模型必须弄清楚一个语素在哪里结束,下一个语素从哪里开始 (切分) ,然后为每个部分分配正确的含义或语法标签。

数据瓶颈

以前针对此任务的神经网络模型几乎完全是在源文本上训练的。对于像列兹金语 (Lezgi) 这样的语言,研究人员可能只有 3,000 个句子的训练数据。在深度学习的世界里,像 GPT-4 这样的模型是在数万亿个 token 上训练的,3,000 个句子简直微不足道。

标准模型会遇到天花板,因为它们无法记忆足够的模式。如果模型遇到了以前没见过的词干,它就会失败。研究人员意识到,虽然对译数据很稀缺,但 翻译 几乎总是可用的,因为语言记录项目本来就涉及将该语言翻译成英语或西班牙语。

核心方法: 多源流水线

作者提出了一个显著升级传统神经对译架构的流水线。他们建立在基线模型 (Girrbach, 2023) 之上,并引入了三个关键增强功能:

  1. 翻译编码器 (Translation Encoders) (将英语翻译输入模型) 。
  2. 基于字符的解码器 (Character-Based Decoders) (用于处理未知单词) 。
  3. LLM 后期修正 (LLM Post-Correction) (使用 GPT-4 或 LLaMA 作为最终编辑) 。

让我们逐一拆解。

1. 基线架构

这项工作的基础是 Girrbach (2023) 的模型。它将对译视为一个两步过程: 切分和分类。

图 2: Girrbach (2023) 模型的流水线。

如图 2 (左侧) 所示,基线模型获取转录文本 (例如 “Les chiens”) 并将其通过一个 LSTM 编码器 。 然后,它使用一种称为 前向-后向算法 (Forward-Backward algorithm) 的数学方法来执行无监督切分——本质上是计算特定字符标记语素结束的概率。

模型使用这些递归方程计算边界的边际概率:

Alpha 方程 Beta 方程 边际概率方程

这些方程允许模型对切分单词的每种可能方式进行评分,并找到最可能的切分方式,而无需在训练期间使用显式的切分标签。切分完成后,一个 MLP 分类器会预测每个块的对译。

2. 整合翻译 (“编码器-解码器"升级)

基线模型对于语法标签 (如表示复数的 “PL”) 效果很好,因为它们经常重复。但在“词汇语素”——单词的词干 (如 “dog” 或 “run”) ——上会失败,因为如果模型在训练数据中没见过 “dog”,它就无法预测它。

研究人员引入了一个 翻译编码器 。 他们获取英语翻译 (例如 “The dog barks”) 并使用强大的预训练模型 (如 BERTT5 )对其进行编码。

图 3: 提议工作的流水线。图的下半部分展示了在预测对译目标时,注意力权重如何通知模型。

在图 3 中,你可以看到这是如何工作的。模型现在有两个输入: 源转录文本和翻译。系统使用 注意力机制 (Attention Mechanism) 将它们连接起来。当模型试图对吉特克桑语中的“工作”一词进行对译时,注意力机制会在英语翻译向量中“注视”单词 “worked”。这给模型提供了一个巨大的提示,有效地允许它通过查看翻译中提供的“答案”来“作弊”。

此外,他们用 基于字符的解码器 替换了简单的分类器。模型不再从固定的标签列表中进行选择,而是逐个字符地生成对译 (例如,生成 “d”, “o”, “g”) 。这使得它能够构建它从未明确学过的单词,只要它能从翻译中复制相关信息。

3. LLM 后期修正

即使有了翻译编码器,神经网络有时也会产生幻觉或拼写错误 (例如,输出 stoply 而不是 story) 。为了解决这个问题,作者引入了最后一步: 使用 LLM 进行上下文学习 (In-Context Learning)

他们将训练好的模型的输出视为“银标准对译 (Silver Gloss)”——这是一份大致正确但需要润色的草稿。然后,他们将这份草稿连同一个提示词 (prompt) 一起喂给 LLM (如 GPT-4) 。

图 4: 选择上下文学习示例以生成 LLM 提示词组件的过程。

图 4 展示了这个提示流程。提示词包括:

  1. 源句子。
  2. 逐词字典查找 (如果可用) 。
  3. 英语句子翻译。
  4. “银标准对译” (草稿) 。
  5. 指令: “修正对译。”

关键在于,他们使用了 少样本学习 (Few-Shot Learning) 。 他们从训练集中检索类似的例子,向 LLM 展示 如何 修正对译。他们测试了几种选择这些例子的策略:

  • 随机 (Random): 随机挑选两个训练句子。
  • BERT 相似度 (BERT-Similarity): 挑选语义相似的句子。
  • 重叠 (Overlap): 挑选共享单词最多的句子。

这一步就像一个非常智能的拼写检查器,它理解语言的语境。

实验与结果

研究人员在 2023 SIGMORPHON Shared Task 的六种语言上测试了他们的方法: 阿拉帕霍语 (Arapaho)、吉特克桑语 (Gitksan)、列兹金语 (Lezgi)、纳图古语 (Natügu)、采兹语 (Tsez) 和乌斯潘特克语 (Uspanteko)。这些语言类型多样,且确实属于低资源语言 (有些训练句子少于 1,000 个) 。

他们还通过将训练数据限制为仅 100 个句子 来模拟 “超低资源” 环境,模仿语言记录项目的极早期阶段。

定量提升

结果令人信服。提议的方法 (结合 BERT/T5 和字符解码器) 全面超越了基线模型。

表 2: 2023 Sigmorphon Shared Task 语言的词级准确率 (Ginn et al., 2023) (左) 和超低资源设置 (右)。模型细节在第 5 节中阐述。

观察表 2:

  • 标准设置 (左) : 组合模型 (T5+attn+chr) 达到了 82.56% 的平均准确率,比基线高出近 4 个百分点。
  • 超低资源设置 (右) : 差距显著拉大。仅用 100 个句子,BERT+attn+chr 模型就达到了 42.04% 的准确率,而基线仅为 32.26%。这 ~10% 的提升 对于刚开始记录一种语言的语言学家来说是一个巨大的改变。

提示 (Prompting) 的力量

LLM 后期修正提供了进一步的提升。作者发现使用 重叠词 (Overlapping Words) 来选择提示示例效果最好。

表 3 和 4: 准确率比较,显示提示带来的提升

如表 3 和 4 所示,添加提示步骤 (T5/BERT… + Prmpt) 将准确率推得更高。对于 吉特克桑语 (Gitksan) , 该集合中资源最少的语言 (仅约 30 个训练句子!) ,准确率从 21.09% (基线) 跃升至全流程的 30% 以上。

当他们在提示中添加外部字典时 (下表 5) ,准确率进一步提高,证明了“多源确实更好”。

表 5: 所有语言的词级准确率。我们比较了整合外部字典的累积努力与其他模型的性能。

学习曲线

论文中最引人注目的可视化之一是阿拉帕霍语的学习曲线。

图 5: 阿拉帕霍语上的词汇语素和词级准确率。我们将提示结合到富含翻译信息的编码器-解码器模型中。

图 5 揭示了一个关键见解: 当数据稀缺时,基于提示的修正 (蓝色/浅蓝色线) 更加有效。 看图表的左侧 (100 sentences) 。有提示和没有提示的模型之间的差距是巨大的。当你向右移动 (100% data) 时,差距缩小了。这证实了当专用模型没有见过足够的数据以进行良好泛化时,LLM 充当了关键的安全网。

可视化“注意力”

模型真的在使用翻译吗,还是它只是一个黑盒子?研究人员通过可视化注意力权重找到了答案。

图 6: 纳图古语示例中对译输出标记 (y 轴) 相对于编码的翻译标记 (x 轴) 的平均注意力权重差异。

在这个纳图古语句子的热力图 (图 6) 中,Y 轴列出了预测的对译,X 轴列出了英语翻译单词。红色方块表示强烈的注意力。

  • 注意 “kill” (对译) 和 “kills” (翻译) 的交点。
  • 注意 “people” (对译) 和 “people” (翻译) 的交点。

模型明确地关注相关的英语单词以生成正确的对译。这证实了翻译编码器正在做它设计要做的事情: 弥合两种语言之间的语义鸿沟。

结论与启示

论文 “Multiples Sources are Better Than One” 展示了计算语言学在低资源环境下的务实前进道路。通过摆脱“仅源文本”的观点并整合 翻译、字典和 LLM , 作者取得了最先进的结果。

给学生和研究人员的关键启示:

  1. 不要忽视辅助数据: 如果你有翻译或字典,构建能够使用它们的架构。
  2. 混合系统获胜: 将专用的、训练有素的神经网络 (用于切分和语法) 与通用的 LLM (用于语义修正) 相结合,可以两全其美。
  3. 濒危语言的希望: 在超低资源设置 (100 个句子) 下的巨大提升表明,AI 可以在语言保护的早期关键阶段为语言学家提供真正的帮助。

这项工作强调,在大规模 AI 模型时代,解决特定的小数据问题的方案往往在于创造性地连接大型通用知识库与特定的本地数据。