在自然语言处理 (NLP) 领域,像 BERT 和 XLM-R 这样的多语言预训练语言模型 (mPLMs) 堪称 AI 界的“多语言专家”。它们在大约 100 种不同语言的文本上进行训练,从而能够跨越国界执行任务——比如情感分析或主题分类。
然而,这里有个问题。全世界有超过 7,000 种语言。当我们要在一种“低资源”且未包含在原始训练数据中的语言上使用这些模型时,会发生什么?这就是未见语言适配 (Unseen Language Adaptation) 的问题。
传统上,适配意味着重新训练或对整个庞大的模型进行重度微调,这在计算上既昂贵又低效。在最近的一篇论文中,来自国立台湾大学的研究人员提出了一种更聪明的解决方案: 软提示微调 (Soft-Prompt Tuning) 。 他们的方法允许这些庞大的模型通过仅调整极小一部分参数,就能理解它们从未见过的语言。
在这篇文章中,我们将探讨这种方法是如何工作的,为什么它优于传统的微调,以及它对包容性 AI 的未来意味着什么。
问题所在: “未见”语言的鸿沟
跨语言 NLP 的标准方法是零样本跨语言迁移 (Zero-Shot Cross-Lingual Transfer) 。 一般的工作流程如下:
- 采用一个预训练的多语言模型 (例如 XLM-R) 。
- 使用源语言 (通常是英语) 的数据针对特定任务 (如新闻分类) 对模型进行微调。
- 直接在目标语言 (例如斯瓦希里语或克丘亚语) 上测试模型。
如果目标语言是模型预训练数据的一部分,这种方法效果出奇地好。但对于未见 (unseen) 语言,性能会断崖式下跌。

如上表 1 所示,这种下降是剧烈的。当迁移到“已见”语言时,模型保持了较高的准确率 (约 79%) 。而当迁移到“未见”语言时,准确率骤降至约 43%。
朴素的解决方案是使用新语言的数据继续训练整个模型。然而,随着模型增长到数十亿个参数,这变成了一场资源噩梦。此外,低资源语言通常缺乏足够的数据来重新训练庞大的模型,而且这样做容易导致“灾难性遗忘 (catastrophic forgetting) ”——即模型过度拟合新数据,而忘记了它之前知道的一切。
解决方案: 软提示语言适配
研究人员提出了一个两阶段框架,该框架可以在不改变模型核心权重的情况下,使模型适应新语言和特定任务。他们使用的是软提示 (Soft Prompts) 。
什么是软提示?
这就好比给 AI 一个标准的文本提示 (Prompt) ,比如“翻译这句话”。 软提示与此类似,但它不是人类可读的单词,而是由插入模型输入层中的可学习向量 (数字) 组成。模型会学习最佳的“向量”来引导其注意力,而庞大模型的其余部分则保持冻结状态。
两阶段框架
核心创新在于这些提示的训练方式。过程如下图所示:

让我们拆解图 2 中展示的两个阶段。
第一阶段: 通过掩码语言建模 (MLM) 进行适配
目标: 教会模型新语言的结构。
在第一阶段 (图左侧) ,研究人员采用了未见目标语言的无标签数据 (以及一些英语数据) 。他们冻结了整个预训练模型。然后,他们在模型的各个层中插入软提示 (可调向量) 。
他们使用掩码语言建模 (MLM) 目标来训练仅这些软提示。这就是经典的“完形填空”游戏。模型看到一个缺少单词的句子,并试图猜出这些词。通过优化软提示来帮助解决这个任务,提示捕获了未见语言的语言特征——词汇和语法。
第二阶段: 针对下游任务进行微调
目标: 教会模型具体的工作 (例如分类) 。
现在提示已经“理解”了语言,研究人员进入第二阶段 (图右侧) 。他们采用在第一阶段学到的软提示作为初始化。
在这里,他们使用源语言 (英语) 的有标签数据 。 例如,如果任务是自然语言推理 (NLI) ,他们会给模型输入标记为“矛盾 (Contradiction) ”、“中立 (Neutral) ”或“蕴涵 (Entailment) ”的英语句子对。
关键转折: Top-K 层 注意在图 2 中,底层被涂上了不同的阴影。在第二阶段,研究人员冻结了底层的软提示 , 只微调Top-K 层 (最接近输出的层) 的提示。
为什么?
- 底层倾向于捕获通用的语言信息 (语法、句法) 。我们希望保留第一阶段获得的未见语言知识。
- 高层倾向于更特定于任务且与语言无关。这些是需要改变以学习分类任务的层。
模型如何预测: 模板与 Verbalizer
为了让软提示用于分类,研究人员将分类任务视为一个缺词填空问题。他们使用了模板 (Template) 和Verbalizer (标签词映射器) 。

如图 1 所示,输入不仅仅是“对这段文本进行分类”。它的格式是一个完形填空问题 (cloze question) 。
- 模板:
Premise [SEP] Hypothesis\(\rightarrow\)That's what I think. [SEP] I think so. - Verbalizer: 将标签映射到一个单词。如果标签是“蕴涵 (Entailment) ”,Verbalizer 可能期望单词“Yes”。如果是“矛盾 (Contradiction) ”,它期望“No”。
在数学上,模型试图最大化给定输入 \(x\) 和软提示 \(\theta\) 时,正确 Verbalizer 标记 (如“Yes”) 的概率:

第二阶段的优化目标是找到 Top \(K\) 层中软提示的最佳参数:

这种优雅的公式使模型能够利用其预训练的“完形填空”能力来解决复杂的分类任务。
实验结果
研究人员在两个包含低资源语言的挑战性数据集上测试了他们的方法: MasakhaNEWS (非洲语言,如伊博语、约鲁巴语和卢干达语) 和 AmericasNLI (美洲原住民语言,如克丘亚语、瓜拉尼语和布里布里语) 。这些语言均未包含在 XLM-R 的原始训练集中。
1. 以极少的参数获得卓越的性能
结果与标准的全参数微调 (Fine-Tuning) 和 MAD-X (一种流行的基于 Adapter 的方法) 进行了比较。

表 2 (上部分) 显示了准确率。所提出的方法 (“Ours”) 始终优于标准微调,并且与 MAD-X 极具竞争力,在许多情况下取得了最高的平均分。
但真正令人震惊的是表 3 (下部分) 。请看“Trainable Parameter (可训练参数) ”一列:
- Fine-tuning: 需要更新 8.16 亿个参数。
- MAD-X: 需要 2700 万个参数。
- Ours: 只需要 157 万个参数。
这种方法仅使用了微调所需参数量的 0.28% 就达到了最先进的效果。这意味着巨大的存储节省。基线方法中一种新语言的检查点 (Checkpoint) 超过 2GB;而对于这种方法,仅需 6.2MB。
2. 利用无标签数据的效率
要让这种方法奏效,需要多少未见语言的文本?研究人员改变了第一阶段中使用的无标签目标语言数据量。

图 3 表明 Prompt-tuning (绿色线) 具有极佳的扩展性。即使数据量较少 (25%) ,它的表现也优于全参数微调。随着更多无标签数据的可用,性能差距进一步扩大,超越了 MAD-X。这使得它非常适合数字化文本稀缺的真正低资源语言。
3. 少样本学习能力
如果我们甚至缺乏任务本身的有标签数据怎么办?研究人员测试了“少样本 (Few-Shot) ”场景,即模型在源语言中只看到极少数示例 (5、10、20 个) 。

图 4 显示,在低数据量区域 (图表左侧) , 带适配的 Prompt-tuning (绿色实线) 是明显的赢家。与全参数微调相比,它能从极少的示例中更快、更有效地学习,这可能是因为全模型微调在数据如此稀缺时容易过拟合庞大的参数。
为什么有效?层级分析
研究人员假设高层是特定于任务的,而底层是特定于语言的。他们通过两个有趣的分析验证了这一点。
首先,他们观察了训练过程中各层软提示参数的实际变化量。

图 5 证实了这一假设。“平均绝对差值” (数值变化) 在高层 (第 15-24 层) 要高得多。这表明模型自然地依赖这些高层来适应特定的下游任务。
其次,他们比较了训练 Top K 层与 Bottom K 层。

图 6 给出了明确的结论。蓝线 (Top K 层) 显著优于橙线 (Bottom K 层) 。如果你只微调底层,就会破坏第一阶段建立的语言知识,导致性能受损。通过冻结底层并微调高层,你可以两全其美: 既有稳健的语言理解,又有准确的任务表现。
结论
“未见语言”问题长期以来一直是实现 AI 真正全球化的障碍。这项研究提供了一个既有效又高效的令人信服的解决方案。通过利用软提示微调 (Soft-Prompt Tuning) , 我们可以使庞大的多语言模型适应新语言,而无需庞大的计算资源或海量数据集。
这项工作的主要启示:
- 无需重新训练整个大脑: 你只需微调一些前缀向量,就能教会旧模型一门新语言。
- 分离语言与任务: 学习语言 (第一阶段) 和学习任务 (第二阶段) 应被视为独立的优化步骤。
- 效率解锁可访问性: 由于该方法生成的检查点极小 (6MB 对比 2GB) ,这使得拥有低资源语言的社区更容易共享和部署为其需求量身定制的 AI 模型。
这种方法代表了 NLP 大众化迈出的重要一步,确保 AI 的红利不仅仅保留给世界上使用最广泛的那些语言。
](https://deep-paper.org/en/paper/file-3011/images/cover.png)