少即是多：利用特定语言子空间优化多语言翻译

这就好比拥有了一个“通用翻译器”——一个能够在数百种语言之间流畅翻译的单一 AI 模型，这个梦想从未如此接近现实。诸如 NLLB (No Language Left Behind) 和 M2M-100 等模型已经证明，大规模的预训练 Transformer 模型可以处理令人眼花缭乱的语言对。

但这里有一个陷阱。这些模型是庞然大物，通常包含数十亿个参数。针对特定任务或新数据对它们进行微调 (Fine-tuning) ，在计算上既昂贵又占用大量存储空间。更糟糕的是，还有一种被称为“负面干扰” (negative interference) 或“多语言诅咒” (curse of multilinguality) 的现象。当你微调一个模型以改进低资源语言 (如祖鲁语或奥克语) 时，模型往往会忘记或降低其在高资源语言 (如英语或法语) 上的表现。这是一场零和博弈，各种语言在神经网络中争夺容量。

在一篇题为 “Exploring Intrinsic Language-specific Subspaces in Fine-tuning Multilingual Neural Machine Translation” (探索微调多语言神经机器翻译中的内在特定语言子空间) 的精彩论文中，来自奈良先端科学技术大学院大学的研究人员提出了一种挑战“越大越好”这一传统智慧的解决方案。他们证明，微调并不需要更新整个模型。相反，它发生在微小的、特定于语言的“子空间”中。

通过隔离这些子空间，并意识到高资源语言实际上比低资源语言需要更少的参数 , 他们以极低的计算成本实现了更好的翻译质量。让我们深入了解他们是如何做到的。

全参数微调的问题

要理解这个解决方案，我们需要先看看多语言神经机器翻译 (MNMT) 的标准训练方式。目标是在各种语言对中最大化给定源句子 \(x\) 时目标句子 \(y\) 的概率。

公式 1: 标准的 MNMT 损失函数。

通常，当研究人员想要改进一个 MNMT 模型时，他们会执行“全参数微调”。他们获取预训练的权重，并根据新数据更新所有权重。

这种方法有两个主要缺陷:

效率低下: 更新数十亿个参数需要巨大的 GPU 显存和存储空间。
干扰: 由于所有语言共享相同的参数，有助于信德语 (Sindhi) 的更新可能会损害德语。高资源语言通常会遭受“灾难性遗忘”。

LoRA 登场: 快速入门

为了解决效率问题，AI 领域采用了 LoRA (低秩适应，Low-Rank Adaptation) 。 LoRA 不去更新巨大的权重矩阵 \(\mathbf{W}\)，而是冻结 \(\mathbf{W}\) 并添加两个小的可训练矩阵 \(\mathbf{B}\) 和 \(\mathbf{A}\)。

公式 2: 标准的 LoRA 前向传播。

把 \(\mathbf{W}\) 想象成一本完成的百科全书。LoRA 不是重写页面 (全量微调) ，而是在页面上贴一张便利贴 (\(\mathbf{BA}\)) 。它在不改变原书的情况下修改了输出。这极大地减少了可训练参数的数量。

然而，标准的 LoRA 在所有语言之间共享这些“便利贴”。研究人员假设这就是干扰问题的根源。如果强制英语和奥里亚语 (Oriya) 使用相同的低秩适应，其中一方不可避免地会将参数拉向不适合另一方的方向。

解决方案: 特定语言 LoRA (LSLo)

作者提出了 特定语言 LoRA (LSLo) 。这个概念很直观: 模型不再使用一个共享的 LoRA 模块，而是维护一组模块库。当模型处理特定语言时，它只激活分配给该语言的 LoRA 模块。

公式 3: LSLo 前向传播，根据语言选择特定模块。

这里，\(l_i\) 代表语言。如果输入是法语，模型就使用法语特定的矩阵 \(\mathbf{B}_{fr}\) 和 \(\mathbf{A}_{fr}\)。这有效地隔离了微调过程。对“法语子空间”的更新不会对“韩语子空间”产生负面影响。

但这引入了新的复杂性。Transformer 模型有一个编码器 (读取输入) 和一个解码器 (生成输出) 。它有许多层，每一层都有不同的组件 (注意力机制、前馈网络) 。

出现了两个巨大的问题:

哪种语言控制开关? 在编码器中，我们应该使用源语言 (例如英语) 还是目标语言 (例如中文) 来选择模块？
子空间应该多大? 我们是否应该给英语分配与奥克语相同数量的参数？

架构学习: 解决“在哪里”和“多大”的问题

研究人员不仅猜测答案；他们开发了算法方法来寻找答案。

1. 权重学习: 源语言 vs. 目标语言

在 \(src \rightarrow tgt\) 的翻译任务中，编码器处理 \(src\)。然而，深度学习理论表明，随着数据在编码器层级中的上升，它变得更加抽象并与目标输出更加一致。

为了证实这一点，作者使用了一种称为 权重学习 (Weight Learning) 的技术。他们允许模型同时使用源语言索引和目标语言索引的 LSLo 模块，但为它们分配了可学习的权重 (\(w_{src}\) 和 \(w_{tgt}\)) 。

公式 5: 计算源语言和目标语言 LSLo 模块的加权和。

模型学会了偏好那个能帮它翻译得更好的模块。结果可视化如下，非常引人注目。

图 1: 编码器中权重从源语言向目标语言转移。

如 图 1 所示，编码器的底层 (蓝线) 强烈偏好 源语言 。然而，当我们移动到顶层 (第 12 层) 时，偏好转向了 目标语言 (橙线) 。解码器 (红线) 几乎只关心目标语言。

结论: 最佳架构是在编码器的底部 9 层使用源语言特定的模块，而在编码器的顶部 3 层和整个解码器中使用目标语言特定的模块。

2. 内在子空间估计: “资源”假设

这是该论文最关键的见解。大多数多语言模型为每种语言分配相同的容量。作者假设这是低效的。

假设: 像英语和法语这样的高资源语言 (HRL) 在预训练模型中已经得到了很好的体现。它们应该只需要一个微小的子空间进行微调。相反，像沃洛夫语 (Wolof) 或信德语这样的低资源语言 (LRL) 在预训练中可能代表性不足，需要更大的子空间来有效学习。

为了验证这一点，他们使用了一种剪枝技术。他们训练了一个大型 LSLo 模型，然后尝试“剪枝” (删除) 参数，看看哪些语言表现出抵抗力。如果一种语言的参数可以被轻易删除而不损害性能，那么该语言对空间的需求就很低。

他们根据剪枝后剩余的参数量定义了一个重要性得分:

公式 6: 重要性得分计算。

生成的热力图完美地证实了他们的假设:

图 2: 显示参数需求的热力图。红色 = 高需求，蓝色 = 低需求。

看 图 2 。行代表语言。

绿色组 (高资源) : 像英语 (en) 和法语 (fr) 这样的语言是深蓝色的。它们对新参数的需求非常低。
红色组 (极低资源) : 像沃洛夫语 (wo) 和信德语 (sd) 这样的语言是红/橙色的。它们对参数非常“饥渴”。

这证明了 我们不应该对所有语言一视同仁。 高资源语言可以在微小的子空间中进行微调，而低资源语言需要更多的成长空间。

渐进式剪枝计划

有了这些知识，研究人员实施了 渐进式剪枝计划 (Gradual Pruning Schedule, GPS) 。

他们不是从一开始就为高资源语言设置一个小的秩 (Rank) ，而是从一个适中的大小开始，并在训练过程中慢慢剪掉参数。这防止了模型过拟合——这是在有限的新数据上微调高资源语言时常见的问题。

公式 4: 随时间增加剪枝率的公式。

该计划将剪枝率 \(P_e\) 从 0 逐渐增加到目标值 \(P\) (例如 90%) 。这使得模型能够为英语或德语“沉淀”出最本质的参数，最终只留下极小的一块高效的活跃权重。

实验结果

团队在 FLORES-101 数据集的子集上测试了他们的方法，并将其与全参数微调 (Ft-all) 进行了比较。

效率与性能

结果令人印象深刻。通过使用他们的优化设置——对高资源语言进行激进剪枝 (高达 90%) 并给予低资源语言更多的秩——他们超越了基线。

表 1: 比较 spBLEU 分数。所提出的方法 (底行) 以极小的参数量击败了全量微调。

在 表 1 中，看 2;2;8+WL+GPS(0.9) 这一行。

H2H (高资源到高资源) : 从 29.29 (Ft-all) 提高到 33.13。
V2V (极低资源到极低资源) : 从 6.66 (Ft-all) 提高到 7.04。
参数量 (Params) : 仅使用了 1530 万 个可训练参数就实现了这一点，而全量微调需要 6.15 亿 个参数。

解决高资源语言的退化问题

多语言学习中最持久的问题之一是，随着模型学习新的低资源语言，它在原本已经掌握的高资源语言上的表现会变差。

研究人员分析了每个 epoch 的训练进度，看看 LSLo 是否解决了这个问题。

图 3: 训练周期内的性能表现。

图 3(a) 讲述了一个引人入胜的故事。紫色虚线 (Ft-all) 显示高资源到高资源翻译的性能随着训练的进行而下降。模型正在遗忘。然而，红线 (采用激进剪枝的提议方法) 保持高位且稳定。通过将高资源语言限制在一个微小的子空间内，模型防止了它们偏离最佳的预训练状态 (过拟合) 。

规模化

他们将实验扩展到 30 种语言，以确保该方法具有可扩展性。

表 2: 30 种语言的实验结果。

如 表 2 所示，即使随着更多语言增加了更多模块，总参数量仍然只是原始模型的一小部分 (46M 对比 615M) ，而且平均 spBLEU 分数显著更高 (13.86 对比 11.61) 。

奇迹发生在哪里？

在最后一部分分析中，作者提出了一个问题: Transformer 的哪些部分最需要这些特定语言的适应？

是注意力机制 (Query, Key, Value) 吗？还是前馈网络 (FC1, FC2) ？

他们按组件类型分组，再次运行了剪枝分析。

图 6: 按组件划分的参数需求。FC1 和 FC2 (前馈网络) 显示出最高的需求。

图 6 (以及论文中的综合图 4) 显示了一个清晰的趋势。 FC1 和 FC2 列始终比注意力列更“热” (更红) 。这表明前馈层充当了模型的“记忆”或知识库，使它们成为应用特定语言微调的最佳位置。

为了验证这一点, 表 4 证实，在相似的参数预算下，仅将 LSLo 应用于 FC 层比仅应用于注意力层能产生更好的结果。

表 4: 比较将 LSLo 应用于 FC 层与注意力层的结果。

结论

这项研究为高效 AI 的未来提供了一份蓝图。它揭穿了我们需要大规模参数更新来微调大型模型的观点。相反，它描绘了一个细致、高效的系统图景:

隔离: 语言应该拥有自己的私有子空间以防止干扰。
非对称性: 高资源语言需要微小的调整；低资源语言需要重大的调整。
针对性: 前馈层是进行这些调整的首选位置。

通过结合 特定语言 LoRA 和 渐进式剪枝 , 我们可以在消费级硬件上微调庞大的多语言模型，在获得更好结果的同时，不会遗忘模型已经掌握的语言。这是一种“少即是多”的方法，使得通用翻译器的梦想变得更加触手可及和可持续。

全参数微调的问题#

LoRA 登场: 快速入门#

解决方案: 特定语言 LoRA (LSLo)#

架构学习: 解决“在哪里”和“多大”的问题#

1. 权重学习: 源语言 vs. 目标语言#

2. 内在子空间估计: “资源”假设#

渐进式剪枝计划#

实验结果#

效率与性能#

解决高资源语言的退化问题#

规模化#

奇迹发生在哪里？#

结论#