神经机器翻译中的灾难性遗忘：为什么你的医学翻译忘了怎么说“你好”

想象一下，你有一位才华横溢的翻译，他能说一口流利的通用德语和英语。为了让他专攻医学文本，你送他去读了医学院 (用机器学习的术语来说，就是你在医学数据集上对他进行了微调) 。学成归来，他成了“心肌梗死”和“静脉滴注”方面的专家。

但当你让他翻译一篇关于足球比赛的简单新闻时，情况不对了。他突然开始把“比赛 (game) ”翻译成“实验匹配 (experiment match) ”，把“球员 (player) ”翻译成“受试者 (subject) ”，而且他似乎完全忘记了几周前还熟记于心的常用词汇。

这种现象被称为灾难性遗忘 (Catastrophic Forgetting) 。这是神经机器翻译 (NMT) 中最令人头疼的顽疾之一。虽然研究人员几十年前就知道它的存在，但我们对到底遗忘了什么，以及为什么某些数据集比其他数据集更容易引发这种现象，却知之甚少。

在这篇文章中，我们将深入探讨 Danielle Saunders 和 Steve DeNeefe 的论文 “Domain adapted machine translation: What does catastrophic forgetting forget and why?” (领域适应机器翻译: 灾难性遗忘到底遗忘了什么以及为什么？) 。这项研究不再仅仅停留在观察“分数下降”这一表象，而是像法医一样深入神经网络的“案发现场”，揭示究竟哪些词汇凭空消失了，以及你的数据内容是如何导致这一后果的。

问题所在: 专业化 vs. 通用化

在 NMT 的世界里，我们很少为每个特定任务从头开始训练模型。因为这样做太昂贵且耗费数据。相反，我们通常使用一个强大的、经过预训练的“通用 (Generic) ”模型 (在数百万对新闻、维基百科等句对上训练) ，并执行领域适应 (Domain Adaptation) 。这通常涉及微调 (fine-tuning) : 在较小的、特定领域的数据集 (如法律、医学或 IT 手册) 上继续训练过程。

目标是提高新领域的表现。但风险在于，模型可能会覆盖其先前的知识。

当前研究的盲点

在这篇论文之前，灾难性遗忘主要通过 BLEU 分数来衡量。如果一个模型在微调医学数据后，其在通用新闻测试集上的 BLEU 分数下降了，我们就说: “它遗忘了。”

但这是一种非常粗糙的手段。较低的 BLEU 分数并不能告诉我们:

遗忘了什么? 是忘了语法？还是忘了特定的单词？
这种变化真的很糟糕吗? 也许模型只是使用了一个更精确的医学术语，虽然技术上与通用参考译文不匹配，但仍然是可读的。
为什么会发生? 是医学数据集太小了吗？还是太重复了？

研究人员认为，如果不了解适应数据与遗忘之间的关系，我们对解决方案的探索就只能是盲人摸象。

核心方法: 测量“词汇漂移”

为了解决这个问题，作者不再依赖通用的质量评分，而是开发了一种特定的指标来追踪词汇漂移 (Vocabulary Shift) 。他们希望找出那些通用模型可以正确使用，但适应后的模型却无法生成的 Token (单词或子词) 。

引入 `ForgetGenUse`

他们提出了一个名为 ForgetGenUse 的指标。其逻辑优雅但需要稍作拆解。

针对一个特定的 Token (比如单词“happy”) ，他们会查看测试句子及其参考译文。

他们统计通用 (原始) 模型正确生成“happy”的次数 (上限为它在参考译文中实际出现的次数) 。
他们统计适应后的模型正确生成“happy”的次数。
如果通用模型做对了，而适应后的模型没做对，两者的差值就是“遗忘”分数。

数学公式如下所示:

定义 token 级别遗忘计算的公式。

这里，\(O\) 代表原始模型，\(A\) 代表适应后的模型。该分数衡量了丢失的“通用用法 (Generic Use) ”。

为了得到整个数据集的分数，他们将这些值求和并进行归一化:

归一化语料库级别 ForgetGenUse 分数的公式。

为什么这比 BLEU 更好？

标准指标通常奖励做对的事情。而 ForgetGenUse 专门惩罚模型以前知道但现在丢失了的内容。它区分了模型从未学过“happy”这个词 (这是一个质量问题) 和模型曾经知道但丢失了它 (这就是灾难性遗忘) 。

实验: 故意破坏模型

为了测试这一点，研究人员采用了两个预训练的 Transformer 模型 (德语到英语，英语到日语) ，并故意试图诱发灾难性遗忘。他们将这些模型适应到八个不同的领域，包括:

IT: 软件手册 (技术性很强) 。
Koran (古兰经) : 宗教文本 (风格/词汇非常独特) 。
Law (法律) : 欧盟法规。
Medical (医学) : EMEA 医学文本。
Subtitles (字幕) : 电影字幕 (口语化) 。

他们对模型进行微调，直到通用新闻文本的质量下降。结果显示，根据领域的不同，遗忘程度存在巨大差异。

表格显示了不同领域的 BLEU 和 COMET 分数下降情况，以及 ForgetGenUse 分数的上升情况。

在上表中，请看 Kor (古兰经) 领域。它的 BLEU 分数大幅下降 (\(\Delta\)22.3) ，且 ForgetGenUse 分数很高 (0.25) 。与之相比, Law (法律) 的下降幅度要小得多。这证明并非所有领域对模型通用记忆的“危险性”都是一样的。

到底遗忘了什么？

这是论文最精彩的部分。作者对齐了翻译结果，以确切查看哪些词被替换了。他们发现，遗忘不仅仅是模型生成了垃圾内容；它实际上是一种有害的词汇漂移 (Detrimental Vocabulary Shift) 。

适应后的模型开始将领域内的词汇强行塞入并不属于它们的通用句子中。

表格显示了被遗忘的特定 Token 及其替换词的示例。

让我们分析上表 (Table 3) 中的几个例子。这些是通用德语句子被适应特定领域后的模型翻译成英语的情况:

“Trump” 变为 “Donald” 的漂移 (IT 领域) :

*通用模型: * 正确翻译为 “Trump”。
*IT 适应模型: * 翻译为 “Donald”。
*原因: * 在 IT 训练数据中，从未出现过 “Trump”。但是，“Donald” 出现过 (指的是著名的计算机科学家 Donald Knuth) 。尽管上下文完全不同，但模型已经学到在它的新世界里，“Donald” 是一个有效的 Token，而 “Trump” 不是。

“England” 变为 “Kingdom” 的漂移 (古兰经领域) :

*通用模型: * “England”。
*古兰经适应模型: * “Kingdom”。
*原因: * 古兰经数据集没有提到 England，但频繁提到 “Kingdom” (在神圣的语境下) 。当模型看到国家或土地的概念时，其概率分布现在严重偏向 “Kingdom” 这个词。

“Weeks” 变为 “Months” 的漂移 (医学领域) :

*通用模型: * “week”。
*医学适应模型: * “month”。
*原因: * 这是一个改变原意的错误。在医学报告中，也许“月”是比“周”更常见的治疗时间单位。模型过度泛化了这种统计偏差。

域内 vs. 域外 Token

研究人员分别测量了出现在领域数据中的单词 (域内/ID) 和未出现的单词 (域外/OOD) 的 ForgetGenUse。

表格比较了域内与域外 Token 的遗忘率。

如 Table 4 所示, 域外 Token (ForgetGenUseOOD) 的遗忘率要高得多。 这在直觉上讲得通: 如果模型在微调期间不再看到某个词，该词的概率就会下降。然而, 替换词 (如用 “Kingdom” 替换 “England”) 通常是那些确实出现在适应数据中的词。模型正在向通用句子中“幻觉”般地生成特定领域的术语。

调查: 为什么会发生这种情况？

我们知道了发生了什么 (词汇替换) 。现在，为什么古兰经数据集会破坏通用性能，而法律数据集却相对安全？作者测试了几个假设。

嫌疑人 1: 数据集大小

假设: 也许较小的数据集会导致更多遗忘，因为它们提供的信号较少？或者也许较大的数据集会导致更多遗忘，因为它们更频繁地更新权重？ 结果: 没有明显的相关性。即使他们将所有数据集下采样到相同的大小 (Token 数量) ，导致遗忘最多的领域排名也基本保持不变。大小会影响遗忘的总量，但不能解释领域之间的差异。

嫌疑人 2: 句子长度与质量

假设: 也许具有非常短句子的领域 (如字幕) 存在歧义，混淆了模型？ 实验: 他们在短句和长句的子集上进行了测试。 结果: 结果不一。非常短、充满噪声 (对齐糟糕) 的句子会加速遗忘，但干净的短句本身并不具有破坏性。

嫌疑人 3: 词汇覆盖率 (罪魁祸首！)

假设: 适应数据集覆盖通用词汇的程度决定了遗忘。如果你的医学数据集包含单词“game”，你就不会忘记“game”。如果不包含，你可能会用“match”替换它。

结果: 强相关。

表格显示了领域启发式特征与遗忘之间的相关性。

Table 7 是“确凿证据”。请看 Src-vcb cover (源词汇覆盖率) 和 Trg-vcb cover (目标词汇覆盖率) 这两行。

古兰经 (Kor) 领域的覆盖率极低 (0.23) 。这意味着 77% 的通用词汇在古兰经训练数据中完全缺失。结果: 大规模遗忘。
法律 (Law) 领域的覆盖率很高 (0.70) 。结果: 极少的遗忘。

相关性是显著的: 你的适应数据与通用词汇的重叠越少，你的模型遭受灾难性遗忘的程度就越重。

解决方案: 最小化混合 (Minimal Mix-in)

如果缺乏词汇覆盖是根本原因，我们能否通过人为提高覆盖率来解决这个问题？

防止遗忘的一种常用技术是混合微调 (Mixed Fine-Tuning) : 将通用数据混合回适应数据中。通常，人们只是按 1:1 随机混合。但这会减慢训练速度，并需要处理大量数据。

作者提出了最小化混合 (Minimal Mix-in) 。

策略

他们不再随机抽取数据，而是在通用数据集中搜索包含适应数据集中缺失的目标 Token 的句子。他们添加刚好足够的通用句子，以确保微调期间每个可能的单词至少出现一次。

表格显示了最小化混合与随机 1:1 混合所需的行数对比。

如 Table 8 所示，“最小化混合”所需的数据量仅为领域数据集或随机 1:1 混合的一小部分。对于 IT 领域，他们只需要 18,861 行通用数据，而 1:1 混合则需要超过 220,000 行。

结果

这种外科手术式的数据注入有效吗？

表格比较了不同混合策略下的遗忘指标。

Table 9 显示了通用测试集上的结果 (越低越好) :

无混合 (No mix-in): 高遗忘率 (例如，IT \(\Delta\)BLEU 为 5.0) 。
随机 1:1 (Random 1:1): 非常低的遗忘率 (IT \(\Delta\)BLEU 为 0.5) 。
最小化混合 (Minimal Mix-in): 惊人地接近随机 1:1 (IT \(\Delta\)BLEU 为 1.1) 。

结论: 通过添加仅相当于标准方法不到 10% 的数据，他们减轻了约 80% 的灾难性遗忘。

至关重要的是，这种方法还保留了域内 (In-Domain) 性能的提升。有时，混合过多的通用数据会使模型在特定的医学/法律任务上表现变差。最小化混合达到了完美的平衡: 它提醒模型那些面临遗忘风险的单词，同时又不会淹没新的领域知识。

结语

这篇论文为神经机器翻译拼图提供了至关重要的一块。它让我们不再将“灾难性遗忘”视为一种神秘的质量下降，而是将其重新定义为一个覆盖率问题 。

以下是我们学到的:

遗忘即词汇漂移: 模型用高频的领域同义词替换已知单词，往往忽略上下文 (例如，“Trump” 变为 “Donald”) 。
域外词汇很脆弱: 如果一个词不在你的微调数据中，模型很可能会用一个存在的词覆盖它的概率。
覆盖率是王道: 预测一个数据集会对模型造成多大破坏的最佳指标，是它缺失了多少通用词汇。
外科手术式的修复有效: 你不需要在整个互联网数据上重新训练。确保你的适应数据覆盖模型的词汇表——即使是使用“最小化混合”方法——也可以防止绝大多数的遗忘。

对于学生和从业者来说，这意味着在设计领域适应流程时，不应只是抓取一个数据集就开始微调。你应该分析词汇重叠情况。如果你的领域数据非常专业 (词汇狭窄) ，你必须准备好模型会失去其通用能力，并且你应该考虑用一个有针对性的、词汇丰富的通用集来增强你的数据。

问题所在: 专业化 vs. 通用化#

当前研究的盲点#

核心方法: 测量“词汇漂移”#

引入 ForgetGenUse#

为什么这比 BLEU 更好？#

实验: 故意破坏模型#

到底遗忘了什么？#

域内 vs. 域外 Token#

调查: 为什么会发生这种情况？#

嫌疑人 1: 数据集大小#

嫌疑人 2: 句子长度与质量#

嫌疑人 3: 词汇覆盖率 (罪魁祸首！)#

解决方案: 最小化混合 (Minimal Mix-in)#

策略#

结果#

结语#