想象一下,你正在尝试学习一门新语言。你花了几个月的时间精通了法语。然后,你决定学习西班牙语。但问题来了: 当你开始进行西班牙语动词变位时,你莫名其妙地忘记了你学过的所有法语单词。
这种现象被称为灾难性遗忘 (Catastrophic Forgetting) , 它是当今人工智能面临的最大障碍之一。
在自然语言处理 (NLP) 领域,我们需要能够持续学习的模型——即在学习新任务的同时不抹去旧任务的记忆。这在持续事件检测 (Continual Event Detection, CED) 中尤为棘手,因为模型必须在随时间变化的文本流中识别特定类型的事件 (如“攻击”、“选举”或“交易”) 。
在这篇文章中,我们将探讨一篇引人入胜的研究论文: 《Lifelong Event Detection via Optimal Transport》 (基于最优传输的终身事件检测) 。 研究人员提出了一种名为 LEDOT (Lifelong Event Detection via Optimal Transport) 的方法。他们认为,记忆保持的秘诀不仅仅在于回放旧数据,而在于通过数学方法将模型当前正在学习的内容与其已经拥有的深层语言知识对齐。
问题所在: 浪费的微调过程
要理解 LEDOT,我们需要先看看现代 NLP 模型是如何训练的。通常,我们从像 BERT 这样的大规模预训练语言模型 (PLM) 开始。BERT 对英语词汇了解甚多。它有一个“头 (head) ”——即最后一层——可以预测字典中任何单词出现在特定上下文中的概率。
当研究人员针对特定任务 (如事件检测) 微调 BERT 时,他们通常会切掉这个“语言建模头”,并用一个针对特定事件类型量身定制的、随机初始化的“分类器头”取而代之。
本文作者认为这是一种浪费。 通过丢弃原始的头,我们扔掉了关于单词之间相互关系的宝贵信息。分类器头被迫从零开始孤立地学习,这使得它变得“过度可塑 (overplastic) ”——太急于为新数据改变权重,从而导致对旧数据的灾难性遗忘。
背景: 事件检测与回放
在深入解决方案之前,让我们先建立事件检测 (ED) 的基础知识。
在 ED 中,模型会接收一个句子和标记“触发词 (trigger word) ”的两个索引。目标是将此触发词分类为特定的事件类型 (如果不是事件,则为“NA”) 。
首先,文本被编码为隐藏表示。触发词片段 (\(w'_s\) 到 \(w'_e\)) 的表示被拼接起来形成隐藏向量 \(h\):

然后,这个向量 \(h\) 通过一个前馈神经网络 (FNN) 和一个线性层,生成事件标签 (\(y\)) 上的概率分布:

为了训练这个模型,主要通过最小化标准的交叉熵损失 (\(\mathcal{L}_C\)) 。这迫使模型的预测与真实标签相匹配:

因为“NA” (非事件) 比实际事件常见得多,研究人员使用加权损失来平衡训练:

持续学习的挑战
在持续学习的设置中,数据是分批 (任务) 到达的。一旦任务 1 完成,模型就无法再访问该完整数据集。它转而处理任务 2。为了防止模型忘记任务 1,标准方法是基于记忆的回放 (Memory-based Replay) 。
模型保留一个小的“回放缓冲区 (Replay Buffer) ” (\(\mathcal{R}\)) ,其中包含从先前任务中保存的一些示例。在训练新任务时,模型还会使用两个特定的损失函数来“排练”这些保存的示例:
回放损失 (\(\mathcal{L}_R\)) : 确保模型仍然能正确分类旧示例。

知识蒸馏 (\(\mathcal{L}_D\)) : 确保模型当前的输出概率 (\(p^t\)) 看起来与过去产生的概率 (\(p^{t-1}\)) 相似。这起到了稳定剂的作用。

虽然这些方法有帮助,但它们并不完美。缓冲区很小,无法捕捉所有内容。这正是 LEDOT 改变游戏规则的地方。
核心方法: 基于最优传输的终身事件检测
LEDOT 的天才之处在于它如何利用被丢弃的 BERT “语言建模头” (LMH) 。
研究人员提出,即使我们的目标是分类事件 (如“攻击”或“结婚”) ,我们也应该尊重触发词的词汇分布。如果触发词是“ambushed (伏击) ”,BERT 知道这个词在语义上接近“attacked (攻击) ”或“surprised (突袭) ”。分类器头理想情况下应该将“ambushed”映射到“攻击”事件类别,并尊重这些语义关系。
第一步: 恢复词汇分布
首先,研究人员将事件触发词输入到冻结的原始 BERT 语言建模头中。这给了他们整个英语词汇表 (约 30,000 个单词) 上的概率分布。
他们计算出一个分布 \(\tilde{x}\),代表触发词的语言学本质:

这里,\(\tau\) 是一个温度参数,控制分布是“尖锐”还是“平坦”。
第二步: 对齐问题
现在我们对于同一个输入有两个分布:
- \(\tilde{x}\): 基于 30,000 个单词的分布 (来自 BERT) 。
- \(p\): 基于 \(C\) 个事件类别的分布 (来自我们的分类器) 。
我们想要强迫 \(p\) 与 \(\tilde{x}\) 保持一致。但是,如何比较一个包含 30,000 个数字的列表和一个包含 10 个数字的列表呢?你不能使用像 Kullback-Leibler 散度这样的标准距离度量,因为它们的定义域 (支撑集) 完全不同。
这就是最优传输 (Optimal Transport, OT) 发挥作用的地方。
第三步: 最优传输 (OT)
最优传输是一个数学框架,通过计算将一个分布转换为另一个分布的“成本”来衡量两个概率分布之间的距离。想象 \(\tilde{x}\) 是一堆土,而 \(p\) 是一组坑。OT 计算将土移动到坑中的最高效方式。
该距离定义为将质量从词汇分布传输到类别分布的最小成本:

这里,\(\mathbf{M}\) 是代价矩阵 (Cost Matrix) 。 它定义了将概率质量从词汇表中的特定单词移动到特定事件类别的“价格”。
第四步: 语义代价矩阵
定义代价矩阵 \(\mathbf{M}\) 是该方法最关键的部分。如果单词 \(v\) 与事件类别 \(c\) 在语义上相关,成本 \(m_{vc}\) 应该很低;如果它们不相关,成本应该很高。
为了实现这一点,研究人员为每个事件类别分配了一个可学习的嵌入向量 (\(\mathbf{g}_c\)) 。然后,他们使用余弦相似度将此类别嵌入与来自 BERT 的固定词嵌入 (\(\mathbf{e}_v\)) 进行比较:

这个方程的含义是: 如果类别嵌入和词嵌入指向相同的方向 (高相似度) ,成本接近 0。如果是相反方向,成本则很高。这鼓励模型学习与 BERT 认知的实际单词在语义上对齐的类别表示。
第五步: Sinkhorn 距离
计算精确的最优传输在计算上非常昂贵。为了加速这一过程,作者使用了 Sinkhorn 距离 , 它增加了一个熵正则化项 (\(H(P)\)) 。这使得优化问题变得更快、更平滑:

结合上述概念,最终的最优传输损失 (\(\mathcal{L}_{\mathcal{OT}}\)) 最小化了词汇分布与类别预测之间的距离,有效地将新任务的学习“锚定”在 BERT 稳定的预训练知识上:

第六步: 一致性与总损失
为了确保学习到的类别嵌入 (\(\mathbf{G}\)) 不会随着新任务的添加而发生剧烈漂移,研究人员添加了一个正则化项,使当前的类别嵌入保持与之前的嵌入接近:

最后,总损失函数结合了我们讨论的所有内容: 标准分类损失、回放损失、蒸馏损失、新的最优传输损失以及嵌入正则化:

额外加成: 原型回放
除了 OT,研究人员还改进了回放缓冲区。他们不仅仅存储原始文本,而是计算每个类别的原型 (均值 \(\mu\) 和协方差 \(\Sigma\)) 。在回放期间,他们可以从这个高斯分布中生成合成特征。这有效地创造了“无限”的回放数据供应,防止缓冲区过于稀疏。
实验与结果
这种复杂的数学对齐真的有效吗?研究人员在两个主要的事件检测数据集上测试了 LEDOT: MAVEN 和 ACE 。
他们将 LEDOT 与几个强基线模型进行了比较,包括:
- 微调 (Fine-tuning, naive) : 仅在新任务上训练 (容易遗忘) 。
- EMR & SCR: 现有的基于回放的方法。
- SharpSeq: 一种针对“平坦最小值”进行优化的最新方法。
性能比较
如下方表 1 所示的结果非常令人信服。该表跟踪了模型按顺序学习任务 1 到 5 时的 F1 分数 (一种准确度度量) 。

请看 LEDOT 所在的行。在 MAVEN 数据集上,学完所有 5 个任务后,LEDOT 达到了 57.53% 的 F1 分数,显著高于像 SCR (53.41%) 或 KCN (47.44%) 这样的标准基线。
理想情况下,我们希望即使在学习了任务 5 之后,任务 1 的表现依然保持高水平。LEDOT 展现了极其稳定的性能,表明其灾难性遗忘极少。
有趣的是,当 LEDOT 与 SharpSeq 结合使用时 (LEDOT + SharpSeq) ,性能跃升得更高 (在 MAVEN 上达到 61.49%) ,这表明 LEDOT 与其他优化技术是兼容的。
消融实验: 什么最重要?
研究人员进行了“消融实验”——移除模型的部分组件以观察其影响。
最优传输重要吗? 将 LEDOT 与没有 OT 的版本 (LEDOT-R) 进行比较表明,OT 对最终分数的贡献显著 (提高了大约 2-3%) 。
温度 (\(\tau\)) 重要吗? 语言模型头的温度控制着 BERT 对其词汇分布的“自信”程度。下表显示,适中的温度 (大约 \(\tau=1\) 或 \(\tau=2\)) 效果最好。如果分布太尖锐 (\(\tau=0.01\)) 或太平坦 (\(\tau=5\)) ,性能都会下降。

- 正则化强度 (\(\alpha\)) 参数 \(\alpha\) 控制着我们多严格地强迫类别嵌入与前一个任务保持相似。数据显示 \(\alpha=0.5\) 处有一个“最佳点”。

更广泛的意义
虽然这篇论文关注的是事件检测,但最优传输在持续学习中的意义是巨大的。其核心思想——将新的、特定的任务分布与广泛的、预训练的“世界知识”分布对齐——可以应用于其他领域。
作者甚至通过将该方法应用于持续关系抽取 (确定两个实体如何相关,例如“雇员于”或“出生于”) ,简要展示了这一点。
他们针对 T5 模型 (一种编码器-解码器) 调整了该方法,使用了一个涉及理据 (解释) 的复杂设置。

即使在这个不同的领域,经过 OT 增强的方法 (OT RCL) 也提高了性能,证明了 LEDOT 的数学基础是稳健且通用的。
结论
LEDOT 代表了我们对微调和持续学习思考方式的转变。LEDOT 不再将预训练模型仅仅视为一个可以覆盖的特征提取器,而是尊重原始语言建模头中编码的语言结构。
通过使用最优传输 , 模型在需要检测的特定事件与它已经理解的通用词汇之间建立了一座桥梁。这座桥梁稳定了学习过程,使 AI 能够在学习新技能的同时不忘记旧技能。
对于 AI 领域的学生和研究人员来说,这篇论文是一个很好的例子,展示了经典数学概念 (如最优传输) 如何解决现代深度学习问题 (如灾难性遗忘) 。它提醒我们,有时候,前进的最佳方式是确保我们不会与已知的事物失去联系。
](https://deep-paper.org/en/paper/2410.08905/images/cover.png)