停止漂移：如何修复持续学习中的灾难性遗忘

想象一下你在学习弹钢琴。你花了几个月的时间精通了古典音乐。然后，你决定学习爵士乐。当你沉浸在爵士和弦和即兴创作中时，你突然意识到自己很难回忆起曾经弹得完美的古典乐曲了。

在人工智能领域，这种现象被称为灾难性遗忘 (Catastrophic Forgetting) 。当神经网络学习新任务时，它倾向于覆盖为先前任务优化的参数。

这正是论文 “Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning” (导航任务不可知类增量学习中的语义漂移) 所解决的核心问题。研究人员应对的是这一问题中一种极具挑战性的特定形式，称为类增量学习 (Class-Incremental Learning, CIL) 。在这种模式下，模型必须按顺序学习新类别，无法访问以前任务的数据，而且关键在于，测试期间不知道图像属于哪个任务。

在这篇文章中，我们将拆解他们新颖的解决方案，该方案包括诊断遗忘的根本原因——称为“语义漂移” (Semantic Drift) ——并通过对手术般精准地校准模型特征空间的统计属性来修复它。

问题所在: 可塑性与稳定性

持续学习的核心困境在于稳定性-可塑性窘境 (Stability-Plasticity Dilemma) :

可塑性 (Plasticity) : 学习新事物的能力 (爵士乐) 。
稳定性 (Stability) : 记住旧事物的能力 (古典乐) 。

现代方法通常使用大型预训练模型 (如 Vision Transformers 或 ViT) ，并使用参数高效的方法 (如 LoRA，低秩适应) 对其进行微调。虽然这有所帮助，但研究人员发现，即使使用了 LoRA，随着学习新类别，模型对旧类别的内部表示也会发生显著的“漂移”。

什么是语义漂移？

要理解解决方案，我们首先必须可视化问题。当模型更新其权重以学习新类别时，旧类别的特征嵌入 (图像的数学表示) 会发生移动。

作者将这种移动定义为语义漂移 (Semantic Drift) 。他们将其分解为两个具体的统计变化:

均值漂移 (Mean Shift) : 数据簇的中心发生了移动。
协方差漂移 (Covariance Shift) : 数据簇的形状和扩散范围发生了变化。

图 1 说明了语义漂移和校准。部分 (a) 显示了类别分布从任务 t-1 到任务 t 的漂移。部分 (b) 显示了所提出的方法如何补偿均值漂移并校准协方差。

如上图 1(a) 所示，灰色点代表前一个任务 (\(t-1\)) 中某个类别的分布。蓝色点代表在当前任务 (\(t\)) 模型更新后，该类别在特征空间中的位置。分布发生了移动 (漂移) 并改变了形状。这混淆了分类器，导致了遗忘。

如图 1(b) 所示，作者的解决方案是在数学上通过均值漂移补偿 (Mean Shift Compensation) 和协方差校准 (Covariance Calibration) , 强制新分布与旧分布对齐。

架构: 宏观概览

在深入数学细节之前，让我们先看看整体框架。该系统使用预训练的 Vision Transformer (ViT) 作为主干网络。为了让模型在不破坏预训练知识的情况下进行学习，他们使用了LoRA (低秩适应) 。

图 2. 任务 t 时的图解。它展示了从输入到特征提取的流程，LoRA 模块的使用，以及三个关键的损失组件: 分类、协方差和蒸馏。

如图 2 所示，该过程涉及一个具有可学习 LoRA 模块的冻结主干网络。训练目标是三个损失函数的组合:

分类损失 (\(\mathcal{L}_{cls}\)) : 用于学习当前任务。
协方差校准损失 (\(\mathcal{L}_{cov}\)) : 用于维持特征分布的形状。
蒸馏损失 (\(\mathcal{L}_{distill}\)) : 利用 Patch Token 保存特征知识。

总优化目标由以下方程表示:

总损失函数的方程，结合了分类、协方差和蒸馏损失。

让我们详细拆解他们是如何计算这些组件以停止漂移的。

核心方法: 停止漂移

1. 均值漂移补偿 (MSC)

第一步是解决类别中心 (均值) 的移动问题。由于模型无法访问旧数据，它不能简单地使用新网络重新计算旧类别的均值。它必须估计旧类别均值在当前特征空间中的位置。

首先，定义类别均值。在学习一个任务后，类别 \(c\) 的均值 (\(\mu\)) 是该类别所有样本嵌入的平均值:

方程 3 定义了类别均值的计算。

当模型在由于新任务 (\(t\)) 上训练时，当前任务图像的嵌入会发生变化。研究人员假设，在当前样本中观察到的偏移，近似于旧的、未见过的样本将经历的偏移。

他们计算了旧网络 (从任务 \(t-1\) 冻结) 和当前网络 (正在为任务 \(t\) 训练) 之间当前图像嵌入的差异:

方程 7 定义了旧模型和当前模型之间单个样本的嵌入偏移。

利用这个样本级的偏移，他们估计类别均值漂移 (Class Mean Shift) 。然而，并非所有样本都是平等的。相比于离群点，在前一个模型中接近类别中心的样本能更好地指示真实的偏移。因此，他们使用基于与前一个均值接近度的加权平均值:

方程 8 显示了用于估计均值漂移的加权平均计算。

权重 (\(w_i\)) 由高斯核决定，给予接近类别中心的样本更高的重要性:

方程 9 定义了基于与类别均值距离的权重计算。

通过将此估计的漂移 (\(\hat{\Delta}\mu\)) 添加到存储的旧均值中，模型可以在不实际看到旧图像的情况下，预测旧类别当前在特征空间中的位置。

2. 协方差校准 (CC)

修正均值只是成功了一半。分布的形状 (协方差) 也会发生扭曲。为了解决这个问题，作者引入了协方差校准技术。

目标是对齐旧网络和当前网络嵌入的协方差矩阵。为了高效地做到这一点，他们利用了马氏距离 (Mahalanobis Distance) 。与欧几里得距离不同，马氏距离考虑了变量之间的相关性 (即分布的形状) 。

给定协方差矩阵 \(\Sigma\)，两个向量 \(x\) 和 \(y\) 之间的马氏距离定义为:

方程 12 定义了马氏距离公式。

研究人员使用旧网络 (代表“过往知识”) 计算每个类别的协方差矩阵。

方程 13 显示了使用前一个任务的网络计算协方差矩阵。

然后，他们制定了一个损失函数，强制当前网络中嵌入之间的成对距离与旧网络中的成对距离相匹配，特别是使用旧网络的协方差结构。

方程 10 详细描述了协方差校准损失函数。

通过最小化这个损失 (\(\mathcal{L}_{cov}\)) ，网络被约束为维持特征簇的内部结构和形状，有效地“锁定”分布的二阶矩以防止语义漂移。

3. 特征级自蒸馏

标准分类通常依赖于 Vision Transformers 中的 [CLS] token。然而，“Patch Token” (代表图像特定部分的特征) 包含丰富的语义信息。

作者观察到 Patch Token 经常被忽略或覆盖。为了防止这种情况，他们引入了一种自蒸馏机制。他们将当前网络的 Patch Token (\(p^t\)) 与旧网络的 Patch Token (\(p^{t-1}\)) 进行比较。

有趣的是，他们根据 Patch 与类 token 的不相似程度来对这种蒸馏进行加权。如果一个 Patch Token 与类 token 非常不同，它可能包含了不应丢失的独特局部细节。

方程 14 定义了 Patch Token 的自蒸馏损失。

该公式鼓励与类 token 角度相似度低 (意味着它们捕获了不同的信息) 的 Patch Token 保持接近其在前一个网络中的表示。

4. 分类器对齐

最后，在完成任务训练后，分类器头需要进行微调。因为模型刚刚看到了大量新任务的数据，分类器会偏向于它。

使用校准后的均值 (来自步骤 1) 和协方差 (来自步骤 2) ，作者从高斯分布中采样合成特征。他们使用这些旧类别的“幻觉”特征混合新数据来重新训练分类器头，确保决策边界的平衡。

方程 11 显示了用于事后分类器对齐的交叉熵损失。

实验与结果

这种数学校准真的有效吗？作者在四个基准数据集上测试了他们的方法: ImageNet-R、ImageNet-A、CUB-200 和 CIFAR-100。他们将自己的方法与包括 L2P、DualPrompt 以及其他基于 LoRA 的策略在内的最先进方法进行了比较。

与最先进方法的比较

结果总结在下表 1 中，非常有说服力。

表 1 显示了在四个基准数据集上的比较结果。所提出的方法 (‘Ours’) 在 ImageNet-R 和 ImageNet-A 上取得了最高的准确率。

在 ImageNet-R (包含 ImageNet 类别的艺术再现，使其在分布上截然不同) 上，所提出的方法实现了 85.95% 的平均准确率 (\(\mathcal{A}_{Avg}\)) ，比第二名 (SSIAT) 高出 2% 以上。

在 ImageNet-A (包含难以分类的“自然对抗”样本) 上，该方法再次领先。这表明在数据分布复杂或与预训练数据有偏移时，处理语义漂移特别有效。

随时间的鲁棒性

同样重要的是要看方法何时失效。它们是在 2 个任务后崩溃，还是 5 个任务后？

图 3 绘制了增量学习阶段的准确率。‘Ours’ 线 (青色) 始终高于竞争对手，显示出更好的稳定性。

图 3 展示了随着任务增加准确率的下降情况。

青色线 (Ours) : 注意在左上角的图表 (ImageNet-R 5 个任务) 中，青色线几乎保持平坦，而其他方法则在退化。
即使在通常遗忘严重的 20 个任务设置 (左下角) 中，该方法在整个学习生命周期中也保持了较高的性能基线。

哪些组件最重要？

你可能会问: 是均值漂移补偿 (MSC) 还是协方差校准 (CC) 在起主要作用？表 3 中的消融实验对此进行了分解。

表 3 显示了消融研究。单独添加 MSC 和 CC 都能提高性能，但将它们结合起来能产生最好的结果。

基线 (Baseline) : 79.36% 准确率。
添加 MSC: 跃升至 80.81%。
添加 CC: 跃升至 80.70%。
两者结合: 达到 81.60%。
完整方法 (含蒸馏) : 峰值达到 81.88%。

这证实了修复特征簇的中心 (均值) 和形状 (协方差) 对于最大化稳定性至关重要。

结论

论文“Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning”为神经网络为何遗忘提供了一个深入的视角。它超越了简单的“重播”策略，深入到了潜空间的几何结构。

通过识别语义漂移为罪魁祸首，并引入统计工具来校准特征分布的均值和协方差 , 作者提供了一个鲁棒的解决方案。他们让模型通过 LoRA 保持足够的“可塑性”以学习新任务，同时通过漂移补偿保持足够的“稳定性”以保留旧知识。

对于机器学习的学生和研究人员来说，这项工作强调了一个重要的教训: 有时解决方案不仅仅是更大的网络或更多的数据，而是对特征统计行为的更深层理解。通过数学约束特征如何移动和改变形状，我们可以构建出像人类一样学习——并记忆——的 AI。

问题所在: 可塑性与稳定性#

什么是语义漂移？#

架构: 宏观概览#

核心方法: 停止漂移#

1. 均值漂移补偿 (MSC)#

2. 协方差校准 (CC)#

3. 特征级自蒸馏#

4. 分类器对齐#

实验与结果#

与最先进方法的比较#

随时间的鲁棒性#

哪些组件最重要？#

结论#