想象一下你在学习弹钢琴。你花了几个月的时间精通了古典音乐。然后,你决定学习爵士乐。当你沉浸在爵士和弦和即兴创作中时,你突然意识到自己很难回忆起曾经弹得完美的古典乐曲了。
在人工智能领域,这种现象被称为灾难性遗忘 (Catastrophic Forgetting) 。 当神经网络学习新任务时,它倾向于覆盖为先前任务优化的参数。
这正是论文 “Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning” (导航任务不可知类增量学习中的语义漂移) 所解决的核心问题。研究人员应对的是这一问题中一种极具挑战性的特定形式,称为类增量学习 (Class-Incremental Learning, CIL) 。在这种模式下,模型必须按顺序学习新类别,无法访问以前任务的数据,而且关键在于,测试期间不知道图像属于哪个任务。
在这篇文章中,我们将拆解他们新颖的解决方案,该方案包括诊断遗忘的根本原因——称为“语义漂移” (Semantic Drift) ——并通过对手术般精准地校准模型特征空间的统计属性来修复它。
问题所在: 可塑性与稳定性
持续学习的核心困境在于稳定性-可塑性窘境 (Stability-Plasticity Dilemma) :
- 可塑性 (Plasticity) : 学习新事物的能力 (爵士乐) 。
- 稳定性 (Stability) : 记住旧事物的能力 (古典乐) 。
现代方法通常使用大型预训练模型 (如 Vision Transformers 或 ViT) ,并使用参数高效的方法 (如 LoRA,低秩适应) 对其进行微调。虽然这有所帮助,但研究人员发现,即使使用了 LoRA,随着学习新类别,模型对旧类别的内部表示也会发生显著的“漂移”。
什么是语义漂移?
要理解解决方案,我们首先必须可视化问题。当模型更新其权重以学习新类别时,旧类别的特征嵌入 (图像的数学表示) 会发生移动。
作者将这种移动定义为语义漂移 (Semantic Drift) 。 他们将其分解为两个具体的统计变化:
- 均值漂移 (Mean Shift) : 数据簇的中心发生了移动。
- 协方差漂移 (Covariance Shift) : 数据簇的形状和扩散范围发生了变化。

如上图 1(a) 所示,灰色点代表前一个任务 (\(t-1\)) 中某个类别的分布。蓝色点代表在当前任务 (\(t\)) 模型更新后,该类别在特征空间中的位置。分布发生了移动 (漂移) 并改变了形状。这混淆了分类器,导致了遗忘。
如图 1(b) 所示,作者的解决方案是在数学上通过均值漂移补偿 (Mean Shift Compensation) 和协方差校准 (Covariance Calibration) , 强制新分布与旧分布对齐。
架构: 宏观概览
在深入数学细节之前,让我们先看看整体框架。该系统使用预训练的 Vision Transformer (ViT) 作为主干网络。为了让模型在不破坏预训练知识的情况下进行学习,他们使用了LoRA (低秩适应) 。

如图 2 所示,该过程涉及一个具有可学习 LoRA 模块的冻结主干网络。训练目标是三个损失函数的组合:
- 分类损失 (\(\mathcal{L}_{cls}\)) : 用于学习当前任务。
- 协方差校准损失 (\(\mathcal{L}_{cov}\)) : 用于维持特征分布的形状。
- 蒸馏损失 (\(\mathcal{L}_{distill}\)) : 利用 Patch Token 保存特征知识。
总优化目标由以下方程表示:

让我们详细拆解他们是如何计算这些组件以停止漂移的。
核心方法: 停止漂移
1. 均值漂移补偿 (MSC)
第一步是解决类别中心 (均值) 的移动问题。由于模型无法访问旧数据,它不能简单地使用新网络重新计算旧类别的均值。它必须估计旧类别均值在当前特征空间中的位置。
首先,定义类别均值。在学习一个任务后,类别 \(c\) 的均值 (\(\mu\)) 是该类别所有样本嵌入的平均值:

当模型在由于新任务 (\(t\)) 上训练时,当前任务图像的嵌入会发生变化。研究人员假设,在当前样本中观察到的偏移,近似于旧的、未见过的样本将经历的偏移。
他们计算了旧网络 (从任务 \(t-1\) 冻结) 和当前网络 (正在为任务 \(t\) 训练) 之间当前图像嵌入的差异:

利用这个样本级的偏移,他们估计类别均值漂移 (Class Mean Shift) 。 然而,并非所有样本都是平等的。相比于离群点,在前一个模型中接近类别中心的样本能更好地指示真实的偏移。因此,他们使用基于与前一个均值接近度的加权平均值:

权重 (\(w_i\)) 由高斯核决定,给予接近类别中心的样本更高的重要性:

通过将此估计的漂移 (\(\hat{\Delta}\mu\)) 添加到存储的旧均值中,模型可以在不实际看到旧图像的情况下,预测旧类别当前在特征空间中的位置。
2. 协方差校准 (CC)
修正均值只是成功了一半。分布的形状 (协方差) 也会发生扭曲。为了解决这个问题,作者引入了协方差校准技术。
目标是对齐旧网络和当前网络嵌入的协方差矩阵。为了高效地做到这一点,他们利用了马氏距离 (Mahalanobis Distance) 。 与欧几里得距离不同,马氏距离考虑了变量之间的相关性 (即分布的形状) 。
给定协方差矩阵 \(\Sigma\),两个向量 \(x\) 和 \(y\) 之间的马氏距离定义为:

研究人员使用旧网络 (代表“过往知识”) 计算每个类别的协方差矩阵。

然后,他们制定了一个损失函数,强制当前网络中嵌入之间的成对距离与旧网络中的成对距离相匹配,特别是使用旧网络的协方差结构。

通过最小化这个损失 (\(\mathcal{L}_{cov}\)) ,网络被约束为维持特征簇的内部结构和形状,有效地“锁定”分布的二阶矩以防止语义漂移。
3. 特征级自蒸馏
标准分类通常依赖于 Vision Transformers 中的 [CLS] token。然而,“Patch Token” (代表图像特定部分的特征) 包含丰富的语义信息。
作者观察到 Patch Token 经常被忽略或覆盖。为了防止这种情况,他们引入了一种自蒸馏机制。他们将当前网络的 Patch Token (\(p^t\)) 与旧网络的 Patch Token (\(p^{t-1}\)) 进行比较。
有趣的是,他们根据 Patch 与类 token 的不相似程度来对这种蒸馏进行加权。如果一个 Patch Token 与类 token 非常不同,它可能包含了不应丢失的独特局部细节。

该公式鼓励与类 token 角度相似度低 (意味着它们捕获了不同的信息) 的 Patch Token 保持接近其在前一个网络中的表示。
4. 分类器对齐
最后,在完成任务训练后,分类器头需要进行微调。因为模型刚刚看到了大量新任务的数据,分类器会偏向于它。
使用校准后的均值 (来自步骤 1) 和协方差 (来自步骤 2) ,作者从高斯分布中采样合成特征。他们使用这些旧类别的“幻觉”特征混合新数据来重新训练分类器头,确保决策边界的平衡。

实验与结果
这种数学校准真的有效吗?作者在四个基准数据集上测试了他们的方法: ImageNet-R、ImageNet-A、CUB-200 和 CIFAR-100。他们将自己的方法与包括 L2P、DualPrompt 以及其他基于 LoRA 的策略在内的最先进方法进行了比较。
与最先进方法的比较
结果总结在下表 1 中,非常有说服力。

在 ImageNet-R (包含 ImageNet 类别的艺术再现,使其在分布上截然不同) 上,所提出的方法实现了 85.95% 的平均准确率 (\(\mathcal{A}_{Avg}\)) ,比第二名 (SSIAT) 高出 2% 以上。
在 ImageNet-A (包含难以分类的“自然对抗”样本) 上,该方法再次领先。这表明在数据分布复杂或与预训练数据有偏移时,处理语义漂移特别有效。
随时间的鲁棒性
同样重要的是要看方法何时失效。它们是在 2 个任务后崩溃,还是 5 个任务后?

图 3 展示了随着任务增加准确率的下降情况。
- 青色线 (Ours) : 注意在左上角的图表 (ImageNet-R 5 个任务) 中,青色线几乎保持平坦,而其他方法则在退化。
- 即使在通常遗忘严重的 20 个任务设置 (左下角) 中,该方法在整个学习生命周期中也保持了较高的性能基线。
哪些组件最重要?
你可能会问: 是均值漂移补偿 (MSC) 还是协方差校准 (CC) 在起主要作用?表 3 中的消融实验对此进行了分解。

- 基线 (Baseline) : 79.36% 准确率。
- 添加 MSC: 跃升至 80.81%。
- 添加 CC: 跃升至 80.70%。
- 两者结合: 达到 81.60%。
- 完整方法 (含蒸馏) : 峰值达到 81.88%。
这证实了修复特征簇的中心 (均值) 和形状 (协方差) 对于最大化稳定性至关重要。
结论
论文“Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning”为神经网络为何遗忘提供了一个深入的视角。它超越了简单的“重播”策略,深入到了潜空间的几何结构。
通过识别语义漂移为罪魁祸首,并引入统计工具来校准特征分布的均值和协方差 , 作者提供了一个鲁棒的解决方案。他们让模型通过 LoRA 保持足够的“可塑性”以学习新任务,同时通过漂移补偿保持足够的“稳定性”以保留旧知识。
对于机器学习的学生和研究人员来说,这项工作强调了一个重要的教训: 有时解决方案不仅仅是更大的网络或更多的数据,而是对特征统计行为的更深层理解。通过数学约束特征如何移动和改变形状,我们可以构建出像人类一样学习——并记忆——的 AI。
](https://deep-paper.org/en/paper/2502.07560/images/cover.png)