深度学习模型在学习特定任务方面表现出色。训练一个模型来分类狗,它能完美完成任务。但如果随后要求同一个模型学习如何分类汽车,你就会遇到一个臭名昭著的问题: 灾难性遗忘 (Catastrophic Forgetting) 。 在学习关于汽车的知识的过程中,模型完全忘记了狗长什么样。
这就是持续学习 (Continual Learning, CL) 的核心挑战——我们如何教机器像人类一样,在一个接一个的任务中按顺序学习,而不会擦除以前的知识?
目前大多数研究都集中在保留神经网络的“骨干 (backbone) ” (即从图像中提取特征的部分) 。然而,一篇题为 “KAC: Kolmogorov-Arnold Classifier for Continual Learning” 的最新论文表明,我们关注的地方可能错了。研究人员提出,问题——以及解决方案——在于分类器本身。
受近期备受关注的 Kolmogorov-Arnold 网络 (KAN) 的启发,作者引入了一种新颖的分类层来替代标准的线性分类器。通过将点积运算替换为高斯径向基函数 (Gaussian Radial Basis Functions, RBFs) ,他们在防止灾难性遗忘方面取得了最先进 (SOTA) 的结果。
在这篇文章中,我们将剖析为什么线性分类器在记忆方面表现不佳,为什么标准的 KAN 最初未能解决这个问题,以及Kolmogorov-Arnold 分类器 (KAC) 如何提供了一个稳健的解决方案。
线性分类器的问题
要理解为什么会发生遗忘,我们首先需要看看现代分类器是如何工作的。在一个典型的类增量学习 (Class Incremental Learning, CIL) 设置中,你有一个骨干网络 (如 Vision Transformer) ,它将图像转换为特征向量 (嵌入) 。然后,你将这个向量输入到一个线性分类器中。
从数学上讲,线性分类器基于特征嵌入 \(F(x)\) 和权重矩阵 \(h\) 计算一个 logit (得分) \(l\):

简单来说,这是一个点积。分类器检查图像特征与学习到的类别权重之间的相似性。
当你添加新任务时,问题就出现了。线性分类器是全局的 。 当模型为了学习一个新类别 (例如“汽车”) 而更新其权重时,它调整的是影响整个特征空间的权重。这不可避免地会干扰那些为旧类别 (“狗”) 微调过的权重。

如上图 Figure 1(a) 所示,传统的线性分类器会在所有任务中激活无关的权重。当模型试图学习任务 2 时,它会笨拙地覆盖任务 1 的知识。
该论文的作者认为,我们需要局部性 (Locality) 。 我们需要一种分类器,它只更新网络中与当前输入相关的特定部分,而不触及知识库的其余部分。
灵感来源: Kolmogorov-Arnold 网络 (KAN)
这正是 Kolmogorov-Arnold 网络 (KAN) 发挥作用的地方。与多层感知机 (MLP) 将激活函数放在节点上不同,KAN 将可学习的激活函数放在边 (连接) 上。
KAN 基于 Kolmogorov-Arnold 表示定理 , 该定理指出多元函数可以表示为单变量函数的和:

在标准的 KAN 中,这些单变量函数 \(\phi\) 被参数化为 B-样条 (B-splines) (一种分段多项式) 。

为什么这对记忆力来说令人兴奋? 样条具有局部性。 如果你在某一点调整样条曲线,它不会改变远处曲线的形状。理论上,这意味着 KAN 应该能够在特征空间的一个区域学习新信息,而不会干扰另一个区域的旧信息。
失败的实验: 为什么原始 KAN 不起作用
基于这一理论,研究人员尝试了一个直截了当的实验: 他们采用现有的持续学习方法,简单地用使用 B-样条的标准 KAN 层替换线性分类器。
结果呢? 效果更差了。

如 Figure 2 所示,“KAN” (绿线) 和“KAN w/o Shortcut” (橙线) 的表现明显不如标准的线性基线 (灰线) 。
维度灾难
为什么复杂的 KAN 会失败?答案在于维度灾难 (Curse of Dimensionality, COD) 。
虽然样条在低维数据 (如原始 KAN 论文中使用的玩具级回归任务) 上效果极佳,但它们在处理高维数据 (如来自 Vision Transformer 的图像嵌入,通常为 768 维或更多) 时非常吃力。
单个样条层无法有效地逼近高维组合结构。为了补偿样条的弱点,模型被迫对骨干网络进行剧烈更改以适应新任务。这些对骨干网络的剧烈更改破坏了特征空间,导致了比简单的线性层更严重的灾难性遗忘。
解决方案: Kolmogorov-Arnold 分类器 (KAC)
研究人员意识到,KAN 的结构 (边上的可学习激活) 是正确的,但基函数 (B-样条) 对于此应用是错误的。他们需要一种既能处理高维又能保持局部性属性的函数。
他们找到了答案: 径向基函数 (Radial Basis Functions, RBF) , 特别是高斯函数。
用高斯函数替换样条
研究人员用高斯 RBF 替换了 B-样条。RBF 是一种其值仅取决于与中心点距离的函数。

这里,\(c_i\) 代表一个中心点 (特征空间中的特定位置) ,\(\sigma\) 代表高斯曲线的宽度。
当你在 KAN 结构中使用高斯 RBF 时,每个维度的激活就变成了高斯混合模型 (Gaussian Mixture Model) :

这是一个游戏规则的改变者。高斯混合模型非常擅长对高维空间中的分布进行建模。它们自然地在特征空间中产生“凸起”。如果输入远离中心 \(c_i\),输出就接近于零——这意味着网络的该部分实际上处于“休眠”状态,不会被更新。 这恢复了 B-样条承诺但未能实现的局部性。
KAC 的架构
提出的 Kolmogorov-Arnold 分类器 (KAC) 可以作为线性分类器的即插即用替代品。流程如下:
- 输入: 获取骨干网络的特征嵌入 \(F(x)\)。
- 层归一化 (Layer Norm) : 归一化特征以稳定训练。
- RBF 激活: 将特征通过一组可学习的高斯 RBF。
- 加权: 乘以可学习的权重矩阵以获得最终的类别得分。

Figure 3 可视化了这个过程。请注意 RBF (中间部分) 如何将输入映射到不同的高斯分布。这使得模型能够为每个通道“选择”特定的激活范围。
分类器的最终数学公式如下所示:

与向各个方向无限延伸的线性分类器不同,KAC 创建了一个有界的、局部的决策边界。如果新任务占据了特征空间的不同部分,旧任务的高斯函数根本不会激活,从而保护它们不被覆盖。
可视化局部性: 为什么 KAC 能记住
这篇论文的主要观点是 KAC 通过局部性来缓解遗忘。我们可以通过观察激活图来验证这一点。
在线性分类器中,你通常会看到激活分布在许多通道上。而在 KAC 中,由于使用了高斯 RBF,我们期望看到稀疏且特定的激活。

Figure 4 展示了不同特征通道 (x 轴) 针对不同类别 (y 轴) 的激活水平。
- 红色区域表示高激活 (感兴趣) 。
- 蓝色区域表示低激活。
请注意这些模式是多么独特。对于任何给定的类别,只有一小部分通道被高度激活。当模型针对“任务 1”进行更新时,它主要调整任务 1 的红色区域中的权重。由于任务 2 使用不同的通道 (或这些通道内的不同范围) ,任务 1 的知识在很大程度上保持不受干扰。
实验结果
研究人员将 KAC 集成到几种流行的基于提示 (prompt-based) 的持续学习方法 (L2P, DualPrompt, CODAPrompt, CPrompt) 中,并在 ImageNet-R 和 CUB200 等标准基准上进行了测试。
规则很简单: 保持一切不变 (骨干网络、超参数) ,只将线性分类器替换为 KAC。
ImageNet-R 结果

Table 1 显示了 ImageNet-R 上的结果。
- 绿色数字表示相对于基线的提升。
- 红色数字表示下降。
结果绝大多数是积极的。KAC 持续提高了性能,尤其是在 “Last” (学习完所有任务后的准确率) 这一列中。
理想情况下,我们希望看到在 20-step 和 40-step 场景 (长序列任务) 中有高性能,因为这些是对记忆力的最严峻考验。在 40 步场景中,KAC 将 DualPrompt 的“最终”准确率提高了 4.93% , 将 CODAPrompt 提高了 4.97% 。 在持续学习领域,在不改变骨干网络的情况下提升 5% 是非常显著的。
CUB200 结果
CUB200 是一个细粒度数据集 (分类不同种类的鸟) 。这需要区分非常相似的特征。

如 Table 2 所示,这里的提升更为惊人。
- 在 10-step 场景中,带有 KAC 的 L2P 提升了 14.49% 。
- 在 40-step 场景中,带有 KAC 的 DualPrompt 提升了惊人的 27.14% 。
这表明 KAC 创建精确、局部决策边界的能力对于细粒度任务特别有益,因为这些任务的类别在特征空间中聚集得非常紧密。
域增量学习的鲁棒性
团队还在 DomainNet (如下表 3 所示) 上测试了 KAC,以查看它是否适用于域增量学习 (即领域发生变化,例如 素描 -> 油画 -> 真实照片) 。

虽然增益较小 (约 1-2%) ,但 KAC 仍然始终优于线性基线,证明了其在不同类型的增量学习场景中的鲁棒性。
更高的复杂度意味着更好的性能吗?
怀疑论者可能会问: “KAC 更好仅仅是因为它的参数更多吗?”
为了测试这一点,作者进行了一项消融实验,他们用一个具有相同参数数量的标准多层感知机 (MLP) 替换了 RBF。

Table 4 显示了结果。添加 MLP (无论是固定的还是可训练的) 并没有显著提高性能——事实上,固定的 MLP 反而损害了性能。
这证实了魔力不在于参数数量,而在于结构 。 Kolmogorov-Arnold 架构结合高斯 RBF 提供了在特征空间中有效分离任务所需的特定几何属性。
结论
Kolmogorov-Arnold 分类器 (KAC) 代表了将数学理论应用于实际工程问题的巧妙应用。通过认识到 “如何” 分类与提取 “什么” 特征同等重要,作者找到了一种显著减少灾难性遗忘的方法。
主要收获:
- 线性分类器是瓶颈: 它们的全局更新特性导致任务之间的干扰。
- B-样条在高维中表现不佳: 由于维度灾难,原始 KAN 难以处理图像嵌入。
- RBF 拯救了局面: 通过在 KAN 框架内使用高斯 RBF,KAC 创建了局部的、稳定的决策边界。
- 即插即用: KAC 可以替换几乎任何持续学习模型的最后一层以提升性能,尤其是在长而复杂的任务序列中。
随着我们迈向无需不断重新训练即可学习终身技能的 AI 系统,像 KAC 这样的架构创新可能会发挥基础性作用。它提醒我们,有时前进的最佳方式是重新审视网络的最基本组件——哪怕是不起眼的分类器。
](https://deep-paper.org/en/paper/2503.21076/images/cover.png)