给 AI 更好的记忆力：初识 Kolmogorov-Arnold 分类器

深度学习模型在学习特定任务方面表现出色。训练一个模型来分类狗，它能完美完成任务。但如果随后要求同一个模型学习如何分类汽车，你就会遇到一个臭名昭著的问题: 灾难性遗忘 (Catastrophic Forgetting) 。在学习关于汽车的知识的过程中，模型完全忘记了狗长什么样。

这就是持续学习 (Continual Learning, CL) 的核心挑战——我们如何教机器像人类一样，在一个接一个的任务中按顺序学习，而不会擦除以前的知识？

目前大多数研究都集中在保留神经网络的“骨干 (backbone) ” (即从图像中提取特征的部分) 。然而，一篇题为 “KAC: Kolmogorov-Arnold Classifier for Continual Learning” 的最新论文表明，我们关注的地方可能错了。研究人员提出，问题——以及解决方案——在于分类器本身。

受近期备受关注的 Kolmogorov-Arnold 网络 (KAN) 的启发，作者引入了一种新颖的分类层来替代标准的线性分类器。通过将点积运算替换为高斯径向基函数 (Gaussian Radial Basis Functions, RBFs) ，他们在防止灾难性遗忘方面取得了最先进 (SOTA) 的结果。

在这篇文章中，我们将剖析为什么线性分类器在记忆方面表现不佳，为什么标准的 KAN 最初未能解决这个问题，以及Kolmogorov-Arnold 分类器 (KAC) 如何提供了一个稳健的解决方案。

线性分类器的问题

要理解为什么会发生遗忘，我们首先需要看看现代分类器是如何工作的。在一个典型的类增量学习 (Class Incremental Learning, CIL) 设置中，你有一个骨干网络 (如 Vision Transformer) ，它将图像转换为特征向量 (嵌入) 。然后，你将这个向量输入到一个线性分类器中。

从数学上讲，线性分类器基于特征嵌入 \(F(x)\) 和权重矩阵 \(h\) 计算一个 logit (得分) \(l\):

显示线性分类器逻辑的公式。

简单来说，这是一个点积。分类器检查图像特征与学习到的类别权重之间的相似性。

当你添加新任务时，问题就出现了。线性分类器是全局的 。当模型为了学习一个新类别 (例如“汽车”) 而更新其权重时，它调整的是影响整个特征空间的权重。这不可避免地会干扰那些为旧类别 (“狗”) 微调过的权重。

线性分类器与 KAC 的对比。

如上图 Figure 1(a) 所示，传统的线性分类器会在所有任务中激活无关的权重。当模型试图学习任务 2 时，它会笨拙地覆盖任务 1 的知识。

该论文的作者认为，我们需要局部性 (Locality) 。我们需要一种分类器，它只更新网络中与当前输入相关的特定部分，而不触及知识库的其余部分。

灵感来源: Kolmogorov-Arnold 网络 (KAN)

这正是 Kolmogorov-Arnold 网络 (KAN) 发挥作用的地方。与多层感知机 (MLP) 将激活函数放在节点上不同，KAN 将可学习的激活函数放在边 (连接) 上。

KAN 基于 Kolmogorov-Arnold 表示定理 , 该定理指出多元函数可以表示为单变量函数的和:

Kolmogorov-Arnold 表示定理公式。

在标准的 KAN 中，这些单变量函数 \(\phi\) 被参数化为 B-样条 (B-splines) (一种分段多项式) 。

使用样条的 KAN 激活函数。

为什么这对记忆力来说令人兴奋? 样条具有局部性。 如果你在某一点调整样条曲线，它不会改变远处曲线的形状。理论上，这意味着 KAN 应该能够在特征空间的一个区域学习新信息，而不会干扰另一个区域的旧信息。

失败的实验: 为什么原始 KAN 不起作用

基于这一理论，研究人员尝试了一个直截了当的实验: 他们采用现有的持续学习方法，简单地用使用 B-样条的标准 KAN 层替换线性分类器。

结果呢? 效果更差了。

性能对比显示原始 KAN 表现不佳。

如 Figure 2 所示，“KAN” (绿线) 和“KAN w/o Shortcut” (橙线) 的表现明显不如标准的线性基线 (灰线) 。

维度灾难

为什么复杂的 KAN 会失败？答案在于维度灾难 (Curse of Dimensionality, COD) 。

虽然样条在低维数据 (如原始 KAN 论文中使用的玩具级回归任务) 上效果极佳，但它们在处理高维数据 (如来自 Vision Transformer 的图像嵌入，通常为 768 维或更多) 时非常吃力。

单个样条层无法有效地逼近高维组合结构。为了补偿样条的弱点，模型被迫对骨干网络进行剧烈更改以适应新任务。这些对骨干网络的剧烈更改破坏了特征空间，导致了比简单的线性层更严重的灾难性遗忘。

解决方案: Kolmogorov-Arnold 分类器 (KAC)

研究人员意识到，KAN 的结构 (边上的可学习激活) 是正确的，但基函数 (B-样条) 对于此应用是错误的。他们需要一种既能处理高维又能保持局部性属性的函数。

他们找到了答案: 径向基函数 (Radial Basis Functions, RBF) , 特别是高斯函数。

用高斯函数替换样条

研究人员用高斯 RBF 替换了 B-样条。RBF 是一种其值仅取决于与中心点距离的函数。

高斯 RBF 公式。

这里，\(c_i\) 代表一个中心点 (特征空间中的特定位置) ，\(\sigma\) 代表高斯曲线的宽度。

当你在 KAN 结构中使用高斯 RBF 时，每个维度的激活就变成了高斯混合模型 (Gaussian Mixture Model) :

高斯混合模型公式。

这是一个游戏规则的改变者。高斯混合模型非常擅长对高维空间中的分布进行建模。它们自然地在特征空间中产生“凸起”。如果输入远离中心 \(c_i\)，输出就接近于零——这意味着网络的该部分实际上处于“休眠”状态，不会被更新。 这恢复了 B-样条承诺但未能实现的局部性。

KAC 的架构

提出的 Kolmogorov-Arnold 分类器 (KAC) 可以作为线性分类器的即插即用替代品。流程如下:

输入: 获取骨干网络的特征嵌入 \(F(x)\)。
层归一化 (Layer Norm) : 归一化特征以稳定训练。
RBF 激活: 将特征通过一组可学习的高斯 RBF。
加权: 乘以可学习的权重矩阵以获得最终的类别得分。

KAC 的流程图。

Figure 3 可视化了这个过程。请注意 RBF (中间部分) 如何将输入映射到不同的高斯分布。这使得模型能够为每个通道“选择”特定的激活范围。

分类器的最终数学公式如下所示:

最终 KAC 公式。

与向各个方向无限延伸的线性分类器不同，KAC 创建了一个有界的、局部的决策边界。如果新任务占据了特征空间的不同部分，旧任务的高斯函数根本不会激活，从而保护它们不被覆盖。

可视化局部性: 为什么 KAC 能记住

这篇论文的主要观点是 KAC 通过局部性来缓解遗忘。我们可以通过观察激活图来验证这一点。

在线性分类器中，你通常会看到激活分布在许多通道上。而在 KAC 中，由于使用了高斯 RBF，我们期望看到稀疏且特定的激活。

激活图热力图。

Figure 4 展示了不同特征通道 (x 轴) 针对不同类别 (y 轴) 的激活水平。

红色区域表示高激活 (感兴趣) 。
蓝色区域表示低激活。

请注意这些模式是多么独特。对于任何给定的类别，只有一小部分通道被高度激活。当模型针对“任务 1”进行更新时，它主要调整任务 1 的红色区域中的权重。由于任务 2 使用不同的通道 (或这些通道内的不同范围) ，任务 1 的知识在很大程度上保持不受干扰。

实验结果

研究人员将 KAC 集成到几种流行的基于提示 (prompt-based) 的持续学习方法 (L2P, DualPrompt, CODAPrompt, CPrompt) 中，并在 ImageNet-R 和 CUB200 等标准基准上进行了测试。

规则很简单: 保持一切不变 (骨干网络、超参数) ，只将线性分类器替换为 KAC。

ImageNet-R 结果

ImageNet-R 上的结果表格。

Table 1 显示了 ImageNet-R 上的结果。

绿色数字表示相对于基线的提升。
红色数字表示下降。

结果绝大多数是积极的。KAC 持续提高了性能，尤其是在 “Last” (学习完所有任务后的准确率) 这一列中。

理想情况下，我们希望看到在 20-step 和 40-step 场景 (长序列任务) 中有高性能，因为这些是对记忆力的最严峻考验。在 40 步场景中，KAC 将 DualPrompt 的“最终”准确率提高了 4.93% , 将 CODAPrompt 提高了 4.97% 。在持续学习领域，在不改变骨干网络的情况下提升 5% 是非常显著的。

CUB200 结果

CUB200 是一个细粒度数据集 (分类不同种类的鸟) 。这需要区分非常相似的特征。

CUB200 上的结果表格。

如 Table 2 所示，这里的提升更为惊人。

在 10-step 场景中，带有 KAC 的 L2P 提升了 14.49% 。
在 40-step 场景中，带有 KAC 的 DualPrompt 提升了惊人的 27.14% 。

这表明 KAC 创建精确、局部决策边界的能力对于细粒度任务特别有益，因为这些任务的类别在特征空间中聚集得非常紧密。

域增量学习的鲁棒性

团队还在 DomainNet (如下表 3 所示) 上测试了 KAC，以查看它是否适用于域增量学习 (即领域发生变化，例如素描 -> 油画 -> 真实照片) 。

DomainNet 上的结果表格。

虽然增益较小 (约 1-2%) ，但 KAC 仍然始终优于线性基线，证明了其在不同类型的增量学习场景中的鲁棒性。

更高的复杂度意味着更好的性能吗？

怀疑论者可能会问: “KAC 更好仅仅是因为它的参数更多吗？”

为了测试这一点，作者进行了一项消融实验，他们用一个具有相同参数数量的标准多层感知机 (MLP) 替换了 RBF。

比较 KAC 与 MLP 的消融实验表格。

Table 4 显示了结果。添加 MLP (无论是固定的还是可训练的) 并没有显著提高性能——事实上，固定的 MLP 反而损害了性能。

这证实了魔力不在于参数数量，而在于结构。 Kolmogorov-Arnold 架构结合高斯 RBF 提供了在特征空间中有效分离任务所需的特定几何属性。

结论

Kolmogorov-Arnold 分类器 (KAC) 代表了将数学理论应用于实际工程问题的巧妙应用。通过认识到 “如何” 分类与提取 “什么” 特征同等重要，作者找到了一种显著减少灾难性遗忘的方法。

主要收获:

线性分类器是瓶颈: 它们的全局更新特性导致任务之间的干扰。
B-样条在高维中表现不佳: 由于维度灾难，原始 KAN 难以处理图像嵌入。
RBF 拯救了局面: 通过在 KAN 框架内使用高斯 RBF，KAC 创建了局部的、稳定的决策边界。
即插即用: KAC 可以替换几乎任何持续学习模型的最后一层以提升性能，尤其是在长而复杂的任务序列中。

随着我们迈向无需不断重新训练即可学习终身技能的 AI 系统，像 KAC 这样的架构创新可能会发挥基础性作用。它提醒我们，有时前进的最佳方式是重新审视网络的最基本组件——哪怕是不起眼的分类器。

线性分类器的问题#

灵感来源: Kolmogorov-Arnold 网络 (KAN)#

失败的实验: 为什么原始 KAN 不起作用#

维度灾难#

解决方案: Kolmogorov-Arnold 分类器 (KAC)#

用高斯函数替换样条#

KAC 的架构#

可视化局部性: 为什么 KAC 能记住#

实验结果#

ImageNet-R 结果#

CUB200 结果#

域增量学习的鲁棒性#

更高的复杂度意味着更好的性能吗？#

结论#