在现代人工智能领域,很少有现象像“Grokking” (通常译为“顿悟”) 那样令人困惑。
想象一下训练一个神经网络来解决一道难题。在很长一段时间里——比如数千个训练步数内——模型似乎完美地死记硬背了训练数据,但在任何新的、未见过的测试数据上却一败涂地。它的测试准确率顽固地停留在 0%。然后,突然之间,通常是在你可能已经放弃并停止训练很久之后,测试准确率火箭般蹿升,从 0% 瞬间跳到 100%。模型突然“顿悟”了底层的逻辑。
这种延迟的泛化,或称“涌现”,挑战了我们对学习曲线的传统理解。直到最近,普遍的观点还认为 Grokking 是深度神经网络和梯度下降优化所独有的特性。它被视为深度学习复杂炼金术中特有的一种神秘相变。
一篇引人入胜的研究论文 “Emergence in Non-Neural Models: Grokking Modular Arithmetic via Average Gradient Outer Product” 完全挑战了这一假设。研究人员证明,Grokking 并不 局限于神经网络。实际上,他们通过通过为核机器 (Kernel Machines) ——一类更古老、数学上更简单的模型——配备一种特定的特征学习机制,复现了完全相同的现象。
在这篇深度文章中,我们将探索非神经模型如何实现“顿悟”,它们学到了什么样的隐藏结构,以及这对学习的本质意味着什么。
1. 问题所在: 学习模运算
要理解 Grokking,我们首先需要理解用于观察它的任务。这些实验的标准基准是 模运算 (Modular Arithmetic) 。
模运算是时钟的数学。在模 \(p\) 系统中 (其中 \(p\) 是质数) ,整数会循环。例如,在模 5 中:
\[2 + 2 = 4\]\[3 + 3 = 1 \text{ (因为 } 6 \text{ 绕回变成了 } 1)\]对于知道规则的人类来说,这似乎很简单。但对于被喂食原始数据 (如“输入: 3, 3;输出: 1”) 的机器学习模型来说,这是极其困难的。输入是离散的符号。这里没有明显的“平滑性”——接近 3 并不意味着答案接近 1。
当神经网络学习这个任务时,它们表现出了 Grokking 曲线: 早期的训练准确率完美,但测试准确率一直平坦,直到很久之后才出现突然的“顿悟”时刻。
2. 引入递归特征机器 (RFM)
这篇论文的作者着手研究这种现象是否可以在没有神经网络的情况下复现。他们转向了 核机器 (Kernel Machines) 。
传统上,核方法 (如支持向量机) 依赖于固定的“核函数”来测量数据点之间的相似性。它们通常不会像神经网络那样在训练过程中“学习特征”或改变其对数据的内部表示。因为它们不学习特征,所以通常无法很好地解决像模运算这样的任务。
然而,作者使用了一种称为 递归特征机器 (Recursive Feature Machine, RFM) 的新颖算法。
RFM 如何工作
RFM 是一种 可以 学习特征的核机器。它通过迭代的方式进行。它不是只训练一次,而是先训练,观察学到了什么,调整其对数据的内部视图 (即特征) ,然后再训练。
驱动 RFM 的核心秘诀是 平均梯度外积 (Average Gradient Outer Product, AGOP) 。
机制: AGOP
AGOP 是一个矩阵,它捕捉了输入空间中哪些方向对模型试图学习的函数最重要。在数学上,它的定义为:

直观的解释如下:
- 在当前数据上 训练一个预测器 (\(f\))。
- 计算梯度: 观察当你微调输入时,模型的输出如何变化 (\(\frac{\partial f}{\partial x}\))。梯度高的方向就是“重要”的特征。
- 计算 AGOP: 对所有数据点的梯度求平均,得到一个总结全局特征重要性的矩阵 (\(G\))。
- 变换数据: 使用这个矩阵来拉伸和旋转输入数据,强调重要的特征。
- 重复。
通过循环执行这些步骤,RFM 递归地改进其特征。
RFM 的“顿悟”
当研究人员将 RFM 应用于模运算任务时,他们观察到了惊人的现象。正如下面的图表所示,核机器表现出了经典的 Grokking 特征。

看上图中的绿线 (测试准确率) 。在前 10-12 次迭代中,模型对测试集一无所知 (准确率接近 0%) ,尽管它可以说已经记住了训练集 (红色虚线) 。然后,测试准确率急剧跳升至 100%。
这证明了一个巨大的观点: Grokking 并非神经网络独有。 它是特征学习的一种普遍现象。
3. 揭示隐藏结构
如果神经网络和 RFM 都能顿悟,它们一定都学到了某种能解决问题的特定 类型 的特征。由于 RFM 在数学上比神经网络更透明,我们实际上可以“打开黑盒”,查看学到的特征矩阵。
AGOP 矩阵 (\(M\)) 告诉我们模型如何变换输入。研究人员将这些矩阵可视化,分别对应不同的运算: 加法、减法、乘法和除法。

加法的条纹
在上图中,看 (A) 部分的加法 (“Add”)。矩阵显示出明显的条纹图案。这被称为 循环矩阵 (Circulant Matrix) 。
在循环矩阵中,每一行都是前一行的移位版本。对角线上的值是恒定的。研究人员观察到,学到的特征矩阵 \(M^*\) 本质上采用了这种形式:

这种结构意义重大,因为循环矩阵与 傅里叶变换 紧密相关。这表明模型正在发现一种基于傅里叶的策略来解决加法问题。
乘法的谜题
现在,看看图 3 左下角的“Mul” (乘法) 矩阵。它看起来像静态噪声,没有明显的模式。这是否意味着模型使用了一种完全不同的、无结构的方法来进行乘法运算?
不完全是。研究人员应用了一种巧妙的变换。他们使用数论中的 离散对数 (Discrete Logarithm) 概念重新排列了行和列。
就像标准对数将乘法变为加法 (\(\log(ab) = \log a + \log b\)) 一样,离散对数将模 \(p\) 整数的乘法群映射到加法群。
当研究人员使用离散对数重新排列“嘈杂”的乘法矩阵的索引时,隐藏的结构显现了出来 (图 3,右下角,“Mul (reordered)”) 。 它是相同的条纹状、循环模式。
关键见解: 模型学会了像处理加法一样处理乘法,但在一个“对数”特征空间中。它自己发现了这两种运算之间的数学关系。
4. 隐藏的进步: 为什么会发生“跳跃”
Grokking 的谜团之一是风暴前的平静。为什么模型在很长一段时间内测试准确率都停留在 0%?它是毫无进展吗?
论文认为标准指标 (准确率和损失) 具有欺骗性。在表面之下,模型正在取得稳定的、线性的进步。为了证明这一点,作者引入了两个新的“进度指标”:
- 循环偏差 (Circulant Deviation): 衡量特征矩阵接近完美循环矩阵的程度 (即它有多“条纹化”) 。
- AGOP 对齐度 (AGOP Alignment): 衡量当前特征与最终完美特征的相似程度。

在上图的 A 部分 中,你看到了“海市蜃楼”: 准确率 (左上) 在很长一段时间内都是平的。但看看 B 部分 。 蓝线讲述了一个不同的故事。
- 循环偏差 (上排,B) : 从一开始就稳步下降。矩阵正在慢慢地把自己组织成条纹状。
- AGOP 对齐度 (下排,B) : 稳步上升。
准确率的“突然”跳跃,仅仅是特征最终变得 足够 好以支持正确分类的那一刻。学习本身是连续的,而不是突然的。
5. 神经网络也是如此
批评者可能会问: “好吧,RFM 能做到这一点,但神经网络真的在做同样的事情吗?”
作者表明,是的,它们确实如此。他们在相同的任务上训练了标准的全连接神经网络,并分析了第一层的权重。他们计算了 神经网络特征矩阵 (Neural Feature Matrix, NFM) , 本质上是权重的协方差 (\(W^T W\))。
根据 神经网络特征拟设 (Neural Feature Ansatz) , 这个 NFM 应该看起来像 AGOP。

当他们可视化这些神经网络特征时,相似度惊人。

就像 RFM 一样,神经网络也为加法学习了块循环特征。同样像 RFM 一样,当你使用离散对数重新排列神经网络的乘法特征时,条纹出现了。
这证实了 神经网络和递归特征机器正在收敛到相同的算法解。
6. 算法: 傅里叶乘法
为什么这两种模型都会收敛到这些“条纹”循环矩阵?它们实际上在执行什么算法?
论文提出,模型正在学习 傅里叶乘法算法 (Fourier Multiplication Algorithm, FMA) 。
在信号处理中,一个基本定理指出,时域中的卷积等同于频域中的乘法。循环矩阵是执行循环卷积的算子。通过学习这些矩阵,模型实际上是在对输入数据执行离散傅里叶变换 (DFT)。
论文从数学上证明,使用这些特定循环特征的核预测器等同于通过傅里叶变换计算答案:

简单来说:
- 模型使用学到的特征将输入数字转换为“频率” (DFT) 。
- 它组合这些频率 (逐元素乘积) 。
- 它将结果转换回来得到答案。
这是解决模运算的一种高效方法,核机器和神经网络都能自动发现它。
7. 验证发现
如果“秘诀”仅仅是这些循环特征,我们应该能够将它们“注入”模型并看到即时学习。
研究人员验证了这一假设。他们采用了一个标准核机器 (通常无法学习此任务) ,并使用 随机循环矩阵 手动变换输入数据。他们甚至没有训练特征——只是强制使用了这种结构。

结果 (图 4,橙色线) 令人震惊。具有固定随机循环特征的模型 几乎立即 实现了泛化。它不需要 Grokking。我们通常看到的 Grokking 过程,仅仅是模型从零开始“寻找”并构建这些循环特征所需的时间。一旦结构存在,问题就变得简单了。
8. 结论和关键要点
这篇论文为 AI 的“魔法”提供了一个令人耳目一新且去神秘化的视角。以下是学生和研究人员的主要收获:
- 顿悟不是魔法: 它是模型缓慢学习正确特征 (表示学习) 的可见副作用,而读数指标 (准确率) 对这些局部改进不敏感。
- 不仅仅是深度学习: 核机器 (通过 RFM) 表现出 Grokking 的事实证明,这是从数据中学习的一个基本属性,而不仅仅是反向传播或神经架构的怪癖。
- 结构很重要: 模型不是在死记硬背答案;它们正在发现深刻的数学结构 (傅里叶变换、离散对数) 以高效地解决任务。
- 我们可以测量不可见之物: 通过使用更好的指标 (如 AGOP 对齐度或循环偏差) ,我们可以看到标准损失和准确率曲线遗漏的“隐藏进步”。
通过剥去神经网络的复杂性,使用更具可解释性的递归特征机器,这些研究人员提供了一个清晰的窗口,让我们了解机器如何学会推理抽象数学。智能的“突然”涌现,实际上是漫长、稳定且结构化旅程的结果。
](https://deep-paper.org/en/paper/14743_emergence_in_non_neural_-1791/images/cover.png)