完美悖论: 为何有缺陷的模型才具创造力

如果你玩过 Stable Diffusion 或 Midjourney 这样的生成式 AI 工具,你就见证过一种数字魔法。你输入一个提示词,或者提供随机噪声,系统就会构想出一张可能从未存在过的图像。它是原创的,它是富有创造力的。

但这里存在一个巨大的理论问题。

从本质上讲,这些扩散模型的训练目的是学习其训练数据的概率分布。如果一个模型完美地完成了它的工作——如果它精确地学习了描述数据分布的“理想”分数函数 (score function) ——理论告诉我们,它应该只能复现训练数据。一个完美的模型应该是一台记忆机器,无法生成任何真正新的东西。

那么,创造力究竟从何而来?

在一篇题为 “An analytic theory of creativity in convolutional diffusion models” (卷积扩散模型中创造力的解析理论) 的精彩论文中,来自斯坦福大学的研究人员 Mason Kamb 和 Surya Ganguli 提出了一个突破性的答案。他们认为,这些模型的创造力并非源于它们的完美,而是源于它们的局限性。具体来说, 局部性 (仅看到图像的一小块补丁) 和等变性 (同等对待所有位置) 的归纳偏置 (inductive biases) ,阻止了模型记忆数据。

相反,这些约束迫使模型变成了一台“拼贴马赛克”机器——以指数级的新组合方式,将训练数据的碎片拼接在一起。

在这篇文章中,我们将解构他们的理论,以此通过“等变局部分数机器” (Equivariant Local Score Machine) 的数学原理,看看这个解析理论是如何在不训练任何权重的情况下,精确预测深度神经网络的输出的。


第一部分: 理想分数的陷阱

要理解为什么创造力是一个难题,我们需要先看看扩散模型在数学上是如何工作的。

前向和反向过程

扩散模型的运作基于一个简单的前提: 破坏数据,然后学习修复它。

  1. 前向过程: 我们从训练集中取出一张图像,随时间推移 (\(t=0\) 到 \(t=T\)) 缓慢地向其中添加高斯噪声。最终,图像变成了纯粹的静电噪声。
  2. 反向过程: 我们训练一个神经网络来观察噪声图像并预测“分数函数”,该函数有效地指向原始数据 (去噪) 的方向。

分数匹配扩散的示意图。 图 1: 标准扩散过程。我们将训练图像 (左) 转化为噪声 (右) ,并训练模型来逆转这一过程。

反向过程由一个微分方程控制。为了生成图像,我们采样随机噪声,并利用分数函数 \(s_t(\phi)\) 将其在时间上向后演化。

为什么理想分数会记忆

“分数函数”仅仅是数据对数概率的梯度。如果我们有一个有限的训练集 \(\mathcal{D}\),那么在任何时间 \(t\),我们噪声数据的真实分布实际上是一个高斯混合 , 其中每个训练点中心都有一个高斯分布。

理想情况下,分数函数如下所示:

理想分数函数的方程。

这个方程有一个深刻的解释,通常被称为贝叶斯猜谜游戏

  • 项 \(W_t(\varphi | \phi)\) 代表一个后验信念: “给定当前的噪声图像 \(\phi\),它最初是训练图像 \(\varphi\) 的概率是多少?”
  • 分数函数是一个加权平均值,它将当前图像 \(\phi\) 拉向每一个训练图像 \(\varphi\),权重取决于 \(\phi\) 源自 \(\varphi\) 的可能性有多大。

问题在于: 随着反向过程的运行和噪声的去除,概率权重 \(W_t\) 会迅速坍缩。模型会 99.99% 地确信当前图像属于某一个特定的训练样本。这种力量会将图像直接拉向那个单一的训练样本。

结果呢? 完美记忆。 一个完美学习了理想分数函数的扩散模型不可能有创造力;它只能充当训练集的查找表。


第二部分: 创造力的约束条件

既然现实世界中的扩散模型确实能生成新颖的图像,那么它们显然没有学习到理想的分数函数。它们失败了。但它们是以一种非常具体、结构化的方式失败的。

作者指出了卷积神经网络 (CNN) 中存在的两个特定归纳偏置 , 正是它们打破了这种完美记忆:

  1. 局部性 (Locality) : CNN 使用小型滤波器 (核) 处理图像。像素值的更新仅基于其直接邻居 (其“感受野”) ,而不是一次性基于整个图像。
  2. 等变性 (Equivariance) : CNN 在整个图像中共享权重。左上角的“垂直边缘检测器”与右下角的运作方式完全相同。模型本质上不知道它在看哪里,只知道它在看什么

为了验证这一假设,作者推导了在这两个约束条件下数学上最优的分数函数。他们将这些理论构造称为分数机器 (Score Machines)

三种机器

IS、LS 和 ELS 机器的比较。 图 2: 不同分数机器的逻辑可视化。(a) 理想分数 (IS) 机器将整个图像映射到单个训练图像。(b) 局部分数 (LS) 机器将局部补丁映射到同一位置的训练补丁。(c) 等变局部分数 (ELS) 机器将补丁映射到任何位置的训练补丁。

1. 理想分数 (IS) 机器

这就是我们上面讨论的记忆者。它观察整个图像并将其拉向最近的全局训练图像。

2. 局部分数 (LS) 机器

这台机器受到局部性的约束。它将图像分解为小补丁 (例如,\(3 \times 3\) 像素) 。对于每个补丁,它独立运行贝叶斯猜谜游戏。

  • *约束: * 它假设位置 \((x,y)\) 处的补丁必须来自同一位置 \((x,y)\) 处的训练补丁。
  • *结果: * 它创建了一个“弗兰肯斯坦”式的图像,其中左上角可能来自训练图像 A,而右下角来自训练图像 B。然而,因为它被绑定在绝对坐标上,其创造力是有限的。

3. 等变局部分数 (ELS) 机器

这就是突破所在。这台机器受到局部性等变性的双重约束。

  • 约束: * 它观察局部补丁,但由于等变性 (权重共享) ,它失去了绝对位置的概念。它会问: “这个补丁看起来像整个*训练集中的哪个补丁?”
  • 结果: * 它将当前补丁拉向在训练集中任何地方*发现的相似补丁。

这导致了组合创造力 (Combinatorial Creativity) 。 ELS 机器可以从图像 A 的角落提取纹理,从图像 B 的中心提取形状,从图像 C 提取边缘,并将它们缝合成一个全新的拼贴马赛克 (Patch Mosaic)


第三部分: ELS 机器的数学原理

作者为 ELS 机器提供了一个解析解。这非常了不起,因为这意味着我们不需要训练网络就能看到它的作用;我们可以直接从训练数据计算出来。

ELS 分数函数定义为:

ELS 机器分数函数的方程。

其权重 (信念状态) 计算如下:

ELS 机器权重的方程。

让我们分解一下:

  1. \(\Omega_x\) : 这代表像素 \(x\) 周围的局部邻域 (补丁) 。
  2. \(P_{\Omega}(\mathcal{D})\) : 这是从训练集 \(\mathcal{D}\) 中提取的所有可能补丁的集合。
  3. 机制 :
  • 机器观察当前的噪声补丁 \(\phi_{\Omega_x}\)。
  • 它将其与训练集中的每一个补丁 \(\varphi\) 进行比较 (方程 2) 。
  • 它计算一个概率 \(W_t\): “我当前的噪声补丁是训练补丁 \(\varphi\) 加噪版本的可能性有多大?”
  • 然后,它通过对那些匹配的训练补丁的中心像素进行加权平均来更新像素 (方程 1) 。

“拼贴马赛克”效应

因为每个像素都根据其局部邻居独立执行此计算,所以图像演变成了一个马赛克。

通过局部一致的补丁马赛克实现指数级创造力。 图 3: 一个简单的概念验证。(a) 训练集只有两张图像: 全黑和全白。(b) ELS 机器生成了“云”。局部来看,每个 \(3\times3\) 补丁都是一致的 (大部分黑或大部分白) ,但从全局来看,它们形成了训练集中未曾见过的新形状。

论文推导出的定理指出,ELS 机器会收敛到局部一致点 (Locally Consistent Points) 。 如果生成的图像中的每一个局部补丁看起来都像训练集中的某个补丁,那么这张图像就是有效的,即使其全局排列是全新的。


第四部分: 理论与现实相符吗?

推导数学方程是一回事;证明深度学习模型实际上也是这样运作的则是另一回事。作者将他们的解析 ELS 机器与在 MNIST、CIFAR10 和 CelebA 等数据集上训练的真实 ResNet 和 UNet 进行了比较。

结果惊人地准确。

1. 逐个案例预测

作者将相同的随机噪声输入到他们的解析 ELS 理论模型和训练好的神经网络中。

理论与 CNN 输出的比较。 图 4: 并排比较。“Theory” (理论) 列由数学公式 (ELS 机器) 生成。“CNN”列由训练好的神经网络生成。相似度令人难以置信。

ResNet 和 UNet 的详细比较。 图 5: 进一步的比较。(a) MNIST 上的 ResNet。(b) MNIST 上的 UNet。理论在许多情况下都能以像素级的精度预测黑盒神经网络的输出。

从量化角度来看,ELS 机器预测训练好的网络输出的 \(R^2\) (决定系数) 中位数约为 0.95 。 这意味着神经网络创造性输出中 95% 的变化纯粹可以由 ELS 机制来解释: 混合和匹配局部补丁。

2. 边界的作用

你可能会问: 如果 ELS 机器没有位置概念 (等变性) ,它如何在 CelebA 中生成连贯的人脸?为什么它不会把眼睛放在下巴上?

答案在于零填充 (Zero-Padding)

CNN 通常在图像边界处填充零。这个看似微小的实现细节打破了完美的等变性。左上角的补丁会在其上方和左侧看到一堆零。中心的补丁则不会。

零填充创造了位置感知。 图 6: 用边界打破等变性。 (左) 中心补丁与整个图像进行匹配。 (右) 角落补丁只与同样具有角落填充的训练补丁进行匹配。

这使得 ELS 机器 (以及神经网络) 能够锚定图像。它知道将“左上角”的补丁放在左上角。作者称之为打破边界的 ELS 机器 (Boundary-Broken ELS Machine) , 它与数据的拟合度甚至更好。

3. 由粗到细的生成

研究人员发现,为了完美拟合神经网络,他们不能使用固定的补丁大小。

  • 在生成开始时 (高噪声) ,网络的表现就像它有一个大的感受野。
  • 在生成结束时 (低噪声) ,网络的表现非常局部化 (小感受野) 。

感受野随时间收缩。 图 7: (a) 训练好的网络的有效感受野随时间推移而收缩。(b) 理论校准的补丁大小 \(P\) 遵循相同的趋势。

这解释了扩散模型的“由粗到细”行为。首先,模型建立全局结构 (使用大补丁) ,然后细化纹理 (使用小补丁) 。


第五部分: 解释故障

科学理论最有力的证据之一是它解释异常的能力。我们都见过 AI 绘画的翻车现场: 六个手指的手、三条胳膊的人,或者有两个领口的衬衫。

ELS 理论恰恰预测了这一点。

因为模型是局部运作的,位置 \(A\) 的补丁决定成为“袖子”。位置 \(B\) (远处) 的补丁也决定成为“袖子”。因为它们处于彼此的感受野之外,它们无法协调说“等一下,这件衬衫已经有一个袖子了”。

FashionMNIST 中的不一致性。 图 8 (面板 c): 看最后一行。理论 (左) 和训练好的 CNN (右) 都生成了一件有三条胳膊的衬衫。该理论从机制上解释了原因: 生成过程后期的过度局部性。

这证实了这些空间不一致性并非随机错误;它们是驱动创造力的 ELS 机制的基本产物。


结论: 注意力的作用

这里提出的理论几乎完美地解释了卷积神经网络 (ResNet,标准 UNet) 。但现代最先进的模型 (如 Stable Diffusion) 使用的是自注意力 (Self-Attention)

注意力机制是非局部的。它允许每个像素与所有其他像素“对话”,无论距离多远。ELS 理论会失效吗?

作者通过将他们的局部 ELS 理论与带有自注意力的 UNet (UNet+SA) 进行比较来测试这一点。

UNet+SA 与 ELS 理论的比较。 图 9: 第一行是注意力模型。第二行是 ELS 理论。注意力有助于“雕刻”出连贯的物体。

局部理论仍然可以预测纹理和大致形状 (\(R^2 \approx 0.77\)),但注意力显然增加了一层语义连贯性。如图 9 所示,ELS 机器制造了一团毛皮,而注意力模型将其雕刻成了一只清晰的动物。ELS 机器提供了原始的“拼贴马赛克”素材,而注意力将其雕塑成连贯的物体。

总结

Kamb 和 Ganguli 的工作为揭开生成式 AI 的“黑盒”提供了去神秘化的视角。

  1. 记忆是默认状态: 没有约束,扩散模型只会复制数据。
  2. 约束孕育创造力: CNN 的局限性 (局部性和等变性) 迫使它们重新混合数据而不是重复数据。
  3. 我们可以预测输出: 这些复杂网络的行为可以通过对训练补丁求和的解析方程来建模。

这就表明,我们所推崇的 AI “创造力”,实际上是一种高度复杂的拼贴艺术形式——一种由概率数学缝合在一起的、局部一致的拼贴马赛克。