引言

在人工智能飞速发展的版图中,从 GAN 到扩散模型 (Diffusion models) ,生成模型在创造逼真图像方面已经变得极其娴熟。当研究人员发布新模型时,他们通常会附上一张“记分卡”: Fréchet Inception Distance (FID) 或 Inception Score (IS)。这些指标提供了一个单一的数字,表明生成的图像与参考数据集相比有多“好”。

但一个简单的数字掩盖了诸多问题。两个 FID 分数相同的模型可能会以截然不同的方式失败。一个可能拒绝生成猫;另一个可能生成猫。一个可能记住了训练数据;另一个可能疯狂地产生幻觉。定量分数无法回答定性问题: “与参考数据相比,这个模型具体生成了哪些不同的东西?”

为了回答这个问题,我们需要一种方法来识别特定的“簇 (clusters) ”或“模式 (modes) ”,这些模式在一个分布中频繁出现,而在另一个分布中却没有。这就是所谓的差分聚类 (differential clustering) 。 虽然存在执行此操作的方法,但在历史上它们一直计算昂贵,通常需要随着数据集大小呈立方级增长的计算量。这使得它们对于像 ImageNet 这样的大规模数据集毫无用处。

在这篇文章中,我们将深入探讨一篇提出解决方案的研究论文: 基于傅里叶的新颖簇识别 (Fourier-based Identification of Novel Clusters,简称 FINC) 。 该方法利用随机傅里叶特征的数学力量以可扩展的方式执行差分聚类,使我们能够窥视生成模型的“黑盒”内部,确切地看到它们正在——以及没有——产生什么。

问题: 为什么仅有分数是不够的

想象一下,你正在训练一个生成模型来生成动物图像。你在一个包含狗、猫和野生动物的平衡数据集上训练它。训练后,你运行像 FID 这样的评估指标。分数很低 (这是好事) ,表明模型的分布接近真实数据。

然而,目视检查可能会显示你的模型痴迷于金毛寻回犬,几乎不生成任何雪纳瑞。或者,它可能会生成自然界中不存在的“科学怪人式”的拼接动物。标准指标将这些差异聚合成一个全局距离,丢失了关于哪些特定样本类型导致了偏差的细节。

为了进行细粒度的比较,我们需要解决一个差分聚类问题 。 给定一个“测试”分布 (我们的生成模型) 和一个“参考”分布 (真实数据或另一个模型) ,我们要识别在测试分布中过度呈现的样本簇。

可扩展性瓶颈

以前的方法,如*稀有度评分 (Rarity score) *、*特征似然散度 (FLD) 基于核的熵新颖性 (KEN) *,试图衡量样本有多“新颖”或“稀有”。虽然理论上是合理的,但它们有一个主要缺陷: 计算复杂性。

大多数谱 (基于特征向量) 聚类方法依赖于构建核矩阵。如果你有 \(n\) 张图像,矩阵的大小就是 \(n \times n\)。要找到这些簇,你必须执行特征分解,其成本通常为 \(O(n^3)\)。

对于像 ImageNet (140 万张图像) 这样的数据集,执行 \(O(n^3)\) 操作是不可能的。即使只有 50,000 张图像的子集,标准方法也会导致 GPU 显存崩溃或需要数天才能计算完成。FINC 通过改变我们估计数据结构的数学基础解决了这一瓶颈。

核心方法: 基于傅里叶的新颖簇识别 (FINC)

FINC 的核心思想是在“特征空间”中比较两个分布的协方差结构,其方式不依赖于样本数量 (\(n\)) ,而是依赖于固定数量的特征 (\(r\)) 。

1. 核协方差矩阵

为了比较分布,我们在“特征空间”中操作。我们使用一个核函数,通常是高斯核,它衡量两个图像 \(\mathbf{x}\) 和 \(\mathbf{x}'\) 之间的相似度。

Gaussian Kernel Equation

这个核隐式地将数据映射到一个高维空间。我们可以使用经验核协方差矩阵 \(\widehat{C}_X\) 来描述数据在这个空间中的“形状”。

Empirical Kernel Covariance Matrix

这里,\(\phi(\mathbf{x}_i)\) 代表图像 \(i\) 的特征映射。如果我们使用“核技巧”直接计算它,我们要么得到前面提到的巨大的 \(n \times n\) 矩阵。

2. 差分聚类目标

我们不仅仅对一个分布的形状感兴趣;我们想要测试分布 (\(\mathbf{X}\)) 和参考分布 (\(\mathbf{Y}\)) 之间的差异。论文定义了一个“条件”协方差矩阵 \(\Lambda_{\mathbf{X}|\rho\mathbf{Y}}\):

Conditional Covariance Matrix Definition

参数 \(\rho\) (rho) 作为一个阈值。它表示一个模式在测试分布中必须比在参考分布中频繁多少倍才被认为是“新颖的”。如果我们找到这个矩阵对应于正特征值的特征向量,我们就有效地识别出了在 \(\mathbf{X}\) 中占主导地位但在 \(\mathbf{Y}\) 中被抑制或缺失的“方向” (或图像簇) 。

3. 解决方案: 随机傅里叶特征 (RFF)

为了使其具有可扩展性,作者利用了随机傅里叶特征 。 Bochner 定理指出,对于平移不变核 (如高斯核) ,核函数是概率密度函数的傅里叶变换。

Fourier Transform of Kernel

  • (注: 上图推导了用于随机采样的概率密度函数) 。*

该定理允许我们使用有限的低维映射 \(\widetilde{\phi}_r(\mathbf{x})\) 来近似无限维特征映射 \(\phi(\mathbf{x})\)。我们不再将每张图像与每张其他图像进行比较,而是使用从高斯分布中采样的随机频率 \(\omega_1, \dots, \omega_r\) 将每张图像投影到一个大小为 \(2r\) 的固定向量中。

近似特征映射如下所示:

Random Fourier Feature Map

通过使用这种近似,我们可以计算协方差矩阵 \(\widetilde{C}_X\) 和 \(\widetilde{C}_Y\),其大小仅为 \(2r \times 2r\)。关键在于, \(r\) 是我们选择的一个数字 (例如 2000) ,与数据集大小 \(n\) 无关。

4. FINC 算法

该算法分三个简单的步骤进行:

  1. 特征提取: 使用预训练网络 (如 DINOv2) 将图像转换为向量。
  2. 随机投影: 抽取 \(r\) 个随机频率向量 \(\omega\)。计算所有 \(n\) 个样本的正弦和余弦投影。
  3. 谱分解: 计算近似条件协方差矩阵:

Approximate Conditional Covariance Matrix

然后我们只需找到这个 \(2r \times 2r\) 矩阵的特征向量。这些特征向量代表了“新颖模式”。然后,我们可以根据每个图像与这些特征向量的对齐程度对数据集中的每个图像进行评分,以查看哪些图像属于哪个簇。

5. 理论保证

这种近似真的有效吗?作者提供了一个理论界限,证明了随机傅里叶特征引入的误差随着 \(r\) 的增加而减小。

Theorem 1: Approximation Bounds

粗略地说,为了将误差控制在 \(\epsilon\) 以内,特征数量 \(r\) 只需要随着样本大小 \(n\) 呈对数增长。这相对于以前方法所需的多项式增长是一个巨大的改进。这意味着 FINC 在统计上是一致的,并且在计算上是高效的。

实验与结果

研究人员在受控数据集和大规模现实世界图像数据集上验证了 FINC。

健全性检查: 彩色 MNIST

为了证明该方法有效,他们创建了一个“测试”手写数字数据集,其中 50% 的数字是彩色的。“参考”数据集仅包含灰度数字。一个好的差分聚类算法应该立即将彩色数字识别为“新颖性”。

FINC on Colored MNIST

如图 1 所示,FINC 成功地将彩色数字 (例如,红色的 1,绿色的 7) 识别为最主要的新颖模式,将它们与灰度背景分布区分开来。

可扩展性与基线对比

最令人印象深刻的结果是计算速度的提升。作者将 FINC 与 ImageNet 上的 Rarity、FLD 和 KEN 分数进行了比较。

Table 1: Time Complexity

查看表 1,随着样本大小增长到 50k、100k 和 250k:

  • 基线 (Rarity, FLD, KEN) : 它们要么因内存溢出而崩溃 (“-”) ,要么耗时超过 24 小时。
  • FINC: 它线性扩展。对于 250k 样本,它在 CPU 上大约需要 3000 秒,而在 GPU 上仅需 74 秒 。 这种能力开启了分析整个训练集的可能性。

揭示生成模型的偏差

作者将 FINC 应用于在 ImageNet 上训练的最先进生成模型 (BigGAN, LDM, DiT 等) 。通过将参考分布设置为实际的 ImageNet 数据集,他们可以问: “模型生成了太多什么?”

Overrepresented Modes in Generative Models

在上图 (论文中的图 3) 中,我们看到特定模式在不同模型中被坍缩或过度呈现:

  • BigGAN 倾向于过度生成蘑菇 (真菌) 。
  • LDM (Latent Diffusion) 对生成考拉有强烈的偏好。
  • DiT-XL 过度呈现特定的花朵图案。

这种洞察力对于调试模型非常有价值。10.5 的 FID 分数不会告诉你“别再生成那么多考拉了”,但 FINC 会。

新颖性检测

反之,我们可以将生成模型视为参考,将真实数据集视为测试,以查看模型缺失了什么 (代表性不足的模式) ,或者相互比较两个不同的生成模型。

例如,比较 AFHQ (动物面孔) 与 ImageNet-Dogs:

AFHQ vs ImageNet-Dogs

FINC 正确地识别出 AFHQ 相对于 ImageNet Dogs 的“新颖性”是……猫和野生动物。它清晰地分离了这些独特的视觉簇。

检测记忆化

生成式 AI 的一个关键问题是记忆化——即模型简单地复制训练数据而不是学习泛化。FINC 可以聚类那些具有高记忆分数的样本。

High Memorization Score Modes

图 11 显示了高度记忆化的生成图像簇。例如,BigGAN 记住了“汉堡包”和“黄色田野”。该图的下半部分显示了最接近的训练样本,证实了模型本质上是在反刍特定的训练示例。

结论与意义

这篇题为“揭示生成模型的差异”的论文代表了我们评估 AI 方式的重大进步。通过超越 FID 等标量指标并使用随机傅里叶特征解决差分聚类问题,FINC 提供了一个既可解释可扩展的工具。

主要收获:

  1. 具体优于聚合: 我们现在可以确切地识别模型过度生产或生产不足的图像类型。
  2. 可扩展性: FINC 将棘手的 \(O(n^3)\) 问题转化为可管理的线性时间操作,使其对于现代海量数据集切实可行。
  3. 多功能性: 该方法适用于发现新颖模式、检测模式崩塌、识别记忆化,甚至调试文本到图像的对齐问题。

随着生成模型的规模和能力不断增长,像 FINC 这样的工具将变得至关重要。它们让工程师和研究人员能够从问“这个模型好吗?”转变为问更重要的问题: “这个模型实际上学到了什么?”