在当前的人工智能领域,我们已经习惯了生成数据的模型: 用于图像的像素、用于文本的 Token,或用于音频的波形。但一个新的前沿领域正在兴起——生成模型本身。

想象一下,一个系统不仅能输出一个 3D 形状,还能输出代表该形状的神经网络权重 。 这就是隐式神经表示 (Implicit Neural Representations, INRs) 的承诺。INRs 使用简单的多层感知机 (MLPs) 来表示复杂的连续信号,如 3D 物体或千兆像素图像。它们提供了无限的分辨率和紧凑的存储方式。

然而,将神经网络权重视为数据面临着巨大的挑战。训练一个生成模型 (如 GAN 或扩散模型) 来生成权重,需要海量的预训练网络数据集,而收集这些数据的计算成本极其高昂。此外,神经权重存在于一个具有混乱结构的高维空间中,这使得“小样本”学习——即仅从极少数示例中生成多样化的新模型——变得众所周知的困难。

在这篇文章中,我们将深入探讨论文 “Few-shot Implicit Function Generation via Equivariance” (基于等变性的小样本隐式函数生成) , 该论文介绍了一个名为 EQUIGEN 的框架。研究人员提出了一个植根于神经网络基础数学的巧妙解决方案: 等变性 (Equivariance) 。 通过尊重权重空间的对称性,他们能够仅用几个示例就生成多样化、高质量的 INR。

问题: 权重空间的混乱

要理解为什么生成神经网络很困难,我们首先需要看看数据结构。在标准的计算机视觉中,如果你将图像平移一个像素,它在很大程度上仍然是同一张图像。但在“权重空间”中,规则是完全不同的。

置换的诅咒

神经网络拥有一个被称为置换对称性 (permutation symmetry) 的属性。考虑一个有 100 个神经元的隐藏层。如果你交换第 5 个神经元和第 10 个神经元,并相应地交换下一层对应的权重以进行匹配,网络的函数 (其输入-输出行为) 保持完全相同

这意味着单个函数 (例如,代表特定 3D椅子的网络) 可以用阶乘数量级的不同权重矩阵来表示。对于标准的生成模型来说,这些置换后的权重看起来像是完全不同的数据点,即使它们代表的是完全相同的对象。这使得权重空间变得不连续且难以学习,特别是当你只有少量的训练样本 (小样本) 时。

小样本隐式函数生成设置的示意图。源样本展示了多样化的形状。目标是从有限的目标样本中生成多样化的样本。

图 1 所示,目标是获取一组有限的目标样本 (例如几架特定的飞机) ,并生成一组能够代表飞机有效变体的多样化新权重。传统的小样本方法在这里会失败,因为它们假设样本之间存在元素级的相似性,而这种假设在混乱的、可置换的神经权重世界中是不成立的。

解决方案: EQUIGEN

EQUIGEN 框架的核心洞察在于,我们不应该对抗这些对称性,而应该利用它们。研究人员建议将权重投影到一个等变潜在空间 (Equivariant Latent Space) 中。在这个空间里,网络权重的所有不同置换都被映射到一个能够保持功能相似性的结构化表示中。

如下图所示,该框架包含三个不同的阶段:

  1. 等变编码器预训练 (Equivariant Encoder Pre-training) : 学习从原始权重到结构化潜在空间的映射。
  2. 等变性引导的扩散 (Equivariance-Guided Diffusion) : 训练一个扩散模型,以这些特征为条件来生成权重。
  3. 小样本适应 (Few-shot Adaptation) : 使用训练好的系统从有限的数据中生成新的、多样化的权重。

EQUIGEN 框架概览,展示了三个阶段: 编码器预训练、通过扩散进行分布建模,以及使用子空间扰动的小样本适应。

让我们逐步拆解这个方法。

1. 深入理解等变性

在看架构之前,我们必须在这个背景下定义等变性。如果对输入的变换会导致输出发生相应的变换,则称该函数是等变的。

对于神经权重,设 \(P\) 为置换矩阵。神经网络中的逐点激活函数 \(\sigma\) 满足:

显示 P sigma(x) 等于 sigma(Px) 的公式。

这个属性意味着功能等效的网络形成了“轨道”或群组。 等变编码器 (Equivariant Encoder) 的目标是处理这些权重,从而尊重这些对称性。形式上,一个等变编码器层 \(L\) 必须满足:

定义层 L 等变性属性的公式。

研究人员通过堆叠这些等变仿射变换和激活函数来构建他们的编码器 \(F_{\mathrm{equi}}\):

显示等变层和激活函数组合的公式。

通过使用这种架构,编码器确保了从权重空间到特征空间的映射能够理解神经网络输入的底层结构。

2. 等变编码器预训练

第一阶段涉及训练编码器以产生有意义的表示。研究人员采用了对比学习 (Contrastive Learning) , 这是一种流行的技术,模型通过学习将相似的项在潜在空间中拉近,将不相似的项推远。

然而,原始权重是杂乱的。为了帮助编码器,作者引入了一种新颖的预处理步骤,称为平滑增强 (Smooth Augmentation)

平滑增强

由于神经元可以以任何顺序排列,原始权重矩阵在视觉上通常看起来像随机噪声。通过找到一个特定的置换 \(P\) 来最小化权重的全变分 (Total Variation, TV) , 可以重新组织矩阵使其看起来更“平滑”。

平滑增强示意图。原始参差不齐的权重空间被转换为更平滑的流形,从而实现更好的特征捕获。

图 4 可视化所示,这种平滑操作 (底部) 相比于参差不齐的原始空间 (顶部) 创造了一个更连续的流形。它不会改变网络的功能,但会让数据更容易被编码器处理。

对比损失

编码器被训练为最大化同一权重的不同视图 (通过平滑和其他 INR 特定变换进行增强) 之间的相似性。使用的损失函数是 InfoNCE 损失的一个变体:

涉及编码特征之间余弦相似度的对比损失函数公式。

这一过程确保了属于同一功能组的权重 (即使它们最初看起来不同) 映射到等变潜在空间中的相似点。

等变架构将权重映射到结构化潜在空间中的相似表示的示意图。

图 3 可视化了这个概念。源权重 (红色) 和目标权重 (绿色) 被映射到等变子空间 (右侧) 。注意编码器是如何有效地将它们聚类的。这种结构对于下一步 (生成) 至关重要。

3. 等变性引导的扩散

拥有强大的编码器后,下一步是学习权重的分布。作者选择了扩散模型 (Diffusion Model) , 这已成为生成式 AI 的黄金标准。

扩散过程逐步向平滑权重 \(\bar{w}\) 添加噪声,直到它们变成随机高斯噪声。生成任务是逆转这一过程——将随机噪声去噪还原为有效的神经权重。

至关重要的是,这个去噪过程是前一步学到的等变特征为条件的。去噪网络 \(G_{\theta}\) 基于噪声权重 \(\bar{w}_T\) 和编码器特征 \(E_{\phi}(\bar{w}_i)\) 预测干净的权重 \(\tilde{w}_i\):

显示去噪网络 G 接收噪声权重和等变特征作为输入的公式。

等变性正则化

为了确保生成的权重尊重权重空间的对称性,作者添加了一个特定的正则化损失 \(\mathcal{L}_{eq}\)。该损失强制要求生成权重的编码器表示与原始权重的编码器表示相匹配:

等变性正则化损失公式。

最终的训练目标结合了标准的重建损失 (MSE) 和这个等变性损失:

显示结合重建损失和等变性损失的总最小化目标公式。

4. 小样本适应与子空间扰动

一旦模型在源数据集 (例如,各种形状的汽车) 上进行了预训练,它需要仅从 10 个示例中生成一个新的类别 (例如,椅子) 。

标准的小样本方法可能只是记住了这 10 个示例。为了生成多样化的新椅子,EQUIGEN 使用了一种称为子空间扰动 (Subspace Disturbance) 的技术。

回顾图 3 , 看看等变子空间中的“扰动界限 (Disturbance bound) ”。模型不仅使用 10 个支持样本的确切特征,还在将这些等变特征输入扩散生成器之前,向其添加受控的高斯噪声。

因为编码器已经学习到了一个结构化的、有意义的空间,在这个特征空间中微小移动对应于结果神经网络中有效的语义变化 (例如,改变椅腿的风格) ,而不是完全破坏网络。

实验与结果

研究人员在两个主要领域验证了 EQUIGEN: 2D 图像 (表示为 INR 的 MNIST 和 CIFAR-10) 和 3D 形状 (ShapeNet) 。

3D 形状生成

任务: 给定 10 个特定物体类别 (如飞机) 的示例,生成新的、有效的飞机。

定性结果: 视觉结果令人信服。在图 5 中,我们看到了输入样本 (左) 和生成样本 (右) 。模型成功生成了结构合理但与输入截然不同的飞机。

生成的飞机 ShapeNet-INR 的可视化。左侧为输入,右侧为多样化的生成输出。

同样, 图 6 展示了椅子和汽车的结果。生成的椅子在靠背高度和腿部形状上表现出变化,表明模型不仅仅是在复制训练数据。

生成的椅子和汽车 ShapeNet-INR 的可视化,展示了输入样本和生成的变体。

定量分析: 下表将 EQUIGEN 与 INR2Vec 和 HyperDiffusion 等最先进的基准方法进行了比较。使用的指标包括:

  • MMD (最小匹配距离) : 衡量质量 (越低越好) 。
  • COV (覆盖率) : 衡量多样性 (越高越好) 。
  • 1-NNA: 衡量分布相似性 (越接近 50% 越好) 。

比较 ShapeNet 上 10-shot 生成性能的表格。EQUIGEN 在各个类别中均取得了最佳的 MMD 和 COV 得分。

EQUIGEN 在飞机、汽车和椅子类别中始终能达到最低的 MMD 和最高的覆盖率。这证实了基于等变性的方法比基于体素或标准扩散的方法能产生更高的保真度和更大的多样性。

2D 图像生成

2D 数据集上的结果与 3D 发现相呼应。使用 FID (Fréchet Inception 距离) 衡量质量和 LPIPS 衡量多样性,EQUIGEN 优于之前的元学习和生成方法。

比较 MNIST 和 CIFAR-10 INR 上 10-shot 性能的表格。EQUIGEN 显示出显著更低的 FID 和更高的 LPIPS。

为什么有效?分析

EQUIGEN 的成功很大程度上依赖于潜在空间的质量。 图 7 展示了等变子空间的 t-SNE 可视化。

等变子空间的 t-SNE 可视化。平滑增强产生了更紧凑、更具判别性的聚类。

在左侧 (没有平滑增强) ,类别有些分散。在右侧 (有平滑增强) ,聚类紧密且分离良好。这种“干净”的潜在空间使得子空间扰动技术能够有效地工作——扰动特征使其保持在该对象类别的有效聚类内。

最后,作者分析了子空间扰动强度 (\(\gamma\)) 的影响。

图表显示随着扰动强度增加,多样性 (COV) 和质量 (MMD) 之间的权衡。

图 8 所示,增加扰动 (\(\gamma\)) 会增加多样性 (COV 上升) ,但最终会损害质量 (MMD 上升) 。这里存在一个“最佳平衡点”,即模型在不降低功能正确性的情况下生成高度多样化的样本。

结论

小样本隐式函数生成代表了元学习的一个重大飞跃。通过将神经网络视为数据并尊重其固有的等变对称性 , EQUIGEN 允许我们从非常有限的数据中生成复杂的、功能性的神经表示。

这项工作突出了深度学习的一个更广泛的教训: 当数据稀缺或维度很高时,结合特定领域的几何先验——如置换不变性——往往是实现泛化的关键。随着我们迈向一个充满 AI 生成的 3D 资产和神经场的世界,像 EQUIGEN 这样的技术对于高效地创建多样化内容将至关重要。