如果你一直关注计算机视觉和信号处理的前沿动态,你可能已经接触过 隐式神经表示 (Implicit Neural Representations, INRs) 。 与令人满意的离散像素或体素网格不同,INRs 将数据 (如图像、3D 形状或音频) 表示为连续的数学函数,通常由神经网络进行近似。

目前 INRs 领域的超级明星是 正弦神经网络 (Sinusoidal Neural Network) , 通过 SIREN 架构而普及。这些网络不使用标准的 ReLU 激活函数,而是使用正弦波。它们在数学上非常优雅,并且能够捕捉令人难以置信的高频细节。

但这里有一个棘手的问题: 它们出了名地难以训练。

初始化它们感觉就像在使用黑魔法。如果选错了随机权重,你的输出就是静态噪声。如果训练时间过长,它们会产生高频伪影幻觉。直到现在,解决这个问题主要还是靠经验——即试错法。

在这篇文章中,我们将剖析一篇新论文: “Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks” (简称 TUNER )。这项研究揭开了正弦网络的黑盒,利用傅里叶理论解释了它们究竟是 如何 学习的,并提供了一种基于数学原理的方法来稳定它们。

问题: 坐标的混沌

要理解为什么需要 TUNER,首先我们需要看看正弦多层感知机 (MLP) 是如何工作的。你将坐标数据 (如 \((x, y)\) 位置) 输入网络,网络输出一个信号 (如 RGB 颜色) 。

网络由多层正弦函数组成:

\[ \mathbf{S}(\mathbf{x}) = \sin(\mathbf{W}\mathbf{x} + \mathbf{b}) \]

当你组合这些层 (将一个正弦的输出馈送到另一个正弦中) 时,你本质上是在创建一个形如 \(\sin(a \sin(x))\) 的函数。随着层数的增加,信号的复杂性呈指数级增长。

问题在于 控制

  1. 初始化: 标准的随机初始化通常会产生一个与你想学习的信号不匹配的频率谱。
  2. 频带限制 (Bandlimit) : 随着训练的进行,网络会产生越来越高的频率。如果没有“限速” (频带限制) ,网络就开始拟合噪声而不是信号,导致重建结果充满颗粒感。

现有的解决方案如 SIREN 试图通过巧妙的初始化范围来解决这个问题,但在训练过程中缺乏明确的控制。其他方法如 BACON 应用硬滤波器,这会导致“振铃”伪影 (锐利边缘附近的波纹) 。

突破: 将网络视作傅里叶级数

TUNER 的作者们不再将网络视为黑盒,而是通过 傅里叶级数 的视角来分析它。

他们推导出了一个新的三角恒等式,改变了我们看待这些网络的方式。他们证明了正弦 MLP 中的一个隐藏神经元实际上就是一个巨大的正弦波之和。

TUNER 框架概览,展示了架构和频率展开。 图 1: TUNER 框架概览。注意输入频率 (绿色) 是如何根据网络深度组合产生新频率 (黄色/紫色) 的。

幅度-相位展开

核心的理论贡献是 定理 1 。 它指出任何隐藏神经元 \(h_i(x)\) 都可以展开为正弦之和:

隐藏神经元的数学展开式。

以下是该公式含义的通俗解释:

  • 频率 (\(\beta_k\)): 网络内部的频率不是随机的。它们是输入频率的 整数线性组合 。 如果你的输入层频率是 5 和 10,更深层将产生如 \(15 (10+5)\),\(5 (10-5)\),\(20 (2\times10)\) 等频率。
  • 幅度 (\(\alpha_k\)): 这些频率的强度 (幅度) 完全由隐藏层的 权重 决定。

这是一个巨大的洞察。这意味着 层组合创造了新频率 , 但这些频率严格源自第一层。

展示输入频率如何生成新频率的图表。 图 2: 频谱可视化。绿点是输入频率。红色箭头展示了在训练过程中,网络如何在输入频率附近生成新频率。

解决方案: TUNER

有了这个理论基础,作者提出了 TUNER , 一种双管齐下的训练方法: 初始化边界约束

1. 初始化即谱采样

由于深层只是创建 输入 频率的组合,第一层 (\(\omega\)) 的初始化至关重要。

如果你随机初始化 \(\omega\) (标准做法) ,你会得到混乱的频率分布。TUNER 取而代之,使用 整数网格 初始化 \(\omega\)。这确保了网络的行为像离散傅里叶级数一样。

作者将初始化分为两个区域:

  • 低频区 (密集) : 他们在零附近大量采样。这为网络提供了一个强大的“基础”来生成局部频率组合。
  • 高频区 (稀疏) : 他们向外分散较少的频率以覆盖信号的全范围 (直到奈奎斯特极限) 。

这种“谱采样”确保网络有 能力 学习信号,而不会一开始就陷入混沌噪声。

2. 边界约束: “软”滤波器

第二个创新解决了“噪声”问题。我们如何阻止网络产生破坏图像的无限高频?

作者研究了展开定理中的幅度项。他们发现幅度 \(\alpha_k\) 受 贝塞尔函数 (Bessel functions) 支配。不深入微积分细节,关键结论体现在 定理 2 中:

显示幅度上限的不等式。

这个不等式揭示了一个直接关系: 如果权重 (\(W\)) 很小,高频的幅度会迅速衰减。

这允许作者实施一种 频带限制控制机制 。 通过在训练期间简单地“截断” (限制) 隐藏矩阵中权重的最大值,他们在数学上保证了高频噪声被抑制。

权重边界值 c 的对比。 图 3: 权重边界约束的效果。在严格约束 (c=0.1) 下,网络非常平滑。随着约束放宽 (c=0.5) ,允许出现更高的频率。这给了我们一个调节输出锐度与平滑度的“旋钮”。

这充当了一个 软滤波器 。 与切断频率 (导致振铃伪影) 的硬滤波器不同,TUNER 根据权重大小温和地抑制频率,从而产生更清晰的信号。

实验结果

那么,数学原理在实践中站得住脚吗?结果非常令人信服。

收敛性与稳定性

当与 SIREN (之前的最先进技术) 相比时,TUNER 收敛速度显著更快,并达到了更低的损失。

ReLU, FFM, SIREN 和 TUNER 的综合对比。 图 4: 核心对比图。请看左下角的图表。蓝线 (TUNER) 立即下降并保持低位。橙线 (SIREN) 难以收敛。在视觉上 (顶部) ,TUNER 在第 100 个 epoch 时生成的图像更清晰,伪影更少。

在上面的对比中,你可以看到 SIREN (橙色) 以高误差开始,并且需要很长时间才能稳定下来。这是因为 SIREN 初始化的频率范围很广,它们相互冲突。TUNER (蓝色) 从一组有组织的整数频率开始,只需调整它们的幅度,从而实现了快速学习。

伪影消除

最有趣的对比之一是针对 BACON,一种使用显式带限滤波器的方法。

BACON, BANF 和 TUNER 的对比。 图 5: 伪影分析。看“BACON”插图 (左) 。你可以看到边缘周围的波纹或“振铃”——这是硬盒式滤波器的典型症状。TUNER (右) 充当软滤波器,保留了边缘且没有波纹。

因为 TUNER 利用贝塞尔函数的自然衰减 (通过权重边界) 而不是硬性截断,它避免了困扰其他带限方法的振铃伪影。

梯度重建

INRs 一个常被忽视的特性是它们对信号 导数 (例如图像中的边缘) 的建模效果如何。

信号和梯度重建的对比。 图 6: 左: 标准训练 (无边界约束) 。右: TUNER (有边界约束) 。注意梯度图像 (灰度) 。有边界约束的版本捕捉到了干净、锐利的边缘,而无边界约束的版本充满了散斑噪声。

图 6 中的实验表明,虽然标准训练可能大致正确地得到颜色像素 (信号) ,但它在学习结构 (梯度) 方面完全失败,导致导数充满噪声。TUNER 的边界方案保留了高阶结构信息。

结论

TUNER 代表了隐式神经表示的成熟。通过摒弃经验性的“黑客手段”,并将网络架构建立在傅里叶理论之上,作者提供了一种控制这些强大网络的方法。

学生和从业者的主要收获是:

  1. 不要相信随机初始化: 对于正弦网络,结构化的整数初始化 (谱采样) 提供了更好的起点。
  2. 权重控制频率: 隐藏权重的量级直接关联输出的高频内容。控制权重意味着控制噪声。
  3. 软约束优于硬约束: 软约束 (如权重边界) 通常比硬约束 (如频率截断) 产生更好的视觉效果,因为它们避免了振铃伪影。

这项工作为复杂信号 (从十亿像素级图像到详细的 3D SDFs) 的高保真表示铺平了道路,同时消除了训练不稳定的头痛问题。