在自然科学和物理学中,对称性即一切。无论你是在分析分子的能量、流体的动力学,还是晶体的结构,自然界的基本定律通常在某些变换下保持不变——比如旋转、反射或平移。

在机器学习中,我们将这些性质称为不变性 (Invariances) 。 理想情况下,如果我们训练一个模型来预测分子的能量,那么在 3D 空间中旋转该分子不应改变模型的预测结果。然而,教导机器精确地遵守这些对称性,历来是一个巨大的计算难题。

传统方法迫使我们在两种弊端之间做出选择: 要么近似对称性 (这对于严谨的物理学来说不够精确) ,要么消耗指数级的计算算力来保证它。

最近的一篇论文 《Learning with Exact Invariances in Polynomial Time》 (在多项式时间内学习精确不变性) 改变了这一局面。作者提出了一种方法,可以在没有指数级成本的情况下实现精确的不变性,提供了一种在多项式时间内完成的解决方案,且其统计性能与标准方法相当。

在这篇文章中,我们将拆解这种新方法的数学原理,探索作者如何利用谱理论 (Spectral Theory)微分几何 (Differential Geometry) 来解决几何深度学习中最棘手的问题之一。

问题所在: 对称性的高昂代价

让我们正式定义这个问题。我们试图基于 \(n\) 个样本的数据集 \(\mathcal{S} = \{(x_i, y_i)\}\) 来学习一个回归函数 \(f^*\)。我们的数据位于一个流形 \(\mathcal{M}\) 上 (如球面或环面) ,我们希望我们要学习的函数 \(\widehat{f}\) 能接近真实函数 \(f^*\)。

我们使用总体风险 (Population Risk,即泛化误差) 来衡量“接近程度”:

总体风险定义。

关键在于: 真实函数 \(f^*\) 对于一组对称群 \(G\) 是不变的。这意味着对于任何群元素 \(g\) 和任何点 \(x\),都有 \(f^*(gx) = f^*(x)\)。我们希望我们的估计器 \(\widehat{f}\) 也能遵守同样的规则。

为什么标准方法会失败

你可能会想,“为什么不对数据进行平均呢?”这正是群平均 (Group Averaging) 背后的直觉。如果你有一个核函数 \(K\) (一种点之间的相似度度量) ,你可以通过对所有可能的群变换求和来强制其具有不变性:

群平均公式。

虽然在数学上是合理的,但这种操作在计算上是一场噩梦。如果 \(G\) 是一个大群 (比如 \(d\) 个元素的置换群,其中 \(|G| = d!\)) ,群的大小会呈超指数级爆炸。对于高维数据,对 \(d!\) 个元素求和是不可能的。

其他技术如数据增强 (Data Augmentation) 也面临同样的问题: 你需要用每个数据点的每一个可能的变换来扩充你的训练集。 规范化 (Canonicalization)帧平均 (Frame Averaging) 提供了替代方案,但通常面临不连续性问题或缺乏通用的算法。

研究问题变成了: 我们能否找到一个精确不变、统计上最优且计算高效 (多项式时间) 的估计器?

解决方案: 谱平均 (Spec-Avg)

作者提出了一种名为谱平均 (Spectral Averaging, Spec-Avg) 的方法。他们不再试图在空间域 (对点进行平均) 强制实现不变性,而是利用拉普拉斯-贝尔特拉米算子 (Laplace-Beltrami operator) 的谱理论转移到频域

1. 问题的几何背景

为了理解这个解决方案,我们需要了解其发生的舞台: 黎曼流形 \(\mathcal{M}\)。在这个流形上,我们有拉普拉斯-贝尔特拉米算子 (\(\Delta_\mathcal{M}\)) ,这是标准拉普拉斯算子 (“二阶导数”算子) 在曲面上的推广。

该算子有一组特征函数 (Eigenfunctions) \(\phi_{\lambda, \ell}\) 和对应的特征值 \(\lambda\)。就像正弦和余弦构成直线上函数的基 (傅里叶级数) 一样,这些特征函数构成了流形上函数的正交基。

流形上的任何函数 \(f\) 都可以写成这些基函数的和:

函数分解为特征函数。

2. 交换性的魔力

这篇论文的核心洞察依赖于几何学的一个美妙性质: 拉普拉斯算子与等距群作用是对易的 (Commutative) 。

如果你使用对称性 \(g\) 变换一个函数 (记为 \(T_g\)) ,然后应用拉普拉斯算子,其结果与先应用拉普拉斯算子再进行变换是一样的。

拉普拉斯算子与群作用的交换性。

为什么这很重要? 线性代数。 如果两个线性算子可交换,它们就共享特征空间。这意味着当群 \(G\) 作用于流形时,它不会混淆所有的频率。它只会混合具有相同特征值 \(\lambda\) 的特征函数。

群作用实际上变成了作用于特定特征空间 \(V_\lambda\) 的一组正交矩阵 \(D^\lambda(g)\)。这使我们将庞大、复杂的不变性问题分解为许多微小的、独立的问题——每个频率 \(\lambda\) 对应一个。

3. 重构优化问题

理想情况下,我们要解决经验风险最小化 (ERM) 问题——找到最拟合我们数据的函数——并附加函数必须具有不变性的约束。

带约束的 ERM 公式。

约束条件 \(\forall (g,x): f(gx) = f(x)\) 很难处理,因为有太多的 \(g\) 和无限多的 \(x\)。

然而,利用我们上面建立的谱分解,我们可以将这个条件转换到谱域 (频域) 。当且仅当一个函数 \(f\) 的系数 \(f_\lambda\) 满足针对每个群元素的线性方程时,该函数才是不变的:

谱域中的线性不变性约束。

4. 压缩约束

我们仍然有一个问题: 从技术上讲,我们必须对 \(G\) 中的每个 \(g\) 检查这个约束。对于大群来说,这仍然太慢了。

作者利用了群论的一个基本性质: 生成元 (Generators) 。 你不需要检查群的每一个元素;你只需要检查生成集 \(S\)。如果一个函数对生成元是不变的,那么它对整个群也是不变的。

群生成元的逻辑。

关键在于,对于任何有限群,生成集的大小都很小: \(|S| \leq \log_2(|G|)\)。这提供了复杂度的指数级降低。我们从检查 \(d!\) 个约束变成了大约 \(\log(d!)\) 个约束。

算法: Spec-Avg

最终的算法优雅且出奇地简单。它有效地在特定频率 \(D\) (基于样本量 \(n\)) 处“截断”特征函数的无限级数,并为每个频率求解一个二次规划 (Quadratic Program)

以下是逐步过程:

  1. 无约束估计: 首先,基于数据计算系数 \(\widetilde{f}_{\lambda, \ell}\) 的朴素估计。这只是特征函数在数据点上的加权和。 系数的经验估计。

  2. 投影 (修正) : 我们实际上是获取这个朴素估计,并将其“投影”到不变函数的空间上。我们找到最接近朴素估计且满足对称性约束的系数 \(\widehat{f}_{\lambda, \ell}\)。 系数的优化问题。

因为约束是线性的,这个优化问题有一个闭式解 (Closed-form solution) 。 我们不需要运行梯度下降循环;我们只需使用矩阵运算即可计算出来。

系数的闭式解。

  1. 重构: 最后,我们将修正后的系数求和,得到我们的不变估计器 \(\widehat{f}(x)\)。 最终估计器重构。

它有效吗?实验验证

理论虽好,但在实践中站得住脚吗?作者在高维环面 (Torus) 上使用符号不变性对称性,将 Spec-Avg 算法与标准的核岭回归 (KRR) 进行了对比测试。

精确不变性

首先,他们测量了不变性差异 (ID)——这是一个衡量模型违反了多少对称性的指标。

不变性差异的定义。

如下面的图 1 所示,标准的 KRR (彩色线条) 未能实现精确的不变性。随着数据量的增加,差异虽然减小,但从未归零。相比之下,Spec-Avg 在数学上保证 ID 恰好为 0 (图中未绘制,因为它就是底部的一条平线) 。

图 1: 不变性差异与样本数的关系。

泛化性能

至关重要的是,强制这种精确的不变性并没有损害模型的学习能力。作者在理论上证明了 Spec-Avg 达到了与标准方法相同的最优收敛速度: \(\mathcal{O}(n^{-\alpha/(1+\alpha)})\)。

图 2 从经验上证实了这一点。Spec-Avg (实线) 的测试误差下降速度与 KRR (阴影区域) 相同。你在无需支付准确性代价的情况下,获得了精确符合物理规律的好处。

图 2: 测试误差与样本数的关系。

结论

这篇论文对几何深度学习领域做出了重大贡献。它证明了我们不需要枚举每一个可能的对称变换来学习不变函数。

通过将视角从空间域转移到谱域 , 作者将一个计算上棘手的问题 (对庞大的群求和) 转化为了一组可以在多项式时间内解决的可管理的线性约束。

核心要点:

  1. 多项式时间: 这是第一个在 \(n\)、\(d\) 和 \(\log|G|\) 的多项式时间内实现核的精确不变性的算法。
  2. 无统计权衡: 该方法收敛到真实函数的速度与非不变方法一样快。
  3. 生成元是关键: 使用群的生成集是避免群大小维度灾难的秘诀。

对于学生和从业者来说,这项工作为物理和化学中更严谨的机器学习应用打开了大门,在这些领域,“大部分不变”往往是不够的。