在飞速发展的 3D 计算机视觉领域,自监督预训练已成为黄金标准。无论你是构建自动驾驶车辆的感知系统,还是分析 3D 医学扫描,成功的秘诀通常都包括: 获取海量无标签数据集,在其上预训练一个深度神经网络 (DNN) ,然后针对你的特定任务进行微调。
我们知道它确实有效。预训练能持续提升性能。但它为何有效?
长期以来,这有点像是一门“炼金术”。我们将成功归因于“更好的特征学习”或“鲁棒的表示”,但这些都是模糊的术语。当神经网络经过预训练而不是从头开始训练时,其数学“大脑”内部究竟发生了什么变化?
一篇题为 “A Unified Approach to Interpreting Self-supervised Pre-training Methods for 3D Point Clouds via Interactions” (一种基于交互解释 3D 点云自监督预训练方法的统一方法) 的精彩论文给出了突破性的答案。通过应用博弈论的概念,研究人员成功打开了这个黑盒。他们发现了一个普遍机制: 预训练从根本上将网络的关注点从简单的局部细节转移到了复杂的全局结构上。
更令人印象深刻的是,他们利用这一洞察设计了一种新的训练方法,无需大规模预训练阶段即可达到预训练级别的性能。
在这篇文章中,我们将解构这篇论文,解释“交互”背后的博弈论数学原理,并探讨如何引导神经网络学习更好的 3D 表示。
1. 点云之谜
要理解解决方案,我们首先需要了解问题所在。与 2D 图像相比,3D 点云——空间中代表 3D 形状的数据点集合——众所周知地难以被神经网络处理。它们是非结构化、无序且通常稀疏的。
研究人员开发了各种自监督学习 (SSL) 方法来处理这个问题。例如:
- OcCo (Occlusion Completion,遮挡补全): 网络尝试重建对象缺失的部分。
- Jigsaw (拼图): 网络重新组装被打乱的 3D 对象。
- CrossPoint: 网络将 3D 点云与对应的 2D 图像对齐。
尽管设计各异,这些方法都倾向于提高模型的最终准确率。这表明在其有效性背后存在一个共同机制 。 本论文的作者着手使用一种称为交互 (Interaction) 的度量标准来确定这一机制。
2. 透过博弈论看神经网络
我们要如何衡量神经网络在“思考”什么?作者建议使用博弈论交互 。
把神经网络想象成一个工团队。输入 (3D 对象) 被分解成不同的区域 (团队成员) 。输出分数 (例如,这个对象是“飞机”的置信度) 是他们协作的结果。
步骤 1: 分解对象
首先,研究人员获取一个输入点云并将其划分为 \(n\) 个不同的区域。他们使用一种涉及最远点采样 (FPS) 和 K 维树 (KDTree) 的技术将点聚类到局部邻域中。

如图 2 所示,一架飞机被分割成不同颜色的区域。每个区域包含代表对象一部分的点子集,如翼尖、引擎或机身的一部分。
步骤 2: 定义交互
在博弈论中,Shapley 值通常用于根据每个参与者的贡献为其分配“分数”。然而,简单的归因是不够的。我们需要知道区域之间是如何交互的。
“翼尖”本身能代表“飞机”吗?大概不能。但“翼尖”与“翼根”和“机身”结合,就产生了一个强烈的“飞机”信号。这种协作就是一种交互 。
论文在数学上将网络的输出分数 \(v(x)\) 分解为所有可能的区域子集之间交互的总和。

这里,\(I(S)\) 代表集合 \(S\) 中区域之间交互的数值效应。求和覆盖了所有可能的区域子集。
但是我们如何计算特定区域集的交互 \(I(S)\) 呢?它涉及一种“与 (AND) ”关系。只有当 \(S\) 中的所有区域都存在时,交互 \(S\) 才会激活。

图 1(a) 完美地展示了这一点。
- \(S_1\) (低阶) : 仅仅是翼尖和翼根之间的协作。这是一个局部特征。
- \(S_3\) (高阶) : 涉及机身、机翼和尾部等多个区域的协作。这是一个全局结构特征。
\(I(S)\) 的大小告诉我们,特定的部件组合在多大程度上推动网络做出决定。正值推动其指向目标类别;负值则使其远离。
步骤 3: 高阶与低阶交互
这是论文理论的核心。交互的“阶数 (Order) ”,记为 \(m\),仅仅是该交互中涉及的区域数量 (\(|S|\)) 。
- 低阶交互 (Low-Order Interactions) : 涉及极少区域。它们代表简单、局部的 3D 结构 (例如,一个尖角、一个平面) 。
- 高阶交互 (High-Order Interactions) : 涉及大量区域。它们代表复杂、全局的 3D 结构 (例如,椅子的整体骨架、喷气式飞机的空气动力学形状) 。
研究人员引入了一个度量标准 \(\kappa^{(m)}\),来衡量每个阶数 \(m\) 下交互的平均强度。

通过绘制 \(\kappa^{(m)}\) 与阶数 \(m\) 的关系图,我们可以看到网络将注意力集中在“哪里”——是局部细节还是大局。
3. 共同机制: 从局部到全局
研究人员比较了从头训练 (scratch) 的网络与使用预训练方法 (如 IAE、OcCo、Jigsaw 等) 的网络。结果在不同的架构和数据集上都惊人地一致。
发现

观察图 3(a) 中的图表。
- 灰色线 (从头训练) : 从头训练的模型在低阶交互 (x 轴左侧) 中显示出高强度,但随着阶数增加显著下降。
- 彩色线 (预训练) : 预训练模型则相反。它们在低阶交互中的强度较低,但在高阶交互中的强度显著更高 (x 轴右侧) 。
结论 1: 预训练的共同机制在于它抑制了对简单局部特征的依赖,并增强了对复杂全局结构的编码。
为什么这很重要?
你可能会问,“为什么全局比局部更好?”
局部结构是模棱两可的。一个垂直的圆柱体可能是椅子的腿、植物的茎,或者是杯子的把手。如果网络过于依赖这些局部线索 (低阶交互) ,它很容易感到困惑。
全局结构是独特的。四条腿、一个座位和一个靠背之间的特定几何关系是椅子所独有的。

图 4 提供了一个具体的例子。
- 样本 1 (植物) : 从头训练的模型 (Scratch) 错误地将植物归类为“凳子”。为什么?因为它专注于类似于凳子腿的局部部件 (可能是茎) 。
- 修正: 预训练模型 (PT) 正确地将其识别为植物,因为它利用了高阶交互——它观察叶子相对于茎的排列,捕捉到了全局形状。
跨架构的普遍性
这仅仅是标准卷积神经网络 (CNN) 的怪癖吗?显然不是。研究人员还测试了现代基于 Transformer 的架构 (如 PointBERT 和 PointMAE) 。

如图 5 所示,Transformer 自然地表现得像预训练网络一样,严重偏向高阶交互。这表明高级 3D 深度学习的“秘诀”几乎总是捕捉全局上下文的能力。
4. 是什么增强了这一机制?
研究人员深入挖掘,以了解哪些因素控制着这种从局部到全局的转变。
因素 A: 预训练的程度
训练时间越长越重要吗?

图 6 展示了预训练阶段交互强度的演变。深色线条代表训练的后期阶段。我们看到了一个明显的趋势: 随着预训练的进行,“U 形”变得更加明显。网络主动抛弃低阶依赖并建立高阶依赖。这证实了全局结构的学习是一个随着时间推移积累的渐进过程。
因素 B: 微调数据的数量
预训练后,模型会在特定任务上进行微调。标记数据的数量如何影响该机制?

图 7 揭示了数据量会强化这一机制 。 只有 1% 的数据时 (橙色线) ,高阶强度较低。随着数据增加到 100% (粉色线) ,高阶交互急剧上升。这解释了为什么“大数据”如此有效——它提供了足够的多样性让网络确认并巩固全局模式。
5. 隐藏的风险: 迁移性悖论
然而,这篇论文揭示了一个有趣的细微差别。“越全局”总是越好吗?未必。
机器学习中有一个概念叫迁移性 (Transferability) ——在一个数据集 (例如 ModelNet) 上学到的特征在另一个未见过的不同数据集 (例如 ShapeNet) 上效果如何。

图 9 展示了一个“迁移性悖论”:
- 低数据环境: 当微调数据稀缺时 (图表左侧) ,预训练是救星。它显著提高了准确率 (+8.9%) 。
- 高数据环境: 当微调数据充足时 (右侧) ,预训练实际上损害了迁移性 (-14.7%) 。
结论 3: 预训练可能会让网络过于沉迷于训练集的特定全局结构。如果网络编码的高阶交互强度过高,它本质上就过拟合了源数据集的“全局形状风格”,从而使得适应具有略微不同几何形状的新数据集变得更加困难。
6. 解决方案: 无需预训练的引导式训练
这是论文中最具实操性的部分。研究人员提出了一个问题:
如果我们知道预训练的好处来自于增强高阶交互,我们能不能直接强制网络这样做?
如果成功,这将消除对海量数据集进行昂贵预训练的需求。
新的损失函数
他们提出了一个新的正则化项 \(\mathcal{L}_{interaction}\),将其添加到标准的分类损失中。

从概念上讲,这个方程做了两件事:
- 最小化低阶集合 (\(\Omega^{low}\)) 中的交互强度。
- 最大化 (通过负号) 高阶集合 (\(\Omega^{high}\)) 中的交互强度。
然而,计算所有子集的交互在计算上是不可能的 (NP 难) 。为了解决这个问题,他们创建了一个基于采样的近似版本。

他们采样三个不相交的小子集 (\(S_1, S_2, S_3\)) 来代表低阶交互,并将它们的并集 (\(S_{union}\)) 视为相对高阶的交互。损失函数试图确保整体 (\(S_{union}\)) 大于部分之和。
总损失
最终的训练目标变为:

这里,\(\alpha\) 是一个超参数,控制我们想要多大程度上强制这种“全局思维”。
它有效吗?
结果令人印象深刻。他们在 ModelNet40 和 ScanObjectNN 等标准基准上测试了这种方法。

在表 2 中,查看 DGCNN + \(\mathcal{L}_{interaction}\) (Ours) 所在的行。
- 在 ModelNet40 上,它达到了 93.3% , 击败了标准 DGCNN (92.5%) 并匹配了复杂的预训练方法如 JigSaw 和 STRL。
- 在 ScanObjectNN (真实世界数据) 上,它达到了 79.4% , 再次优于基线并与预训练方法相比具有竞争力。
关键在于, “Ours” (我们的方法) 不需要任何预训练数据。 它仅通过改变网络从标记数据中学习的方式就达到了这些结果。
他们还在语义分割任务 (S3DIS 数据集) 上验证了这一点,该方法继续表现出色。

如表 3 所示,该方法在平均交并比 (Mean IoU) 上优于几乎所有预训练基线。
调整超参数
研究人员还证实了这种提升并非侥幸。他们展示了随着增加 \(\alpha\) (交互损失的权重) ,网络确实将重心转移到了高阶交互上。

图 10(b) 显示,增加 \(\alpha\) (从蓝线到紫线) 成功地将曲线推向了理想的“预训练”形状,即图表右侧的值更高。
结论: 打开黑盒
这篇论文代表了可解释 AI 向前迈出的重要一步。作者没有将深度学习视为一个只需灌入数据然后祈祷结果就好的神秘黑盒,而是为为什么性能会提升提供了一个清晰的、博弈论的解释。
关键要点:
- 机制: 3D 点云处理的成功来自于将依赖从局部、模棱两可的特征 (低阶) 转移到全局、结构化的上下文 (高阶) 。
- 验证: 预训练、大数据集和 Transformer 架构都自然地鼓励这种转变。
- 应用: 我们并不总是需要大规模预训练。通过在数学上定义什么样的学习是“好的” (高阶交互) 并将其添加到我们的损失函数中,我们可以从头开始训练更聪明、更高效的网络。
对于学生和从业者来说,这提供了一个宝贵的教训: 理解模型的基本动态可能与简单地投入更多数据一样强大——甚至更为强大。
](https://deep-paper.org/en/paper/file-1920/images/cover.png)