简介

在 2D 计算机视觉领域，我们正处于自监督学习 (SSL) 的黄金时代。像 DINO 和 MAE 这样的模型已经证明，神经网络可以在没有任何人类标注标签的情况下，学习到鲁棒且语义丰富的图像表示。你可以拿一个预训练好的图像模型，冻结其权重，在其顶部添加一个简单的线性分类器 (这一过程称为“线性探测”) ，就能获得媲美全监督训练的结果。

然而，当我们步入第三维度——处理 3D 点云时——情况发生了巨大的变化。尽管 3D 感知在自动驾驶、机器人技术和混合现实中极其重要，但 3D 自监督学习却一直滞后。目前最先进的模型通常无法通过“线性探测”的测试，除非针对特定任务进行全量微调 (重新训练) ，否则准确率惨不忍睹。

为什么会有如此大的差距？为什么 3D 模型难以依靠自身学习到可靠的表示？

在这篇文章中，我们将深入探讨一篇题为 “Sonata: Self-Supervised Learning of Reliable Point Representations” (Sonata: 可靠点表示的自监督学习) 的引人入胜的论文。研究人员指出了以前 3D SSL 方法中存在的一个根本性缺陷——他们将其称为 “几何捷径” (Geometric Shortcut) 。他们提出了一个新的框架 Sonata，有效地阻断了这条捷径，迫使模型学习深层的语义概念。

Sonata 的主要特性，展示了在感知、线性探测和空间推理方面的改进。

如图 1 所示，Sonata 本质上改写了 3D 预训练的规则。它将 ScanNet 基准测试上的线性探测准确率从之前的最高 21.8% 提升到了惊人的 72.5% , 开启了可靠 3D 感知的新纪元。

背景: 点云 SSL 的困境

要理解 Sonata 为何具有突破性，我们首先需要了解它解决的问题。

自监督学习通常通过创建一个“前置任务” (pretext task) 来工作。例如，在 2D 图像中，我们可能会遮挡照片的一部分，并要求模型预测缺失的像素。为了做好这一点，模型必须理解物体长什么样 (例如，“这看起来像一只狗，所以缺失的补丁应该是皮毛”) 。

在 3D 点云中，研究人员尝试了类似的方法。他们遮挡点并要求模型重建它们，或对比同一场景的不同视图。然而，这些方法一直只能产生“脆弱”的表示。当你可视化模型学到的内容时，它往往只理解表面法向量 (墙面朝向哪里) 或高度 (Z 坐标) ，而完全不知道“椅子”或“桌子”实际上是什么。

几何捷径 (The Geometric Shortcut)

Sonata 的作者假设，根本原因在于 几何捷径 。

在 2D 图像中，如果移除颜色信息 (输入特征) ，剩下的就是一个空白网格。像素的位置 (\(x, y\)) 本身不携带任何信息。

而在 3D 点云中，数据是稀疏的。“位置” (\(x, y, z\)) 不仅仅是网格索引；它就是数据本身。即使你遮挡了特征信息 (如颜色或强度) ，几何结构——椅子的形状、地板的平整度——仍然显式地存在于坐标中。

2D 和 3D 数据掩码的比较。在 3D 中，即使没有输入特征，几何信息依然存在。

正如图 3 所示，这导致了一个“懒惰”的模型。神经网络意识到它不需要学习复杂的语义关系来解决前置任务。相反，它只需查看相邻的坐标就能猜出答案。它作弊了。

这种作弊的证据在特征相似性的热力图中清晰可见。在一个好的模型中，指向一个沙发扶手应该会让模型“点亮”房间里的其他沙发扶手。

可视化几何捷径。以前的方法坍缩为表面法向量或高度。Sonata 捕捉到了沙发扶手的概念。

图 2 展示了这种鲜明的对比。像 CSC 和 MSC 这样的前人方法坍缩为平凡的解:

CSC 专注于表面法向量 (点亮任何朝向相同的物体) 。
MSC 过拟合于高度 (点亮任何处于同一垂直水平的物体) 。
Sonata 则成功识别了其他沙发扶手，证明它学习到了物体的 语义概念，而不仅仅是几何形状。

核心方法: 谱写 Sonata

为了克服几何捷径，研究人员引入了 Sonata , 这是一个自蒸馏 (self-distillation) 框架，旨在以一种迫使模型放弃简单几何线索并学习语义的方式，让学习过程变得“更难”。

1. 自蒸馏框架

在宏观层面上，Sonata 使用了学生-教师 (Student-Teacher) 架构，类似于图像 SSL 中使用的方法 (如 DINO) 。

工作流程如下:

视图生成 (View Generation) : 系统生成 3D 场景的多个视图。“全局视图”看到场景的大部分，而“局部视图”和“掩码视图”看到较小或被破坏的块。
学生 vs. 教师 (Student vs. Teacher) : “学生”网络处理困难的、被掩码的和局部的视图。“教师”网络 (它是学生参数的稳定移动平均) 处理干净的全局视图。
目标 (The Goal) : 学生必须使其输出与教师的输出相匹配。为此，它必须根据有限的、被掩码的输入推断出全局上下文和缺失信息。

Sonata 的自蒸馏框架。

图 5 概述了这一过程。关键机制在于，学生试图将其对掩码视图中特定点的理解，与教师对全局视图中同一点的理解进行对齐。

2. 阻断捷径的微观设计

宏观框架是标准的，但微观设计才是 Sonata 大放异彩的地方。研究人员实施了特定策略来模糊空间信息并强调输入特征。

移除解码器 (U-Net 陷阱)

大多数 3D 主干网络使用 U-Net 结构: 一个 编码器 (Encoder) 对数据进行下采样以学习广泛的特征，随后是一个 解码器 (Decoder) 将其上采样回原始分辨率。

研究人员意识到解码器是一个陷阱。通过强制模型在原始高分辨率尺度上预测特征，解码器重新引入了细粒度的几何坐标。这让模型再次能够轻易获得几何捷径。

PCA 嵌入展示了编码器和解码器表示之间的差异。

如图 4 所示, 编码器 自然地学习多样化、分散的模式 (语义) 。然而, 解码器 产生的是统一的、结构化的表示，过度依赖于局部几何。

解决方案: Sonata 在预训练中摒弃了 U-Net。它严格地在 编码器 输出上执行自蒸馏。这迫使模型在较粗的尺度上运行，使得利用几何作弊变得更加困难。

特征上投 (Feature Up-Casting)

如果我们移除解码器，我们会失去描述细节的能力吗？为了解决这个问题而不重新引入 U-Net“陷阱”，作者使用了一种无参数的方法，称为 特征上投 (Feature Up-casting) 。

他们获取编码器的粗糙特征，并使用已知的池化索引将它们投射回更高的分辨率。这就像一种“超柱” (Hypercolumn) 方法。这允许模型保持多尺度感知，而无需训练可能过拟合几何形状的可学习解码器。

掩码点抖动 (Masked Point Jitter)

为了进一步混淆模型对精确坐标的依赖，Sonata 专门对被掩码点的坐标应用了激进的 高斯抖动 (Gaussian jitter) 。

如果模型试图查看被掩码点的确切 XYZ 位置来猜测其特征，它会发现位置已经被打乱了。这种噪声迫使模型依赖周围未被掩码点提供的 上下文 (语义上下文) ，而不是被掩码点本身的精确几何形状。

渐进式参数调度 (Progressive Parameter Scheduling)

学习语义很难；利用几何作弊很容易。如果你让任务一开始就太难，模型可能会直接崩溃或学不到任何东西。

Sonata 使用了一种课程学习方法。它在训练过程中从小的掩码 (简单) 开始，逐步增加掩码的大小和比例 (困难) 。这本质上是一步步引导模型远离几何依赖，将其“诱捕”进学习语义的过程中。

3. 扩大规模 (Scaling Up)

最后，为了确保表示的鲁棒性，作者显著扩大了数据规模。虽然以前的方法通常在像 ScanNet 这样较小的数据集 (约 1.6k 场景) 上训练，但 Sonata 是在一个包含 140,000 个场景 的海量集合上训练的，结合了真实世界数据 (ScanNet, ArkitScenes, HM3D) 和模拟数据 (Structured3D, ASE) 。

展示用于 Sonata 的 140k 场景的数据源收集表。

实验与结果

对 Sonata 的评估集中在一个关键问题上: 这种表示是否可靠?

为了回答这个问题，作者主要使用 线性探测 (Linear Probing) 。这涉及冻结预训练的 Sonata 编码器，并在其顶部训练一个单一的线性分类层。如果编码器已经学到了良好的语义 (例如，“这簇点是一把椅子”) ，那么一个简单的线性层应该能够轻松地对其进行标记。

通往可靠性的路线图

改进不仅仅归功于某一个技巧；它是上述策略的结合。作者提供了一个路线图，展示了每个组件如何对最终性能做出贡献。

从 MSC 到 Sonata 的性能改进路线图。

正如图 6 所示:

从 MSC (一种以前的方法) 开始，性能约为 21.8%。
切换到 自蒸馏 框架提高了结果。
模糊空间信息 (移除解码器) 带来了巨大的飞跃。
扩大模型和数据规模进一步推高了上限。
最终的 Sonata 模型在 ScanNet 线性探测上达到了 72.5% mIoU 。

这是一个范式转变。以前，自监督 3D 模型被视为加速训练的“初始化权重”。Sonata 证明了它们本身就可以成为强大的特征提取器。

与 DINOv2 的比较

既然该架构受到图像 SSL 的启发，那么 Sonata 与从最先进的图像模型 (如 DINOv2) 中提取 2D 特征到 3D 相比如何呢？

虽然 DINOv2 非常强大，但它缺乏显式的 3D 空间推理能力。

DINOv2 (3D 上的线性探测) : 63.1% mIoU。
Sonata (线性探测) : 72.5% mIoU。

DINOv2 和 Sonata 之间的零样本比较。

图 7 直观地比较了它们。DINOv2 (左) 擅长光度细节 (纹理/颜色) ，但在空间上可能不一致。Sonata (中) 更好地捕捉了物体的空间连贯性。

有趣的是, 最佳结果来自于将它们结合起来 (右) 。因为 Sonata 学习 3D 结构，而 DINOv2 学习 2D 纹理，它们是互补的。融合它们的特征可以获得更高的准确率 (76.4%) 。

数据效率

SSL 的主要承诺之一是它应该减少对标注数据的需求。Sonata 在这方面表现出色。

数据效率表。Sonata 在仅有 1% 标注数据的情况下表现极其出色。

查看表 4，仅使用 ScanNet 中 1% 的标注数据 , Sonata 就达到了 45.3% mIoU (全量微调) 。在这种设置下，以前的方法如 SparseUNet 或 PTv3 从头开始训练只能达到大约 25-26%。这意味着 Sonata 允许我们用极少部分的标注工作量构建强大的 3D 系统。

零样本能力

也许视觉上最令人印象深刻的结果是 Sonata 能够在其未受过训练的不同场景中“匹配”点。

HM3D 中跨场景的零样本表示。

在图 8 中，作者可视化了整个大房子中的特征相似性。如果你在一个房间里选择枕头上的一点，Sonata 会自动高亮其他房间里的枕头。它纯粹基于学习到的表示的相似性来对地板、桌子和椅子进行分组。这表明模型已经对这些物体是什么形成了泛化的理解，而不受其特定位置或形状微小变化的影响。

几何理解

阻断“几何捷径”是否意味着模型忘记了几何学？令人惊讶的是，并没有。通过强迫模型理解几何的 上下文 而不仅仅是坐标，它在表面重建方面变得更好了。

从冻结的 Sonata 特征进行表面重建。

图 11 显示，冻结的 Sonata 主干可用于重建高保真表面 (有符号距离场) ，证明了学习到的表示在几何上是丰富的，只是不再以“懒惰”的方式依赖几何。

结论与启示

Sonata 代表了 3D 计算机视觉的一个重要里程碑。多年来，该领域一直受困于“几何捷径”——点云模型倾向于过拟合低级坐标而不是学习高级语义。

通过识别这一问题，并通过移除解码器、掩码点抖动和渐进式训练计划系统地解决它，研究人员创建了一个真正可靠的模型。

主要收获:

3D 是不同的: 你不能简单地将 2D SSL 方法复制粘贴到 3D，因为几何本身会泄露信息。
少即是多: 在预训练期间移除解码器迫使编码器变得更强。
线性探测是新标准: 我们应该要求 3D SSL 模型像 2D 模型一样，在简单的线性分类器下表现良好。

其影响是令人兴奋的。我们正迈向这样一个未来: 3D 主干网络可以在海量数据集上预训练一次，然后以极少的微调部署到各种机器人和 AR/VR 任务中。此外，Sonata 与 DINOv2 的成功结合表明，感知的未来是多模态的——结合 Sonata 的结构真理与图像基础模型的视觉丰富性。

简介#

背景: 点云 SSL 的困境#

几何捷径 (The Geometric Shortcut)#

核心方法: 谱写 Sonata#

1. 自蒸馏框架#

2. 阻断捷径的微观设计#

移除解码器 (U-Net 陷阱)#

特征上投 (Feature Up-Casting)#

掩码点抖动 (Masked Point Jitter)#

渐进式参数调度 (Progressive Parameter Scheduling)#

3. 扩大规模 (Scaling Up)#

实验与结果#

通往可靠性的路线图#

与 DINOv2 的比较#

数据效率#

零样本能力#

几何理解#

结论与启示#

简介