简介
在 2D 计算机视觉领域,我们正处于自监督学习 (SSL) 的黄金时代。像 DINO 和 MAE 这样的模型已经证明,神经网络可以在没有任何人类标注标签的情况下,学习到鲁棒且语义丰富的图像表示。你可以拿一个预训练好的图像模型,冻结其权重,在其顶部添加一个简单的线性分类器 (这一过程称为“线性探测”) ,就能获得媲美全监督训练的结果。
然而,当我们步入第三维度——处理 3D 点云时——情况发生了巨大的变化。尽管 3D 感知在自动驾驶、机器人技术和混合现实中极其重要,但 3D 自监督学习却一直滞后。目前最先进的模型通常无法通过“线性探测”的测试,除非针对特定任务进行全量微调 (重新训练) ,否则准确率惨不忍睹。
为什么会有如此大的差距?为什么 3D 模型难以依靠自身学习到可靠的表示?
在这篇文章中,我们将深入探讨一篇题为 “Sonata: Self-Supervised Learning of Reliable Point Representations” (Sonata: 可靠点表示的自监督学习) 的引人入胜的论文。研究人员指出了以前 3D SSL 方法中存在的一个根本性缺陷——他们将其称为 “几何捷径” (Geometric Shortcut) 。 他们提出了一个新的框架 Sonata,有效地阻断了这条捷径,迫使模型学习深层的语义概念。

如图 1 所示,Sonata 本质上改写了 3D 预训练的规则。它将 ScanNet 基准测试上的线性探测准确率从之前的最高 21.8% 提升到了惊人的 72.5% , 开启了可靠 3D 感知的新纪元。
背景: 点云 SSL 的困境
要理解 Sonata 为何具有突破性,我们首先需要了解它解决的问题。
自监督学习通常通过创建一个“前置任务” (pretext task) 来工作。例如,在 2D 图像中,我们可能会遮挡照片的一部分,并要求模型预测缺失的像素。为了做好这一点,模型必须理解物体长什么样 (例如,“这看起来像一只狗,所以缺失的补丁应该是皮毛”) 。
在 3D 点云中,研究人员尝试了类似的方法。他们遮挡点并要求模型重建它们,或对比同一场景的不同视图。然而,这些方法一直只能产生“脆弱”的表示。当你可视化模型学到的内容时,它往往只理解表面法向量 (墙面朝向哪里) 或高度 (Z 坐标) ,而完全不知道“椅子”或“桌子”实际上是什么。
几何捷径 (The Geometric Shortcut)
Sonata 的作者假设,根本原因在于 几何捷径 。
在 2D 图像中,如果移除颜色信息 (输入特征) ,剩下的就是一个空白网格。像素的位置 (\(x, y\)) 本身不携带任何信息。
而在 3D 点云中,数据是稀疏的。“位置” (\(x, y, z\)) 不仅仅是网格索引;它 就是 数据本身。即使你遮挡了特征信息 (如颜色或强度) ,几何结构——椅子的形状、地板的平整度——仍然显式地存在于坐标中。

正如 图 3 所示,这导致了一个“懒惰”的模型。神经网络意识到它不需要学习复杂的语义关系来解决前置任务。相反,它只需查看相邻的坐标就能猜出答案。它作弊了。
这种作弊的证据在特征相似性的热力图中清晰可见。在一个好的模型中,指向一个沙发扶手应该会让模型“点亮”房间里的其他沙发扶手。

图 2 展示了这种鲜明的对比。像 CSC 和 MSC 这样的前人方法坍缩为平凡的解:
- CSC 专注于表面法向量 (点亮任何朝向相同的物体) 。
- MSC 过拟合于高度 (点亮任何处于同一垂直水平的物体) 。
- Sonata 则成功识别了其他沙发扶手,证明它学习到了物体的 语义概念,而不仅仅是几何形状。
核心方法: 谱写 Sonata
为了克服几何捷径,研究人员引入了 Sonata , 这是一个自蒸馏 (self-distillation) 框架,旨在以一种迫使模型放弃简单几何线索并学习语义的方式,让学习过程变得“更难”。
1. 自蒸馏框架
在宏观层面上,Sonata 使用了学生-教师 (Student-Teacher) 架构,类似于图像 SSL 中使用的方法 (如 DINO) 。
工作流程如下:
- 视图生成 (View Generation) : 系统生成 3D 场景的多个视图。“全局视图”看到场景的大部分,而“局部视图”和“掩码视图”看到较小或被破坏的块。
- 学生 vs. 教师 (Student vs. Teacher) : “学生”网络处理困难的、被掩码的和局部的视图。“教师”网络 (它是学生参数的稳定移动平均) 处理干净的全局视图。
- 目标 (The Goal) : 学生必须使其输出与教师的输出相匹配。为此,它必须根据有限的、被掩码的输入推断出全局上下文和缺失信息。

图 5 概述了这一过程。关键机制在于,学生试图将其对掩码视图中特定点的理解,与教师对全局视图中同一点的理解进行对齐。
2. 阻断捷径的微观设计
宏观框架是标准的,但 微观 设计才是 Sonata 大放异彩的地方。研究人员实施了特定策略来模糊空间信息并强调输入特征。
移除解码器 (U-Net 陷阱)
大多数 3D 主干网络使用 U-Net 结构: 一个 编码器 (Encoder) 对数据进行下采样以学习广泛的特征,随后是一个 解码器 (Decoder) 将其上采样回原始分辨率。
研究人员意识到解码器是一个陷阱。通过强制模型在原始高分辨率尺度上预测特征,解码器重新引入了细粒度的几何坐标。这让模型再次能够轻易获得几何捷径。

如图 4 所示, 编码器 自然地学习多样化、分散的模式 (语义) 。然而, 解码器 产生的是统一的、结构化的表示,过度依赖于局部几何。
解决方案: Sonata 在预训练中摒弃了 U-Net。它严格地在 编码器 输出上执行自蒸馏。这迫使模型在较粗的尺度上运行,使得利用几何作弊变得更加困难。
特征上投 (Feature Up-Casting)
如果我们移除解码器,我们会失去描述细节的能力吗?为了解决这个问题而不重新引入 U-Net“陷阱”,作者使用了一种无参数的方法,称为 特征上投 (Feature Up-casting) 。
他们获取编码器的粗糙特征,并使用已知的池化索引将它们投射回更高的分辨率。这就像一种“超柱” (Hypercolumn) 方法。这允许模型保持多尺度感知,而无需训练可能过拟合几何形状的可学习解码器。
掩码点抖动 (Masked Point Jitter)
为了进一步混淆模型对精确坐标的依赖,Sonata 专门对被掩码点的坐标应用了激进的 高斯抖动 (Gaussian jitter) 。
如果模型试图查看被掩码点的确切 XYZ 位置来猜测其特征,它会发现位置已经被打乱了。这种噪声迫使模型依赖周围未被掩码点提供的 上下文 (语义上下文) ,而不是被掩码点本身的精确几何形状。
渐进式参数调度 (Progressive Parameter Scheduling)
学习语义很难;利用几何作弊很容易。如果你让任务一开始就太难,模型可能会直接崩溃或学不到任何东西。
Sonata 使用了一种课程学习方法。它在训练过程中从小的掩码 (简单) 开始,逐步增加掩码的大小和比例 (困难) 。这本质上是一步步引导模型远离几何依赖,将其“诱捕”进学习语义的过程中。
3. 扩大规模 (Scaling Up)
最后,为了确保表示的鲁棒性,作者显著扩大了数据规模。虽然以前的方法通常在像 ScanNet 这样较小的数据集 (约 1.6k 场景) 上训练,但 Sonata 是在一个包含 140,000 个场景 的海量集合上训练的,结合了真实世界数据 (ScanNet, ArkitScenes, HM3D) 和模拟数据 (Structured3D, ASE) 。

实验与结果
对 Sonata 的评估集中在一个关键问题上: 这种表示是否可靠?
为了回答这个问题,作者主要使用 线性探测 (Linear Probing) 。 这涉及冻结预训练的 Sonata 编码器,并在其顶部训练一个单一的线性分类层。如果编码器已经学到了良好的语义 (例如,“这簇点是一把椅子”) ,那么一个简单的线性层应该能够轻松地对其进行标记。
通往可靠性的路线图
改进不仅仅归功于某一个技巧;它是上述策略的结合。作者提供了一个路线图,展示了每个组件如何对最终性能做出贡献。

正如 图 6 所示:
- 从 MSC (一种以前的方法) 开始,性能约为 21.8%。
- 切换到 自蒸馏 框架提高了结果。
- 模糊空间信息 (移除解码器) 带来了巨大的飞跃。
- 扩大 模型和数据规模进一步推高了上限。
- 最终的 Sonata 模型在 ScanNet 线性探测上达到了 72.5% mIoU 。
这是一个范式转变。以前,自监督 3D 模型被视为加速训练的“初始化权重”。Sonata 证明了它们本身就可以成为强大的特征提取器。
与 DINOv2 的比较
既然该架构受到图像 SSL 的启发,那么 Sonata 与从最先进的图像模型 (如 DINOv2) 中提取 2D 特征到 3D 相比如何呢?
虽然 DINOv2 非常强大,但它缺乏显式的 3D 空间推理能力。
- DINOv2 (3D 上的线性探测) : 63.1% mIoU。
- Sonata (线性探测) : 72.5% mIoU。

图 7 直观地比较了它们。DINOv2 (左) 擅长光度细节 (纹理/颜色) ,但在空间上可能不一致。Sonata (中) 更好地捕捉了物体的空间连贯性。
有趣的是, 最佳 结果来自于将它们结合起来 (右) 。因为 Sonata 学习 3D 结构,而 DINOv2 学习 2D 纹理,它们是互补的。融合它们的特征可以获得更高的准确率 (76.4%) 。
数据效率
SSL 的主要承诺之一是它应该减少对标注数据的需求。Sonata 在这方面表现出色。

查看 表 4,仅使用 ScanNet 中 1% 的标注数据 , Sonata 就达到了 45.3% mIoU (全量微调) 。在这种设置下,以前的方法如 SparseUNet 或 PTv3 从头开始训练只能达到大约 25-26%。这意味着 Sonata 允许我们用极少部分的标注工作量构建强大的 3D 系统。
零样本能力
也许视觉上最令人印象深刻的结果是 Sonata 能够在其未受过训练的不同场景中“匹配”点。

在 图 8 中,作者可视化了整个大房子中的特征相似性。如果你在一个房间里选择枕头上的一点,Sonata 会自动高亮其他房间里的枕头。它纯粹基于学习到的表示的相似性来对地板、桌子和椅子进行分组。这表明模型已经对这些物体 是 什么形成了泛化的理解,而不受其特定位置或形状微小变化的影响。
几何理解
阻断“几何捷径”是否意味着模型忘记了几何学?令人惊讶的是,并没有。通过强迫模型理解几何的 上下文 而不仅仅是坐标,它在表面重建方面变得更好了。

图 11 显示,冻结的 Sonata 主干可用于重建高保真表面 (有符号距离场) ,证明了学习到的表示在几何上是丰富的,只是不再以“懒惰”的方式依赖几何。
结论与启示
Sonata 代表了 3D 计算机视觉的一个重要里程碑。多年来,该领域一直受困于“几何捷径”——点云模型倾向于过拟合低级坐标而不是学习高级语义。
通过识别这一问题,并通过移除解码器、掩码点抖动和渐进式训练计划系统地解决它,研究人员创建了一个真正 可靠 的模型。
主要收获:
- 3D 是不同的: 你不能简单地将 2D SSL 方法复制粘贴到 3D,因为几何本身会泄露信息。
- 少即是多: 在预训练期间移除解码器迫使编码器变得更强。
- 线性探测是新标准: 我们应该要求 3D SSL 模型像 2D 模型一样,在简单的线性分类器下表现良好。
其影响是令人兴奋的。我们正迈向这样一个未来: 3D 主干网络可以在海量数据集上预训练一次,然后以极少的微调部署到各种机器人和 AR/VR 任务中。此外,Sonata 与 DINOv2 的成功结合表明,感知的未来是多模态的——结合 Sonata 的结构真理与图像基础模型的视觉丰富性。
](https://deep-paper.org/en/paper/2503.16429/images/cover.png)