引言

在计算机视觉飞速发展的世界里,3D 目标检测是自动驾驶和具身智能 (embodied robotics) 等技术的支柱。为了在世界中导航,机器必须以三维的方式感知它。然而,驱动这些感知的深度学习模型对数据有着巨大的渴望——特别是精确的 3D 边界框标注。

众所周知,标注 3D 点云是劳动密集型且昂贵的。虽然标注 2D 图像相对容易,但旋转 3D 场景并在每把椅子、汽车或行人周围绘制精确的框需要大量的人力。这一瓶颈促使研究人员探索稀疏监督 (sparse supervision) ——一种场景中只有极少部分物体被标注的训练设置。

虽然稀疏监督在户外场景 (如自动驾驶汽车) 中显示出了希望,但它在室内环境 (如家庭机器人) 中却碰了壁。为什么?因为目前的方法依赖于从其他场景“粘贴”物体来增强数据——这种技巧对道路上的汽车有效,但当你试图把浴缸粘贴到客厅时就会失效。

在这篇文章中,我们将深入探讨一种新的统一方法: CPDet3D 。 该方法在论文 Learning Class Prototypes for Unified Sparse Supervised 3D Object Detection 中提出,介绍了一种学习“类原型 (class prototypes) ”的巧妙方法。通过了解整个数据集中通用的“椅子”或“桌子”是什么样子的,模型可以在不需要物理上不可能的数据增强的情况下识别场景中未标记的物体。

比较稀疏监督 3D 目标检测方法。先前的方法 (a) 依赖于全类别覆盖,这在室内会失败。提出的方法 (b) 使用统一的方案和原型检索。

如上图所示,这种方法摒弃了单个场景包含所有必要类别信息的假设,为室内和室外领域提供了一个统一的解决方案。

背景: 为什么室内稀疏检测很难

要理解这里的创新,我们首先需要了解先前工作的局限性。大多数现有的稀疏监督 3D 检测方法都是为户外场景量身定制的,例如用于自动驾驶的 KITTI 数据集。

这些户外方法通常使用一种称为 GT (真值) 采样的策略。这涉及从一个场景中提取已标记的物体 (如汽车或行人) 并将它们粘贴到另一个场景中,以确保模型看到大量的示例。在户外街道场景中,这通常没问题;汽车基本上可以放置在道路上的任何地方。

然而,室内场景有着严格的语义上下文。

室内数据集 ScanNet V2 上的 GT 采样失败可视化。在客厅放置浴室专用的马桶是不合理的。

如上图所示,盲目地粘贴物体破坏了室内环境的逻辑。你不能简单地把马桶粘贴到客厅或把床粘贴到厨房而不让模型感到困惑。因为我们不能依赖这种“复制粘贴”的增强,而且每个场景只有少量的标签 (稀疏监督) ,模型很难学习在那个特定场景中未被标记的物体的表示。

如果你有一个包含桌子和椅子的场景,但只有桌子被标记了,标准的稀疏模型会忽略椅子。挑战在于: 我们如何教导模型识别那把未标记的椅子,而无需明确告诉它“这是一把椅子”?

解决方案: CPDet3D

研究人员提出了一种利用类原型 (Class Prototypes) 的方法。模型不再孤立地看待单个场景中的物体,而是聚合整个数据集中已标记物体的特征,为每个类别创建一个“原型”——一个具有代表性的特征向量。

该架构包含两个主要的创新模块:

  1. 基于原型的目标挖掘 (Prototype-based Object Mining) : 该模块将寻找未标记物体的问题转化为匹配问题。它将场景中的未标记特征与学习到的类原型进行匹配。
  2. 多标签协同优化 (Multi-label Cooperative Refinement) : 该模块通过结合稀疏真值标签、伪标签 (高置信度预测) 和新挖掘的原型标签来优化检测。

该方法的架构。它涉及投影特征,将其聚类为原型,并使用协同优化模块。

让我们分解这些独特的组件,以理解这个统一检测器的运作机制。

1. 基于原型的目标挖掘

这里的核心理念是,即使“椅子”在场景 A 中没有被标记,模型也通过场景 B场景 C场景 D 知道“椅子”长什么样。

类别感知原型聚类

首先,模型需要建立这些原型。它获取检测器生成的点云特征,并将它们投影到一个新的特征空间中。利用有限的稀疏标注,它将属于同一类别的特征聚类。

在数学上,假设我们有候选特征 \(X\)。投影仪将这些转换为投影特征 \(F\)。对于特定类别 \(k\),我们使用掩码 \(M_k\) (它标识类别 \(k\) 的已标记物体) 提取相关特征。

提取类特定特征的公式。

这里,\(F_k\) 代表类别 \(k\) 的语义特征。

目标是更新原型 \(P_k\) 以代表这些特征。研究人员将其建模为最优传输 (Optimal Transport) 问题。他们使用 Sinkhorn-Knopp 迭代计算当前原型与输入特征之间的匹配矩阵 \(L_k\)。该算法非常适合寻找两个分布之间的最佳对齐。

使用 Sinkhorn-Knopp 迭代计算匹配矩阵的公式。

一旦找到最佳匹配,原型并不会被简单替换;它们使用动量策略进行更新。这确保了学习的稳定性。类别 \(k\) 的第 \(i\) 个原型通过向匹配给它的新特征的均值略微移动来更新。

使用动量更新原型的公式。

在这个公式中,\(\mu\) 是动量系数 (通常接近 1,例如 0.99) ,确保原型平滑演变,而不是随着每个批次剧烈跳动。

热身阶段

当训练开始时,原型是随机初始化的。如果我们试图立即使用它们来标记物体,模型会感到困惑。因此,系统会经历一个“热身”阶段。

ScanNet V2 上热身前后类感知原型的 t-SNE 结果。

上面的 t-SNE 可视化完美地展示了这一点。在左侧 (a),初始原型是分散和混合的。热身之后 (b),不同类别出现了清晰、独特的聚类。这种分离对于准确匹配至关重要。

将原型与未标记对象匹配

一旦原型稳定下来 (热身之后) ,模型就会查看场景中的未标记特征。它计算每个未标记特征与类原型之间的相似度分数 (亲和力) 。

它结合检测器的分类分数 (\(S\)) 和这个亲和力矩阵 (\(A'\)) 来计算传播概率 \(W\)。

传播概率的公式。

利用这个概率,模型为未标记特征分配一个“原型标签” (\(C_f\))。

根据概率分配类别标签的公式。

本质上,如果一团未标记的点在数学上看起来与“椅子”原型相似,它就会被标记为椅子。

过滤标签

并非每个匹配都是完美的。为了确保高质量,系统会过滤这些新的原型标签。它会移除背景区域、已经拥有稀疏真值标签的区域 (以避免冗余) ,以及有效点云范围之外的区域。

过滤原型标签的公式。

结果呢?模型成功地“挖掘”出了人类没有标记的物体。

真实挖掘出的原型标签的可视化。模型识别出了在稀疏设置中未被标注的椅子、桌子和垃圾桶。

在上面的可视化中,列 (a) 和 (c) 显示了稀疏输入 (每个场景一个标签) 。列 (b) 和 (d) 显示了模型自己发现的内容。注意它是如何成功识别出垃圾桶和多把椅子的。

2. 多标签协同优化

现在模型已经挖掘出了这些原型标签,它将它们与原始稀疏标签和标准伪标签结合起来进行训练。这就是多标签协同优化模块。

迭代训练通常面临一个两难境地:

  • 高阈值: 如果你只相信置信度为 90% 的预测,你会错过很多物体 (低召回率) 。
  • 低阈值: 如果你接受置信度为 40% 的预测,你会得到很多噪声 (低精确度) 。

该模块通过在不同标签类型之间进行协作来平衡这一点。

  1. 伪标签 (Pseudo Labeling) : 它获取模型的预测 (\(y_j\)) 并根据分类分数阈值 (\(\alpha_{cls}\)) 对其进行过滤。 分数过滤的公式。

  2. IoU 过滤 (IoU Filtering) : 它使用交并比 (IoU) 移除重复的框,以确保不同的物体检测。 IoU 过滤的公式。

  3. 碰撞过滤 (Collision Filtering) : 它确保伪标签不会与稀疏真值标签重叠 (碰撞) 。如果模型在我们已知存在真值框的地方预测了一个框,我们保留真值。 碰撞过滤的公式。

最后,它集成了上一节中得出的原型标签 。 这些通常涵盖了基于置信度分数的标准伪标签可能错过的“困难”样本。通过结合稀疏标签、伪标签和原型标签,模型填补了缺失标注的空白。

3. 训练策略

训练分两个阶段进行。

第一阶段: 仅使用稀疏标注和原型挖掘模块训练初始检测器。 第一阶段损失的公式。 这里,损失包括检测损失 (\(\mathcal{L}_{det}\))、原型对比损失 (\(\mathcal{L}_{pcon}\)) 和原型分类损失 (\(\mathcal{L}_{pcls}\))。

第二阶段: 使用第一阶段的模型生成伪标签,然后使用优化模块重新训练。 第二阶段损失的公式。 这增加了一个使用高质量伪标签计算的优化损失 (\(\mathcal{L}_{ref}\))。


实验与结果

这种统一的方法真的有效吗?研究人员在三个主要数据集上测试了 CPDet3D: ScanNet V2SUN RGB-D (室内) 以及 KITTI (室外) 。

室内表现

室内数据集上的结果令人印象深刻,因为这正是以前的方法失败的地方。

比较室内数据集性能的表格。CPDet3D 优于 Co-mining、SparseDet 和 CoIn。

如表 1 所示,CPDet3D 实现了比竞争的稀疏方法高得多的平均精度均值 (mAP) 。

  • ScanNet V2 上,它实现了 56.1% [email protected] , 而第二好的方法仅为 46.0%。
  • 值得注意的是,在每个场景仅有一个标记物体的情况下,它达到了全监督检测器 (使用 100% 标签) 大约 78% 的性能。

我们可以在下面的 ScanNet V2 和 SUN RGB-D 表格中看到更详细的细分。

ScanNet V2 和 SUN RGB-D 上的详细结果。

室外表现

该方法不仅适用于室内。它也可以有效地扩展到户外 KITTI 数据集。

比较室外数据集性能的表格。

在 KITTI 上,该方法在汽车的“Easy”难度设置上达到了 94.1% 的准确率,超过了之前最先进的稀疏方法 (CoIn++) ,并达到了全监督 Voxel-RCNN 96% 的性能。这证明了论文中“统一”的主张——它在任何地方都有效。

视觉验证

数字很好,但眼见为实。下面的可视化将该方法的输出与真值 (Ground Truth) 进行了比较。

ScanNet V2 上的可视化结果。

在 ScanNet V2 (上图) 中,模型检测到的沙发、椅子和桌子与真值几乎完美对齐,尽管训练信号稀疏。

KITTI 上的可视化结果。

同样,在 KITTI (上图) 上,即使在密集的点云中,汽车的检测 (绿框) 也是精确的。

消融实验

研究人员还进行了消融实验,以验证模型的哪些部分对成功贡献最大。

消融实验表格显示 PLM、CPC 和 MCR 组件的影响。

  • PLM (原型标签匹配) 单独使用略微提高了性能。
  • CPC (类别感知原型聚类) 通过使原型更加独特,增加了显著的收益。
  • MCR (多标签协同优化) 提供了最大的提升,证实了正确结合不同类型的标签是稳健性的关键。

他们还分析了超参数,例如 IoU 和碰撞阈值。

IoU 和碰撞阈值的消融研究。

图 8 显示,尽管存在特定的“最佳点” (如 IoU 为 0.5 时效果最好) ,但在不同的阈值下性能相对稳定。

结论

论文 Learning Class Prototypes for Unified Sparse Supervised 3D Object Detection 提出了 3D 感知领域引人注目的一步。通过摆脱特定场景的假设并利用基于类原型的数据集全局统计信息,CPDet3D 解决了困扰先前稀疏监督方法的“室内问题”。

关键要点:

  1. 统一解决方案: 既适用于室内客厅,也适用于室外高速公路。
  2. 原型的力量: 学习类别的全局“外观”使得模型能够在局部找到物体,即使没有标签。
  3. 效率: 它以极小部分的标注成本 (例如,每个场景仅一个标签) 实现了接近全监督的性能。

这项工作为更可扩展的机器人系统铺平了道路,这些系统可以学习理解其环境,而无需数百万美元的人工数据标注。随着我们迈向更通用的机器人,能够从更少的数据中挖掘更多信息的技术将至关重要。