大型多模态模型如何解决3D目标检测中的数据稀缺问题

引言: 感知的昂贵代价

如果你曾尝试过计算机视觉，你就会明白其中的套路: 模型是饥饿的。它们对数据，特别是带标签的数据，有着无法满足的胃口。在2D图像的世界里，给一只猫画个框相对容易。但在依靠激光雷达 (LiDAR) 生成的3D点云进行感知的自动驾驶领域，游戏规则变了。

标注3D场景是出了名的困难。标注员必须在复杂、稀疏的3D空间中导航，旋转视角，以便围绕汽车、行人和骑行者绘制精确的3D边界框。这既缓慢、昂贵，又容易出现人为错误。

这一瓶颈促使研究人员开始探索稀疏监督3D目标检测 (Sparsely-Supervised 3D Object Detection) 。其想法很简单: 如果我们只标注一小部分数据 (比如1%或2%) ，让模型自己去推断剩下的部分会怎样？虽然听起来很有前途，但在实践中，当标注变得如此稀缺时，性能通常会断崖式下跌。模型根本没有足够的“真值 (Ground Truth) ”来学习区分汽车、灌木丛或墙壁。

但是，如果我们能“作弊”呢？如果我们能借用一个已经知道世界上万物长什么样的模型的知识呢？

这就是SP3D的前提，这是一篇提出3D检测器提升策略的新研究论文。通过利用大型多模态模型 (Large Multimodal Models, LMMs) ——那些在数十亿图像-文本对上训练的基础模型——SP3D将丰富的语义知识从2D图像迁移到了3D领域。其结果是一个能够仅用极少的人力投入就能训练出高性能3D检测器的系统。

在这篇文章中，我们将拆解SP3D的架构，解释它是如何架起2D和3D之间的桥梁，并看看那些使其生效的巧妙工程技巧 (如“掩码收缩”和“动态聚类”) 。

稀缺性问题

在深入解决方案之前，让我们先直观地看看这个问题。当前最先进的稀疏监督检测方法，如一种称为CoIn的方法，依靠对比学习来充分利用有限的数据。当你拥有适量的标签 (如10-20%) 时，它们工作得相当不错。

然而，当你将标注率降至1%或0.1%时，模型识别物体的能力就会崩溃。

不同标注率下稀疏监督检测器的性能比较。

在上面的图1中，请看绿色虚线 (CoIn) 。随着标注率 (x轴) 向左下降，性能 (3D平均精度) 直线下降。现在，看看橙色线 (SP3D) 。即使在几乎没有任何标签的“数据荒漠”中，它也能保持稳健的性能。

SP3D是如何实现这种稳定性的？它不仅仅依赖于稀疏的3D标签。相反，它通过观察伴随激光雷达扫描的摄像头图像来生成自己的伪标签 (pseudo-labels) 。

跨模态迁移的挑战

核心理念似乎很直观: 运行一个强大的2D分割模型 (如Segment Anything Model, SAM) 在摄像头图像上找到汽车，然后将这些像素投影到3D空间中找到对应的激光雷达点。

然而，将2D语义迁移到3D点充满了风险。主要有两个问题:

遮挡和深度: 图像是平面投影。如果标定不完美，或者激光雷达光束穿过了车窗，属于汽车的像素在3D空间中可能几何上与汽车后面的墙对齐。
边缘噪声: 2D分割掩码中物体的边界通常是模糊的或略有不准确。

属于前景对象的语义可能会被错误地分配给背景/其他对象。

图2展示了这种“语义溢出”。在顶视图 (右侧) 中，你可以看到红框内 (汽车) 的点被正确识别了。但是，注意边缘周围的噪声了吗？如果我们盲目地将2D掩码投影到3D中，我们会捕捉到背景点 (黄线) 和杂乱物体。如果我们在这些噪声点上训练检测器，模型就会学会画出松散、不准确的边界框。

SP3D的设计正是为了清理这种混乱。

SP3D 架构

SP3D框架充当了一个“助推器”。这是一个两阶段的训练策略:

第一阶段: 利用LMMs生成高质量的伪标签，并仅使用这些计算机生成的标签从头开始训练检测器。
第二阶段: 利用少量可用的真实人工标注对该检测器进行微调。

奇迹发生在第一阶段。为了从原始图像得到精确的3D边界框，作者引入了三个关键模块:

CPST: 置信点语义迁移 (Confident Points Semantic Transfer) 。
DCPG: 动态聚类伪标签生成 (Dynamic Cluster Pseudo-label Generation) 。
DS Score: 分布形状评分 (Distribution Shape Score) 。

让我们可视化这个流程:

SP3D工作流程概述。

如图3所示，流程从图像输入 (左) 开始，经过掩码生成、点过滤、聚类，最后评分，输出一个伪标签 (边界框) 。让我们分解每一步。

1. 置信点语义迁移 (CPST)

第一步是提取语义。作者使用了两个强大的现成模型:

FastSAM: 为图像中的所有物体生成分割掩码。
SemanticSAM: 为这些掩码添加文本描述标签。

在数学上，他们生成类别无关的掩码 \(\mathcal{M}_{\mathcal{I}}\):

使用SAM生成掩码的公式。

然后为这些掩码生成描述 \(\mathcal{T}^{\mathcal{D}}\):

使用SemanticSAM生成文本描述的公式。

通过将文本描述与他们关心的类别 (例如“Car/汽车”) 进行比较，他们过滤掉了背景。

“掩码收缩 (Mask Shrink) ”技巧: 还记得图2中的噪声问题吗？为了解决这个问题，作者并没有使用完整的分割掩码。相反，他们严格地将掩码限制在其中心，有效地切断了存在歧义的边缘。

他们定义了一个掩码收缩操作。如果一个掩码从像素 \(u_{min}\) 跨越到 \(u_{max}\)，他们会按因子 \(\gamma\) (gamma) 对其进行收缩:

收缩掩码边界的公式。

这确保了他们投影到3D的点确实属于该物体 (即“置信点”) 。这些点成为下一步的种子点 (seed points) 。

2. 动态聚类伪标签生成 (DCPG)

现在我们在3D空间中有一簇“种子点”，我们有99%的把握它们属于一辆车。但因为我们收缩了掩码，我们丢失了车的边缘。我们需要恢复完整的几何形状来绘制一个合适的边界框。

标准的无监督方法使用像DBSCAN这样的聚类算法，并设定固定的半径来对附近的点进行分组。然而，激光雷达数据是不均匀的；传感器附近的点很密集，远处的点很稀疏。固定半径无法同时适用于近处和远处的物体。

作者提出了动态半径 (Dynamic Radius) 。他们根据点的索引 (这通常与激光雷达扫描模式中的距离/密度相关) 来调整聚类搜索半径 \(r\):

动态半径更新公式。

这里，\(r_{init}\) 是基础半径，随着算法遍历总共 \(N\) 个点中的点 \(t\)，它线性增长。这使得算法能够捕捉物体的完整几何形状，从种子点向外扩展以包含最初被切掉的边缘，而不会意外地抓取背景噪声。

3. 分布形状评分 (DS Score)

此时，系统已经基于聚类生成了成千上万个潜在的边界框 (提议框) 。其中许多都是垃圾——太扁、太长或包含空白区域。

通常，我们会基于与真值 (Ground Truth) 的“IoU” (交并比) 分数使用非极大值抑制 (NMS) 来过滤这些框。但请记住: 我们没有真值。

如果在不知道答案的情况下过滤掉坏框？作者设计了一个基于无监督先验的评分系统——本质上是关于3D物体应该长什么样的常识规则。

规则 A: 分布约束 在一个有效的物体检测框中，激光雷达点不应聚集在框的边缘；它们相对于中心通常应遵循高斯分布。 分布约束分数 (Distribution Constraint Score, \(s_{dc}\)) 衡量提议框内的点拟合正态分布 \(\mathcal{N}\) 的程度:

分布约束分数公式。

规则 B: 元形状约束 汽车通常看起来像汽车。它们有特定的长宽比。作者定义了一个“元实例 (Meta Instance) ”——每个类别的原型形状 (例如，平均汽车尺寸) 。 元形状约束分数 (Meta-Shape Constraint Score, \(s_{msc}\)) 衡量提议框形状 \(\hat{B}_{\hat{b}}\) 与原型形状 \(\mathcal{B}_c\) 之间的KL散度 (差异) :

元形状约束分数公式。

最终评分 这两个分数结合起来创建最终的 DS Score 。该分数取代了NMS过程中的传统置信度分数，允许系统自动过滤掉“不切实际”的框。

最终DS Score公式。

实验与结果

这种包含收缩掩码和动态聚类的复杂流程真的能转化为更好的目标检测吗？作者在两个主要的自动驾驶数据集上测试了SP3D: KITTI 和 Waymo Open Dataset (WOD) 。

KITTI 上的性能

当查看“稀疏”设置时，KITTI数据集上的结果尤为引人注目。在下方的表1中，比较“2%”成本设置 (意味着只有2%的数据被标注) 下的方法。

VoxelRCNN (一种标准的完全监督方法) 在2%数据上训练时，AP (中等难度) 降至 54.9% 。
CoIn (之前的最先进方法) 达到了 70.2% 。
CoIn++ with SP3D 跃升至 80.5% 。

这是一个巨大的10个百分点的提升，使得稀疏监督模型极其接近完全监督的性能 (84.9%) ，尽管使用的数据量少了50倍。

KITTI val split 上与 SoTA 稀疏监督方法的比较。

Waymo (WOD) 上的性能

Waymo 数据集更大且更多样化。在这里，作者在 1% 标注成本下进行了测试。

WOD 验证集上与 SoTA 稀疏监督方法的比较。

如表3所示，SP3D 将车辆 Level 1 mAP 从 39.6% (CoIn) 提高到了 46.7% 。虽然这在数值上看起来比 KITTI 的增益小，但在具有挑战性的 Waymo 数据集背景下，7.1% 的提升是显著的。

零样本 (Zero-Shot) 能力

也许最令人兴奋的结果是在零样本设置中。这意味着使用 0% 的3D标签训练检测器——完全依赖于LMMs和SP3D流程生成的伪标签。

KITTI val split 上零样本方法的比较。

在表5中，SP3D 与 VS3D 等其他零样本方法进行了比较。

VS3D 在简单汽车类别上达到 9.09% AP。
SP3D 达到了 69.71% AP。

这表明 SP3D 生成的伪标签质量非常高，以至于检测器可以在从未见过人类绘制的3D框的情况下有效地学习识别汽车。

这一趋势在 Waymo 数据集上也成立 (见下表6) ，SP3D 显著优于 SAM3D 等方法 (SAM3D 直接应用 SAM，而没有 SP3D 的复杂3D细化步骤) 。

WOD 验证集上与零样本方法的比较。

为什么它有效？ (消融实验)

你可能会想，所有这些组件 (掩码收缩、DCPG、DS Score) 是否都是必要的。作者进行了消融实验来找出答案。

KITTI val split 上的消融实验。

表8 讲述了这个故事:

第一行: 使用基本的掩码迁移 (没有特殊的聚类或评分) 得到适中的结果 (35.10 AP) 。
第二行: 添加 DCPG (动态聚类) 将其提升至 40.56 AP。更好的聚类捕捉到了更好的几何形状。
第三行: 添加 DS Score 而不是 DCPG 跃升至 47.23 AP。过滤坏框至关重要。
第四行: 结合 掩码收缩 + DCPG + DS Score 产生了最高的结果 (52.56 AP) 。

这证实了各组件是互补的。掩码收缩确保种子是纯净的；DCPG 确保几何形状是完整的；DS Score 确保最终输出在物理上是合理的。

结论

SP3D 论文为计算机视觉的未来呈现了一个引人注目的叙事: 多模态是效率的关键。

通过将2D图像不仅仅视为独立的数据流，而是作为3D数据的“语义提示”来源，研究人员有效地将大规模基础模型 (如SAM) 的智能迁移到了激光雷达检测这一专业领域。

给学生和从业者的技术要点是:

不要相信原始的跨模态投影: 标定误差和边缘噪声需要仔细处理 (如掩码收缩技术) 。
几何形状很重要: 简单的半径聚类在激光雷达这种密度变化的数据上会失败；动态方法是必要的。
无监督先验很强大: 当缺乏标签时，你仍然可以通过强制执行关于“好”数据应该长什么样的规则 (高斯分布、原型形状) 来过滤数据。

随着大型多模态模型持续改进，像 SP3D 这样的策略可能会成为标准，使我们能够在没有人工标注这一沉重成本的情况下部署稳健的3D感知系统。

引言: 感知的昂贵代价#

稀缺性问题#

跨模态迁移的挑战#

SP3D 架构#

1. 置信点语义迁移 (CPST)#

2. 动态聚类伪标签生成 (DCPG)#

3. 分布形状评分 (DS Score)#

实验与结果#

KITTI 上的性能#

Waymo (WOD) 上的性能#

零样本 (Zero-Shot) 能力#

为什么它有效？ (消融实验)#

结论#