超越点云: 利用 Cubify Anything 扩展室内 3D 目标检测

想象一下走进一个房间。你看到的不仅仅是“椅子”、“桌子”和“地板”。你感知到的是丰富多样的物品: 杯垫上的咖啡杯、书架上的一本特定的书、藏在柜子后面的电源板。人类以高保真度理解场景。然而,室内 3D 目标检测领域长期以来一直停留在以低分辨率看世界的阶段,主要关注大型的、界定房间的家具,而忽略了日常生活中的杂物。

多年来,3D 检测的标准方法一直依赖于处理点云——源自深度传感器的 3D 表示。虽然有效,但这种方法已触及天花板,主要受限于有限的数据集和“纠缠”的标注,即真值标签受到了用于收集数据的噪声传感器的偏差影响。

在最近的一篇论文 “Cubify Anything: Scaling Indoor 3D Object Detection” 中,来自 Apple 的研究人员提出了一种范式转变。他们引入了一个巨大的新数据集 Cubify-Anything 1M (CA-1M) , 以及一个新的基于 Transformer 的模型 Cubify Transformer (CuTR) 。 他们的工作挑战了复杂的 3D 基于点的架构是 3D 理解所必需的这一假设,证明了以图像为中心的模型——在拥有足够的高质量数据时——可以超越传统方法,真正实现“Cubify Anything (将万物立方化) ”。

在这篇文章中,我们将剖析他们的方法,探索他们如何构建一个比现有基准大一个数量级的数据集,并分析为什么这可能标志着室内检测点云时代的终结。


问题所在: 纠缠与规模

要理解这篇论文的贡献,我们首先需要了解当前领域的局限性。

数据的“纠缠”

大多数现有的室内 3D 数据集 (如 SUN RGB-D 或 ScanNet) 都是使用商用深度传感器 (如 Kinect 或 iPad LiDAR) 收集的。这些传感器存在噪声。当标注员标记这些数据集时,他们是在噪声较大的 3D 网格或点云中围绕可见物体绘制 3D 边界框。

这就产生了一个称为纠缠 (entanglement) 的问题。“真值”标签实际上并没有捕捉到物理现实;它们捕捉到的是传感器对现实的解读。如果 LiDAR 扫描中丢失了桌腿,标注中通常也会丢失。因此,在这些数据上训练的模型学会了复制传感器的噪声,而不是理解场景的真实几何形状。

“仅限家具”的局限性

由于标注 3D 数据非常困难,现有的数据集仅关注于一小部分大型物体分类: 床、椅子、桌子和沙发。它们忽略了真正构成丰富场景的“长尾”小物体——书籍、订书机、灯具、花瓶。

研究人员简单地总结了目标: 他们希望从检测“场景级”家具转向“图像级”的全面理解。


数据集: Cubify-Anything 1M (CA-1M)

这项研究的基础是 Cubify-Anything 1M (CA-1M) 数据集。这是一个巨大的工程,旨在将标注与传感器噪声解耦,并扩大检测物体的多样性。

图 1 展示了 CA-1M 中标注的丰富程度。

1. 空间现实 vs. 像素级完美

研究人员利用了一种独特的数据收集设置,涉及两种不同的采集方法:

  1. 固定式 FARO 激光扫描: 这些是测绘级的高分辨率激光扫描,能够以极高的精度捕捉静态场景。
  2. 手持 iPad 采集: 这些是用户在房间内走动时拍摄的标准 RGB-D 视频。

创新在于标注过程。标注员没有标记充满噪声的 iPad 扫描数据,而是标记了高分辨率的 FARO 点云 。 这确保了 3D 框代表“空间现实”。

然而,模型是通过 iPad 的摄像头看世界的。因此,研究人员将激光扫描数据与手持视频轨迹进行了配准。然后,他们将激光扫描中的高质量 3D 框投影到 iPad 视频的每一帧中。其结果是标注相对于图像是像素级完美的,同时相对于真实世界在几何上是准确的。

2. 详尽的、类别无关的标注

与以往将标签限制在 10 或 20 个类别的现有数据集不同,CA-1M 是类别无关 (class-agnostic) 的。目标是标记房间里的每一个物体,无论它是什么。

数据集对比,展示 CA-1M 的详尽特性。

如图 2 所示,差异是巨大的。虽然像 ARKitScenes 或 SUN RGB-D 这样的数据集可能只显示几个围绕椅子的框,但 CA-1M (右下角) 则是一个密集的边界框网格,捕捉到了架子上的物品、桌子上的杂物以及装饰元素。

数字看规模

为了领会 CA-1M 的规模,让我们看看论文中提供的对比表:

表 1 对比了 CA-1M 与其他数据集的统计数据。

CA-1M 包含超过 440,000 个独特的物体1500 万个标注帧 。 这大约比同类的室内 3D 数据集大了一个数量级。这种规模至关重要,因为它允许模型从丰富的数据体系中学习,类似于大型语言模型 (LLMs) 从海量文本语料库中获益的方式。

标注流程

标注如此大量的数据需要专门的工具。由于激光扫描有时可能不完整 (例如,由于遮挡或反光表面) ,标注工具允许标注员同时查看 3D 点云对应的高分辨率 RGB 图像。

标注工具界面。

此外,团队还开发了一个渲染引擎来处理遮挡问题。由于 3D 框存在于世界坐标系中,它可能在一个视频帧中可见,但在下一帧中被墙壁挡住。系统渲染场景几何结构,自动“裁剪”或过滤掉在特定帧中不可见的框,从而确保训练数据的干净。

图 4 说明了渲染和遮挡处理过程。


模型: Cubify Transformer (CuTR)

有了海量数据集,研究人员需要一个能够利用它的模型架构。传统的室内 3D 检测方法是“基于点 (point-based) ”的。它们获取深度图,将其转换为点云或体素网格,并使用 3D 稀疏卷积来查找物体。

这些方法有明显的缺点:

  1. 复杂性: 3D 操作 (体素化、稀疏卷积) 计算量大,难以部署在标准硬件 (如移动端 NPU) 上。
  2. 归纳偏置 (Inductive Bias) : 它们依赖于点云的几何结构。如果深度传感器噪声很大 (在商用设备上通常如此) ,模型就会失效。

架构概览

研究人员推出了 Cubify Transformer (CuTR) 。 CuTR 背后的理念是将 3D 检测视为更像 2D 检测的任务。它主要基于 RGB 图像进行操作,仅在可用时将深度作为辅助提示。

图 6: Cubify Transformer (CuTR) 的架构。

该架构包含三个主要阶段:

  1. 主干网络 (Backbone - 眼睛) :
  • 模型使用 Vision Transformer (ViT) 处理输入。
  • 对于 RGB-D (红、绿、蓝 + 深度) : 他们使用 MultiMAE 主干。这有效地将 RGB 图块和深度图块融合为单一的潜在表示。
  • 对于仅 RGB (RGB-only) : 他们利用 Depth-Anything 主干,该主干经过预训练,能够从单目图像中理解深度线索。
  1. 解码器 (Decoder - 大脑) :
  • 基于“Plain DETR”,解码器使用 Transformer 来处理对象查询 (object queries) 。
  • 它采用不可变形 (non-deformable) 注意力机制。这使得模型具有“可访问性”,意味着它使用几乎所有硬件加速器 (GPU、Apple Neural Engine 等) 都支持的标准矩阵乘法,避免了稀疏 3D 方法所需的自定义 CUDA 内核。
  1. 3D 框预测器 (3D Box Predictor - 输出) :
  • 模型不仅预测 2D 框,还直接从图像特征预测 3D 框。
  • 它输出 3D 中心 \((x, y, z)\)、尺寸 \((l, w, h)\) 和方向 (偏航角 yaw) 。
  • 至关重要的是, CuTR 不使用非极大值抑制 (NMS) 。 NMS 是一种用于移除重复框的后处理步骤。通过避免使用它,CuTR 简化了流程,并避免了 NMS 可能意外删除位于另一个物体正后方的有效物体 (这在 3D 中很常见) 的错误。

处理深度和重力

CuTR 的一个巧妙细节是它处理尺度的方式。在 RGB-D 变体中,模型使用输入深度图的统计数据 (均值和标准差) 来归一化并重新缩放其预测。这使得模型对不同的场景尺度具有鲁棒性。

此外,模型假设一个“重力对齐”的世界。大多数移动设备通过加速度计提供重力矢量。CuTR 利用这一点简化了方向预测,仅关注“偏航角” (绕垂直轴的旋转) ,这对于几乎所有室内物体来说已经足够了。


实验与结果

研究人员在多个数据集上将 CuTR 与最先进的基于点的方法 (如 FCAF3D 和 TR3D) 进行了比较。

1. 在 CA-1M 上的表现

当在巨大的 CA-1M 数据集上进行训练和评估时,CuTR 表现出色。

表 2: CuTR 与基于点的方法的对比。

查看表 2 中的 CA-1M 列:

  • 召回率至上: CuTR (RGB-D) 实现了 60.2% 的平均召回率 (AR25),明显高于最佳的基于点的方法 (FCAF 的 56.5%)。
  • RGB-only 的惊喜: 即使是仅 RGB 版本的 CuTR 也具有竞争力,胜过了那些必须依赖深度输入的旧式基于点的方法。

这一结果表明,当你拥有足够的训练数据时,3D 专用架构 (如稀疏卷积) 的强归纳偏置变得不如 Transformer 的可扩展性重要。

2. 噪声深度的影响

为什么基于点的方法在 CA-1M 上相比 CuTR 表现挣扎?研究人员假设这是由于传感器噪声。基于点的方法隐含地信任输入的点云。如果 LiDAR 数据混乱,模型就会困惑。

为了证明这一点,他们进行了一项消融实验,使用来自 FARO 扫描仪的“完美”真值深度,而不是充满噪声的 iPad LiDAR 深度来训练模型。

表 3: 关于深度质量的消融实验。

如表 3 所示,基于点的方法 (FCAF, TR3D) 在给定“完美”深度后,性能有了大幅提升。CuTR 也有所提升,但差距缩小了。这证实了基于图像的 Transformer 对传感器噪声更具鲁棒性 。 它们可以利用高分辨率 RGB 图像中的视觉线索 (纹理、边缘) 来补偿缺失或嘈杂的深度信息。

3. 预训练: 3D 领域的 “ImageNet 时刻”?

也许最重要的发现是 CA-1M 作为预训练数据集的价值。研究人员采用了一个在 CA-1M 上预训练的 CuTR 模型,并在较小、较旧的 SUN RGB-D 数据集上对其进行了微调。

表 4: SUN RGB-D 上的预训练结果。

表 4 中的结果是惊人的。有了 CA-1M 的预训练,CuTR 在 Omni3D SUN RGB-D 基准测试上的性能突飞猛进,以很大优势超越了基于点的方法 (AR25 为 73.6%,而 FCAF 为 65.9%) 。

这验证了核心假设: 规模至关重要。 正如在海量文本或 2D 图像数据集上的预训练彻底改变了 NLP 和计算机视觉一样,在像 CA-1M 这样海量、多样化的 3D 数据集上进行预训练,可以解锁下游任务的卓越性能。

定性可视化

数字背后有视觉证据的支持。

图 7: 检测结果的视觉对比。

在图 7 中,我们看到 CuTR (上排) 与 FCAF (下排) 的对比。注意 CuTR 如何成功检测到基于点的方法完全遗漏或归类为单一团块的细小、薄的物体和架子上的杂物。“重投影视图”列展示了检测到的 3D 框如何与物理世界对齐;CuTR 的框更紧凑,且与实际物体对齐得更好。


结论与启示

“Cubify Anything” 代表了室内 3D 目标检测的一个成熟点。这篇论文提出了一个令人信服的论点,即我们正在从“几何优先”的检测时代走向“数据优先”的检测时代。

关键要点:

  1. 数据质量 > 模型复杂性: 当拥有高质量、大规模的数据时,更简单的 Transformer 模型 (CuTR) 胜过复杂的 3D 专用架构。
  2. 解纠缠至关重要: 在“空间现实” (激光扫描) 而非“传感器噪声” (iPad 网格) 上进行训练,可以创建更健壮的模型,更好地处理不确定性。
  3. 以图像为中心的 3D 技术的崛起: 通过将 3D 检测视为图像到框的问题 (辅以深度) ,我们获得了庞大的 2D 视觉 Transformer 生态系统的好处——更好的扩展性、更容易的预训练以及更广泛的硬件兼容性。

CA-1M 数据集的发布可能会加速这一领域的研究,潜在地赋能机器人技术、增强现实和空间计算等应用,在这些应用中,机器不仅需要了解墙壁在哪里,还需要了解万物在哪里。