引言: 机器人领域的“它在哪里?”难题

想象一下,你让家里的辅助机器人“把左边桌子上的红色马克杯拿起来”。对人类来说,这轻而易举。但对机器而言,这是一个复杂的多模态难题,被称为 3D 视觉定位 (3D Visual Grounding, 3DVG) 。 机器人必须解析自然语言指令,感知房间的 3D 几何结构 (通常通过点云) ,理解物体之间的语义关系 (桌子、马克杯、左、右) ,并精准地标出目标的边界框。

尽管近年来该领域的准确率有了显著提升,但一个主要的瓶颈依然存在: 速度

大多数最先进的方法对于机器人或增强现实 (AR) 等实时应用来说都太慢了。它们要么依赖缓慢的两阶段过程 (先检测所有物体,再进行匹配) ,要么依赖计算繁重的基于点 (point-based) 的采样方法。

在这篇深度文章中,我们将探讨一篇提出解决方案的论文: TSP3D (文本引导的稀疏体素剪枝) 。 这个全新的单阶段框架在推理速度上实现了巨大的飞跃——比之前最快的方法快了超过 100%——同时达到了最先进的准确率。

ScanRefer 数据集上 3DVG 方法的比较,显示 TSP3D 在速度和准确性上均表现突出。

如上图所示,TSP3D 打破了传统的权衡曲线,成功进入了高准确率和高帧率 (FPS) 的右上象限。让我们一起来探索研究人员是如何做到这一点的。

背景: 为什么 3DVG 这么慢?

要理解 TSP3D 的创新之处,我们需要先了解当前方法的低效所在。

1. 两阶段 vs. 单阶段

早期的 3DVG 方法采用 两阶段 框架。

  1. 检测阶段: 运行 3D 物体检测器找出房间里的 每一个 物体。
  2. 匹配阶段: 将检测到的每一个物体与文本查询进行比对,以找到最佳匹配。

这是多余的。检测器会消耗资源去识别天花板、地板和你身后的书架,即使查询只是关于一把特定的椅子。

单阶段 方法试图通过整合检测和定位来解决这个问题。然而,它们大多依赖 基于点的架构 (如 PointNet++) 。点云是非结构化数据。为了处理它们,网络必须反复执行“最远点采样” (Furthest Point Sampling, FPS) 和 k-近邻 (kNN) 搜索。这些操作计算成本高昂,且难以有效地并行化。

2. 点云 vs. 稀疏体素

基于点的方法还面临分辨率问题。为了保持计算的可控性,它们会激进地对场景进行下采样 (例如,将 50,000 个点减少到 1,024 个) 。这通常会破坏小物体或细长物体的几何细节。

另一种选择——在标准 3D 物体检测中很流行但在定位中很少使用——是 稀疏体素卷积 (Sparse Voxel Convolution)

特征分辨率变化过程的比较。基于点的 EDA 激进地减少点数,而 TSP3D-B 通过体素保持了较高的分辨率。

如图 6 所示,稀疏体素架构 (右) 可以比基于点的架构 (左) 保持高得多的分辨率,同时得益于优化的稀疏库,计算速度实际上更快。

那么,为什么大家没有都切换到稀疏体素来进行视觉定位呢? 挑战在于数据的庞大体量。在视觉定位中,我们需要融合 3D 场景特征和文本特征。理想情况下,我们使用交叉注意力 (Cross-Attention) 等机制。然而,高分辨率体素网格包含的元素远多于下采样后的点集。在数万个体素上运行复杂的注意力机制在计算上是令人望而却步的。

这就是 TSP3D 解决的具体问题: 我们如何利用高分辨率稀疏体素来保证准确性,而又无需承担融合文本时产生的巨大计算成本?

核心方法: TSP3D

研究人员提出了一种单阶段、多层级的稀疏卷积架构。其核心思想是“剪枝” (Pruning) 。网络不再以全分辨率处理整个场景,而是利用文本查询在处理早期识别并移除 (剪枝) 不相关的体素。

TSP3D 架构及其组件的示意图。

如图 2 所示,该架构包含一个在三个不同层级 (分辨率) 提取特征的主干网络。奇迹发生在特征上采样 (Upsampling) 过程中,即低分辨率特征被细化的过程。这个过程依赖于两个新颖的组件:

  1. 文本引导剪枝 (TGP) : 高效地移除不相关数据。
  2. 基于补全的加法 (CBA) : 如果我们剪枝过度,用来修正错误。

1. 文本引导剪枝 (TGP)

TGP 的目标是减少体素数量,以便我们能够承担繁重的跨模态注意力层。TGP 基于这样的直觉: 如果查询是“椅子”,我们可以在处理场景时安全地丢弃属于墙壁、地板或桌子的体素。

TGP 模块分两个阶段工作:

  • 场景级剪枝: 发生在较高层级 (Level 3 到 2) 。它区分物体和背景。
  • 目标级剪枝: 发生在较低层级 (Level 2 到 1) 。它专门关注目标和文本中提到的物体 (参照物) 。

工作原理: TGP 不是在整个体素网格上运行注意力机制,而是首先创建一个“剪枝掩膜” (pruning mask) 。

  1. 系统提取体素特征并将其与文本特征进行交互 (使用交叉注意力) 。
  2. 一个小型的神经网络 (MLP) 为每个体素预测一个概率分数: “这个体素与文本相关吗?”
  3. 如果分数低于阈值,该体素就会被移除 (被掩膜遮蔽) 。

展示剪枝过程的公式。

如上述公式定义,剪枝后的特征 \(U_l^P\) 是将二进制掩膜 (源自文本-体素交互) 应用于原始特征的结果。

剪枝的结果: 当网络到达最终预测层时,体素数量减少到了其原始大小的 7% 左右。这种大规模的缩减使得网络能够使用强大的特征融合技术,而不会撑爆 GPU 显存或拖慢帧率。

文本引导剪枝过程的可视化,聚焦于相关物体。

图 4 直观地展示了这一点。请注意,场景开始时是完整的 (顶行) ,但在经过场景级和目标级剪枝后,剩余的体素 (底行) 紧密地聚集在目标物体 (蓝色框) 周围。

2. 基于补全的加法 (CBA)

剪枝是有风险的。如果网络误解了文本或几何结构,意外删除了目标物体的一部分怎么办?例如,剪枝可能会因为椅子的腿看起来像细微的噪点而将其移除,只留下座位。这将使得准确的边界框回归变得不可能。

为了解决这个问题,作者引入了 基于补全的加法 (Completion-Based Addition, CBA)

在标准的 U-Net 架构中,上采样的特征通常通过加法或拼接与来自主干网络的特征 (跳跃连接) 相结合。作者意识到他们可以利用这一步来“修复”过度剪枝。

CBA 的逻辑: CBA 将 剪枝后的 特征与 原始 主干特征进行比较。它识别“缺失”区域——那些存在于主干网络中、可能与目标相关,但从剪枝集合中消失的区域。

基于补全的加法修复过度剪枝区域的概念图。

如图 3 所示,如果剪枝步骤产生了一个缺口 (图 b) ,CBA 会查看真值/主干数据并将该缺口填补回来 (图 c) 。

CBA 算法:

  1. 相关性检查: 主干特征 \(V_l\) 与文本交互以预测一个“目标掩膜” (\(M^{tar}\)) 。这告诉我们在原始未剪枝数据基础上目标 应该 在哪里。
  2. 缺失检测: 系统将此目标掩膜与当前的剪枝特征进行比较。 计算缺失掩膜的公式。 掩膜 \(M^{mis}\) 代表那些 目标但 不在 当前特征集中的体素。
  3. 补全: 系统为这些缺失的体素插值生成特征,并将它们加回到主流中。

基于补全的加法过程的可视化,显示红点填补了缺口。

图 5 展示了 CBA 的实际效果。蓝点是剪枝后的特征。红点是 CBA 决定加回来的特征。注意在例子 (b) (白板) 和 (c) (显示器) 中,剪枝过于激进,留下了缺口。CBA 成功识别了缺失的几何结构并将其填补,确保最终的边界框覆盖整个物体。

实验与结果

研究人员在标准数据集上评估了 TSP3D: ScanReferNr3DSr3D

定量性能

结果显示,TSP3D 在两个关键指标上都占据主导地位: 准确率和速度。

ScanRefer 数据集上的方法比较表。

在 ScanRefer 数据集上 (表 1) ,TSP3D 达到了 46.71% 的 [email protected] , 击败了之前最好的单阶段方法 (MCLN) ,甚至超过了复杂的两阶段模型。

更令人印象深刻的是 推理速度 (Inference Speed) 一栏

  • 之前最好的单阶段方法: 约 5 到 6 FPS。
  • 两阶段方法: 约 2 到 3 FPS。
  • TSP3D: 12.43 FPS。

这是一个巨大的飞跃,实际上将速度提升到了最接近竞争对手的两倍。

我们可以通过细分每个组件的计算成本来深入了解 为什么 它这么快:

计算成本的详细比较,显示稀疏主干网络的速度。

表 6 揭示了 TSP3D 的 视觉主干 (Visual Backbone) 运行速度为 31.88 FPS , 而其他方法使用的基于点的主干网络约为 10 FPS。这验证了选择稀疏体素卷积而非基于点的采样的正确性。

定性比较

数学上的优势是否转化为更好的视觉结果?是的。

EDA 和 TSP3D 之间的定性比较,显示出更好的定位能力。

在图 7 中,我们看到 TSP3D (绿框) 与强大的竞争对手 EDA (红框) 的对比。

  • 在行 (b) 中,目标是一把特定的椅子。EDA 未能正确定位它,可能是被杂乱的环境搞混了。TSP3D 精确地找到了它。
  • 在行 (c) 中,查询是关于一个特定的类别 (文件整理架) 。EDA 分类错误或定位错误,而 TSP3D 捕获了正确的物体。

通过稀疏体素保持高分辨率的能力使得 TSP3D 能够区分外观相似的物体,并捕捉到基于点的方法可能会模糊掉的细节。

结论

论文 “Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding” 为 3D 感知领域迈出了重要一步。通过摆脱基于点的架构并拥抱 稀疏体素卷积 , 作者解锁了原始速度。

然而,速度通常以牺牲处理能力为代价。研究人员通过实施 文本引导剪枝 (TGP) 克服了这一问题,该技术智能地丢弃了大部分与用户指令不相关的场景数据。为了确保这种效率不会损害准确性,他们增加了一个安全网: 基于补全的加法 (CBA) , 它能在剪枝切得太深时修复 3D 表示。

主要收获:

  1. 稀疏体素 > 点: 对于 3D 视觉定位,稀疏体素在分辨率和速度之间提供了比点云更好的平衡。
  2. 剪枝是强大的: 你不需要处理整个房间来找到一个杯子。早期剪枝不相关数据可以节省大量计算资源。
  3. 实时是可能的: TSP3D 是第一个在不牺牲准确性的情况下,现实地实现实时 3D 视觉定位 (>12 FPS) 的框架。

这项工作为具身智能 (Embodied AI) 和机器人技术的未来研究设立了新的基准,证明了我们不必在“理解得好的机器人”和“理解得快的机器人”之间做选择。