引言: 机器人领域的“它在哪里?”难题
想象一下,你让家里的辅助机器人“把左边桌子上的红色马克杯拿起来”。对人类来说,这轻而易举。但对机器而言,这是一个复杂的多模态难题,被称为 3D 视觉定位 (3D Visual Grounding, 3DVG) 。 机器人必须解析自然语言指令,感知房间的 3D 几何结构 (通常通过点云) ,理解物体之间的语义关系 (桌子、马克杯、左、右) ,并精准地标出目标的边界框。
尽管近年来该领域的准确率有了显著提升,但一个主要的瓶颈依然存在: 速度 。
大多数最先进的方法对于机器人或增强现实 (AR) 等实时应用来说都太慢了。它们要么依赖缓慢的两阶段过程 (先检测所有物体,再进行匹配) ,要么依赖计算繁重的基于点 (point-based) 的采样方法。
在这篇深度文章中,我们将探讨一篇提出解决方案的论文: TSP3D (文本引导的稀疏体素剪枝) 。 这个全新的单阶段框架在推理速度上实现了巨大的飞跃——比之前最快的方法快了超过 100%——同时达到了最先进的准确率。

如上图所示,TSP3D 打破了传统的权衡曲线,成功进入了高准确率和高帧率 (FPS) 的右上象限。让我们一起来探索研究人员是如何做到这一点的。
背景: 为什么 3DVG 这么慢?
要理解 TSP3D 的创新之处,我们需要先了解当前方法的低效所在。
1. 两阶段 vs. 单阶段
早期的 3DVG 方法采用 两阶段 框架。
- 检测阶段: 运行 3D 物体检测器找出房间里的 每一个 物体。
- 匹配阶段: 将检测到的每一个物体与文本查询进行比对,以找到最佳匹配。
这是多余的。检测器会消耗资源去识别天花板、地板和你身后的书架,即使查询只是关于一把特定的椅子。
单阶段 方法试图通过整合检测和定位来解决这个问题。然而,它们大多依赖 基于点的架构 (如 PointNet++) 。点云是非结构化数据。为了处理它们,网络必须反复执行“最远点采样” (Furthest Point Sampling, FPS) 和 k-近邻 (kNN) 搜索。这些操作计算成本高昂,且难以有效地并行化。
2. 点云 vs. 稀疏体素
基于点的方法还面临分辨率问题。为了保持计算的可控性,它们会激进地对场景进行下采样 (例如,将 50,000 个点减少到 1,024 个) 。这通常会破坏小物体或细长物体的几何细节。
另一种选择——在标准 3D 物体检测中很流行但在定位中很少使用——是 稀疏体素卷积 (Sparse Voxel Convolution) 。

如图 6 所示,稀疏体素架构 (右) 可以比基于点的架构 (左) 保持高得多的分辨率,同时得益于优化的稀疏库,计算速度实际上更快。
那么,为什么大家没有都切换到稀疏体素来进行视觉定位呢? 挑战在于数据的庞大体量。在视觉定位中,我们需要融合 3D 场景特征和文本特征。理想情况下,我们使用交叉注意力 (Cross-Attention) 等机制。然而,高分辨率体素网格包含的元素远多于下采样后的点集。在数万个体素上运行复杂的注意力机制在计算上是令人望而却步的。
这就是 TSP3D 解决的具体问题: 我们如何利用高分辨率稀疏体素来保证准确性,而又无需承担融合文本时产生的巨大计算成本?
核心方法: TSP3D
研究人员提出了一种单阶段、多层级的稀疏卷积架构。其核心思想是“剪枝” (Pruning) 。网络不再以全分辨率处理整个场景,而是利用文本查询在处理早期识别并移除 (剪枝) 不相关的体素。

如图 2 所示,该架构包含一个在三个不同层级 (分辨率) 提取特征的主干网络。奇迹发生在特征上采样 (Upsampling) 过程中,即低分辨率特征被细化的过程。这个过程依赖于两个新颖的组件:
- 文本引导剪枝 (TGP) : 高效地移除不相关数据。
- 基于补全的加法 (CBA) : 如果我们剪枝过度,用来修正错误。
1. 文本引导剪枝 (TGP)
TGP 的目标是减少体素数量,以便我们能够承担繁重的跨模态注意力层。TGP 基于这样的直觉: 如果查询是“椅子”,我们可以在处理场景时安全地丢弃属于墙壁、地板或桌子的体素。
TGP 模块分两个阶段工作:
- 场景级剪枝: 发生在较高层级 (Level 3 到 2) 。它区分物体和背景。
- 目标级剪枝: 发生在较低层级 (Level 2 到 1) 。它专门关注目标和文本中提到的物体 (参照物) 。
工作原理: TGP 不是在整个体素网格上运行注意力机制,而是首先创建一个“剪枝掩膜” (pruning mask) 。
- 系统提取体素特征并将其与文本特征进行交互 (使用交叉注意力) 。
- 一个小型的神经网络 (MLP) 为每个体素预测一个概率分数: “这个体素与文本相关吗?”
- 如果分数低于阈值,该体素就会被移除 (被掩膜遮蔽) 。

如上述公式定义,剪枝后的特征 \(U_l^P\) 是将二进制掩膜 (源自文本-体素交互) 应用于原始特征的结果。
剪枝的结果: 当网络到达最终预测层时,体素数量减少到了其原始大小的 7% 左右。这种大规模的缩减使得网络能够使用强大的特征融合技术,而不会撑爆 GPU 显存或拖慢帧率。

图 4 直观地展示了这一点。请注意,场景开始时是完整的 (顶行) ,但在经过场景级和目标级剪枝后,剩余的体素 (底行) 紧密地聚集在目标物体 (蓝色框) 周围。
2. 基于补全的加法 (CBA)
剪枝是有风险的。如果网络误解了文本或几何结构,意外删除了目标物体的一部分怎么办?例如,剪枝可能会因为椅子的腿看起来像细微的噪点而将其移除,只留下座位。这将使得准确的边界框回归变得不可能。
为了解决这个问题,作者引入了 基于补全的加法 (Completion-Based Addition, CBA) 。
在标准的 U-Net 架构中,上采样的特征通常通过加法或拼接与来自主干网络的特征 (跳跃连接) 相结合。作者意识到他们可以利用这一步来“修复”过度剪枝。
CBA 的逻辑: CBA 将 剪枝后的 特征与 原始 主干特征进行比较。它识别“缺失”区域——那些存在于主干网络中、可能与目标相关,但从剪枝集合中消失的区域。

如图 3 所示,如果剪枝步骤产生了一个缺口 (图 b) ,CBA 会查看真值/主干数据并将该缺口填补回来 (图 c) 。
CBA 算法:
- 相关性检查: 主干特征 \(V_l\) 与文本交互以预测一个“目标掩膜” (\(M^{tar}\)) 。这告诉我们在原始未剪枝数据基础上目标 应该 在哪里。
- 缺失检测: 系统将此目标掩膜与当前的剪枝特征进行比较。
掩膜 \(M^{mis}\) 代表那些 是 目标但 不在 当前特征集中的体素。 - 补全: 系统为这些缺失的体素插值生成特征,并将它们加回到主流中。

图 5 展示了 CBA 的实际效果。蓝点是剪枝后的特征。红点是 CBA 决定加回来的特征。注意在例子 (b) (白板) 和 (c) (显示器) 中,剪枝过于激进,留下了缺口。CBA 成功识别了缺失的几何结构并将其填补,确保最终的边界框覆盖整个物体。
实验与结果
研究人员在标准数据集上评估了 TSP3D: ScanRefer、Nr3D 和 Sr3D 。
定量性能
结果显示,TSP3D 在两个关键指标上都占据主导地位: 准确率和速度。

在 ScanRefer 数据集上 (表 1) ,TSP3D 达到了 46.71% 的 [email protected] , 击败了之前最好的单阶段方法 (MCLN) ,甚至超过了复杂的两阶段模型。
更令人印象深刻的是 推理速度 (Inference Speed) 一栏 。
- 之前最好的单阶段方法: 约 5 到 6 FPS。
- 两阶段方法: 约 2 到 3 FPS。
- TSP3D: 12.43 FPS。
这是一个巨大的飞跃,实际上将速度提升到了最接近竞争对手的两倍。
我们可以通过细分每个组件的计算成本来深入了解 为什么 它这么快:

表 6 揭示了 TSP3D 的 视觉主干 (Visual Backbone) 运行速度为 31.88 FPS , 而其他方法使用的基于点的主干网络约为 10 FPS。这验证了选择稀疏体素卷积而非基于点的采样的正确性。
定性比较
数学上的优势是否转化为更好的视觉结果?是的。

在图 7 中,我们看到 TSP3D (绿框) 与强大的竞争对手 EDA (红框) 的对比。
- 在行 (b) 中,目标是一把特定的椅子。EDA 未能正确定位它,可能是被杂乱的环境搞混了。TSP3D 精确地找到了它。
- 在行 (c) 中,查询是关于一个特定的类别 (文件整理架) 。EDA 分类错误或定位错误,而 TSP3D 捕获了正确的物体。
通过稀疏体素保持高分辨率的能力使得 TSP3D 能够区分外观相似的物体,并捕捉到基于点的方法可能会模糊掉的细节。
结论
论文 “Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding” 为 3D 感知领域迈出了重要一步。通过摆脱基于点的架构并拥抱 稀疏体素卷积 , 作者解锁了原始速度。
然而,速度通常以牺牲处理能力为代价。研究人员通过实施 文本引导剪枝 (TGP) 克服了这一问题,该技术智能地丢弃了大部分与用户指令不相关的场景数据。为了确保这种效率不会损害准确性,他们增加了一个安全网: 基于补全的加法 (CBA) , 它能在剪枝切得太深时修复 3D 表示。
主要收获:
- 稀疏体素 > 点: 对于 3D 视觉定位,稀疏体素在分辨率和速度之间提供了比点云更好的平衡。
- 剪枝是强大的: 你不需要处理整个房间来找到一个杯子。早期剪枝不相关数据可以节省大量计算资源。
- 实时是可能的: TSP3D 是第一个在不牺牲准确性的情况下,现实地实现实时 3D 视觉定位 (>12 FPS) 的框架。
这项工作为具身智能 (Embodied AI) 和机器人技术的未来研究设立了新的基准,证明了我们不必在“理解得好的机器人”和“理解得快的机器人”之间做选择。
](https://deep-paper.org/en/paper/2502.10392/images/cover.png)