简介

想象一下你身处一个杂乱的厨房,你让机器人“把笔记本电脑旁边的红色马克杯拿起来”。对人类来说,这是一项微不足道的任务。我们不仅处理了语义含义 (“红色马克杯”) ,而且至关重要的是,我们还处理了空间关系 (“笔记本电脑旁边”) ,以此将其与可能放在沥水架上的另一个红色马克杯区分开来。

然而,在 3D 计算机视觉的世界里,这个简单的请求却是一个巨大的障碍。虽然 3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 的最新进展彻底改变了我们渲染 3D 场景的方式,实现了实时、照片级的视图,但基于复杂的语言来理解分割这些场景中特定物体的能力却相对滞后。

目前大多数方法依赖于 开放词汇分割 (Open-Vocabulary Segmentation) 。 它们可以通过将图像特征与简单的文本标签匹配来识别“马克杯”或“椅子”。但是,当面对自然语言的细微差别时,特别是描述空间关系的句子 (“左边的那个”、“沙发后面的”) ,它们就会失效。此外,识别一个在新视角下部分被遮挡的物体仍然是一个巨大的挑战。

为了填补这一空白,一篇新的研究论文引入了 指称 3D 高斯泼溅分割 (Referring 3D Gaussian Splatting Segmentation, R3DGS) 任务和一个名为 ReferSplat 的新颖框架。这种方法不仅仅是寻找标签;它在对 3D 场景建模时具备空间语言意识,使其能够精确定位由自由形式文本描述的特定物体。

图 1. 指称 3D 高斯泼溅分割 (R3DGS) 旨在分割 3D 高斯场景中由给定自然语言描述的目标物体,要求模型识别新描述的物体,这些物体在新视角中可能被遮挡或不直接可见。

如上图所示,目标是获取一组多视角图像和一个特定的描述 (例如,“放置在南瓜和红色椅子之间的绿色物体”) ,并在一个全新的视角中准确地分割出该物体,即使该物体部分被遮挡。

背景: 3D 世界中 2D 思维的局限性

要理解为什么这种新方法是必要的,我们需要先看看 3D 高斯泼溅是如何工作的,以及当前的分割方法在哪里存在不足。

3D 高斯泼溅基础

3DGS 不像 NeRF 那样将场景表示为网格或神经网络,而是表示为数百万个 3D 高斯椭球体的集合。每个高斯体都有位置、旋转、缩放、不透明度和颜色。为了渲染图像,这些 3D 高斯体被投影 (“泼溅”) 到 2D 平面上。特定像素的颜色是通过混合这些重叠的高斯体来计算的。

像素 \(v\) 处的颜色 \(C(v)\) 的渲染方程为:

3DGS 中的颜色渲染方程

这里,\(c_i\) 是第 \(i\) 个高斯体的颜色,\(\alpha_i\) 代表其不透明度贡献。这种显式的表示方式允许极快的渲染速度。

当前分割方法的问题

现有的 3DGS 物体分割方法通常遵循下文 图 2(a) 所示的流程。它们通常使用预训练的 2D 视觉语言模型 (如 CLIP) 从训练图像中提取语义特征。然后将这些特征“提升”到 3D 高斯体中。

图 2. (a) 现有的开放词汇 3DGS 分割流程与 (b) 针对 R3DGS 提出的 ReferSplat 的比较。

图 2(a) 中流程的问题在于,它将文本查询视为一个 2D 匹配问题。它渲染特征图并将其与文本进行比较。它缺乏 空间感知 (spatial awareness) 。 渲染出的特征本身并不理解“在…左边”或“在…下面”是几何约束,而不仅仅是语义标签。因此,当你要求“靠近苹果的凳子”时,这些模型经常会被房间里的其他凳子搞混。

图 2(b) 所示, ReferSplat 改变了这一范式。它不再将文本与渲染出的 2D 图像匹配,而是允许文本在渲染之前直接与 3D 高斯体进行交互。这就创建了一个能够解决歧义的空间感知系统。

ReferSplat 框架

研究人员提出了一个全面的框架,将标准的 3DGS 模型转变为一个能够“听懂”复杂指令的模型。让我们来拆解其架构,如下图所示。

图 3. 提出的 ReferSplat 方法概览。

该架构包含三个主要创新点:

  1. 3D 高斯指称场 (3D Gaussian Referring Fields): 赋予高斯体响应语言的能力。
  2. 位置感知跨模态交互 (Position-aware Cross-Modal Interaction): 将空间数据注入语言理解中。
  3. 高斯-文本对比学习 (Gaussian-Text Contrastive Learning): 强化相似物体之间的区分度。

1. 3D 高斯指称场

在标准的 3DGS 中,高斯体存储颜色数据 (球谐函数) 。在 ReferSplat 中,每个高斯体还被分配了一个 指称特征向量 (referring feature vector) (\(f_{r,i}\))。该向量编码了空间中该特定点的语义和指称信息。

当一个文本查询输入时 (例如,“那把白色椅子”) ,模型会计算文本特征与高斯体指称特征之间的相似度。这不是在 2D 图像上完成的;它是在 3D 空间中完成的。

第 \(i\) 个高斯体的响应 (相似度得分) \(m_i\) 是通过检查其指称特征与查询词特征的对齐程度来计算的:

相似度得分方程

这里,\(f_{r,i}\) 是高斯体的指称特征,\(f_{w,j}\) 代表句子中的单词。

一旦我们得到了每个高斯体的这个“响应”得分,我们就可以渲染一个 2D 分割掩码 (mask)。系统不再渲染 RGB 颜色,而是光栅化这些相似度得分 \(m_i\):

掩码渲染方程

这会产生一个 2D 热力图,其中目标物体会被点亮。为了训练这一点,模型使用二元交叉熵 (BCE) 损失将预测的掩码与“伪真值 (pseudo ground truth)”掩码进行比较:

BCE 损失方程

但是这个“伪真值”从何而来?作者使用了 置信度加权 IoU 策略 。 由于训练数据并不包含针对每个可能句子的手动掩码,他们使用像 Grounded SAM 这样的现成工具来生成候选掩码。

置信度加权 IoU 方程

这个公式 (Eq. 5) 通过平衡模型的置信度 (\(\gamma\)) 与不同预测之间的几何一致性 (IoU),帮助从嘈杂的候选项中选出最佳掩码。

2. 位置感知跨模态交互 (PCMI)

这是允许 ReferSplat 处理空间语言的核心创新。语义特征捕捉物体是什么,但它们很不擅长捕捉物体在哪里

研究人员引入了一个模块,该模块从高斯体中提取位置特征 (基于它们的坐标) ,并将此信息注入注意力机制。至关重要的是,它还尝试从文本本身推断位置信息。

系统通过观察文本与高斯体的对齐情况来计算“文本位置特征” (\(f_{p,w,i}\)):

文本位置特征方程

然后,它使用位置引导的注意力机制更新高斯体的指称特征。这确保了用于分割的特征既丰富了语义含义,又包含了空间上下文。

更新指称特征的方程

在这个方程中,\(f'_{r,i}\) 是更新后的特征。请注意,注意力图 (softmax 内部的部分) 结合了原始特征 (\(f\)) 和位置特征 (\(f_p\))。这迫使模型在聆听文本时考虑几何结构。

3. 高斯-文本对比学习

即使有了空间感知,模型可能仍然难以区分两个非常相似的物体 (例如,桌子上两个相同的苹果) 。为了解决这个问题,作者采用了对比学习。

其核心思想是将目标高斯体的表示拉近其特定的文本描述,同时推远与其他物体描述的距离。

首先,模型识别“正样本”高斯体——那些对文本查询有高响应的高斯体——并平均它们的特征以创建一个全局物体嵌入 \(f_g\):

正样本高斯嵌入方程

然后,应用对比损失函数。这迫使正样本高斯嵌入 (\(f_g\)) 与正确的文本嵌入 (\(f_e^+\)) 对齐,同时与错误或负样本文本描述 (\(f_e'\)) 保持距离:

对比损失方程

最终的训练目标结合了分割损失 (BCE) 和这个对比损失:

总损失方程

Ref-LERF 数据集

为了测试这个系统,研究人员需要一个确实包含复杂空间描述的数据集。现有的数据集大多使用简单的标签。

他们推出了 Ref-LERF , 这是一个基于真实世界场景但标注了丰富自然语言的数据集。

图 4. 我们构建的 Ref-LERF 数据集分析。

如词云图 (Fig 4a) 所示,该数据集大量使用了空间介词,如“placed” (放置) 、“near” (靠近) 、“next” (旁边) 和“center” (中间) 。直方图 (Fig 4b) 显示,Ref-LERF 中的描述比 LERF-OVS 等以前的数据集要长得多且更复杂,这使其成为了一个更难的基准。

实验与结果

作者将 ReferSplat 与几种最先进的方法进行了比较,包括 LangSplat (一种领先的 3DGS 分割方法) 和 Grounded SAM (一种 2D 基础模型) 。

定性结果

视觉效果非常显著。在下图中,你可以看到不同模型如何响应提示“放在盒子旁边颜色鲜艳的玩具”。

图 5. Ref-LERF 数据集上的定性 R3DGS 比较。

  • RGB: 原始场景。
  • Grounded SAM: 由于在 2D 中运行,难以在不同视角间保持一致性。
  • LangSplat: 经常捕捉到错误的物体或包含背景噪声,因为它依赖于简单的特征匹配。
  • Ours (ReferSplat): 生成了一个干净、准确的掩码,与真值 (Ground Truth) 高度匹配,且遵循了“盒子旁边”这一约束。

定量性能

数据支持了视觉结果。在 Ref-LERF 数据集的基准测试结果中,ReferSplat 获得的交并比 (IoU) 分数明显高于竞争对手。

表 5. Ref-LERF 数据集上的 R3DGS 结果。

ReferSplat 的平均得分为 29.2 , 几乎是 LangSplat (13.9) 的两倍,并且显着高于 Grounded SAM (15.8)。这证明了仅仅将 2D 特征提升到 3D 是不够的;ReferSplat 中的显式空间建模对于指称分割是必要的。

为什么它有效? (消融实验)

作者进行了消融实验,以证明他们的特定贡献 (PCMI 和对比学习) 确实在推动性能提升。

表 1. 我们方法的消融研究。

  • Baseline (基线): 28.4 (ramen 场景)。
  • 添加 PCMI (Index 1): 跳升至 33.5。这证实了添加空间感知是性能提升的最大单一贡献者。
  • 添加对比学习 (Index 2): 跳升至 32.8。
  • 完整模型 (Ours): 达到 35.2。
  • 两阶段 (Two-stage): 细化阶段将其进一步推高至 36.9。

效率

人们可能会认为增加所有这些空间推理会让模型变慢。令人惊讶的是,ReferSplat 非常高效。

表 8. 计算成本分析。

ReferSplat 的训练时间为 58 分钟 , 而 LangSplat 为 176 分钟。它还保持了接近 27 FPS 的健康渲染速度。这种效率来自于 ReferSplat 在训练期间学习直接将 3D 高斯体与文本对齐,而不是像其他方法那样依赖于繁重的特征处理流程 (如 CLIP 特征压缩) 。

结论

论文“Referring 3D Gaussian Splatting Segmentation”标志着具身智能 (Embodied AI) 和 3D 场景理解迈出了重要一步。通过超越简单的类别名称,使系统能够理解复杂的、基于空间的自然语言,我们离能够真正理解人类意图的机器人和 AR 系统更近了一步。

关键要点:

  • R3DGS 是新标准: 能够根据诸如“椅子后面的那个”之类的描述寻找物体对于现实世界的交互至关重要。
  • 几何结构很重要: 仅靠语义特征无法解决空间问题。ReferSplat 的 位置感知跨模态交互 证明了将几何数据注入注意力机制是至关重要的。
  • 直接的 3D-文本交互: ReferSplat 不依赖 2D 代理,而是允许文本直接调节 3D 高斯特征,从而实现更高的准确性和更快的训练时间。

随着 3D 高斯泼溅继续在神经渲染领域占据主导地位,像 ReferSplat 这样的技术对于将这些漂亮的视觉效果转化为交互式、智能化的环境将必不可少。