仅凭几张 2D 图像就能创建出照片般逼真的 3D 场景,我们已经见证了这方面令人惊叹的进展。像 神经辐射场 (NeRFs) 以及近期的 3D 高斯溅射 (3DGS) 这样的技术,能够生成场景中令人惊艳的全新视角,让你仿佛驾驶无人机飞越一张静态照片。

但如果我们想做的不仅仅是 呢?如果我们还希望能够与刚创建的 3D 世界进行 交互、编辑并真正理解 它呢?

试想一下,指着 3D 场景中的一辆车说“删除它”,或者要求模型“只显示树木”。标准的 3DGS 和 NeRF 模型无法做到这一点。它们是外观的高手——精细地学习空间中每个点的颜色和透明度——但它们并不理解这些点 代表什么。它们看到的是像素,而不是物体。

这正是开创性论文 Feature 3DGS 旨在填补的空白。研究人员开发了一种方法来 增强 超高速的 3D 高斯溅射框架,使其能够理解 操控场景内容。通过从强大的二维 AI 基础模型 (如 CLIPSegment Anything Model (SAM)) 中 蒸馏 知识,他们将 3DGS 从一个简单的渲染器转变为动态、可编辑、且具有语义感知能力的世界表示。

这项工作为交互式 3D 体验的新时代铺平了道路——在这个时代,我们可以像编辑文本文档一样轻松操控数字世界。

Feature 3DGS 解锁的功能概览,包括语义分割、语言引导的编辑和可提示分割。

图 1: Feature 3DGS 增强了标准 3D 高斯溅射技术,使其能够执行除简单新视角合成之外的多种场景理解任务。


快速回顾: NeRFs vs. 3D 高斯溅射

要理解 Feature 3DGS 的创新,我们首先需要熟悉现有的 3D 场景表示技术。

多年来,神经辐射场 (NeRFs) 一直是无可争议的王者。NeRF 使用神经网络学习一个连续函数,将一个 3D 坐标 \((x, y, z)\) 和一个观察方向映射到颜色与密度。通过沿着虚拟相机的光线数百万次查询该网络,可以渲染出照片般逼真的图像。结果令人印象深刻,但过程计算量巨大,训练和渲染速度较慢。此前有研究尝试为 NeRFs 添加语义特征,但常常导致进一步降速,并在图像质量与特征质量之间不得不做出权衡。

随后,3D 高斯溅射 (3DGS) 在 2023 年席卷了整个社区。它摒弃了缓慢的隐式神经网络,而是通过数以百万计微型、多彩、半透明的 3D “高斯体”——可将其想象成漂浮在空间中的模糊椭球——显式地表示场景。渲染图像时,这些高斯体被 溅射 到二维图像平面并混合。这种显式表示效率极高,经过短暂训练即可实现高质量、实时渲染。

然而,与原始 NeRF 一样,标准的 3DGS 只存储外观相关属性: 位置、形状 (旋转与缩放) 、颜色和不透明度。它知道 怎么 看,却不知道它 在看什么。这正是 Feature 3DGS 出场的地方。


核心方法: 将二维智慧蒸馏到三维高斯体中

Feature 3DGS 的核心想法直白而强大: 如果 3D 高斯体可以存储颜色,为什么不能存储 有意义的特征 呢?

作者扩展了每个高斯体的核心数据结构,使其包含一个 语义特征向量。这个高维向量编码了该点在场景中的语义信息。

这些有意义的特征从何而来?它们源于大规模、预训练的二维 基础模型——例如 **CLIP **(连接图像与文本) 和 **SAM **(可分割图像中的任意物体) 这样的顶尖 AI 系统。这些模型对视觉世界有深刻且广泛适用的理解。

将这种知识转移的过程称为 蒸馏。大型二维基础模型充当 教师,而 3DGS 模型则是 学生,学习去复制教师的理解。

Feature 3DGS 流程图,展示了如何将语义特征添加到 3D 高斯体中,并与颜色信息并行渲染。

图 2: Feature 3DGS 流程。关键创新包括为每个高斯体添加语义特征,并开发一个并行光栅化器,可同时渲染 RGB 颜色和高维特征图,另附一个可选的加速模块。

分步说明:

  1. 初始化: 与标准 3DGS 相同,系统首先利用运动恢复结构 (SfM) 得到的点云来定位数百万个高斯体。此时,每个高斯体 \((i)\) 拥有:

    \[ \{x_i, q_i, s_i, \alpha_i, c_i, f_i\} \]

    ——位置、旋转、缩放、不透明度、颜色,以及全新的语义特征向量 \(f_i\)。

  2. 并行渲染: 一个 并行 N 维高斯光栅化器 会同时渲染 RGB 图像与在每个视角中完美对齐的高维 特征图。每个像素使用标准 Alpha 混合进行 blending:

    \[ C = \sum_{i \in \mathcal{N}} c_i \alpha_i T_i \]

    \[ F_s = \sum_{i \in \mathcal{N}} f_i \alpha_i T_i \]

    其中,\(T_i\) 为透射率,即光线越过先前高斯体的程度。

  3. 蒸馏损失: 训练采用组合损失:

    \[ \mathcal{L} = \mathcal{L}_{rgb} + \gamma \mathcal{L}_f \]
    • \(\mathcal{L}_{rgb}\): 比对渲染图像 \(\hat{I}\) 与真实图像 \(I\)。
    • \(\mathcal{L}_f\): 比对渲染的特征图 \(F_s(\hat{I})\) 与教师特征图 \(F_t(I)\),后者由将 \(I\) 输入二维基础模型所得。这迫使高斯体学习与教师场景理解相匹配的特征向量。

加速模块: 高效且不牺牲质量

基础模型常输出维度很高的特征 (128–512 维) ,直接渲染既慢又占用内存。作者提供了一个可选 加速模块:

  • 渲染较低维度的特征 (如 64 维) 。
  • 使用轻量级 \(1 \times 1\) 卷积解码器将其上采样至教师模型的维度。

此技巧在几乎无质量损失的前提下显著提升速度,使训练与渲染更加高效。


对 Feature 3DGS 的验证

论文在多个具有挑战性的任务上评估了 Feature 3DGS——在速度和质量方面均优于此前的 NeRF 方法。


新视角语义分割 (CLIP-LSeg)

通过从 CLIP-LSeg 蒸馏特征,Feature 3DGS 可以从任意视点生成 语义分割图

语义分割的定性比较。Feature 3DGS 生成的分割图比基于 NeRF 的替代方案更清晰、更详细。

图 3: 新视角语义分割。Feature 3DGS (右) 比 NeRF-DFF (左) 在物体边界与分割精度上表现更佳。

Replica 数据集上的性能指标显示出优势:

表格显示,与基线 3DGS 相比,添加特征 (Ours) 提高了图像质量指标 (PSNR, SSIM, LPIPS) 。

表 1: 特征的加入改善了核心图像合成指标,可能得益于更深刻的场景结构把握。

表格比较了语义分割性能。Feature 3DGS 在准确性 (mIoU) 和速度 (FPS) 上都远超 NeRF-DFF。

表 2: 语义分割的准确性与速度均显著领先 NeRF-DFF。


从任意视角分割任何物体 (SAM)

集成 SAM 特征可支持基于提示的 实例分割,从任意视点执行。

朴素方法: 渲染视图 → 运行 SAM 编码器 → 运行 SAM 解码器。
Feature 3DGS 方法:** 直接渲染 SAM 特征图** → 运行 SAM 解码器。

比较图显示,Feature 3DGS 可以达到与运行完整 SAM 模型相同的分割质量,但速度最高可提升 1.7 倍。

图 4: 直接渲染 SAM 特征图跳过缓慢的编码器阶段,将交互延迟减少最高可达 1.7 倍。

其质量与 SAM 相当,并明显优于 NeRF-DFF:

与 NeRF-DFF 在基于 SAM 的分割上的视觉比较,展示了 Feature 3DGS 生成的掩码质量更优。

图 5: Feature 3DGS 掩码在复杂边界和细微结构上更精确。


语言引导的 3D 编辑

由于每个高斯体都拥有语义特征向量,便可通过文本查询实现 语言引导的编辑

工作原理:

  1. 使用 CLIP 文本编码器对输入文本 (如 “提取香蕉”) 编码成向量。
  2. 计算该向量与每个高斯体语义特征的余弦相似度: \[ s = \frac{f(x) \cdot q(\tau)}{\|f(x)\| \|q(\tau)\|} \]
  3. 选择相似度高的高斯体。
  4. 修改它们属性:
    • 不透明度设为 0 → 删除物体。
    • 其他物体不透明度设为 0 → 提取物体。
    • 修改颜色 → 改变外观。

由于编辑在 3D 空间中进行,修改在所有视角中均可保持一致,甚至能重建被遮挡的几何结构。

语言引导编辑的演示,包括物体提取、删除和外观修改,并与 NeRF-DFF 进行了比较。

图 6: Feature 3DGS 能够干净提取被完全遮挡的部分,删除时保留背景,并可修改特定物体外观——优于 NeRF-DFF。


结论: 从渲染到理解

Feature 3DGS 架起了 快速、显式的 3D 表示现代 AI 的语义感知能力 之间的桥梁。通过将二维基础模型的知识蒸馏到三维高斯体中,该框架带来:

  • 速度: 相较于 NeRF 方法,训练与渲染速度最高提升 2.7 倍。
  • 准确性: 分割与编辑质量更佳。
  • 交互性: 支持语义查询、提示式分割与语言引导编辑。

应用前景:

  • VR/AR: 可实时修改的动态虚拟场景。
  • 机器人技术: 富有物体级理解的导航与操作能力。
  • 内容创作: 简化复杂三维世界的编辑。

尽管仍存在局限——如性能受教师模型质量限制以及偶尔的视觉伪影——但该工作的奠基意义指向了一个未来: 数字世界 不止美观,还将具备智能、可理解,并可轻松编辑的特性