从一小组照片中创建真实世界场景的数字 3D 副本,是计算机视觉和图形学领域的长期目标之一。这种能力——通常称为新视角合成3D 重建——驱动着从虚拟现实体验、电影视觉特效,到数字孪生与建筑可视化等多种技术的发展。

多年来,神经辐射场 (NeRF) 等方法能够生成令人惊叹的照片级真实感效果。但它们有一个显著不足: 通常需要几十张甚至上百张场景图片,而且训练与渲染过程速度极慢。近来出现的*3D 高斯溅射 *(3D Gaussian Splatting,简称 3DGS) 技术,在保持相当质量的同时实现了实时渲染。然而,这类方法仍依赖于密集的输入影像。

那么,如果你只有寥寥几张照片——比如仅有两三张视角呢?这种稀疏视角的情况非常棘手。由于数据量极少,3D 结构会高度模糊,使得模型难以忠实重建场景。

这正是论文 《MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images》 所应对的挑战。研究人员提出了 MVSplat,一种可以用少至两张图片高效构建高质量 3D 场景的方法。正如下方比较所示,MVSplat 不仅能渲染更精美的图像,还能生成更清晰、更准确的底层 3D 几何结构,其模型大小比主要竞争对手小十倍,推理速度快两倍以上。

一张对比图,展示了 MVSplat 在新视角合成、3D 高斯分布清晰度和性能指标方面,相较 pixelSplat 方法的优势。

图 1: 与 pixelSplat 相比,MVSplat 在外观和几何质量上更优,参数量减少 10 倍,推理速度提升超过 2 倍。

本文将探讨 MVSplat 背后的理念——特别是它如何通过重新引入经典计算机视觉中的一个强大概念:** 代价体积 (cost volume)** ,来规避稀疏视角重建的常见陷阱。你将看到,将几何优先的思路与现代深度学习结合,如何引领最先进的 3D 重建。

背景: 通往实时 3D 之路

要理解 MVSplat 的创新,我们先简要回顾一下神经场景表示的发展历程。

NeRF: 照片级真实感的革命

神经辐射场 (NeRF) 将场景表示为连续函数——一个小型 MLP 网络,输入 3D 坐标 \((x, y, z)\) 和观察方向 \((\theta, \phi)\),输出该点的颜色与密度。渲染时,相机发出的光线穿过每个像素,在光线上采样多个点,将颜色与密度的输出沿途积分。

效果令人惊艳,但过程既慢又依赖大量数据。渲染每帧需评估数千个样本点,且在极少视角输入下,NeRF 模型会退化,生成模糊或失真的画面。

3D 高斯溅射: 实时渲染

3DGS 用显式表示取代 NeRF 的隐式表示——数百万个体积极小、带颜色、半透明的 3D “斑点”,由位置、形状、颜色和不透明度定义。渲染采用快速光栅化: 将高斯分布投影到图像平面,并混合到像素上。这实现了实时性能和高画质。

稀疏视角的挑战

即便是 3DGS,在稀疏输入下的重建仍是不适定问题。视角越少,模糊性越大。像 pixelSplat 这样的前馈方法,试图直接由图像特征回归高斯参数,但仅凭特征估计精确几何非常困难,常导致空间中嘈杂漂浮的高斯点。

MVSplat 的作者意识到仅依赖学习特征来推算几何的局限性,于是引入了多视图立体视觉中的显式几何推理。

MVSplat: 几何优先的方法

MVSplat 将任务从直接预测 3D 属性转变为特征匹配。先构建几何结构,再推导完整的高斯参数。其流程如下所示。

MVSplat 架构图,展示了输入视图经过 Transformer 处理,构建代价体积,经 U-Net 优化再反投影为用于渲染的 3D 高斯分布。

图 2: MVSplat 的流程概览。输入图像依次经过多视图特征提取、代价体积构建、U-Net 优化、深度估计和高斯参数预测,完成新视角渲染。

函数 \(f_{\boldsymbol{\theta}}\) 将 \(K\) 张已知相机位姿的输入图像映射为 \(H \times W \times K\) 个 3D 高斯分布:

\[ f_{\boldsymbol{\theta}}: \{( \mathbf{I}^{i}, \mathbf{P}^{i} )\}_{i=1}^K \mapsto \{( \boldsymbol{\mu}_j, \alpha_j, \boldsymbol{\Sigma}_j, \boldsymbol{c}_j )\}_{j=1}^{H \times W \times K} \]

步骤 1: 多视图特征提取

MVSplat 首先使用 CNN 主干网络提取特征,随后通过带跨视图注意力 (cross-view attention) 的多视图 Transformer,使每张图像的特征融合其它视角的信息。

步骤 2: 代价体积构建

这是核心创新。MVSplat 采用经典代价体积,通过平面扫描 (plane sweeping) 提供显式深度线索:

  1. 深度假设: 在视锥范围内采样 \(D\) 个候选深度。
  2. 特征变换: 对每个深度 \(d_m\),将源视图 \(j\) 的特征投影到参考视图 \(i\): \[ \boldsymbol{F}_{d_m}^{j \to i} = \mathcal{W}\left(\boldsymbol{F}^j, \boldsymbol{P}^i, \boldsymbol{P}^j, d_m\right) \]
  3. 相似度度量: 比较变换后与原始特征的相似性: \[ \boldsymbol{C}_{d_m}^{i} = \frac{\boldsymbol{F}^{i} \cdot \boldsymbol{F}_{d_m}^{j \to i}}{\sqrt{C}} \]
  4. 结果堆叠: 得到大小为 \((H/4 \times W/4 \times D)\) 的 3D 张量,包含各深度的相似度分数: \[ \boldsymbol{C}^{i} = [\boldsymbol{C}^{i}_{d_{1}}, \dots, \boldsymbol{C}^{i}_{d_{D}}] \]

该代价体积将几何信息编码为深度匹配概率,为表面定位提供明确先验。

步骤 3: 代价体积优化

原始代价体积在无纹理或遮挡区域可能有噪声。MVSplat 用轻量级 2D U-Net 优化它,并融合跨视图注意力,使不同视图的代价体积在深度假设上达成一致:

\[ \tilde{C}^i = C^i + \Delta C^i \]

步骤 4: 深度估计

对深度候选应用 softmax,得到每像素的概率分布,并据此加权计算期望深度:

\[ \boldsymbol{V}^i = \operatorname{softmax}(\hat{\boldsymbol{C}}^i)\,\boldsymbol{G} \]

可选的第二个 U-Net 进一步优化深度。

步骤 5: 完整高斯参数预测

依据估计的深度图:

  • 中心 (\(\mu\)): 将深度反投影为 3D 点云,并在多个视角间合并。
  • 不透明度 (\(\alpha\)): 由匹配置信度推算。
  • 协方差 (\(\Sigma\)) 与颜色 (\(c\)): 根据图像特征及优化后的代价体积预测,颜色采用球谐函数表示。

训练过程仅使用光度损失,将渲染图像与真实图像匹配。

MVSplat 的实际表现

MVSplat 在 **RealEstate10K **(室内场景) 和 **ACID **(室外场景) 等大型数据集上进行了评测。

质量与效率

表 1 显示,MVSplat 在 RealEstate10K 和 ACID 数据集上的 PSNR、SSIM、LPIPS 指标均为最高,同时推理速度最快,模型规模远小于 pixelSplat。

表 1: MVSplat 在 PSNR、SSIM、LPIPS 指标均达最佳,同时速度最快,模型最小。

运行速度为 22 FPS (推理耗时 0.044 秒) ,比 pixelSplat 快两倍多。模型仅有 1200 万参数——比 pixelSplat 的 1.254 亿小 10 倍

定性比较显示,在窗框、楼梯和远处物体等复杂区域,MVSplat 的新视角比 MuRF 和 pixelSplat 更清晰、更精准。

图 3: MVSplat 能捕捉其他方法难以处理的精细细节和复杂区域。

几何优势

3D 高斯分布与深度图的并排可视化。MVSplat 的重建干净、结构清晰,而 pixelSplat 则充满噪声和漂浮伪影。

图 4: MVSplat 无需额外微调即可输出干净、连贯的 3D 高斯分布。

即便不进行深度正则化微调,MVSplat 的几何结构也没有漂浮伪影——这直接得益于代价体积设计。

泛化能力

跨数据集泛化测试显示,即便仅在室内场景训练,MVSplat 在室外与物体场景仍能生成高质量结果,而 pixelSplat 的质量显著下降。

图 5: 依赖特征相似度驱动设计,MVSplat 在不同数据集间表现出强泛化性。

通过采用相对特征相似度而非绝对值,MVSplat 在迁移至 ACID 与 DTU 等截然不同领域时仍保持高质量。

表 2 量化了跨数据集泛化结果,显示从 RE10K 迁移至 ACID 和 DTU 时,MVSplat 显著优于 pixelSplat。

表 2: 跨领域测试中,MVSplat 质量稳定,而 pixelSplat 性能急剧下降。

消融研究分析

消融研究结果,包括定量 (表 3) 和定性 (图 6) ,证明了 MVSplat 架构中各组件的重要性。

表 3: 移除代价体积造成最大性能崩溃。

主要发现:

  • 无代价体积: 几何完全失效——核心组件。
  • 无跨视图注意力: 性能明显下降,显示视图间信息的重要性。
  • 无 U-Net 优化: 单视图区域质量下降。

消融可视化结果。移除代价体积造成灾难性失败,移除 U-Net 或跨视图注意力则带来明显但相对较轻的质量下降。

图 6: 消融可视化验证代价体积是基石,U-Net 和跨视图注意力带来重要质量提升。

结论与展望

MVSplat 表明,在稀疏视角 3D 重建中,基于显式对应匹配的几何优先方法可胜于直接由特征回归。其代价体积提供强几何先验,使模型更小、更快、更稳健且质量更高。

尽管还有挑战——如透明或反射表面的处理——MVSplat 的成功预示着一种有前途的路线: 将经典几何推理与现代学习融合的混合模型。这一成果让我们离这样的世界更近一步: 高保真 3D 模型的获取,就像用手机拍几张照片一样简单。