从一小组照片中创建真实世界场景的数字 3D 副本,是计算机视觉和图形学领域的长期目标之一。这种能力——通常称为新视角合成或3D 重建——驱动着从虚拟现实体验、电影视觉特效,到数字孪生与建筑可视化等多种技术的发展。
多年来,神经辐射场 (NeRF) 等方法能够生成令人惊叹的照片级真实感效果。但它们有一个显著不足: 通常需要几十张甚至上百张场景图片,而且训练与渲染过程速度极慢。近来出现的*3D 高斯溅射 *(3D Gaussian Splatting,简称 3DGS) 技术,在保持相当质量的同时实现了实时渲染。然而,这类方法仍依赖于密集的输入影像。
那么,如果你只有寥寥几张照片——比如仅有两三张视角呢?这种稀疏视角的情况非常棘手。由于数据量极少,3D 结构会高度模糊,使得模型难以忠实重建场景。
这正是论文 《MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images》 所应对的挑战。研究人员提出了 MVSplat,一种可以用少至两张图片高效构建高质量 3D 场景的方法。正如下方比较所示,MVSplat 不仅能渲染更精美的图像,还能生成更清晰、更准确的底层 3D 几何结构,其模型大小比主要竞争对手小十倍,推理速度快两倍以上。
图 1: 与 pixelSplat 相比,MVSplat 在外观和几何质量上更优,参数量减少 10 倍,推理速度提升超过 2 倍。
本文将探讨 MVSplat 背后的理念——特别是它如何通过重新引入经典计算机视觉中的一个强大概念:** 代价体积 (cost volume)** ,来规避稀疏视角重建的常见陷阱。你将看到,将几何优先的思路与现代深度学习结合,如何引领最先进的 3D 重建。
背景: 通往实时 3D 之路
要理解 MVSplat 的创新,我们先简要回顾一下神经场景表示的发展历程。
NeRF: 照片级真实感的革命
神经辐射场 (NeRF) 将场景表示为连续函数——一个小型 MLP 网络,输入 3D 坐标 \((x, y, z)\) 和观察方向 \((\theta, \phi)\),输出该点的颜色与密度。渲染时,相机发出的光线穿过每个像素,在光线上采样多个点,将颜色与密度的输出沿途积分。
效果令人惊艳,但过程既慢又依赖大量数据。渲染每帧需评估数千个样本点,且在极少视角输入下,NeRF 模型会退化,生成模糊或失真的画面。
3D 高斯溅射: 实时渲染
3DGS 用显式表示取代 NeRF 的隐式表示——数百万个体积极小、带颜色、半透明的 3D “斑点”,由位置、形状、颜色和不透明度定义。渲染采用快速光栅化: 将高斯分布投影到图像平面,并混合到像素上。这实现了实时性能和高画质。
稀疏视角的挑战
即便是 3DGS,在稀疏输入下的重建仍是不适定问题。视角越少,模糊性越大。像 pixelSplat 这样的前馈方法,试图直接由图像特征回归高斯参数,但仅凭特征估计精确几何非常困难,常导致空间中嘈杂漂浮的高斯点。
MVSplat 的作者意识到仅依赖学习特征来推算几何的局限性,于是引入了多视图立体视觉中的显式几何推理。
MVSplat: 几何优先的方法
MVSplat 将任务从直接预测 3D 属性转变为特征匹配。先构建几何结构,再推导完整的高斯参数。其流程如下所示。
图 2: MVSplat 的流程概览。输入图像依次经过多视图特征提取、代价体积构建、U-Net 优化、深度估计和高斯参数预测,完成新视角渲染。
函数 \(f_{\boldsymbol{\theta}}\) 将 \(K\) 张已知相机位姿的输入图像映射为 \(H \times W \times K\) 个 3D 高斯分布:
\[ f_{\boldsymbol{\theta}}: \{( \mathbf{I}^{i}, \mathbf{P}^{i} )\}_{i=1}^K \mapsto \{( \boldsymbol{\mu}_j, \alpha_j, \boldsymbol{\Sigma}_j, \boldsymbol{c}_j )\}_{j=1}^{H \times W \times K} \]步骤 1: 多视图特征提取
MVSplat 首先使用 CNN 主干网络提取特征,随后通过带跨视图注意力 (cross-view attention) 的多视图 Transformer,使每张图像的特征融合其它视角的信息。
步骤 2: 代价体积构建
这是核心创新。MVSplat 采用经典代价体积,通过平面扫描 (plane sweeping) 提供显式深度线索:
- 深度假设: 在视锥范围内采样 \(D\) 个候选深度。
- 特征变换: 对每个深度 \(d_m\),将源视图 \(j\) 的特征投影到参考视图 \(i\): \[ \boldsymbol{F}_{d_m}^{j \to i} = \mathcal{W}\left(\boldsymbol{F}^j, \boldsymbol{P}^i, \boldsymbol{P}^j, d_m\right) \]
- 相似度度量: 比较变换后与原始特征的相似性: \[ \boldsymbol{C}_{d_m}^{i} = \frac{\boldsymbol{F}^{i} \cdot \boldsymbol{F}_{d_m}^{j \to i}}{\sqrt{C}} \]
- 结果堆叠: 得到大小为 \((H/4 \times W/4 \times D)\) 的 3D 张量,包含各深度的相似度分数: \[ \boldsymbol{C}^{i} = [\boldsymbol{C}^{i}_{d_{1}}, \dots, \boldsymbol{C}^{i}_{d_{D}}] \]
该代价体积将几何信息编码为深度匹配概率,为表面定位提供明确先验。
步骤 3: 代价体积优化
原始代价体积在无纹理或遮挡区域可能有噪声。MVSplat 用轻量级 2D U-Net 优化它,并融合跨视图注意力,使不同视图的代价体积在深度假设上达成一致:
\[ \tilde{C}^i = C^i + \Delta C^i \]步骤 4: 深度估计
对深度候选应用 softmax,得到每像素的概率分布,并据此加权计算期望深度:
\[ \boldsymbol{V}^i = \operatorname{softmax}(\hat{\boldsymbol{C}}^i)\,\boldsymbol{G} \]可选的第二个 U-Net 进一步优化深度。
步骤 5: 完整高斯参数预测
依据估计的深度图:
- 中心 (\(\mu\)): 将深度反投影为 3D 点云,并在多个视角间合并。
- 不透明度 (\(\alpha\)): 由匹配置信度推算。
- 协方差 (\(\Sigma\)) 与颜色 (\(c\)): 根据图像特征及优化后的代价体积预测,颜色采用球谐函数表示。
训练过程仅使用光度损失,将渲染图像与真实图像匹配。
MVSplat 的实际表现
MVSplat 在 **RealEstate10K **(室内场景) 和 **ACID **(室外场景) 等大型数据集上进行了评测。
质量与效率
表 1: MVSplat 在 PSNR、SSIM、LPIPS 指标均达最佳,同时速度最快,模型最小。
运行速度为 22 FPS (推理耗时 0.044 秒) ,比 pixelSplat 快两倍多。模型仅有 1200 万参数——比 pixelSplat 的 1.254 亿小 10 倍。
图 3: MVSplat 能捕捉其他方法难以处理的精细细节和复杂区域。
几何优势
图 4: MVSplat 无需额外微调即可输出干净、连贯的 3D 高斯分布。
即便不进行深度正则化微调,MVSplat 的几何结构也没有漂浮伪影——这直接得益于代价体积设计。
泛化能力
图 5: 依赖特征相似度驱动设计,MVSplat 在不同数据集间表现出强泛化性。
通过采用相对特征相似度而非绝对值,MVSplat 在迁移至 ACID 与 DTU 等截然不同领域时仍保持高质量。
表 2: 跨领域测试中,MVSplat 质量稳定,而 pixelSplat 性能急剧下降。
消融研究分析
表 3: 移除代价体积造成最大性能崩溃。
主要发现:
- 无代价体积: 几何完全失效——核心组件。
- 无跨视图注意力: 性能明显下降,显示视图间信息的重要性。
- 无 U-Net 优化: 单视图区域质量下降。
图 6: 消融可视化验证代价体积是基石,U-Net 和跨视图注意力带来重要质量提升。
结论与展望
MVSplat 表明,在稀疏视角 3D 重建中,基于显式对应匹配的几何优先方法可胜于直接由特征回归。其代价体积提供强几何先验,使模型更小、更快、更稳健且质量更高。
尽管还有挑战——如透明或反射表面的处理——MVSplat 的成功预示着一种有前途的路线: 将经典几何推理与现代学习融合的混合模型。这一成果让我们离这样的世界更近一步: 高保真 3D 模型的获取,就像用手机拍几张照片一样简单。