MAtCha Gaussians 如何仅用几张图像解决 3D 重建问题

计算机视觉的梦想很简单，通过极其困难: 只需拍摄几张物体或场景的照片，就能瞬间生成完美、逼真的 3D 模型。

近年来，我们见证了“神经渲染”技术的爆炸式增长。诸如神经辐射场 (NeRF) 和 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 等方法彻底改变了我们合成新视角的能力。它们能够利用一组图像，让你以惊人的清晰度从新的角度观察场景。然而，这里有个陷阱。虽然这些方法能产生美丽的图像，但它们生成的底层 3D 几何结构往往杂乱、嘈杂或模糊。它们的设计初衷是欺骗眼睛，而不是构建坚实的网格。

此外，这些方法通常需要密集的输入图像云——往往数以百计——才能良好工作。如果你只有三四张照片，结果通常会崩塌成各种伪影。

MAtCha Gaussians 应运而生。在一篇题为 “MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views” 的新论文中，研究人员提出了一座连接显式几何 (网格) 与神经渲染世界的桥梁。通过将场景视为“图卡集 (Atlas of Charts)”——将 2D 深度图拼凑成一个连贯的 3D 表面——MAtCha 仅需少至三张图像即可实现最先进的几何重建，并且在几分钟内即可完成。

展示四组不同场景的合成图像，上下两行对比了真实图像与 MAtCha Gaussian 重建结果。

在这篇文章中，我们将详细拆解 MAtCha 的工作原理，其“图卡变形”背后的数学原理，以及它如何成功结合了单目深度估计与高斯溅射的优势。

问题所在: 渲染与几何之间的鸿沟

要理解 MAtCha 为何重要，我们需要审视当前的 3D 重建领域。

一方面，我们有运动恢复结构 (Structure-from-Motion, SfM) 。 SfM 非常擅长估计相机位姿并从图像中创建稀疏的 3D 点云。然而，稀疏点云不是表面；它只是空间中的一堆点。它缺乏高频细节 (如砖块的纹理或桌子的锐利边缘) 。

另一方面，我们有体积渲染 (NeRF 和标准的 3D 高斯溅射) 。这些方法通过优化体积来匹配输入图像。它们在重现颜色和光照方面表现出色。然而，因为它们是为渲染而优化的，几何结构往往只是副产品。一个 3D 高斯溅射场景从特定角度看可能像一堵坚实的墙，但如果你提取网格，可能会发现它是由漂浮的椭球体或“雾”组成的，而不是一个平面。当你只有“稀疏视图”——即输入图像非常少——时，这个问题会更加严重，因为算法缺乏足够的约束来确定表面的实际位置。

已有尝试解决这一问题的方法，例如使用像 NeuS 或 VolSDF 这样的符号距离函数 (SDF)。虽然这些方法能生成水密网格 (watertight meshes) ，但它们的训练通常很慢，并且难以处理“无界”场景 (即背景无限延伸的大型户外环境) 。

MAtCha (代表 Mesh as an Atlas of Charts，即将网格视为图卡集) 提出了一种混合方法。它利用现代 AI 深度估计器的详细先验信息，并使用高斯溅射的可微能力将其细化为连贯的 3D 表面。

比较 MAtCha 与其他稀疏视图和表面重建方法的表格。

如上表所示，MAtCha 的独特之处在于它能同时处理稀疏视图、无界场景的重建，并保持极快的训练速度。

核心概念: 图卡集 (Atlas of Charts)

MAtCha 的核心思想不是像 NeRF 那样将场景表面建模为密度体积，也不像 3DGS 那样建模为粒子云，而是将其建模为 2D 流形 (2D Manifold) 。

在数学上，流形是一个可以局部展平为 2D 平面的表面。想象一个地球仪: 它是一个球体，但你可以将其表示为一本平面地图集 (即 atlas) 。每一张地图都是一个“图卡 (chart)”。如果你正确地缝合这些图卡，就能表示整个 3D 物体。

在 MAtCha 中，每一张输入图像对应一个“图卡”。

输入: 一组稀疏的 RGB 图像。
初始图卡: 从该图像生成的深度图。
目标: 对这些深度图进行变形和缝合，使它们在 3D 空间中完美对齐，形成单一、平滑的网格。

流程概览

MAtCha 流程分几个明显的阶段运行。首先，它使用单目深度估计初始化几何结构。然后，它使用神经网络将这些图卡变形以适应稀疏的 SfM 点。最后，它使用高斯渲染来细化表面。

MAtCha Gaussians 流程概览图。

让我们详细拆解这些步骤。

第一步: 使用单目深度进行初始化

研究人员利用了预训练单目深度估计器 (具体来说是 DepthAnythingV2) 的强大功能。这些是基于海量数据集训练的 AI 模型，能够预测单张图像中每个像素的深度。

虽然这些模型在捕捉高频细节 (锐利的边缘、复杂的纹理) 方面表现惊人，但它们存在尺度模糊性 (scale ambiguity) 。模型知道灯在墙的前面，但不知道灯是距离 1 米还是 10 米。它还会导致不同视图之间的不一致——物体的大小在图像 A 中可能看起来与图像 B 中不同。

MAtCha 获取这些初始深度图，并将其“反向投影”到 3D 空间中。这就创建了初始的图卡，尽管它们此时还是错位的。

第二步: 神经变形模型

这是论文中最具创新性的部分。我们有一组 3D 图卡 (来自深度图) ，它们看起来细节丰富，但彼此之间或与真实的 3D 世界无法对齐。我们需要对它们进行变形以使其拟合。

以前的方法尝试使用简单的仿射缩放 (线性拉伸整个深度图) 。这种方法太死板了。其他方法尝试逐像素优化，但这会破坏深度估计器提供的精细细节。

MAtCha 引入了一种轻量级图卡变形模型 (Lightweight Chart Deformation Model) 。它使用一个微型多层感知机 (MLP) 来学习变形场 \(\Delta\)。

图卡上某点的更新位置定义为:

更新后的图卡位置公式。

这里，\(\psi^{(0)}\) 是初始图卡位置 (来自单目深度) ，而 \(\Delta_i\) 是为使其对齐而施加的变形。

图卡编码与深度编码

为了计算这个变形 \(\Delta\)，MLP 接收特定的特征。作者使用一种稀疏的 2D 可学习特征网格，称为图卡编码 (Chart Encodings) (\(E_i\))。

基于图卡编码的变形公式。

然而，仅有 2D 网格是不够的。场景中的物体通常具有锐利的不连续性——想象一下桌子的边缘与其背后的地板。在 2D 图像中相邻的点在 3D 深度上可能相距数米。如果我们以相同的方式扭曲它们，就会得到畸变 (类似拉伸橡皮膜般的扭曲) 。

为了解决这个问题，MAtCha 添加了深度编码 (Depth Encodings) (\(z_i(d)\))。这使得网络能够根据点的初始深度以不同的方式对点进行变形，即使它们在图像中是邻居。

包含深度编码的变形公式。

这种结合使得模型能够执行低频变形 (修正整体形状) ，同时保留由初始深度图提供的高频细节 (纹理和锐利边缘) 。

第三步: 与运动恢复结构 (SfM) 对齐

网络如何知道怎样变形图卡？它使用由运动恢复结构 (SfM) 生成的稀疏 3D 点作为锚点。作者使用一种名为 MASt3R-SfM 的方法来获取这些相机位姿和稀疏点。

优化过程同时最小化多个损失函数。

1. 拟合损失 (\(\mathcal{L}_{fit}\)): 这鼓励图卡接触由 SfM 提供的稀疏 3D 点。

拟合损失公式。

然而，SfM 点可能包含噪声或离群点。为了处理这个问题，作者引入了置信度图 (confidence map) (\(C_i\))。网络学习图卡的哪些区域是可靠的，哪些不是，从而自动降低离群点的权重。

加权拟合损失公式。

2. 结构损失 (\(\mathcal{L}_{struct}\)): 我们想要对齐图卡，但我们不想破坏原始单目深度图中的精美细节。该损失强制变形后图卡的法线 (\(N\)) 和曲率 (\(M\)) 与原始深度图相匹配。

结构损失公式。

3. 对齐损失 (\(\mathcal{L}_{align}\)): 最后，由于我们有多个图卡 (每张图像一个) ，它们必须重叠以形成单一表面。该损失将不同图卡的重叠区域拉到一起。

对齐损失公式。

总损失结合了这三个目标:

总损失公式。

这个优化步骤非常快，通常在几分钟内收敛。

第四步: 使用高斯面元进行细化

一旦图卡在几何上对齐，MAtCha 就会切换到光度细化 。这就是名字中“高斯”部分的由来。

MAtCha 不是使用 3D 体积高斯 (椭球体) ，而是直接在图卡表面实例化 2D 高斯面元 (Gaussian Surfels) 。可以把它们想象成绘制在网格上的扁平、有纹理的斑点。

模型使用高斯光栅化器渲染场景，并将结果与输入图像进行比较。因为高斯被绑定在网格 (图卡) 上，优化渲染结果也就同时微调了图卡的几何形状。

细化过程使用标准的光度损失 (比较像素颜色) :

光度损失公式。

它还包括正则化项，以确保高斯不会偏离表面法线或产生伪影。

细化损失公式。

这一阶段确保最终模型不仅几何准确，而且能够进行逼真的渲染。

网格提取: 获取最终的 3D 模型

优化后，我们得到了一组对齐、细化过的图卡。为了获得可用的 3D 网格，MAtCha 使用两种可能的方法:

多分辨率 TSDF 融合: 这是一种经典技术，将深度图融合到体素网格中。MAtCha 使用多分辨率方法来同时捕获前景细节和背景场景。
自适应四面体化: 改编自高斯不透明度场 (GOF)，该方法通过根据不透明度雕刻四面体来创建网格。

如下面的对比所示，自适应四面体化 (右) 倾向于产生比 TSDF (左) 更锐利、无孔洞的网格。

网格提取方法的比较。

实验结果

MAtCha 的结果令人印象深刻，特别是在其他方法失效的“稀疏视图”范畴中。

表面质量

在仅使用 3 张输入图像的 DTU 数据集 (物体扫描的标准基准) 上测试时，MAtCha 优于以前的最先进方法，如 Spurfies 和 NeuS。

DTU 数据集上的定量结果表。

你可以从下面的视觉差异中看出端倪。即使视图非常少，MAtCha 也能恢复清晰的几何结构。请注意，3 个视图 (顶行) 足以获得建筑物的整体形状，而 10 个视图 (底行) 则揭示了玩具推土机轮胎花纹等复杂细节。

使用 3、5 和 10 个视图的定性重建结果。

无界场景

当场景不是房间中央的单个物体时，大多数稀疏视图方法都会失败。MAtCha 可以有效地处理“无界”户外场景。

在下图中，对比自行车和地面的重建。基线方法 (2DGS 和 GOF) 产生了嘈杂、破碎的网格。MAtCha 生成了一个连贯的表面，同时捕获了前景车辆和背景环境。

Tanks&Temples 无界场景的定性评估。

与前馈方法的比较

研究人员还将 MAtCha 与 MVSplat 等“前馈”方法进行了比较。前馈方法试图在单次传递中预测 3D 模型，无需优化。虽然速度很快，但它们通常在复杂场景的分辨率和真实感方面表现不佳。MAtCha 通过执行快速优化 (几分钟) ，生成了明显更清晰的渲染图。

与 MVSplat 的视觉比较。

为什么变形模型很重要

消融研究 (即关闭模型部分功能的实验) 证实, 图卡编码和深度编码是必不可少的。没有它们，倒角距离 (误差度量) 几乎翻倍。

消融研究表。

结论

MAtCha Gaussians 代表了 3D 计算机视觉向前迈出的重要一步。通过将场景重新思考为“图卡集”，作者成功地结合了两个世界的优势: 单目深度估计的显式几何先验和高斯溅射的可微渲染能力。

主要要点是:

混合表示: 与体积云相比，将表面建模为 2D 流形可以更轻松地进行初始化和约束。
鲁棒对齐: 神经变形模型有效地弥合了单目深度 (细节好，尺度差) 和 SfM (尺度好，细节稀疏) 之间的差距。
高效率: 仅需极少的图像，即可在几分钟而非几小时内实现高质量的重建。

这项技术为数据稀缺但质量不可妥协的应用铺平了道路——例如游戏的快速 3D 资产创建、未知环境中的机器人导航，以及仅凭几张游客照片保护文化遗产遗址。

问题所在: 渲染与几何之间的鸿沟#

核心概念: 图卡集 (Atlas of Charts)#

流程概览#

第一步: 使用单目深度进行初始化#

第二步: 神经变形模型#

图卡编码与深度编码#

第三步: 与运动恢复结构 (SfM) 对齐#

第四步: 使用高斯面元进行细化#

网格提取: 获取最终的 3D 模型#

实验结果#

表面质量#

无界场景#

与前馈方法的比较#

为什么变形模型很重要#

结论#