计算机视觉的梦想很简单,通过极其困难: 只需拍摄几张物体或场景的照片,就能瞬间生成完美、逼真的 3D 模型。
近年来,我们见证了“神经渲染”技术的爆炸式增长。诸如神经辐射场 (NeRF) 和 3D 高斯溅射 (3D Gaussian Splatting, 3DGS) 等方法彻底改变了我们合成新视角的能力。它们能够利用一组图像,让你以惊人的清晰度从新的角度观察场景。然而,这里有个陷阱。虽然这些方法能产生美丽的图像,但它们生成的底层 3D 几何结构往往杂乱、嘈杂或模糊。它们的设计初衷是欺骗眼睛,而不是构建坚实的网格。
此外,这些方法通常需要密集的输入图像云——往往数以百计——才能良好工作。如果你只有三四张照片,结果通常会崩塌成各种伪影。
MAtCha Gaussians 应运而生。在一篇题为 “MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views” 的新论文中,研究人员提出了一座连接显式几何 (网格) 与神经渲染世界的桥梁。通过将场景视为“图卡集 (Atlas of Charts)”——将 2D 深度图拼凑成一个连贯的 3D 表面——MAtCha 仅需少至三张图像即可实现最先进的几何重建,并且在几分钟内即可完成。

在这篇文章中,我们将详细拆解 MAtCha 的工作原理,其“图卡变形”背后的数学原理,以及它如何成功结合了单目深度估计与高斯溅射的优势。
问题所在: 渲染与几何之间的鸿沟
要理解 MAtCha 为何重要,我们需要审视当前的 3D 重建领域。
一方面,我们有运动恢复结构 (Structure-from-Motion, SfM) 。 SfM 非常擅长估计相机位姿并从图像中创建稀疏的 3D 点云。然而,稀疏点云不是表面;它只是空间中的一堆点。它缺乏高频细节 (如砖块的纹理或桌子的锐利边缘) 。
另一方面,我们有体积渲染 (NeRF 和标准的 3D 高斯溅射) 。这些方法通过优化体积来匹配输入图像。它们在重现颜色和光照方面表现出色。然而,因为它们是为渲染而优化的,几何结构往往只是副产品。一个 3D 高斯溅射场景从特定角度看可能像一堵坚实的墙,但如果你提取网格,可能会发现它是由漂浮的椭球体或“雾”组成的,而不是一个平面。当你只有“稀疏视图”——即输入图像非常少——时,这个问题会更加严重,因为算法缺乏足够的约束来确定表面的实际位置。
已有尝试解决这一问题的方法,例如使用像 NeuS 或 VolSDF 这样的符号距离函数 (SDF)。虽然这些方法能生成水密网格 (watertight meshes) ,但它们的训练通常很慢,并且难以处理“无界”场景 (即背景无限延伸的大型户外环境) 。
MAtCha (代表 Mesh as an Atlas of Charts,即将网格视为图卡集) 提出了一种混合方法。它利用现代 AI 深度估计器的详细先验信息,并使用高斯溅射的可微能力将其细化为连贯的 3D 表面。

如上表所示,MAtCha 的独特之处在于它能同时处理稀疏视图、无界场景的重建,并保持极快的训练速度。
核心概念: 图卡集 (Atlas of Charts)
MAtCha 的核心思想不是像 NeRF 那样将场景表面建模为密度体积,也不像 3DGS 那样建模为粒子云,而是将其建模为 2D 流形 (2D Manifold) 。
在数学上,流形是一个可以局部展平为 2D 平面的表面。想象一个地球仪: 它是一个球体,但你可以将其表示为一本平面地图集 (即 atlas) 。每一张地图都是一个“图卡 (chart)”。如果你正确地缝合这些图卡,就能表示整个 3D 物体。
在 MAtCha 中,每一张输入图像对应一个“图卡”。
- 输入: 一组稀疏的 RGB 图像。
- 初始图卡: 从该图像生成的深度图。
- 目标: 对这些深度图进行变形和缝合,使它们在 3D 空间中完美对齐,形成单一、平滑的网格。
流程概览
MAtCha 流程分几个明显的阶段运行。首先,它使用单目深度估计初始化几何结构。然后,它使用神经网络将这些图卡变形以适应稀疏的 SfM 点。最后,它使用高斯渲染来细化表面。

让我们详细拆解这些步骤。
第一步: 使用单目深度进行初始化
研究人员利用了预训练单目深度估计器 (具体来说是 DepthAnythingV2) 的强大功能。这些是基于海量数据集训练的 AI 模型,能够预测单张图像中每个像素的深度。
虽然这些模型在捕捉高频细节 (锐利的边缘、复杂的纹理) 方面表现惊人,但它们存在尺度模糊性 (scale ambiguity) 。 模型知道灯在墙的前面,但不知道灯是距离 1 米还是 10 米。它还会导致不同视图之间的不一致——物体的大小在图像 A 中可能看起来与图像 B 中不同。
MAtCha 获取这些初始深度图,并将其“反向投影”到 3D 空间中。这就创建了初始的图卡,尽管它们此时还是错位的。
第二步: 神经变形模型
这是论文中最具创新性的部分。我们有一组 3D 图卡 (来自深度图) ,它们看起来细节丰富,但彼此之间或与真实的 3D 世界无法对齐。我们需要对它们进行变形以使其拟合。
以前的方法尝试使用简单的仿射缩放 (线性拉伸整个深度图) 。这种方法太死板了。其他方法尝试逐像素优化,但这会破坏深度估计器提供的精细细节。
MAtCha 引入了一种轻量级图卡变形模型 (Lightweight Chart Deformation Model) 。 它使用一个微型多层感知机 (MLP) 来学习变形场 \(\Delta\)。
图卡上某点的更新位置定义为:

这里,\(\psi^{(0)}\) 是初始图卡位置 (来自单目深度) ,而 \(\Delta_i\) 是为使其对齐而施加的变形。
图卡编码与深度编码
为了计算这个变形 \(\Delta\),MLP 接收特定的特征。作者使用一种稀疏的 2D 可学习特征网格,称为图卡编码 (Chart Encodings) (\(E_i\))。

然而,仅有 2D 网格是不够的。场景中的物体通常具有锐利的不连续性——想象一下桌子的边缘与其背后的地板。在 2D 图像中相邻的点在 3D 深度上可能相距数米。如果我们以相同的方式扭曲它们,就会得到畸变 (类似拉伸橡皮膜般的扭曲) 。
为了解决这个问题,MAtCha 添加了深度编码 (Depth Encodings) (\(z_i(d)\))。这使得网络能够根据点的初始深度以不同的方式对点进行变形,即使它们在图像中是邻居。

这种结合使得模型能够执行低频变形 (修正整体形状) ,同时保留由初始深度图提供的高频细节 (纹理和锐利边缘) 。
第三步: 与运动恢复结构 (SfM) 对齐
网络如何知道怎样变形图卡?它使用由运动恢复结构 (SfM) 生成的稀疏 3D 点作为锚点。作者使用一种名为 MASt3R-SfM 的方法来获取这些相机位姿和稀疏点。
优化过程同时最小化多个损失函数。
1. 拟合损失 (\(\mathcal{L}_{fit}\)): 这鼓励图卡接触由 SfM 提供的稀疏 3D 点。

然而,SfM 点可能包含噪声或离群点。为了处理这个问题,作者引入了置信度图 (confidence map) (\(C_i\))。网络学习图卡的哪些区域是可靠的,哪些不是,从而自动降低离群点的权重。

2. 结构损失 (\(\mathcal{L}_{struct}\)): 我们想要对齐图卡,但我们不想破坏原始单目深度图中的精美细节。该损失强制变形后图卡的法线 (\(N\)) 和曲率 (\(M\)) 与原始深度图相匹配。

3. 对齐损失 (\(\mathcal{L}_{align}\)): 最后,由于我们有多个图卡 (每张图像一个) ,它们必须重叠以形成单一表面。该损失将不同图卡的重叠区域拉到一起。

总损失结合了这三个目标:

这个优化步骤非常快,通常在几分钟内收敛。
第四步: 使用高斯面元进行细化
一旦图卡在几何上对齐,MAtCha 就会切换到光度细化 。 这就是名字中“高斯”部分的由来。
MAtCha 不是使用 3D 体积高斯 (椭球体) ,而是直接在图卡表面实例化 2D 高斯面元 (Gaussian Surfels) 。 可以把它们想象成绘制在网格上的扁平、有纹理的斑点。
模型使用高斯光栅化器渲染场景,并将结果与输入图像进行比较。因为高斯被绑定在网格 (图卡) 上,优化渲染结果也就同时微调了图卡的几何形状。
细化过程使用标准的光度损失 (比较像素颜色) :

它还包括正则化项,以确保高斯不会偏离表面法线或产生伪影。

这一阶段确保最终模型不仅几何准确,而且能够进行逼真的渲染。
网格提取: 获取最终的 3D 模型
优化后,我们得到了一组对齐、细化过的图卡。为了获得可用的 3D 网格,MAtCha 使用两种可能的方法:
- 多分辨率 TSDF 融合: 这是一种经典技术,将深度图融合到体素网格中。MAtCha 使用多分辨率方法来同时捕获前景细节和背景场景。
- 自适应四面体化: 改编自高斯不透明度场 (GOF),该方法通过根据不透明度雕刻四面体来创建网格。
如下面的对比所示,自适应四面体化 (右) 倾向于产生比 TSDF (左) 更锐利、无孔洞的网格。

实验结果
MAtCha 的结果令人印象深刻,特别是在其他方法失效的“稀疏视图”范畴中。
表面质量
在仅使用 3 张输入图像的 DTU 数据集 (物体扫描的标准基准) 上测试时,MAtCha 优于以前的最先进方法,如 Spurfies 和 NeuS。

你可以从下面的视觉差异中看出端倪。即使视图非常少,MAtCha 也能恢复清晰的几何结构。请注意,3 个视图 (顶行) 足以获得建筑物的整体形状,而 10 个视图 (底行) 则揭示了玩具推土机轮胎花纹等复杂细节。

无界场景
当场景不是房间中央的单个物体时,大多数稀疏视图方法都会失败。MAtCha 可以有效地处理“无界”户外场景。
在下图中,对比自行车和地面的重建。基线方法 (2DGS 和 GOF) 产生了嘈杂、破碎的网格。MAtCha 生成了一个连贯的表面,同时捕获了前景车辆和背景环境。

与前馈方法的比较
研究人员还将 MAtCha 与 MVSplat 等“前馈”方法进行了比较。前馈方法试图在单次传递中预测 3D 模型,无需优化。虽然速度很快,但它们通常在复杂场景的分辨率和真实感方面表现不佳。MAtCha 通过执行快速优化 (几分钟) ,生成了明显更清晰的渲染图。

为什么变形模型很重要
消融研究 (即关闭模型部分功能的实验) 证实, 图卡编码和深度编码是必不可少的。没有它们,倒角距离 (误差度量) 几乎翻倍。

结论
MAtCha Gaussians 代表了 3D 计算机视觉向前迈出的重要一步。通过将场景重新思考为“图卡集”,作者成功地结合了两个世界的优势: 单目深度估计的显式几何先验和高斯溅射的可微渲染能力。
主要要点是:
- 混合表示: 与体积云相比,将表面建模为 2D 流形可以更轻松地进行初始化和约束。
- 鲁棒对齐: 神经变形模型有效地弥合了单目深度 (细节好,尺度差) 和 SfM (尺度好,细节稀疏) 之间的差距。
- 高效率: 仅需极少的图像,即可在几分钟而非几小时内实现高质量的重建。
这项技术为数据稀缺但质量不可妥协的应用铺平了道路——例如游戏的快速 3D 资产创建、未知环境中的机器人导航,以及仅凭几张游客照片保护文化遗产遗址。
](https://deep-paper.org/en/paper/2412.06767/images/cover.png)