引言
几十年来,计算机视觉领域一直在追逐一个特定的梦想: 将几张扁平的 2D 照片瞬间转化为完美、可漫游的 3D 世界。这一过程被称为摄影测量 (Photogrammetry) , 它是现代 3D 内容创作、测绘和特效的基石。然而,传统的 3D 重建之路颇为坎坷。它通常涉及一个由不同算法组成的碎片化流水线——一个用来计算摄像机的朝向,另一个用来估计深度,还有一个用来将所有内容拼接在一起。
想象一下烤蛋糕的过程,你需要不同的厨师分别负责面粉、鸡蛋和糖霜,而且他们之间互不交流。错误会不断累积,如果其中一步失败,整个蛋糕就会塌陷。
Matrix3D 应运而生。
在南京大学、苹果公司和香港科技大学研究人员提出的一篇新论文中,一种统一的解决方案被公之于众。Matrix3D 是一个“大型摄影测量模型”,它不仅仅完成工作的一部分;它包揽了全部。通过利用一个巨大的多模态扩散 Transformer,该模型可以在单一架构内处理位姿估计、深度预测和新视图合成。

如图 1 所示,Matrix3D 充当了一个中心枢纽。无论你喂给它单张图像还是稀疏的无位姿照片集,它都会处理它们以生成必要的几何数据——位姿和深度——从而初始化高质量的 3D 高斯泼溅 (3D Gaussian Splatting) 优化。
在这篇文章中,我们将打破传统摄影测量各自为政的壁垒,探索 Matrix3D 如何利用巧妙的“掩码学习”策略,变身为 3D 重建领域的瑞士军刀。
背景: 碎片化难题
要理解 Matrix3D 的成就,我们首先需要了解现状。标准的 3D 重建流水线就像一场由几个不同阶段组成的接力赛:
- 运动恢复结构 (SfM): 这是起跑线。像 COLMAP 这样的算法会观察一组图像,找到匹配的特征点 (比如桌角) ,并利用几何学计算摄像机在 3D 空间中的位置。
- 多视图立体视觉 (MVS): 一旦摄像机位置已知,MVS 算法会尝试计算每个像素的距离 (深度估计) ,以构建密集的点云。
- 表面重建: 最后,这些点被网格化为实体表面,或者处理成神经辐射场 (NeRF) 或 3D 高斯泼溅。
问题在于?这些步骤是独立的。猜测摄像机位姿的算法对对象的密集几何形状一无所知,而深度估计器又严重依赖于完美的位姿估计器。如果 SfM 失败——在“稀疏视图” (例如,只有 2 或 3 张重叠很少的照片) 的情况下经常发生——整个流水线就会失败。
最近的“前馈”模型 (如 LRM 或 PF-LRM) 尝试使用深度学习直接从图像生成 3D。虽然速度很快,但它们往往缺乏精度,或者当输入图像没有附带完美的摄像机数据时会陷入困境。
Matrix3D 背后的研究人员提出了一个根本性的问题: 如果我们把位姿、深度和 RGB 像素视为同一种类型的数据,并训练一个模型同时学习它们之间的所有关系,会怎样?
核心方法: Matrix3D
Matrix3D 的才华在于它的统一性。它不使用一个神经网络处理位姿,另一个处理图像。相反,它利用了一个多模态扩散 Transformer (DiT) 。
1. 统一表示
Transformer 是 GPT-4 等大型语言模型背后的架构,擅长处理标记 (Token) 序列。为了将 Transformer 用于摄影测量,研究人员必须将所有 3D 数据转换为模型可以理解的格式: 2D 图。
- RGB 图像: 标准的 2D 像素网格。
- 深度: 表示为 2.5D 深度图 (像素强度等于距离的图像) 。
- 摄像机位姿: 这是巧妙的部分。他们没有使用数字矩阵 (Transformer 很难将其与图像关联起来) ,而是将摄像机表示为普吕克 (Plücker) 射线图 。 实际上,他们将摄像机的原点和观察方向编码成了类似图像的张量。
通过将所有内容转换为“图像”,模型可以使用相同的底层机制处理 RGB、位姿和深度。
2. 架构
该模型建立在 Hunyuan-DiT 架构 (一种强大的扩散 Transformer) 之上。它具有一个多视图编码器和一个多视图解码器 。
- 编码器: 接收“条件” (我们已知的内容) 。这可能是输入的照片,或者是已知的摄像机位姿。
- 解码器: 预测“目标” (我们想要的内容) 。这使用扩散过程——从噪声开始,迭代地将其细化为清晰的数据,无论该数据是新的图像角度、深度图还是摄像机位姿射线图。
为了确保模型理解空间关系,研究人员注入了位置编码,告诉 Transformer 特定的 Token 来自哪个视图,以及它代表什么模态 (RGB、位姿或深度) 。

3. 掩码学习: “填空”策略
图 2 展示了 Matrix3D 最关键的组件: 它的训练策略。研究人员受到了自然语言处理中使用的掩码自编码器 (MAE) 的启发。
在 NLP 中,你可以通过隐藏句子中的一个词来训练模型: “猫坐在 [掩码] 上。” 模型学会预测“垫子”。Matrix3D 将这种方法用于摄影测量。在训练期间,系统会随机掩盖数据的不同部分。
- 有时它隐藏位姿 , 只给模型图像 。 模型必须预测位姿 (位姿估计) 。
- 有时它隐藏未来的图像 , 给模型当前的图像和目标位姿 。 模型必须预测新的视图 (新视图合成) 。
- 有时它隐藏深度 , 迫使模型理解几何结构。
这种随机掩码允许单个训练好的模型处理灵活的输入/输出配置。你不需要一个“位姿估计器”和一个“深度估计器”。你只需要 Matrix3D。给它你有的,问它要你缺的。
4. 从预测到 3D 高斯泼溅
虽然 Matrix3D 很强大,但扩散模型有时会在不同视图之间产生不一致的细节幻觉。为了解决这个问题,研究人员使用 Matrix3D 的输出 (密集的图像、位姿和深度图) 作为3D 高斯泼溅 (3DGS) 的初始化。
3DGS 是一种渲染技术,它将场景表示为数百万个 3D 团块 (高斯球) 。通过优化这些团块以匹配 Matrix3D 的预测,系统强制执行严格的 3D 一致性,从而产生逼真、可导航的 3D 对象。
实验与结果
研究人员在几个具有挑战性的数据集上对 Matrix3D 进行了测试,包括 CO3D、RealEstate10k 和 Objaverse。结果表明,一个统一的通才模型确实可以超越专门的专才模型。
位姿估计
从稀疏视图 (例如,仅仅 2 张消防栓的照片) 估计摄像机角度是出了名的困难。作者将 Matrix3D 与传统方法 (如 COLMAP) 和深度学习方法 (如 RayDiffusion 和 DUSt3R) 进行了比较。

如图 3 所示,Matrix3D (右列) 几乎与真值 (黑色轴) 完美对齐,显著优于其他方法。在定量分析上,Matrix3D 在 CO3D 数据集上实现了 95.6% 的相对旋转精度 , 而 RayDiffusion 为 90.4%,COLMAP 仅为 31.3%。这证明了同时学习几何 (深度) 和外观 (RGB) 有助于模型理解摄像机必须处于什么位置。
新视图合成 (NVS)
NVS 是一项根据新角度臆想物体样貌的任务。这对于填补稀疏扫描的空白至关重要。

图 5 展示了 Matrix3D 生成复杂对象 (如风格化角色) 的一致且高度详细视图的能力。与以前经常产生模糊或几何上不可能的结果的方法不同,Matrix3D 保持了纹理保真度和结构完整性。
图 10 (下文) 进一步突出了该模型的灵活性,展示了深度预测能力。即使对于像游戏手柄或食物这样形状复杂的物体,深度图也是清晰且结构合理的。

无位姿稀疏视图重建
摄影测量的终极考验是拍摄几张未知摄像机位置的照片,并将它们转化为 3D 模型。大多数现有的 AI 模型要求你提供摄像机位姿。Matrix3D 不需要。
因为它能估计自己的位姿和深度,所以它可以从零开始重建场景。

图 7 展示了这种能力。从原始的、无位姿的输入 (左侧) 开始,Matrix3D 生成反向投影点云,以此初始化 3DGS 优化。结果 (右侧) 是高保真的 3D 渲染。这对各种物体都有效,从遥控器到复杂的卧室内部。
3D 高斯泼溅集成
最后,从扩散模型的输出到最终 3D 表示的过渡由高斯泼溅处理。这一步清理了噪声,并确保当你旋转物体时,它看起来是坚固且真实的。

图 6 将 Matrix3D 与 CAT3D 等其他最先进的重建方法进行了比较。“Ours” (我们的) 这一列显示了更清晰的细节和更好的几何形状保持,特别是在蛋糕和花瓶这种困难的俯视视角中。
结论与启示
Matrix3D 代表了我们处理 3D 计算机视觉方式的范式转变。通过摆脱僵化的多阶段流水线,拥抱统一的多模态生成模型,研究人员创建了一个鲁棒、灵活且高度准确的系统。
这项工作的主要收获包括:
- 统一行之有效: 将位姿、深度和 RGB 视为可互换的模态,允许特征交叉融合,从而提高所有任务的准确性。
- 掩码学习很强大: “填空”式的训练策略使单个模型能够在推理时适应任何可用 (或缺失) 的数据。
- 更好的初始化 = 更好的 3D: 通过生成高质量的深度和位姿估计,Matrix3D 允许像 3D 高斯泼溅这样的优化器收敛到以前使用稀疏数据无法实现的结果。
对于该领域的学生和研究人员来说,Matrix3D 表明摄影测量的未来不在于更好的几何公式,而在于更大、更通用的生成模型,通过大量数据学习物理世界的规律。纠结于 COLMAP 匹配失败的日子可能很快就会过去,取而代之的是给一个能“以 3D 方式观看”的模型发送简单的提示。
](https://deep-paper.org/en/paper/2502.07685/images/cover.png)