MASt3R 在两张视角变化极大的街景图像之间找到的密集对应关系。

图 1: 即使在极端视角变化下,MASt3R 也能预测出密集的像素对应关系,从而实现精确的相机标定、姿态估计和三维重建。

图像匹配是计算机视觉领域的无名英雄之一。它是众多应用背后的基础构建模块——从电影和电子游戏中用于创建 3D 模型的摄影测量法,到自动驾驶汽车和机器人中的导航系统。这项任务听起来很简单: 给定同一场景的两张图像,找出其中一张图像的哪些像素对应于另一张图像中的哪些像素。

几十年来,标准方法一直将其视为一个纯粹的二维问题。你在两张图像中检测“关键点”,描述每个关键点周围的局部区域,然后玩一个特征空间中的“连点成线”游戏。当图像相似时,这种方法效果很好,但如果给它两张从相反方向拍摄的同一建筑物图片,系统很快就会崩溃。视觉世界的变化实在太大。

但如果我们一直以来都用错了视角呢?一对匹配的像素不仅仅是看起来相似的图块——它们是三维空间中同一个点在两个不同视角下的投影。这个简单而深刻的洞见,是 NAVER LABS Europe 一篇开创性论文的核心。研究人员提出,要真正掌握二维图像匹配,我们必须将其扎根于三维。

他们的方法名为 MASt3R (Matching And Stereo 3D Reconstruction),它建立在一个强大的三维重建模型之上,并训练它成为一个世界级的图像匹配器。通过这种方式,它大幅超越当前最先进水平——在该领域最具挑战性的一个定位基准上取得了前所未有的30% 绝对提升

在本文中,我们将深入探讨 MASt3R: 它如何重新思考匹配问题、使之成为可能的巧妙架构,以及证明三维思维力量的惊人结果。


迈向三维感知的匹配之旅

在理解 MASt3R 的创新之前,让我们快速回顾一下图像匹配技术的发展脉络。

经典流程: 检测、描述、匹配

SIFT 等方法为代表的传统范式通常包含三个步骤:

  1. 检测: 在每张图像中找到一组稀疏的、显著且可重复的关键点 (例如角点) 。
  2. 描述: 为每个关键点创建一个紧凑的数值描述子,使其对旋转、光照和尺度变化具有不变性。
  3. 匹配: 将一张图像中的描述子与另一张图像中的描述子进行比较,通常通过最近邻搜索实现。

这个流程在视角相似时既快速又精确。但它只关注局部图块,忽略了全局几何上下文。因此,它会在重复区域 (如摩天大楼的窗户) 、低纹理区域 (如白墙) 以及严重视角偏差下失效。

较新的方法如 SuperGlue 通过图神经网络进行全局推理来改进匹配步骤——但检测与描述本质上仍是局部的。

密集化革命: 匹配一切

不依赖检测器的方法 (如 LoFTR) 跳过了关键点选择步骤。它们利用 Transformer 处理整幅图像,从而在所有像素间产生密集对应关系。这使它们在无纹理区域和重复模式下更加鲁棒,并在困难的基准上取得了新高。

但它们依然将问题视为二维到二维匹配——忽略了真实的三维几何。

范式转移: DUSt3R

DUSt3R 的出现改变了这一切——这是一个为三维重建而非匹配而设计的模型。给定两张未标定的图像,它预测一个*点图 *(pointmap) ——为每个像素分配空间中的三维坐标。

这样可以同时完成相机标定和场景重建。匹配关系也自然产生: 如果图像 1 中的像素 i 与图像 2 中的像素 j 对应到同一个三维点,那么它们就是匹配的。

DUSt3R 的三维引导匹配对极端视角变化有着惊人的鲁棒性——在严苛的 Map-free 定位基准上,它优于许多专门的二维匹配器。结论显而易见:** 理解三维几何,是寻找二维对应关系的强大武器**。


MASt3R 内部探秘: 两全其美

MASt3R 直接建立在 DUSt3R 的基础之上,并增加了一个专用的高精度匹配头。结果是: 一个能同时执行三维重建密集特征匹配的统一网络。

MASt3R 架构概览。两张输入图像由一个共享编码器和一个交叉注意力解码器处理。网络随后有两个头: 一个用于回归三维点图 (DUSt3R 部分) ,另一个用于输出密集局部特征描述子。

图 2: MASt3R 架构。共享的 ViT 编码器输出经交叉注意力解码器处理,分别进入用于 3D 回归的头和用于密集描述子的头。

3D 头: 几何锚定

这是 DUSt3R 的原始输出头。对于每个像素,它预测:

  • 点图 (\(X\)): 在共享相机坐标系下的三维位置。
  • 置信度图 (\(C\)): 模型对该像素三维预测的置信度。

训练时使用置信度加权的回归损失,鼓励预测点接近真实值,并允许模型自动降低不确定预测的权重。尤其重要的是,MASt3R 在条件允许时采用度量尺度——这对现实世界定位至关重要。

\[ \mathcal{L}_{\text{conf}} = \sum_{\nu \in \{1,2\}} \sum_{i \in \mathcal{V}^\nu} C_i^\nu \ell_{\text{regr}}(\nu, i) - \alpha \log C_i^\nu \]

匹配头: 释放精度

三维点图能产生鲁棒的粗匹配,但回归在像素级时可能带来噪声。MASt3R 的匹配头会生成密集的局部特征描述子 \(D^1\) 和 \(D^2\),为每个像素提供一个 \(d\) 维向量。

训练采用对比 InfoNCE 损失:

对于一个真实匹配 \((i,j)\),描述子 \(D_i^1\) 必须与 \(D_j^2\) 的相似度显著高于它与图像 2 中任意其他像素描述子的相似度。

[ \mathcal{L}{\text{match}} = -\sum{(i,j)\in\hat{\mathcal{M}}} \log \frac{s_{\tau}(i,j)}{\sum_{k\in\mathcal{P}^1} s_{\tau}(k,j)}

  • \log \frac{s_{\tau}(i,j)}{\sum_{k\in\mathcal{P}^2} s_{\tau}(i,k)} ]

最终目标函数结合两种损失:

\[ \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{conf}} + \beta\mathcal{L}_{\text{match}} \]

这种双重训练让 MASt3R 既能利用全局几何上下文获得鲁棒性,又能借助特征判别力捕获精细细节。


大规模高效匹配

密集特征图信息丰富但规模庞大——每幅图像有数十万个像素描述子。直接寻找互为最近邻的匹配,计算量是平方级,速度慢得难以接受。MASt3R 依靠两项关键创新解决了这个问题。

快速互为匹配

快速互为匹配算法示意图。它从一组稀疏点开始,迭代地寻找来回的最近邻,快速收敛到一组互为匹配。图表显示这种方法快了几个数量级,并且意外提升了性能。

图 3: 快速互为匹配从稀疏点开始,迭代寻找互为最近邻对并迅速收敛。它在实践中提速 64 倍,甚至还能提升准确率。

不用比较所有像素,从图像 1 中随机选取 \(k\) 个稀疏点开始:

  1. 在图像 2 中找到每个点的最近邻。
  2. 将这些点映射回图像 1 再找最近邻。
  3. 若一个点回到起点,说明找到了一对互为匹配——将其从活动集移除。
  4. 反复迭代直到收敛。

这样复杂度降至 \(O(kWH)\),实测提速 64 倍。出人意料的是,它还提升了精度: 该算法偏好大的“收敛盆地”,使匹配在图像上分布更均匀,从而改善下游的姿态估计。

从粗到精的匹配

如 MASt3R 这类 Transformer 以固定输入分辨率运行 (例如最大边长 512px) 。直接处理更大图像需降采样,导致细节丢失。

解决方案:

  1. 粗匹配阶段: 对降采样的整幅图像进行匹配。
  2. 聚焦: 确定包含粗匹配的高分辨率区域。
  3. 精匹配阶段: 对这些区域的重叠裁剪块在全分辨率下运行 MASt3R。
  4. 合并: 将精细匹配合并回原图坐标。

这能兼顾高分辨率精度和计算效率。


结果: MASt3R 实战表现

无地图定位

无地图重定位基准要求估计相机相对单张参考图的度量姿态——常伴随超过 \(180^\circ\) 的视角变化。

消融研究 (图 4,表 1) :

  • MASt3R 各方面均优于 DUSt3R。
  • 学到的描述子优于直接的三维点匹配。
  • 联合 3D 与匹配损失训练至关重要。
  • 使用 MASt3R 自行预测的度量深度可获得最高分。

在 Map-free 验证集上的消融研究结果,展示了 MASt3R 组件的优势。

图 4: 消融实验证实了每项核心设计选择都能提升性能。

与当前最先进方法相比,MASt3R 的 AUC 达到 93.3%,而 LoFTR 为 63.4%;中位平移误差由约 2 米降至 36 厘米

在 Map-free 测试集上与当前最先进方法的比较。MASt3R 取得了显著提升。

图 5: Map-free 测试集结果——MASt3R 带来了 30% 的绝对 AUC 增益。

来自 Map-free 数据集的定性示例,展示 MASt3R 在极端视角与外观变化下的匹配能力。

图 6: 即便视角 / 外观剧变,MASt3R 仍能找到可靠对应关系。


跨任务的通用性

  • 相对姿态估计: 在 CO3D 和 RealEstate10K 上,即便只用双视图,MASt3R 也能媲美甚至超越多视图方法。
  • 视觉定位: 在 Aachen Day-Night 与 InLoc 上取得最先进结果,室内场景表现尤佳;即使仅检索到一张数据库图像,性能依旧稳定。
  • 多视图立体 (MVS) : 在零样本设定下,通过三角化 MASt3R 的密集匹配,在 DTU 上获得高质量重建——优于特定领域训练过的竞争者。

在 DTU 数据集上的密集三维重建定性示例,仅通过三角化 MASt3R 匹配实现。

图 7: 基于 MASt3R 匹配的 DTU 密集重建——无需标定,无需领域微调。


结论: 三维视觉的新基石

MASt3R 并非仅是小幅改进——它是一次变革。通过立足像素对应关系的三维本质,它实现了前所未有的鲁棒性与精度。

关键要点:

  1. 三维是解决二维问题的钥匙。 理解几何学可克服极端视角与外观变化。
  2. 混合设计制胜。 三维点回归带来几何鲁棒性,学习描述子贡献细粒度精度。
  3. 效率成就实用。 快速互为匹配与从粗到精策略,让复杂模型真正落地。

通过在最具挑战性的视觉基准上改写最先进成果,MASt3R 指明了一条引人注目的新路径: 要真正理解图像的二维世界,我们必须拥抱它们所描绘的三维现实。