图 1: 即使在极端视角变化下,MASt3R 也能预测出密集的像素对应关系,从而实现精确的相机标定、姿态估计和三维重建。
图像匹配是计算机视觉领域的无名英雄之一。它是众多应用背后的基础构建模块——从电影和电子游戏中用于创建 3D 模型的摄影测量法,到自动驾驶汽车和机器人中的导航系统。这项任务听起来很简单: 给定同一场景的两张图像,找出其中一张图像的哪些像素对应于另一张图像中的哪些像素。
几十年来,标准方法一直将其视为一个纯粹的二维问题。你在两张图像中检测“关键点”,描述每个关键点周围的局部区域,然后玩一个特征空间中的“连点成线”游戏。当图像相似时,这种方法效果很好,但如果给它两张从相反方向拍摄的同一建筑物图片,系统很快就会崩溃。视觉世界的变化实在太大。
但如果我们一直以来都用错了视角呢?一对匹配的像素不仅仅是看起来相似的图块——它们是三维空间中同一个点在两个不同视角下的投影。这个简单而深刻的洞见,是 NAVER LABS Europe 一篇开创性论文的核心。研究人员提出,要真正掌握二维图像匹配,我们必须将其扎根于三维。
他们的方法名为 MASt3R (Matching And Stereo 3D Reconstruction),它建立在一个强大的三维重建模型之上,并训练它成为一个世界级的图像匹配器。通过这种方式,它大幅超越当前最先进水平——在该领域最具挑战性的一个定位基准上取得了前所未有的30% 绝对提升。
在本文中,我们将深入探讨 MASt3R: 它如何重新思考匹配问题、使之成为可能的巧妙架构,以及证明三维思维力量的惊人结果。
迈向三维感知的匹配之旅
在理解 MASt3R 的创新之前,让我们快速回顾一下图像匹配技术的发展脉络。
经典流程: 检测、描述、匹配
以 SIFT 等方法为代表的传统范式通常包含三个步骤:
- 检测: 在每张图像中找到一组稀疏的、显著且可重复的关键点 (例如角点) 。
- 描述: 为每个关键点创建一个紧凑的数值描述子,使其对旋转、光照和尺度变化具有不变性。
- 匹配: 将一张图像中的描述子与另一张图像中的描述子进行比较,通常通过最近邻搜索实现。
这个流程在视角相似时既快速又精确。但它只关注局部图块,忽略了全局几何上下文。因此,它会在重复区域 (如摩天大楼的窗户) 、低纹理区域 (如白墙) 以及严重视角偏差下失效。
较新的方法如 SuperGlue 通过图神经网络进行全局推理来改进匹配步骤——但检测与描述本质上仍是局部的。
密集化革命: 匹配一切
不依赖检测器的方法 (如 LoFTR) 跳过了关键点选择步骤。它们利用 Transformer 处理整幅图像,从而在所有像素间产生密集对应关系。这使它们在无纹理区域和重复模式下更加鲁棒,并在困难的基准上取得了新高。
但它们依然将问题视为二维到二维匹配——忽略了真实的三维几何。
范式转移: DUSt3R
DUSt3R 的出现改变了这一切——这是一个为三维重建而非匹配而设计的模型。给定两张未标定的图像,它预测一个*点图 *(pointmap) ——为每个像素分配空间中的三维坐标。
这样可以同时完成相机标定和场景重建。匹配关系也自然产生: 如果图像 1 中的像素 i
与图像 2 中的像素 j
对应到同一个三维点,那么它们就是匹配的。
DUSt3R 的三维引导匹配对极端视角变化有着惊人的鲁棒性——在严苛的 Map-free 定位基准上,它优于许多专门的二维匹配器。结论显而易见:** 理解三维几何,是寻找二维对应关系的强大武器**。
MASt3R 内部探秘: 两全其美
MASt3R 直接建立在 DUSt3R 的基础之上,并增加了一个专用的高精度匹配头。结果是: 一个能同时执行三维重建和密集特征匹配的统一网络。
图 2: MASt3R 架构。共享的 ViT 编码器输出经交叉注意力解码器处理,分别进入用于 3D 回归的头和用于密集描述子的头。
3D 头: 几何锚定
这是 DUSt3R 的原始输出头。对于每个像素,它预测:
- 点图 (\(X\)): 在共享相机坐标系下的三维位置。
- 置信度图 (\(C\)): 模型对该像素三维预测的置信度。
训练时使用置信度加权的回归损失,鼓励预测点接近真实值,并允许模型自动降低不确定预测的权重。尤其重要的是,MASt3R 在条件允许时采用度量尺度——这对现实世界定位至关重要。
\[ \mathcal{L}_{\text{conf}} = \sum_{\nu \in \{1,2\}} \sum_{i \in \mathcal{V}^\nu} C_i^\nu \ell_{\text{regr}}(\nu, i) - \alpha \log C_i^\nu \]匹配头: 释放精度
三维点图能产生鲁棒的粗匹配,但回归在像素级时可能带来噪声。MASt3R 的匹配头会生成密集的局部特征描述子 \(D^1\) 和 \(D^2\),为每个像素提供一个 \(d\) 维向量。
训练采用对比 InfoNCE 损失:
对于一个真实匹配 \((i,j)\),描述子 \(D_i^1\) 必须与 \(D_j^2\) 的相似度显著高于它与图像 2 中任意其他像素描述子的相似度。
[ \mathcal{L}{\text{match}} = -\sum{(i,j)\in\hat{\mathcal{M}}} \log \frac{s_{\tau}(i,j)}{\sum_{k\in\mathcal{P}^1} s_{\tau}(k,j)}
- \log \frac{s_{\tau}(i,j)}{\sum_{k\in\mathcal{P}^2} s_{\tau}(i,k)} ]
最终目标函数结合两种损失:
\[ \mathcal{L}_{\text{total}} = \mathcal{L}_{\text{conf}} + \beta\mathcal{L}_{\text{match}} \]这种双重训练让 MASt3R 既能利用全局几何上下文获得鲁棒性,又能借助特征判别力捕获精细细节。
大规模高效匹配
密集特征图信息丰富但规模庞大——每幅图像有数十万个像素描述子。直接寻找互为最近邻的匹配,计算量是平方级,速度慢得难以接受。MASt3R 依靠两项关键创新解决了这个问题。
快速互为匹配
图 3: 快速互为匹配从稀疏点开始,迭代寻找互为最近邻对并迅速收敛。它在实践中提速 64 倍,甚至还能提升准确率。
不用比较所有像素,从图像 1 中随机选取 \(k\) 个稀疏点开始:
- 在图像 2 中找到每个点的最近邻。
- 将这些点映射回图像 1 再找最近邻。
- 若一个点回到起点,说明找到了一对互为匹配——将其从活动集移除。
- 反复迭代直到收敛。
这样复杂度降至 \(O(kWH)\),实测提速 64 倍。出人意料的是,它还提升了精度: 该算法偏好大的“收敛盆地”,使匹配在图像上分布更均匀,从而改善下游的姿态估计。
从粗到精的匹配
如 MASt3R 这类 Transformer 以固定输入分辨率运行 (例如最大边长 512px) 。直接处理更大图像需降采样,导致细节丢失。
解决方案:
- 粗匹配阶段: 对降采样的整幅图像进行匹配。
- 聚焦: 确定包含粗匹配的高分辨率区域。
- 精匹配阶段: 对这些区域的重叠裁剪块在全分辨率下运行 MASt3R。
- 合并: 将精细匹配合并回原图坐标。
这能兼顾高分辨率精度和计算效率。
结果: MASt3R 实战表现
无地图定位
无地图重定位基准要求估计相机相对单张参考图的度量姿态——常伴随超过 \(180^\circ\) 的视角变化。
消融研究 (图 4,表 1) :
- MASt3R 各方面均优于 DUSt3R。
- 学到的描述子优于直接的三维点匹配。
- 联合 3D 与匹配损失训练至关重要。
- 使用 MASt3R 自行预测的度量深度可获得最高分。
图 4: 消融实验证实了每项核心设计选择都能提升性能。
与当前最先进方法相比,MASt3R 的 AUC 达到 93.3%,而 LoFTR 为 63.4%;中位平移误差由约 2 米降至 36 厘米。
图 5: Map-free 测试集结果——MASt3R 带来了 30% 的绝对 AUC 增益。
图 6: 即便视角 / 外观剧变,MASt3R 仍能找到可靠对应关系。
跨任务的通用性
- 相对姿态估计: 在 CO3D 和 RealEstate10K 上,即便只用双视图,MASt3R 也能媲美甚至超越多视图方法。
- 视觉定位: 在 Aachen Day-Night 与 InLoc 上取得最先进结果,室内场景表现尤佳;即使仅检索到一张数据库图像,性能依旧稳定。
- 多视图立体 (MVS) : 在零样本设定下,通过三角化 MASt3R 的密集匹配,在 DTU 上获得高质量重建——优于特定领域训练过的竞争者。
图 7: 基于 MASt3R 匹配的 DTU 密集重建——无需标定,无需领域微调。
结论: 三维视觉的新基石
MASt3R 并非仅是小幅改进——它是一次变革。通过立足像素对应关系的三维本质,它实现了前所未有的鲁棒性与精度。
关键要点:
- 三维是解决二维问题的钥匙。 理解几何学可克服极端视角与外观变化。
- 混合设计制胜。 三维点回归带来几何鲁棒性,学习描述子贡献细粒度精度。
- 效率成就实用。 快速互为匹配与从粗到精策略,让复杂模型真正落地。
通过在最具挑战性的视觉基准上改写最先进成果,MASt3R 指明了一条引人注目的新路径: 要真正理解图像的二维世界,我们必须拥抱它们所描绘的三维现实。