引言: 人类“构想”几何结构的能力
想象一下你正站在一间教室里。你拍了一张前方黑板的照片。然后,你转身走到教室后面,拍了一张学生课桌的照片。这两张照片没有任何重叠——它们之间没有共同的视觉特征。
如果你将这两张图片输入传统的计算机视觉算法,并问: “第二台相机相对于第一台相机位于哪里?”,算法会失效。它会寻找匹配的像素、关键点或纹理。因为找不到这些,它无法在数学上计算出几何关系。
然而,作为一个人类,你可以做出合理的猜测。你知道教室长什么样。你知道课桌通常是一排排面向黑板的。你拥有“世界先验 (world prior) ”——即关于世界结构的心智模型。
这就引出了谷歌和康奈尔大学的研究人员提出的一个迷人问题: 我们能否通过使用生成式视频模型,赋予计算机同样的直觉?
在这篇文章中,我们将深入探讨论文 “Can Generative Video Models Help Pose Estimation?” (生成式视频模型能帮助姿态估计吗?) 。 我们将探索一种名为 InterPose 的新颖方法,它使用视频生成 AI (如 Sora、Runway 或 DynamiCrafter) 来“构想 (幻视) ”两张非重叠图像之间缺失的视觉信息,从而让我们能够解决以前无法解决的几何问题。

如上图 1 所示,核心思想简单而深刻: 如果两张图像不重叠,就用 AI 生成一段连接它们的视频。然后,利用该视频来推断相机曾经所在的位置。
背景: 相对姿态估计的挑战
在剖析解决方案之前,我们需要严格地定义问题。
姿态的数学原理
在计算机视觉中, 相对姿态估计 (Relative Pose Estimation) 是确定两个相机视角之间 3D 变换的任务。如果我们有图像 A 和图像 B,我们想要找到将相机从位置 A 移动到位置 B 的旋转矩阵 (\(R\)) 和平移向量 (\(t\))。
从数学上讲,如果 \(T_A\) 和 \(T_B\) 是我们要处理的两张图像的世界到相机的变换 (world-to-camera transformations) ,它们表示为:

我们的目标是恢复相对姿态 \(T_{rel} = T_B T_A^{-1}\)。
“宽基线”问题
传统方法 (如 SIFT + RANSAC) 甚至现代深度学习方法 (如 LoFTR) 都依赖于对应关系 (correspondences) 。 它们识别图像 A 中的特定点 (例如桌角) ,并试图在图像 B 中找到完全相同的点。通过分析这些点的移动方式,它们可以计算出相机的运动。
这种方法在“宽基线 (wide baseline) ”场景中会碰壁——即相机距离太远,以至于图像之间几乎没有视觉重叠的情况。如果桌角在两张图像中不同时可见,数学计算就会崩溃。
最近,一种名为 DUSt3R 的最先进模型展示了令人印象深刻的结果,它通过学习全局对齐点云而无需显式的特征匹配。然而,即使是 DUSt3R 在视角变化极端的情况下也会很吃力。它本质上缺乏理解两个完全不同的视角如何连接的“想象力”。
核心方法: InterPose
研究人员提出了 InterPose , 这是一个利用生成式视频模型作为“世界先验”的框架。
视频模型是在互联网规模的视频数据上训练的。它们“见过”数百万次的相机摇摄、缩放和旋转。它们隐式地理解 3D 几何、物体恒常性和场景布局。假设是,我们可以提取这种隐性知识来帮助显式的姿态估计。
第一步: 构想 (幻视) 桥梁
该过程始于两张静态输入图像,\(I_A\) 和 \(I_B\)。目标是在它们之间创建一个密集的视觉过渡。我们将这两张图视为视频的第一帧和最后一帧,并要求生成模型填充中间部分。
我们可以将视频生成函数表示为 \(f_{vid}\),它接收这两张图像和一个文本提示词 \(p\) (描述场景) ,以生成一系列帧:

研究人员测试了三种模型: DynamiCrafter、Runway Gen-3 Alpha Turbo 和 Luma Dream Machine 。 通过向这些模型提供场景描述 (由 GPT-4 自动生成) ,它们生成了从视角 A 平滑过渡到视角 B 的插帧视频。

如上图所示,视频模型成功地“构想”了中间步骤。在第一行 (DynamiCrafter) 中,模型推断出了街道场景的空间布局。在最后一行中,它理解了基座上玩具的 3D 结构。
第二步: 不一致性问题
如果生成式视频模型是完美的物理模拟器,我们的工作就完成了。我们可以简单地在生成的视频上运行运动恢复结构 (SfM) 。
然而,生成模型是概率性的,容易产生幻觉。它们优先考虑视觉合理性而非几何一致性。生成的视频乍一看对人类来说可能很真实,但可能包含物理上不可能的扭曲。

上图突出了这些失败模式。在第一行,微波炉神奇地出现在水槽上方。在其他行中,几何结构发生了“变形 (morphing) ”而不是刚性旋转。如果我们把这些“坏”帧输入到姿态估计器中,结果将是一堆垃圾。
第三步: 自洽性 (Self-Consistency) 评分
这是论文最关键的贡献。由于我们不能盲目相信单个生成的视频,作者提出了一种 自洽性 (Self-Consistency) 机制。
直觉是: “真理是一致的;幻觉是随机的。”
如果我们生成了一个静态场景的有效视频,那么从任何帧子集估计出的相机姿态应该大致相同。如果视频在变形或出现故障,不同的帧子集将产生截然不同的姿态估计。
算法流程
- 生成多个视频: 对于每一对图像 (\(I_A, I_B\)),生成 \(n\) 个不同的视频 (使用不同的提示词或通过交换顺序 \(I_B \to I_A\)) 。
- 采样于集: 对于每个视频,随机选择 \(m\) 个帧子集。每个子集包括原始的开始/结束图像加上一些生成的中间帧。
- 估计姿态: 将每个子集输入姿态估计器 (DUSt3R)。
- 一致性评分: 计算该视频内姿态估计的变化程度。
设 \(f_{pose}\) 为我们的姿态估计器 (DUSt3R),它接收一组帧并输出相对姿态 \(\hat{T}\):

为了衡量不一致性,作者使用了 中心点距离 (Medoid Distance) 。 对于特定的生成视频,他们查看从其不同帧子集预测的所有姿态。中心点 (Medoid) 是这些预测的“中心”。分数是所有预测到这个中心的平均距离。

低的 \(D_{med}\) 意味着视频在几何上是一致的——无论你看哪些帧,几何结构都讲述着相同的故事。
可视化一致性

上面的可视化完美地捕捉了这一点。看右边的球形图。
- 视频 0 (紫色) : 姿态估计散落各处。这个视频可能有变形伪影。
- 视频 1 (红色) : 姿态估计紧密聚集。这个视频代表了一致的 3D 运动。
最终指标
在实践中,一个视频可能“一致地错误” (例如,高度一致但将 180 度翻转估计为 0 度) 。为了防止这种情况,作者添加了一个偏置项,将预测锚定到仅从原始图像对得出的估计值。
总分 \(D_{total}\) 结合了自洽性 (中心点距离) 和与基线预测的距离:

算法只需选择 \(D_{total}\) 最低的视频,并使用其中心点姿态作为最终答案。
实验与结果
研究人员在四个不同的数据集上评估了 InterPose:
- Cambridge Landmarks (室外,城市) 。
- ScanNet (室内) 。
- DL3DV-10K (室外,场景级) 。
- NAVI (以物体为中心) 。
他们专门针对具有显著偏航角变化 (50°-90°) 且几乎没有重叠的困难图像对。
定量分析
结果表明,添加生成的帧始终有助于姿态估计,优于单独在图像对上使用的最先进 DUSt3R 模型。
朝外场景 (最难的情况)
朝外相机 (如走在街上或环顾房间) 通常会导致非重叠的视角。这正是 InterPose 大放异彩的地方。

在表 1 中,查看 MRE (平均旋转误差) 和 MTE (平均平移误差) 。数值越低越好。
- DUSt3R (Pair): 在 Cambridge Landmarks 上,旋转误差为 13.28°。
- Ours (Runway): 将此误差降低到 10.78°。
- Ours (Dream Machine): 在 ScanNet 上,将旋转误差从 21.31° 降低到 17.65°。
注意 “Ours (Avg.)” 与 “Ours (Medoid)” 行的对比。简单地平均所有预测 (“Avg.”) 通常比基线表现更差。这证明了 自洽性评分 (Medoid) 对于过滤掉“幻觉”垃圾至关重要。
视觉证据
这在 3D 中看起来真的更好吗?是的。

在图 5 中,第三栏显示了 DUSt3R 试图仅从图像对估计姿态。重建结果稀疏或错误 (对比红色的真实相机与预测的蓝色/金色相机) 。最后一栏显示了利用生成视频帧时的结果。相机姿态与真实情况更加吻合,点云也更密集、更连贯。
朝内场景 (较容易的情况)
对于相机看着物体的以物体为中心的数据集 (NAVI, DL3DV) ,通常存在一些重叠。

如表 2 所示,基线 DUSt3R 在这里已经相当不错,因为存在重叠。然而,InterPose 仍然挤出了一些性能提升,准确度提高了大约 1-4 度。这表明该方法不会“破坏”较容易的情况;它是一个安全的附加组件。
关于 MASt3R?
作者还测试了 MASt3R , 这是 DUSt3R 的后续版本,使用了特征匹配。当图像重叠时,MASt3R 表现惊人,但当图像不重叠时,它会灾难性地失败。

图 8 说明了这一点。在非重叠对上,MASt3R 对匹配的依赖导致它生成破碎的几何结构。图像中包含的表格 (表 3) 定量地证实了这一点,在像 Cambridge 这样的数据集上,MASt3R 有巨大的误差 (36.55°) ,而 InterPose 保持在较低水平 (约 12°) 。这证实了当视觉重叠消失时,来自视频的“世界先验”优于特征匹配。
“从左到右”的偏差
研究过程中发现的一个有趣的怪现象是视频模型存在偏差。由于许多训练视频是从左向右摇摄的,模型倾向于生成特定的运动。

为了缓解这个问题,作者在两个方向上生成视频 (\(I_A \to I_B\) 和 \(I_B \to I_A\)) ,给自洽性算法提供更多样化的运动来评估。
结论与启示
这篇论文填补了计算机视觉领域的一个重大空白。几十年来,“重叠”是 3D 重建的硬性要求。如果你不能在两张图像中都看到它,你就无法映射它。
InterPose 证明了我们可以用语义理解来替代视觉重叠。通过利用生成式视频模型中海量的“世界知识”,我们可以插值出缺失的视觉数据。
以下是主要收获:
- 视频模型是几何先验: 它们隐式地理解 3D 结构,即使它们不是完美的物理引擎。
- 信任,但要核实: 你不能简单地相信一个生成的视频。像 自洽性评分 这样的选择机制对于过滤幻觉是强制性的。
- 填补空白: 这种方法使得在标准特征匹配结果为零的“不可能”宽基线场景中进行姿态估计成为可能。
实验中的“Oracle (神谕) ”结果 (即手动选择最佳生成视频的情况) 显示了巨大的潜在改进空间 (例如,将误差降低到约 3°) 。这表明,随着视频生成模型在保真度和一致性方面的提高,这项技术只会变得更加强大。我们正迈向这样一个未来: AI 不仅分析它看到的几何结构,还能构想它隐含的几何结构。
](https://deep-paper.org/en/paper/2412.16155/images/cover.png)