引言: 人类“构想”几何结构的能力

想象一下你正站在一间教室里。你拍了一张前方黑板的照片。然后,你转身走到教室后面,拍了一张学生课桌的照片。这两张照片没有任何重叠——它们之间没有共同的视觉特征。

如果你将这两张图片输入传统的计算机视觉算法,并问: “第二台相机相对于第一台相机位于哪里?”,算法会失效。它会寻找匹配的像素、关键点或纹理。因为找不到这些,它无法在数学上计算出几何关系。

然而,作为一个人类,你可以做出合理的猜测。你知道教室长什么样。你知道课桌通常是一排排面向黑板的。你拥有“世界先验 (world prior) ”——即关于世界结构的心智模型。

这就引出了谷歌和康奈尔大学的研究人员提出的一个迷人问题: 我们能否通过使用生成式视频模型,赋予计算机同样的直觉?

在这篇文章中,我们将深入探讨论文 “Can Generative Video Models Help Pose Estimation?” (生成式视频模型能帮助姿态估计吗?) 。 我们将探索一种名为 InterPose 的新颖方法,它使用视频生成 AI (如 Sora、Runway 或 DynamiCrafter) 来“构想 (幻视) ”两张非重叠图像之间缺失的视觉信息,从而让我们能够解决以前无法解决的几何问题。

姿态估计方法的比较。在左侧,标准的姿态模型在非重叠图像上失效 (红色叉号) 。在右侧,提出的方法生成视频来填补空白,从而实现了准确的姿态估计 (绿色对勾) 。

如上图 1 所示,核心思想简单而深刻: 如果两张图像不重叠,就用 AI 生成一段连接它们的视频。然后,利用该视频来推断相机曾经所在的位置。

背景: 相对姿态估计的挑战

在剖析解决方案之前,我们需要严格地定义问题。

姿态的数学原理

在计算机视觉中, 相对姿态估计 (Relative Pose Estimation) 是确定两个相机视角之间 3D 变换的任务。如果我们有图像 A 和图像 B,我们想要找到将相机从位置 A 移动到位置 B 的旋转矩阵 (\(R\)) 和平移向量 (\(t\))。

从数学上讲,如果 \(T_A\) 和 \(T_B\) 是我们要处理的两张图像的世界到相机的变换 (world-to-camera transformations) ,它们表示为:

变换 T_A 和 T_B 的矩阵表示,包括旋转 (R) 和平移 (t) 分量。

我们的目标是恢复相对姿态 \(T_{rel} = T_B T_A^{-1}\)。

“宽基线”问题

传统方法 (如 SIFT + RANSAC) 甚至现代深度学习方法 (如 LoFTR) 都依赖于对应关系 (correspondences) 。 它们识别图像 A 中的特定点 (例如桌角) ,并试图在图像 B 中找到完全相同的点。通过分析这些点的移动方式,它们可以计算出相机的运动。

这种方法在“宽基线 (wide baseline) ”场景中会碰壁——即相机距离太远,以至于图像之间几乎没有视觉重叠的情况。如果桌角在两张图像中不同时可见,数学计算就会崩溃。

最近,一种名为 DUSt3R 的最先进模型展示了令人印象深刻的结果,它通过学习全局对齐点云而无需显式的特征匹配。然而,即使是 DUSt3R 在视角变化极端的情况下也会很吃力。它本质上缺乏理解两个完全不同的视角如何连接的“想象力”。

核心方法: InterPose

研究人员提出了 InterPose , 这是一个利用生成式视频模型作为“世界先验”的框架。

视频模型是在互联网规模的视频数据上训练的。它们“见过”数百万次的相机摇摄、缩放和旋转。它们隐式地理解 3D 几何、物体恒常性和场景布局。假设是,我们可以提取这种隐性知识来帮助显式的姿态估计。

第一步: 构想 (幻视) 桥梁

该过程始于两张静态输入图像,\(I_A\) 和 \(I_B\)。目标是在它们之间创建一个密集的视觉过渡。我们将这两张图视为视频的第一帧和最后一帧,并要求生成模型填充中间部分。

我们可以将视频生成函数表示为 \(f_{vid}\),它接收这两张图像和一个文本提示词 \(p\) (描述场景) ,以生成一系列帧:

显示视频生成函数 f_vid 的方程,接收图像 I_A、I_B 和提示词 p 以输出一系列帧。

研究人员测试了三种模型: DynamiCrafterRunway Gen-3 Alpha TurboLuma Dream Machine 。 通过向这些模型提供场景描述 (由 GPT-4 自动生成) ,它们生成了从视角 A 平滑过渡到视角 B 的插帧视频。

生成视频的定性示例。左栏是起始图像,右栏是目标图像,中间显示了 AI 生成的过渡帧。

如上图所示,视频模型成功地“构想”了中间步骤。在第一行 (DynamiCrafter) 中,模型推断出了街道场景的空间布局。在最后一行中,它理解了基座上玩具的 3D 结构。

第二步: 不一致性问题

如果生成式视频模型是完美的物理模拟器,我们的工作就完成了。我们可以简单地在生成的视频上运行运动恢复结构 (SfM) 。

然而,生成模型是概率性的,容易产生幻觉。它们优先考虑视觉合理性而非几何一致性。生成的视频乍一看对人类来说可能很真实,但可能包含物理上不可能的扭曲。

视频生成中常见失败模式的示例。微波炉凭空出现在水槽上方;场景不自然地变形;物体外观发生变化。

上图突出了这些失败模式。在第一行,微波炉神奇地出现在水槽上方。在其他行中,几何结构发生了“变形 (morphing) ”而不是刚性旋转。如果我们把这些“坏”帧输入到姿态估计器中,结果将是一堆垃圾。

第三步: 自洽性 (Self-Consistency) 评分

这是论文最关键的贡献。由于我们不能盲目相信单个生成的视频,作者提出了一种 自洽性 (Self-Consistency) 机制。

直觉是: “真理是一致的;幻觉是随机的。”

如果我们生成了一个静态场景的有效视频,那么从任何帧子集估计出的相机姿态应该大致相同。如果视频在变形或出现故障,不同的帧子集将产生截然不同的姿态估计。

算法流程

  1. 生成多个视频: 对于每一对图像 (\(I_A, I_B\)),生成 \(n\) 个不同的视频 (使用不同的提示词或通过交换顺序 \(I_B \to I_A\)) 。
  2. 采样于集: 对于每个视频,随机选择 \(m\) 个帧子集。每个子集包括原始的开始/结束图像加上一些生成的中间帧。
  3. 估计姿态: 将每个子集输入姿态估计器 (DUSt3R)。
  4. 一致性评分: 计算该视频内姿态估计的变化程度。

设 \(f_{pose}\) 为我们的姿态估计器 (DUSt3R),它接收一组帧并输出相对姿态 \(\hat{T}\):

定义姿态估计器函数 f_pose 的方程。

为了衡量不一致性,作者使用了 中心点距离 (Medoid Distance) 。 对于特定的生成视频,他们查看从其不同帧子集预测的所有姿态。中心点 (Medoid) 是这些预测的“中心”。分数是所有预测到这个中心的平均距离。

中心点距离 (D_med) 的方程,计算姿态估计之间的最小平均距离。

低的 \(D_{med}\) 意味着视频在几何上是一致的——无论你看哪些帧,几何结构都讲述着相同的故事。

可视化一致性

自洽性的可视化。左侧 (a) 生成了两个视频。右侧 (b, c) 中,从视频 1 (红色) 估计的姿态紧密聚集,表明一致性高。视频 0 (紫色) 产生的姿态分散且不可靠。

上面的可视化完美地捕捉了这一点。看右边的球形图。

  • 视频 0 (紫色) : 姿态估计散落各处。这个视频可能有变形伪影。
  • 视频 1 (红色) : 姿态估计紧密聚集。这个视频代表了一致的 3D 运动。

最终指标

在实践中,一个视频可能“一致地错误” (例如,高度一致但将 180 度翻转估计为 0 度) 。为了防止这种情况,作者添加了一个偏置项,将预测锚定到仅从原始图像对得出的估计值。

总分 \(D_{total}\) 结合了自洽性 (中心点距离) 和与基线预测的距离:

D_total 的方程,结合了中心点距离和到基线姿态估计的距离。

算法只需选择 \(D_{total}\) 最低的视频,并使用其中心点姿态作为最终答案。

实验与结果

研究人员在四个不同的数据集上评估了 InterPose:

  1. Cambridge Landmarks (室外,城市) 。
  2. ScanNet (室内) 。
  3. DL3DV-10K (室外,场景级) 。
  4. NAVI (以物体为中心) 。

他们专门针对具有显著偏航角变化 (50°-90°) 且几乎没有重叠的困难图像对。

定量分析

结果表明,添加生成的帧始终有助于姿态估计,优于单独在图像对上使用的最先进 DUSt3R 模型。

朝外场景 (最难的情况)

朝外相机 (如走在街上或环顾房间) 通常会导致非重叠的视角。这正是 InterPose 大放异彩的地方。

表 1 显示了 Cambridge Landmarks 和 ScanNet 上的结果。InterPose (Ours) 始终实现比基线更低的误差。

在表 1 中,查看 MRE (平均旋转误差) 和 MTE (平均平移误差) 。数值越低越好。

  • DUSt3R (Pair): 在 Cambridge Landmarks 上,旋转误差为 13.28°。
  • Ours (Runway): 将此误差降低到 10.78°。
  • Ours (Dream Machine): 在 ScanNet 上,将旋转误差从 21.31° 降低到 17.65°。

注意 “Ours (Avg.)”“Ours (Medoid)” 行的对比。简单地平均所有预测 (“Avg.”) 通常比基线表现更差。这证明了 自洽性评分 (Medoid) 对于过滤掉“幻觉”垃圾至关重要。

视觉证据

这在 3D 中看起来真的更好吗?是的。

3D 重建的定性比较。第三栏显示 DUSt3R 失败 (几何结构不完整) 。最后一栏显示 InterPose 使用生成的帧成功重建了场景。

在图 5 中,第三栏显示了 DUSt3R 试图仅从图像对估计姿态。重建结果稀疏或错误 (对比红色的真实相机与预测的蓝色/金色相机) 。最后一栏显示了利用生成视频帧时的结果。相机姿态与真实情况更加吻合,点云也更密集、更连贯。

朝内场景 (较容易的情况)

对于相机看着物体的以物体为中心的数据集 (NAVI, DL3DV) ,通常存在一些重叠。

表 2 显示了 DL3DV-10K 和 NAVI 上的结果。改进幅度较小但仍然存在。

如表 2 所示,基线 DUSt3R 在这里已经相当不错,因为存在重叠。然而,InterPose 仍然挤出了一些性能提升,准确度提高了大约 1-4 度。这表明该方法不会“破坏”较容易的情况;它是一个安全的附加组件。

关于 MASt3R?

作者还测试了 MASt3R , 这是 DUSt3R 的后续版本,使用了特征匹配。当图像重叠时,MASt3R 表现惊人,但当图像不重叠时,它会灾难性地失败。

图 8 显示了 MASt3R 的失败案例。右栏显示了与左侧 DUSt3R 相比破碎的网格。

图 8 说明了这一点。在非重叠对上,MASt3R 对匹配的依赖导致它生成破碎的几何结构。图像中包含的表格 (表 3) 定量地证实了这一点,在像 Cambridge 这样的数据集上,MASt3R 有巨大的误差 (36.55°) ,而 InterPose 保持在较低水平 (约 12°) 。这证实了当视觉重叠消失时,来自视频的“世界先验”优于特征匹配。

“从左到右”的偏差

研究过程中发现的一个有趣的怪现象是视频模型存在偏差。由于许多训练视频是从左向右摇摄的,模型倾向于生成特定的运动。

生成视频模型中从左到右偏差的示意图以及交换输入顺序的解决方案。

为了缓解这个问题,作者在两个方向上生成视频 (\(I_A \to I_B\) 和 \(I_B \to I_A\)) ,给自洽性算法提供更多样化的运动来评估。

结论与启示

这篇论文填补了计算机视觉领域的一个重大空白。几十年来,“重叠”是 3D 重建的硬性要求。如果你不能在两张图像中都看到它,你就无法映射它。

InterPose 证明了我们可以用语义理解来替代视觉重叠。通过利用生成式视频模型中海量的“世界知识”,我们可以插值出缺失的视觉数据。

以下是主要收获:

  1. 视频模型是几何先验: 它们隐式地理解 3D 结构,即使它们不是完美的物理引擎。
  2. 信任,但要核实: 你不能简单地相信一个生成的视频。像 自洽性评分 这样的选择机制对于过滤幻觉是强制性的。
  3. 填补空白: 这种方法使得在标准特征匹配结果为零的“不可能”宽基线场景中进行姿态估计成为可能。

实验中的“Oracle (神谕) ”结果 (即手动选择最佳生成视频的情况) 显示了巨大的潜在改进空间 (例如,将误差降低到约 3°) 。这表明,随着视频生成模型在保真度和一致性方面的提高,这项技术只会变得更加强大。我们正迈向这样一个未来: AI 不仅分析它看到的几何结构,还能构想它隐含的几何结构。