近期生成式 AI 的爆发让我们拥有了能够通过简单的文本提示构想出独特图像和超现实视频的模型。我们见证了扩散模型的巨大进步,从生成静态肖像发展到了合成动态短片。然而,如果你仔细观察 AI 生成的视频,通常会发现一个微妙且令人困扰的问题: 世界并不总是保持“稳固”。

物体可能会随着相机的移动而轻微变形;房间的几何结构可能会发生不可能的偏移;或者背景可能会“幻觉”出与前几帧相矛盾的新细节。之所以出现这种情况,是因为大多数视频扩散模型学习的是随时间变化的像素一致性 , 但它们并不在本质上理解其渲染世界的 3D 结构。它们是优秀的 2D 艺术家,却是糟糕的 3D 建筑师。

在这篇深度文章中,我们将探索一个新的框架,称为 世界一致性视频扩散 (World-consistent Video Diffusion,简称 WVD) 。 这项研究提出了一个迷人的解决方案: 我们不应只教模型绘制像素 (RGB) ,而应教它同时构建世界的几何结构 (XYZ) 。通过显式地将 3D 坐标与颜色一起建模,WVD 将单图 3D 重建、视频生成和相机控制等任务统一到了一个强大的模型中。

图 1. WVD 从单张图像预测 6D 视频,通过单一扩散模型统一了多种 3D 任务。

问题所在: 视频与几何之间的鸿沟

要理解为什么 WVD 是必要的,我们首先需要看看当前的“3D 感知”生成是如何工作的。广义上讲,主要有两种方法:

  1. 隐式多视角扩散 (Implicit Multi-view Diffusion) : 使用海量视频数据集训练模型来预测下一帧。模型利用注意力机制观察之前的帧并“猜测”新视角应该是什么样子。虽然有效,但这是一种隐式的方法。模型并不知道椅子有靠背;它只知道当像素向左移动时,通常会出现椅子状的图案。这缺乏 3D 一致性的数学保证。
  2. 显式 3D 偏置 (Explicit 3D Biases) : 一些研究人员试图通过将体素渲染 (如 NeRFs) 直接嵌入生成流程来强制 3D 一致性。虽然这确保了对几何结构的尊重,但它计算量大,且施加了严格的约束,使其难以扩展到多样化的现实世界数据中。

WVD 背后的研究人员找到了一个中间地带。他们希望拥有标准扩散模型 (如 Stable Diffusion 或 Sora) 的可扩展性,同时具备 3D 引擎的显式几何基础。

他们的解决方案? 6D 视频。

标准视频在数据通道上是 3D 的 (红、绿、蓝) 。WVD 在 6 个通道上运行: RGB + XYZ 。 XYZ 通道不包含颜色;它们包含该像素处可见表面的精确全局 3D 坐标。通过训练模型同时生成这两者,视觉外观就与物理几何结构锁定在了一起。

核心方法: RGB-XYZ 扩散

WVD 的核心是一个 扩散 Transformer (DiT) , 它学习颜色和几何的联合分布。让我们分解一下使其成为可能的架构和数据表示。

1. XYZ 图像表示

点云是我们在计算机视觉中表示 3D 数据的标准方式——包含 X、Y 和 Z 坐标的点列表。然而,点云是非结构化的列表 (\(N \times 3\)) ,这使得它们非常不适合那些期望结构化像素网格的基于图像的神经网络。

为了弥合这一差距,作者将 3D 点云转换为 XYZ 图像

XYZ 投影公式

在这个公式中:

  • \(\pmb{X}\) 是原始点云。
  • \(\mathcal{N}\) 是一个归一化函数,将场景缩放到可管理的范围 (例如 \([-1, 1]\)) 。
  • \(\mathcal{R}\) 是一个 光栅化器 (rasterizer) 。 它利用相机参数 \(C\) 接收归一化后的点并对它们“拍张照片”。

这个虚拟相机捕捉的不是光 (颜色) ,而是坐标。如果你查看 XYZ 图像中的像素 \((u, v)\),该像素处的“颜色”值实际上告诉了你该点在 3D 世界中的确切位置。

为什么这比深度图更好? 深度图只告诉你一个像素距离当前视角的相机有多远。如果你移动相机,深度值会完全改变。而 XYZ 图像编码的是 全局 坐标。如果两个不同的相机看着桌子的同一个角落,该角落的 XYZ 值在两个视图中将是完全相同的 (假设校准完美) 。这提供了一个深度图所缺乏的强大的、显式的一致性监督信号。

2. 架构: 扩散 Transformer (DiT)

既然数据已经准备为“6D”帧 (3 个 RGB 通道 + 3 个 XYZ 通道) ,模型是如何学习的呢?

研究人员利用了扩散 Transformer (DiT)。与早期扩散模型中常见的旧式 U-Net 架构不同,DiT 使用自注意力机制,非常擅长建模长距离依赖关系——这对于理解物体正面与其背面的关系至关重要。

模型的输入不是原始像素。为了提高训练效率,图像首先使用变分自编码器 (VAE) 压缩到潜空间 (latent space) 。

潜变量拼接公式

如上式所示,模型获取 RGB 帧的潜嵌入 (\(\mathcal{E}(\pmb{x}^{\mathrm{RGB}})\)) 和 XYZ 帧的潜嵌入 (\(\mathcal{E}(\pmb{x}^{\mathrm{XYZ}})\)) ,并简单地将它们 拼接 (concatenate) 起来。

如果潜维度是 \(D\),则 Transformer 的输入是一个大小为 \(2D\) 的向量。这个简单的设计选择非常强大,因为它允许 WVD 使用预训练的视频扩散权重。模型将几何结构视为额外的信息通道,同时对世界的颜色和形状进行去噪。

3. WVD 流程

训练过程涉及向这些 6D 潜向量添加噪声,并教模型逆转这一过程——恢复干净的 RGB 和 XYZ 数据。

图 2. WVD 流程示意图。左侧部分展示了由 RGB 和 XYZ 帧组成的 6D 视频。右侧部分,WVD 基于指定的 RGB 帧 (红框高亮) 迭代地对 6D 视频进行去噪。

如图 2 所示:

  1. 输入: 单张 RGB 图像 (红框高亮) 作为条件。
  2. 过程: 模型迭代地对一系列帧进行去噪。
  3. 输出: 它生成一个视频序列,其中每一帧都同时具有视觉纹理 (RGB) 和几何坐标 (XYZ) 。

因为 XYZ 帧是与 RGB 一起生成的,生成模型的“幻觉”受到了限制。它很难生成一个在 3D 空间中没有对应位置的像素,从而强制视频在物理上保持一致。

WVD 作为“万能”模型

WVD 最引人注目的方面之一是它不仅仅是一个视频生成器。因为它建模了 \(P(\text{RGB}, \text{XYZ})\) 的联合概率,所以在推理过程中,可以使用 Inpainting (补全) 策略 将其适配到各种任务中。

在扩散模型中,Inpainting 允许你固定数据的某些已知部分,并要求模型生成其余部分。WVD 利用这一特性统一了三个截然不同的计算机视觉任务。

任务 1: 单图转 3D

如果你提供一张 RGB 图像,模型可以生成该图像的 XYZ 图 (单目深度估计) ,然后生成后续帧 (新视角合成) 。因为输出包含 XYZ 坐标,你可以直接将像素提升为 3D 点云。

图 4. WVD 合成的多视角 RGB 和 XYZ 图像,以及相关的重建点云。输入图像是在验证集中随机采样的。

图 4 展示了这一能力的实际效果。从一张卧室或厨房的照片 (左列) 开始,模型想象出移动视频中的光照变化和视角 (中间列) ,并重建出保留了家具和墙壁结构的 3D 点云 (右列) 。

任务 2: 多视角立体视觉 (视频深度估计)

如果你已经有一个视频 (RGB 帧) 但没有深度信息怎么办?你可以将 RGB 帧作为“已知”数据输入模型,并要求 WVD “Inpaint (补全) ”缺失的 XYZ 通道。

这有效地将生成模型转变为了判别式深度估计器。但与一次只看一帧的传统深度估计器不同,WVD 会观察整个序列,确保预测的几何结构随时间保持一致。

一旦预测出 XYZ 图,系统会执行后优化步骤,使用 Perspective-n-Point (PnP) 算法来细化相机参数和深度图。

重投影损失公式

该公式最小化了预测的全局坐标与从优化后的相机参数 (\(P, K\)) 和深度 (\(d\)) 导出的坐标之间的差异。这一步确保了最终 3D 重建的数学严谨性。

任务 3: 相机控制生成

对于创意专业人士来说,最令人兴奋的应用可能是可控生成。标准的视频扩散模型以难以指挥著称;你提示“向左摇摄”,模型可能会变成缩放。

WVD 通过使用几何作为把手解决了这个问题。

图 3. 相机控制的多视角生成流程示意图。我们首先使用 WVD 推断输入图像的几何结构,然后将其投影以获得新视角的 XYZ 图像。接着,我们采用 Inpainting 策略来采样 RGB 图像。

如图 3 所示,过程如下:

  1. 估计几何: 使用 WVD 获取第一帧的 3D 点。
  2. 重投影: 将“虚拟相机”物理移动到你想要的位置。将已知的 3D 点投影到这个新视图上。这会给你一个“部分” XYZ 图像 (稀疏点) 。
  3. Inpaint (补全) : 将此部分几何输入 WVD。模型看到几何约束 (“这个桌角必须在这里”) ,并填充其余的几何结构和相应的 RGB 像素。

这允许实现严格遵守物理定律的精确相机轨迹。

实验结果

研究人员在包含 RealEstate10K (室内场景) 、ScanNet 和 MVImgNet (物体) 的大型混合数据集上训练了 WVD。训练这个 20 亿参数的模型在 64 个 A100 GPU 上花费了大约两周时间——这是一笔巨大的计算投资,但也换来了多功能性的回报。

定量性能

团队将 WVD 与 CameraCtrl 和 MotionCtrl 等最先进的模型进行了比较。

表 1. 单图转 3D 的定量比较。

在表 1 中,我们可以看到 XYZ 组件的重要性:

  • WVD w/o XYZ: 当模型仅在 RGB 上训练 (标准视频扩散) 时,帧一致性 (FC) 和关键点匹配 (KPM) 得分较低。
  • WVD (Full): 添加 XYZ 监督大幅提高了 KPM (从 72.3 升至 95.8) 。 该指标衡量特征点在帧之间的匹配程度,证明显式 3D 建模能带来更稳定的视频。

单目深度估计

尽管 WVD 是一个生成式视频模型,但它也被证明是一个出色的深度估计器。通过要求它预测单张图像的 XYZ 图,它的表现优于专用的深度估计模型。

图 5. NYU-v2 和 BONN 基准上的单目深度估计。我们展示了 RGB 输入图像、真实深度图 (GT) ,以及 DUSt3R (512 分辨率) 和 WVD 预测的深度图。

表 2. NYU-v2 和 BONN 上的单目深度估计性能。

图 5 和表 2 重点展示了与 DUSt3R (一种领先的 3D 重建模型) 的比较。在 NYU-v2 和 BONN 基准测试中,WVD 产生了更清晰的深度边界,并实现了更低的相对误差率。值得注意的是,在 BONN 上,WVD (在 256 分辨率下训练) 击败了 DUSt3R (在 512 分辨率下训练) ,这表明生成先验——模型对场景外观的“理解”——比纯回归方法更有助于推断几何结构。

控制相机

最后,针对真实视频测试了控制相机移动的能力。

图 6. 相机控制视频生成。通过重投影 XYZ 图像并将其用作条件,我们的方法可以控制合成视频中的相机运动,有效地复制真实视频的轨迹。

在图 6 中,“Re-projected XYZ Images (重投影 XYZ 图像) ”一列显示了模型接收到的稀疏引导。“In-painted RGB (补全 RGB) ”一列显示了结果。模型成功地“幻觉”出了去遮挡区域 (第一帧中隐藏的房间部分) ,同时保持已知的几何结构完美锁定在位。

图 A1. 相机控制视频生成对比。

图 A1 中的额外结果进一步证明了这种一致性。合成帧 (下排) 遵循真实视频 (上排) 的确切轨迹,保持了走廊、窗户和家具布局等连贯的结构。

结论与未来启示

世界一致性视频扩散 (WVD) 代表了弥合 2D 生成式 AI 与 3D 计算机视觉之间鸿沟的重要一步。通过将 3D 坐标 (XYZ) 仅仅视为与颜色 (RGB) 一起生成的另一组通道,研究人员创建了一个统一的框架,该框架在生成过程中无需复杂、沉重的渲染引擎即可强制物理一致性。

其影响是广泛的:

  1. 统一的工作流: 单个模型现在可以处理深度估计、3D 重建和视频生成。
  2. 可扩展性: 因为它使用 XYZ 图像 (与 2D Transformer 兼容) 而不是体素或光线步进,所以它可以有效地扩展到高分辨率和大数据集。
  3. 可控性: 它解决了视频生成中的“狂野相机”问题,为创作者提供了对视角的精确控制。

虽然目前的模型是在静态场景 (相机在冻结的世界中移动) 上训练的,但作者建议未来的工作可以结合光流或 4D 数据集来处理动态场景——如行走的人、风中摇曳的树——同时保持同样严格的 3D 一致性。WVD 表明,视频生成的未来不仅仅是绘制更漂亮的像素,而是显式地建模这些像素所代表的世界。