想象一下,你正在观看一段猫咪玩玩具的视频。在普通视频中,你只是一个被动的观察者,被限制在摄像师选择的视角中。现在,想象你可以在任何一秒暂停视频,抓住屏幕,围绕静止的猫咪旋转摄像机,从背面看那个玩具。然后,你按下播放键,视频从那个新的角度继续播放。

这个概念——一个可以随时间从任意视点观看的动态场景——是 4D 视频生成的“圣杯”。

虽然 3D 生成 (创建可旋转的静态物体) 和视频生成 (创建移动的 2D 片段) 最近取得了巨大飞跃,但将它们结合成 4D 仍然非常困难。现有的方法通常每段视频需要数小时的计算,或者生成的物体在摄像机移动时会产生“幻觉” (改变形状或身份) 。

在这篇文章中,我们将深入探讨 4Real-Video , 这是一篇提出该问题解决方案的新研究论文。研究人员引入了一种新颖的架构,可以在大约一分钟内生成一致的、照片级真实的 4D 视频。我们将揭示他们如何将视频视为一个“网格”,他们对并行扩散流的巧妙运用,以及让一切保持紧密结合的同步机制。

4Real-Video 接收一段单一的固定视角视频和一段冻结时间视频,并将它们扩展为一个完整的 4D 网格。

问题所在: 什么是 4D 视频?

要理解解决方案,我们首先需要严格定义问题。作者不仅将 4D 视频 定义为移动的 3D 物体,还定义为一个结构化的 帧网格 (grid of frames)

想象一个网格,其中:

  1. X 轴 (列) 代表时间。
  2. Y 轴 (行) 代表视点。

如果你沿着单行看,你会看到一段 固定视角视频 (Fixed-View Video) : 摄像机锁定在原地,时间向前移动。 如果你沿着单列看,你会看到一段 冻结时间视频 (Freeze-Time Video) : 时间停止,摄像机围绕静止场景移动。

以前的大多数方法,通常被称为“摄像机感知视频生成 (camera-aware video generation) ”,试图在这个空间中生成单一的视频路径。虽然有用,但它们难以创建一个完整的、一致的世界。其他方法使用优化技术 (如分数蒸馏采样) ,其作用类似于 3D 扫描仪,慢慢雕刻出 4D 场景。这些方法计算量大,且往往产生“卡通化”或模糊的输出。

4Real-Video 的目标是利用稀疏输入——具体来说,只是第一行 (一段标准视频) 和第一列 (一段静态多视图旋转) ——并填充网格的其余部分。

核心方法: 双流架构

4Real-Video 的核心是一个前馈扩散模型。如果你熟悉 Sora 或 Stable Video Diffusion 等模型,你会知道它们通常使用 DiT (Diffusion Transformer,扩散 Transformer) 架构。标准 DiT 处理 token (视频块) 以对其进行去噪并生成图像序列。

为了生成 4D 网格,我们有两个相互竞争的需求:

  1. 时间一致性: 帧 \(t\) 看起来必须紧接着帧 \(t-1\)。
  2. 多视图一致性: 视图 \(v\) 看起来必须是与视图 \(v-1\) 相同的物体。

如果你只是训练一个模型同时做这两件事,或者按顺序交替进行,模型往往会感到困惑。它可能会优先考虑流畅的运动而忘记物体的背面是什么样子的,反之亦然。

研究人员提出了 双流架构 (Two-Stream Architecture) 。 他们没有让一组 token 试图做所有事情,而是将 token 分成两个并行的流,同时通过网络运行。

4Real-Video 架构概览,展示了两个并行流和同步层。

如上面的架构图所示,该过程如下运作:

  1. 流 1 (视图流 - 顶部) : 此流处理 token \(\mathbf{x}^v\)。它纯粹关注网格的列。它使用一个设计用于理解视点如何变化的 transformer 块 (\(\varphi^v\)) 。
  2. 流 2 (时间流 - 底部) : 此流处理 token \(\mathbf{x}^t\)。它纯粹关注网格的行。它使用一个设计用于理解时间如何演变的 transformer 块 (\(\varphi^t\)) 。

这些更新的数学表示如下所示:

视图流和时间流并行更新的方程。

在这里,\(\mathbf{y}_l\) 代表第 \(l\) 层 transformer 之后的中间输出。

并行性的挑战

如果我们只是分别运行这两个流,我们最终会得到两个完全不同的视频。“视图流”会生成完美的静态旋转,“时间流”会生成完美的 2D 视频,但它们并不匹配。旋转中的猫可能是黑色的,而视频中的猫可能是白色的。

我们需要一种方法来强制这两个流就它们生成的现实达成一致。这就是论文的主要贡献所在: 同步层 (Synchronization Layer)

秘诀: 同步层

每个 transformer 块之后,模型会暂停并在视图流和时间流之间交换信息。这确保了 3D 结构和时间运动保持一致。

作者提出了两种实现这种同步的方法: 硬同步 (Hard Sync)软同步 (Soft Sync)

1. 硬同步

硬同步是一种暴力方法。它假设理想情况下,视图流和时间流的 token 应该是相同的 (\(\mathbf{x}^v = \mathbf{x}^t\)) 。

受优化中投影方法的启发,该层获取两个流的输出并将它们强制合并在一起,通常是通过取平均值 (通常使用学习到的权重) 。

使用加权平均进行硬同步的方程。

在这个方程中,\(\mathbf{W}\) 代表结合流的学习权重。虽然这在概念上说得通——融合“两全其美”——但它有实际的缺点。“冻结时间”视频的数据分布与“固定视角”视频不同。将它们强行混在一起会使预训练的视频模型感到困惑,导致诸如物体拉伸或“重影”之类的伪影。

2. 软同步 (胜出者)

作者发现一种更温和的方法效果更好。 软同步不再强迫每一步的 token 都相同,而是将流视为分离但相互链接的实体。它使用一个“调制线性层 (modulated linear layer) ”来预测一个更新 (或校正) 项。

计算软同步更新的方程。

在这里,函数 Mod_Linear 查看两个流并决定它们需要调整多少才能彼此对齐。它为每个流计算一个增量 (\(\Delta\)) 。然后将这些增量添加到原始流中:

应用软同步更新的方程。

这允许模型在共享信息的同时保持“时间”和“视图”独特的统计属性。视图流了解运动,时间流了解 3D 几何,但它们并没有被强行并入一个单一的、可能损坏的表示中。

软同步的动力学

论文中一个有趣的分析可视化了这种软同步在神经网络各层中的表现。

展示跨层更新相对幅度和流之间相似性的图表。

观察上面的图表:

  • 左图 (a): “更新幅度” (同步层改变 token 的程度) 在前 15 层保持相对较低,然后在后面的层中激增。这表明模型首先建立了运动和几何的独立结构,然后在生成过程的最后阶段对它们进行大量同步,以确保它们匹配。
  • 右图 (b): “相似性”图表显示,两个流中的 token 在中间层实际上非常不同 (比率高) ,但随着同步层发挥作用,差异在最后一层降至接近零。

实验与结果

研究人员使用混合数据巧妙地训练了 4Real-Video。由于真实的 4D 数据稀缺,他们使用了:

  1. 伪 4D 数据 (Pseudo-4D Data) : 对标准视频应用 2D 仿射变换 (缩放、旋转) 以模拟摄像机运动。
  2. Objaverse: 一个合成 3D 物体数据集,通过动画制作生成地面真值 4D 片段。

视觉质量

与现有的基线方法如 MotionCtrl (一种摄像机控制方法) 和 SV4D (一种之前的 4D 方法) 相比,结果在视觉上令人印象深刻。

视觉对比显示 4Real-Video 与基线相比保持了更清晰的细节。

在上面的图 4 中,请看底行 (水獭) 。

  • MotionCtrl 在复杂的纹理和光照方面表现挣扎,产生不一致的帧 (红框突出显示) 。
  • SV4D (中间列) 倾向于使物体明显模糊。
  • 4Real-Video (左侧) 在不同的视点下保持了清晰的毛皮纹理和一致的光照。

消融实验: 为什么软同步很重要

作者进行了一项“消融实验”——剥离模型的部分功能来看看会有什么坏处。他们比较了 顺序 (Sequential) 架构 (交替的时间/视图块) 、硬同步并行架构和他们的 软同步 方法。

消融对比显示顺序和硬同步方法中的视觉伪影。

在上图中:

  • Sequential w/o Training (无训练顺序) : 产生完全的噪声或损坏的图像。
  • Hard Sync (硬同步) : 生成可识别的图像,但注意失真——物体通常看起来被拉伸或重影。
  • Soft Sync (软同步) : 生成最干净、最连贯的熊猫。

定量数据也支持这一点。在下表中,注意软同步在 VideoScore (视觉质量) 和 Dust3R-Confidence (几何一致性) 方面得分更高。

方法VideoScore (质量)Dust3R-Conf (一致性)
Sequential (顺序)2.2824.6
Hard Sync (硬同步)2.4231.5
Soft Sync (软同步)2.4333.4

(数据选自论文表格)

3D 重建

对 4D 视频真正的考验是你是否可以从中重建 3D 几何结构。研究人员对生成的输出应用了 可变形 3D 高斯泼溅 (Deformable 3D Gaussian Splatting)

从生成的 4D 视频重建 3D 高斯泼溅。

重建合理 3D 形状的能力 (如图 6 所示) 证明模型不仅仅是在产生从一个角度看起来不错的像素;它正在生成一个几何上一致的世界。

用户研究

最后,由于自动化指标并不总是能捕捉到人类的感知,他们邀请真实用户对视频进行评分。

用户研究结果显示 4Real-Video 在所有类别中均胜出。

结果是一边倒的。在从“运动真实感”到“形状质量”的各项标准中,4Real-Video (蓝色柱状图) 始终优于 4Real 和 4Dfy 等基于优化的方法。

结论

4Real-Video 代表了生成媒体向前迈出的重要一步。通过将 4D 生成构建为网格补全问题,并使用同步的双流架构来解决它,作者绕过了过去缓慢、计算昂贵的优化循环。

主要收获:

  1. 分解: 将问题分解为“时间” (行) 和“视图” (列) ,使得复杂的 4D 任务变得易于管理。
  2. 并行性: 同时处理两个维度保留了运动和几何的完整性。
  3. 软同步: 允许流之间宽松地交换信息比强迫它们完全相同更有效,可以防止分布偏移和伪影。

虽然该模型仍然依赖于基础视频生成器的质量,并且尚不支持全 360 度环境,但它为快速创建动态 3D 资产打开了大门。未来的迭代可以为从 VR 体验到即时电影级特效的一切提供动力,而所有这些都可以在标准 GPU 上于数秒内生成。