想象一下,随意拍两张房间的照片——也许一张是书桌,一张是书架——然后瞬间生成整个空间的完全可导航 3D 视频。无需昂贵的扫描设备,无需数小时的处理时间,也没有那种墙壁扭曲进家具里的“几何幻觉”。
这是计算机视觉领域的“圣杯”: 稀疏视图 3D 重建 (Sparse-view 3D reconstruction) 。
虽然像 Sora 这样的人工智能视频生成器的最新进展令人印象深刻,但它们在这个特定任务上却举步维艰。它们通常缺乏 3D 一致性 (3D consistency) ——这意味着随着摄像机的移动,房间的形状可能会发生微妙的变形。此外,它们速度缓慢,需要数十个去噪步骤才能生成一秒钟的视频。
在最近一篇题为 VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step 的论文中,来自清华大学的研究人员提出了一个开创性的框架。VideoScene 能够仅通过两张输入图像,在单次推理步骤中生成高质量、3D 一致的视频。
在这篇深度文章中,我们将剖析 VideoScene 如何通过弥合生成式视频 AI 与精确 3D 重建之间的差距来实现这一目标。

挑战: 视频与 3D 之间的鸿沟
要理解为什么需要 VideoScene,我们首先需要看看当前技术的局限性。
稀疏视图的问题
仅从两张图像 (稀疏视图) 恢复 3D 场景是一个“病态问题 (ill-posed problem) ”。简单来说,就是没有足够的视觉信息来确切知道盲区中的 3D 几何结构长什么样。
- 传统方法 (NeRF/3DGS): 像神经辐射场 (NeRF) 或 3D 高斯泼溅 (3D Gaussian Splatting) 等方法通常需要密集的捕捉 (数百张图像) 才能获得良好的效果。如果只有两张图像,它们会产生伪影或“漂浮物”。
- 前馈模型 (Feed-Forward Models): 像 pixelSplat 或 MVSplat 这样的较新模型速度很快,可以推测 3D 结构,但在原始照片中不可见的区域,它们通常会产生模糊的结果。
视频扩散模型的问题
视频扩散模型是在海量数据上训练的,这赋予了它们关于世界样貌的强大“先验” (通用知识) 。它们可以完美地“臆造”出缺失的细节。然而,当应用于 3D 时,它们有两个主要缺陷:
- 迟缓: 它们使用迭代去噪。将随机噪声转化为视频可能需要 50 个步骤。这对于实时应用来说太慢了。
- 缺乏 3D 几何结构: 这些模型是在 2D 像素上训练的,而不是 3D 几何体。它们优先考虑让视频看起来真实,而不是在空间上准确。这导致了“晃动”的房间,即随着相机的移动,物体的大小或位置会发生变化。
解决方案: VideoScene
研究人员开发 VideoScene 旨在结合两者的优点: 重建模型的 3D 一致性和视频扩散模型的生成能力,同时针对速度进行了优化。
他们方法的核心依赖于一种称为 一致性蒸馏 (Consistency Distillation) 的技术。简单来说,他们训练一个“学生”模型,使其能够在一步之内直接跳到最终结果,模仿“教师”模型 (大型视频扩散模型) 在许多步骤中所做的事情。
然而,标准的蒸馏是不够的。团队引入了两项关键创新:
- 3D 感知跳跃流蒸馏 (3D-Aware Leap Flow Distillation) : 从粗略的 3D 草稿开始,而不是从纯噪声开始。
- 动态去噪策略网络 (DDPNet) : 一个智能代理,用于决定确切需要清除多少噪声。
让我们来分解一下这个架构。

如 图 2 所示,该流程从两个输入视图开始。系统没有将这些直接输入到扩散模型中,而是首先使用一个名为 MVSplat 的快速模型创建一个 粗糙的 3D 表示 。 这创建了一个“粗略草稿”视频。这个草稿具有完美的相机轨迹控制 (它在 3D 中移动正确) ,但可能模糊或有伪影。
这个粗略的视频作为一个强大的 3D 先验 。 扩散模型的工作不再是从头开始生成场景,而是将这个粗略的草稿“打磨”成高质量的视频。
核心方法 1: 3D 感知跳跃流蒸馏
标准扩散模型的工作原理是获取随机噪声分布 (高斯噪声) ,并慢慢去除噪声以显现图像。这种效率很低,因为模型必须同时弄清楚场景布局和精细细节。
研究人员观察到,去噪的早期阶段 (从纯噪声开始) 是最困难且最不确定的。当模型进行到一半时,结构通常就已经确定了。
跳过噪声
VideoScene 采用了一种 跳跃流 (Leap Flow) 策略。他们不是从纯噪声 (\(t=T\)) 开始推理 (生成) 过程,而是从中间的时间步 (\(t < T\)) 开始。
他们获取从粗糙 3D 模型 (MVSplat) 渲染的视频,将其编码到潜空间 (\(\mathbf{x}_0^r\)) ,并向其添加特定量的噪声。这创建了一个已经拥有正确 3D 结构的起点。然后,模型“跳过”困难的早期阶段,专注于细化细节。
这在数学上基于 一致性函数 (Consistency Function) , 定义为:

该方程本质上表明,函数 \(\mathbf{f}\) 应该将沿噪声轨迹 \(\mathbf{x}_t\) 的任何点直接映射到干净的原点 \(\mathbf{x}_\epsilon\) (最终图像/视频) 。
为了训练模型做到这一点,他们使用了蒸馏损失函数。目标是最小化学生的单步预测与教师的预测之间的差异:

在这里,学生 \(\mathbf{f}_{\theta}\) 试图匹配教师 \(\mathbf{f}_{\theta^{-}}\)。通过最小化这种差异,学生学会了将教师的多步知识浓缩成单次前向传播。
这种策略确保了输出保留了初始 3D 模型的强大结构一致性,同时获得了来自扩散模型的高保真纹理和光照。
核心方法 2: 动态去噪策略网络 (DDPNet)
第二个主要创新解决了一个微妙但关键的问题: 我们应该向初始 3D 草稿添加多少噪声?
- 噪声太少: 扩散模型没有足够的发挥空间。它会输出与输入非常相似的东西——这意味着它无法修复粗糙 3D 带来的模糊或伪影。
- 噪声太多: 3D 结构被破坏。模型开始产生与输入图像不匹配的新几何结构的幻觉,导致一致性错误。
在标准方法中,这个噪声水平 (时间步 \(t\)) 是随机选择或固定的。VideoScene 将其替换为一个名为 动态去噪策略网络 (DDPNet) 的智能代理。
网络中的“赌徒”
研究人员将其构建为一个 上下文赌博机 (Contextual Bandit) 问题。在机器学习中,“赌徒 (bandit) ”是一个选择动作以最大化奖励的代理 (Agent) 。
在这个背景下:
- 状态 (The State) : 来自粗糙 3D 模型的输入视频潜变量。
- 动作 (The Action) : 选择特定的时间步 \(t\) (噪声水平) 。
- 奖励 (The Reward) : 最终重建的质量 (通过与真实值的接近程度来衡量) 。
DDPNet 分析传入的粗略视频的质量。如果草稿质量高,它会选择一个较小的 \(t\) (轻微打磨) 。如果草稿有伪影或变形,它会选择一个较大的 \(t\) (重度翻新) 。
该策略网络的训练目标是最大化奖励,或者最小化负均方误差 (MSE) :

这种自适应方法使 VideoScene 具有鲁棒性。它知道何时信任 3D 先验,何时依靠生成模型来修复错误。

上方的 图 6 直观地展示了这一点的重要性。
- Base rendered video (基础渲染视频) : 模糊且保真度低。
- w/o 3D-aware leap (无 3D 感知跳跃) : 完全丢失结构。
- w/o DDPNet (无 DDPNet) : 通常保留伪影或引入重影 (见红框) 。
- VideoScene (Ours): 清晰、锐利且结构准确。
实验与结果
研究人员在 RealEstate10K 数据集 (室内场景) 和 ACID 数据集 (室外自然场景) 上测试了 VideoScene。他们将其与 Stable Video Diffusion (SVD)、DynamiCrafter 和 CogVideoX 等最先进的视频扩散模型进行了比较。
定性比较: 视觉保真度
视觉上的差异非常惊人。在下方的 图 3 中,请查看 Step-1 和 Step-50 的列。

像 SVD 和 CogVideoX 这样的基线模型在 1 步 (Step-1) 时表现非常糟糕,产生充满噪点、不连贯的混乱图像。即使在 50 步时,它们也经常表现出“跳帧”或扭曲物体 (如顶行的椅子) 。然而,VideoScene 仅需一步就能生成清晰、稳定的视频。
定量比较: 数据说话
定量指标证实了视觉结果。研究人员使用了 FVD (Fréchet Video Distance) , 这是一个标准指标,数值越低越好,表明视频看起来更自然。

在 表 1 中,查看“1 Step”行的 FVD 分数。
- Stable Video Diffusion: 1220.80
- DynamiCrafter: 846.85
- VideoScene: 103.42
VideoScene 在一步生成方面好了一个数量级。更令人印象深刻的是,它的 1 步性能 (103.42) 与其 50 步性能 (98.67) 几乎相同,证明了蒸馏是成功的。其他模型在被迫一步运行时性能大幅下降。
一致性与泛化能力
这篇论文的一个主要主张是“3D 一致性”。为了证明这一点,他们运行了一个匹配算法来跟踪生成视频帧中的特征点。

在 图 5 中,绿线表示视图之间的有效几何匹配。VideoScene 列中有密集的绿线,表明随着相机的移动,几何结构保持稳定。基线方法 (SVD、CogVideoX) 显示红线或稀疏的匹配,表明物体正在移动或消失——这是“幻觉”的标志。
此外,该模型的泛化能力很好。即使在室内房地产数据上进行训练,它在室外海滩场景 (ACID 数据集) 上也表现出色,如 图 4 所示。

虽然微调后的基线 (CogVideoX fine-tuned) 有所改善,但它们在 1 步推理时仍然失败。VideoScene 即使在这个未见过的数据上也能保持高质量和结构。
结论与意义
VideoScene 代表了 生成式 3D 的重大飞跃。通过巧妙地结合廉价、快速的 3D 先验 (MVSplat) 与蒸馏视频扩散模型的丰富纹理生成能力,作者解决了“速度与质量”的权衡问题。
关键要点:
- 速度: 它在一步之内生成 3D 场景,使其在实时应用中具有潜在的可行性。
- 一致性: 与标准视频 AI 不同,由于 3D 感知初始化,它遵循场景的物理规律。
- 适应性: DDPNet 允许模型智能地决定场景需要多少“修复”,优化了保留与生成之间的平衡。
这项技术弥合了仅仅观看视频与走进视频之间的鸿沟。未来的应用范围可能从即时 VR 内容创作到更强大的自动导航系统——这些系统需要从稀疏的摄像头反馈中想象 3D 环境。
“视频转 3D”的时代才刚刚开始,而 VideoScene 设定了新的速度极限。
](https://deep-paper.org/en/paper/2504.01956/images/cover.png)