引言
视频编辑与图像编辑有着本质的区别,这源于一个令人沮丧的原因: 视频中的像素是扁平的。当你观看电影时,你看到的是演员、阴影和背景,但计算机看到的只是一个不断变化的颜色网格。如果你想从场景中移除一个人,你不能仅仅点击“删除”。你必需一帧接一帧地填补他们身后的背景。如果你想把一辆车稍微向左移动,你必须幻想出它下方原本的路面是什么样子的。
多年来,计算机视觉研究人员一直试图通过将视频视为一叠透明的薄片来解决这个问题,类似于 Photoshop 中的图层。如果我们能自动将标准视频分解为背景层和分离的前景层 (带有透明度) ,编辑工作将变得轻而易举。这个概念被称为 全能遮罩 (Omnimatte) 。
然而,现有的 Omnimatte 方法非常脆弱。它们依赖于数学计算,一旦摄像机抖动过于剧烈,或者涟漪的水面上出现阴影,这些方法就会失效。它们假设世界是静态且刚性的。
生成式全能遮罩 (Generative Omnimatte) 应运而生。在 Google DeepMind 的一篇新论文中,研究人员提出了一种方法,不再试图仅靠几何学来计算图层,而是开始使用生成式 AI 来 梦想 出这些图层。通过微调视频扩散模型,他们可以将复杂的、手持拍摄的视频分解为干净的图层,处理以前无法解决的阴影、反射和遮挡问题。

在这篇文章中,我们将拆解这篇论文,了解他们如何将视频生成模型转变为视频 分解 工具。
背景: 图层带来的难题
要理解这篇论文的重要性,我们首先需要了解“经典”方法的局限性。
全能遮罩 (Omnimatte) 层不仅仅是对象的抠图 (如分割掩码) 。它是对象 加上 它在场景中引起的所有效果——它的投射阴影、它在水坑中的倒影,或者从它身上反射的光。
传统方法通过观察运动来解决这个问题。如果一个对象的运动方式与背景不同,算法就会尝试将它们分离开来。如果摄像机架在三脚架上且背景是一堵砖墙,这种方法效果很好。但现实世界是混乱的。
- 动态背景: 树木随风摇曳,水面波光粼粼。传统方法会将这些背景运动与前景对象混淆。
- 遮挡: 如果一个人走到灯柱后面,传统方法不知道那个人在灯柱后面长什么样。它们无法“凭空创造”缺失的像素。
- 复杂的摄像机运动: 如果摄像机是手持并移动的,计算几何结构就会变得异常困难。

如上图 2 所示,以前的方法 (如 OmnimatteRF) 在假设被打破时会举步维艰。请注意那些“鬼影”伪影以及处理动态海洋背景时的无能为力。为了解决这个问题,我们需要一个理解世界本来面目的模型——一个对自然视频拥有“先验知识”的模型。
生成式解决方案
生成式全能遮罩 的核心洞察在于,现代视频扩散模型 (如 Lumiere 或 Sora) 已经看过了数十亿个视频。它们“知道”当一个人站在沙滩上时,应该有阴影。它们“知道”水会反射物体。
研究人员意识到,与其从零开始计算图层,不如教扩散模型 移除 对象及其效果。如果你能完美地移除一个对象及其阴影以露出干净的背景,并且你也能生成一个 仅包含 该对象的视频,那么你就成功地分解了视频。
框架概览
该方法分两个截然不同的阶段运行:
- “Casper” 阶段: 使用扩散模型为每个对象生成“干净底板”背景和“独奏 (solo) ”视频。
- 优化阶段: 使用这些生成的视频通过数学方法解算出精确的 RGBA (红、绿、蓝、Alpha 透明度) 图层。

让我们逐一分解。
第 1 阶段: Casper (对象-效果移除模型)
研究人员构建了一个昵称为 Casper (取自友好的幽灵 Casper) 的模型,该模型基于 Lumiere 视频扩散模型。Casper 的目标很简单: 获取一个视频和一个对象掩码 (mask) ,然后生成一个该对象 及其效果 都消失了的视频。
为什么不使用标准的修复 (Inpainting) ?
你可能会问,“为什么不直接使用标准的视频修复技术?” 标准的修复模型被训练用来填补被遮罩的区域。如果你遮住一个人,修复模型会填补这个空洞。然而,它会把 阴影 留下来,因为阴影在遮罩之外。

如图 3 所示,标准修复 (如 ProPainter) 会产生一种“幽灵”效应,人不见了,但他们的阴影或倒影仍然存在。要获得真正的图层分解,阴影也必须消失。
三元掩码 (The Trimask)
为了解决这个问题,作者引入了 三元掩码 (Trimask) 。 与二元掩码 (0 代表背景,1 代表前景) 不同,三元掩码有三种状态:
- 移除 (黑色) : 我们明确想要移除的对象。
- 保留 (白色) : 我们明确想要保留的东西。
- 不确定 (灰色) : 阴影或反射 可能 存在的背景区域。
通过将这种三元掩码输入扩散模型,模型学会了它被允许修改“灰色”像素 (以移除阴影) ,但必须尊重背景的结构。
寻找隐藏的联系
为什么扩散模型知道如何移除未被遮罩的阴影?事实证明,预训练的视频生成器已经具备了因果关系的内在理解。
研究人员分析了 Lumiere 模型内部的 注意力图 (attention maps) 。 当模型观察阴影像素时,其注意力机制会重点关注投射该阴影的对象。

图 5 可视化了这一点。“响应”图显示模型在内部将网球运动员的像素与球场上的阴影像素联系了起来。Casper 只是微调了这种与生俱来的能力。
训练 Casper
为了训练 Casper,研究人员需要成对的视频: 一个带有对象/效果,一个没有。由于这种数据在自然界中并不大量存在,他们策划了一个混合数据集:
- 合成数据 (Kubric) : 3D 渲染场景,他们可以完美地开启和关闭对象及阴影。
- 真实数据 (Omnimatte & Tripod) : 来自以前方法的高质量结果以及作为真实基准的静态摄像机镜头。
- 对象粘贴 (Object-Paste) : 从一个视频中提取对象并将其粘贴到另一个视频中,为移除任务创建人工的“真实基准”。

第 2 阶段: 全能遮罩优化
一旦 Casper 运行完毕,我们就拥有了:
- 干净背景视频 (\(I_{bg}\)): 没有前景对象的场景。
- 独奏视频 (\(I_i\)): 仅包含对象 A 和背景,移除了所有其他对象的视频。
然而,Casper 输出的是 RGB 视频。它不输出透明度 (Alpha) 。我们需要提取精确的 Alpha 遮罩来创建一个真正的图层。
研究人员通过 测试时优化 (Test-Time Optimization) 来解决这个问题。他们将分解视为一个数学问题。他们想要找到一个 RGBA 图层 (\(O_i\)),使得当你将其合成到干净背景 (\(I_{bg}\)) 上时,看起来完全像独奏视频 (\(I_i\))。
合成方程是标准的 Alpha 混合:

这里,\(\mathcal{I}_{i, fg}\) 是对象的颜色,而 \(\alpha_i\) 是透明度。
他们冻结由 Casper 生成的背景视频,并使用一个小型神经网络 (U-Net) 来预测该对象的 Alpha 和前景颜色。他们 仅针对这个特定视频 训练这个小网络,以最小化重建误差:

他们还添加了一个稀疏性损失。这强制 Alpha 通道大部分为零 (透明) ,确保图层只捕获对象及其阴影,而不是整个背景。

这个优化步骤至关重要,因为它能使结果更锐利,并确保图层之间的数学一致性,修复扩散模型可能引入的细微幻觉。
实验与结果
结果代表了一个巨大的飞跃,特别是对于“随意”拍摄的视频——那种你用智能手机拍摄、摄像机移动且光线不完美的视频。
定性比较
在与最先进的方法 (Omnimatte, Omnimatte3D, OmnimatteRF) 的比较中,Generative Omnimatte 能够更好地处理困难案例。

在图 7 中:
- 船 (左) : 看看船的尾迹。以前的方法很难将白色的水花 (效果) 与蓝色的水面 (背景) 区分开。Generative Omnimatte 完美地在前景层中捕获了尾迹。
- 马 (右) : 这是一个遮挡测试。后面的马被部分挡住了。以前的方法会留下一个洞或模糊。Generative Omnimatte 幻想出了马缺失的部分,创建了一个完整的图层。
对象移除
由于核心引擎是一个“对象-效果移除模型”,该系统非常擅长简单地从视频中删除东西。

图 8 突出了“跑酷 (Parkour) ”的例子 (第 2 列) 。看看墙上的影子。
- ProPainter & Lumiere Inpainting: 人不见了,但墙上还留着一个幽灵般的影子。
- Ours (Generative Omnimatte): 人 和 影子都不见了,身后的墙壁被干净地重建了。
定量成功
研究人员不仅依赖漂亮的图片。他们使用 PSNR (峰值信噪比) 和 LPIPS (一种感知度量) 对他们的方法进行了基准测试。更高的 PSNR 和更低的 LPIPS 表示更好的质量。

如表 1 (及附录中的表 2) 所示,他们的方法在各项指标上均优于竞争对手,特别是在感知质量 (LPIPS) 方面,该指标衡量视频对人眼来说有多“自然”。
应用与局限性
创意可能性
一旦视频被分解为图层,你就拥有了完全的创意控制权。你可以:
- 重定时 (Retime) : 让一个人做慢动作,而另一个人以正常速度移动。
- 移除 (Remove) : 删除抢镜者及其阴影。
- 插入 (Insert) : 在现有对象 后面 放置文本或新对象。

它不能做什么?
没有模型是完美的。依赖生成先验 (扩散模型) 是一把双刃剑。
- 幻觉: 有时模型会虚构出原本不存在的细节。
- 物理失效: 如果有人在蹦床上跳跃导致蹦床弯曲,模型可能会移除人但留下弯曲的蹦床,因为它不能完全理解变形的物理原理。
- 身份混淆: 在有许多相似对象的场景中 (如一群鸟或人群) ,模型可能难以分离特定个体的单独效果。

图 11(a) 展示了“变形”问题——狗被移除了,但它接触过的杆子仍然有些弯曲/扭曲。
结论
Generative Omnimatte 标志着我们处理视频方式的转变。我们正从纯粹的几何解决方案转向 语义 解决方案。通过使用一个“理解”对象和阴影的扩散模型,我们可以解决以前难以处理的逆问题——比如将视频反向烘焙成图层。
对于学生和研究人员来说,这篇论文展示了 适配生成模型 的力量。作者并没有从头开始构建一个新的架构;他们利用了一个强大的现有模型 (Lumiere) ,设计了一种巧妙的条件机制 (Trimask) ,并将其包裹在一个优化循环中。这是如何利用生成先验来执行精确、分析性任务的一个极佳范例。
](https://deep-paper.org/en/paper/2411.16683/images/cover.png)