视频生成正以惊人的速度发展。我们已经从模糊的短片发展到能通过简单文本提示创作出令人惊叹的高清视频。许多现代模型能够将单张静态图像动画化,这项任务被称为 图像到视频 (I2V) ,为静态内容注入了动感。但如果你想要 更多 的控制权呢?如果你不仅想定义视频的开端,还希望指定中间的关键时刻以及你心中设想的结局呢?
想象一下你是一位 导演,而不仅仅是观众。你可能不想只从一帧开始然后让模型自动完成剩余内容,而是希望设定某个角色在第 10 秒时出现在画面中央,并让视频在 30 秒后以一个戏剧性的日落结束。不幸的是,大多数现有模型无法处理这种级别的定制化。它们被设计用于一些固定且孤立的任务: 从一张图像开始、填补缺失区域、或将片段在时间上延展。这些任务就像工具箱中的专用工具——每件都极具威力,但用途受到限制。我们真正想要的是一支 通用视频画笔: 能在时空画布的任意位置与时间自由地添加元素。
这正是 VideoCanvas 的研究团队所要解决的挑战。他们提出了一个统一框架,将视频生成视作在同时延展于空间与时间的画布上进行绘画。借助 VideoCanvas,你可以在任何位置和时间戳放置任意图像补丁,模型将围绕这些条件生成完整且连贯的视频。
图 1: VideoCanvas 在一个框架下统一了多种任务——从基于补丁的合成到内补、外补,甚至创意场景转场。
如上图所示,这一概念统一了整个任务体系: 首帧到视频生成、插值、内补、外补,以及不同场景之间的无缝过渡。更令人瞩目的是,该模型能够以 零样本 的方式完成所有这些任务,不需要针对每种任务进行特别的再训练。让我们来探索他们如何实现这一突破。
核心挑战: 视频模型中的时间模糊性
大多数前沿的视频扩散系统为了提升效率,依赖于 潜在表示 而非原始像素。它们先使用 变分自编码器 (VAEs) 对视频进行压缩,然后再由扩散变换器 (DiT) 执行生成。
对于图像来说,这一过程很直接——每张图像对应唯一的潜在编码。但视频要复杂得多。为了减少计算成本,视频 VAE 通常采用 因果时序编码器,将若干连续帧压缩为一个潜在令牌。例如,第 0–3 帧可能都映射到同一个潜在表示。
这种压缩虽然高效,却引入了一个重大问题:** 时间模糊性**。当多个帧共享同一个潜在表示时,模型如何才能仅修改其中某一帧?像素帧与潜在编码的映射关系被模糊化,使得基于帧的精细控制几乎无法实现。
图 2: 时间模糊性源于因果 VAE 编码时多个帧被压缩到一个潜在表示。现有范式未能解决这种细粒度的对齐问题。
现有的条件范式虽试图解决这一问题,但都存在局限:
- 潜在替换 (Latent Replacement) : 将整个潜在表示用编码帧覆盖,可用于首帧但在其他帧会导致运动丢失和时间不连贯。
- 通道拼接 (Channel Concatenation) : 将条件特征作为额外输入通道添加,但需重新训练 VAE 来处理零填充帧,代价高昂且风险大。
- 适配器或交叉注意力注入: 需要额外大型模块,破坏可扩展性。
VideoCanvas 通过一种基于 上下文条件 (In-Context Conditioning, ICC) 的巧妙混合策略解决了这些问题。
VideoCanvas 方法: 时空混合策略
VideoCanvas 构建于 ICC 之上——这是一种将条件优雅地直接嵌入模型令牌序列的范式。ICC 无需额外模块或新参数,而是将条件令牌与噪声潜在令牌视为统一序列的一部分。通过自注意力机制,模型在生成缺失区域的同时,将条件令牌作为上下文参考进行理解。
然而,仅靠 ICC 并不能解决因果 VAE 带来的时间模糊性。因此,VideoCanvas 提出了空间与时间解耦的混合条件策略:
1. 通过零填充实现空间控制
为实现准确的空间对齐,VideoCanvas 会创建一个 零填充的全帧画布,并将用户补丁准确放置在目标位置。零填充的像素代表未被条件化的区域,从而让 VAE 能够在上下文中自然地编码补丁。
关键发现是: VAE 对 空间维度的零填充 具有鲁棒性——不同于时间维度填充会破坏连贯性。这一洞察使得可在无需重新训练的情况下实现完整的空间控制。
2. 通过 RoPE 插值实现时间控制
为了在不干扰因果 VAE 的情况下将条件与特定时间戳对齐,VideoCanvas 将每帧 独立编码,视作单帧图像。这使条件不被压缩进视频序列。
核心创新在于 时间 RoPE 插值。RoPE (旋转位置编码) 在变换器中天然反映序列的顺序。通过在连续位置上对这些嵌入进行插值,VideoCanvas 为每个条件帧分配分数级时间索引。
形式化表示:
\[ \text{pos}_t(z_{\text{cond},i}) = \frac{t_i}{N} \]其中 \(t_i\) 为目标像素帧索引,\(N\) 为 VAE 的时间步长。例如,若 \(N = 4\),且条件位于第 41 帧,则分数位置为 \(10.25\),为模型提供平滑且明确的时间信号。
完整流程
图 3: VideoCanvas 流程。条件补丁经零填充并独立编码。分数级 RoPE 位置将它们沿时间轴精准对齐,实现统一生成。
总结而言,VideoCanvas 的流程包括以下步骤:
准备条件: 为每个条件补丁创建全尺寸、零填充帧。
独立编码: 使用冻结的 VAE (图像模式) 获得干净的条件潜在令牌。
构建统一序列: 将条件潜在令牌与噪声潜在令牌拼接:
\[ \boldsymbol{z} = \operatorname{Concat}(\{z_{\text{cond},i}\}_{i=1}^{M},\, z_{\text{source}}) \]时间对齐: 视频潜在令牌分配整数位置索引,条件令牌分配分数级 RoPE 位置。
去噪生成: 扩散变换器将条件令牌作为上下文,仅对未条件区域去噪补全视频。
该统一策略实现了精确的空间定位与帧级时间控制,无需重新训练 VAE 或引入新参数。
实验: 检验 VideoCanvas
为验证这一新范式,作者构建了 VideoCanvasBench——首个专门针对 任意时空视频补全 的基准。其中包含从补丁生成视频 (AnyP2V) 、从完整帧生成视频 (AnyI2V) 及创意场景如转场、绘画、摄像机控制 (AnyV2V) 等任务。
时间 RoPE 插值真的有效吗?
关键实验验证时间 RoPE 插值是否能有效解决因果 VAE 的时间模糊性。作者测试了多种对齐方案:
图 4: 不同时间对齐策略的逐帧 PSNR 对比。VideoCanvas (红色) 在目标帧处达到峰值,展现出精准的对齐。
- 潜在空间条件: 输出趋于静态。
- 无 RoPE 插值: 保真度峰值偏移,目标帧错位。
- 像素空间填充: 因零填充导致质量下降。
- VideoCanvas (RoPE 插值) : 实现精准时间对齐与高保真度。
图 5: 像素空间填充造成伪影,而采用 RoPE 对齐的 VideoCanvas 能保持颜色与纹理的完整性。
范式对决: ICC 与竞争者
为直接比较不同条件策略,研究团队在相同主干网络上测试了 潜在替换、通道拼接 和 上下文条件 (ICC) ,并评估了 PSNR、Fréchet 视频距离 (FVD) 、动态度与用户偏好等指标。
VideoCanvasBench 的结果清晰而一致:
- 潜在替换: PSNR 高但动态度低——视频几乎静止。
- 通道拼接: 运动改进但保真度与感知质量下降。
- VideoCanvas (ICC) : 平衡保真度与动态性,取得最高感知评分与超过 65% 的用户偏好。
图 6: 定性比较。ICC 保持了主体一致及流畅运动,避免了其他范式中出现的静止帧和不自然变形。
人类评估者一致认为,使用 ICC 生成的视频在真实感、时间一致性与叙事流畅性方面表现最佳。
一块新的创意画布
VideoCanvas 不仅是技术上的进步,更重新定义了可控视频生成的愿景。将整个时空域视作统一画布,模型得以实现远超现有框架的创意与实际应用:
- 任意时间戳控制: 在任意时间点设定关键帧,引导运动与叙事,而不限于首帧。
- 时空绘画: 从分布在时间与空间中的稀疏补丁生成完整视频。
- 创意转场: 在无关联的场景间无缝变形 (如无人机化身蝴蝶) 。
- 无限扩展与循环: 自回归扩展片段生成长视频或完美循环。
- 虚拟摄像机控制: 通过调整条件补丁模拟平移、缩放、倾斜等电影运镜。
图 7: VideoCanvas 使用同一模型,可在统一范式下进行转场、扩展与摄像机运动。
结论: 可控视频的通用框架
VideoCanvas 引入并形式化了 任意时空视频补全 的概念。它巧妙融合 上下文条件 (ICC) 、空间零填充 与 时间 RoPE 插值,解决了因果视频 VAE 中长期存在的帧级精细控制难题——无需重新训练或修改架构。
通过将原先被割裂的任务——图像到视频、内补、外补、扩展与转场——整合为一个统一框架,VideoCanvas 为下一代可控视频合成奠定了基础。它将视频创作从僵化的任务划分转化为跨越时空的自由绘制过程。
随着视频生成技术的持续发展,VideoCanvas 为我们展现了生成时代的艺术创作新形态: 不只是观看 AI 创作的视频,而是 在无限的动态画布上,一帧一帧地创作它们。