如果你一直关注人工智能领域,你一定见证了从文本生成到根据简单提示创作惊艳图像的巨大飞跃。而下一个前沿领域始终是视频。尽管将文本转化为短视频片段的模型越来越常见,但它们常常显得像只会一招的“独门小马”。

如果我们希望拥有一个 AI,不仅能生成视频,还能理解涉及图像的复杂指令,以精细的方式编辑现有视频,甚至能遵循手绘故事板呢?

这正是当今专门化的视频模型所面临的挑战。大多数模型都是为单一任务 (如文本到视频) 而构建的,难以理解多模态指令,例如“让这张图片中的人出现在视频里骑自行车”。编辑过程往往笨拙而独立,需要特定任务的工具。

现在,来自滑铁卢大学和快手科技的研究人员推出了 UniVideo 框架,这标志着迈向视频领域真正多模态 AI 助手的重要一步。UniVideo 不仅仅是又一个文本到视频生成器——它是一个统一的系统,能够无缝利用文本、图像和视频等多模态指令,进行理解生成编辑。它可以从文本提示生成视频,让照片中的角色出演视频,从场景中移除对象,甚至将视觉故事板变为现实。

一张展示 UniVideo 功能的拼贴图,包括文本到视频、基于图像的上下文生成、上下文编辑以及绿幕或材质替换等自由形式的编辑。

图 1: UniVideo 是一个统一系统,能够理解多模态指令并生成多样化的视频内容。

在这次深度解析中,我们将剖析使 UniVideo 运作的架构,探索它如何同时掌握多种任务,并观察其令人印象深刻的成果,这些结果表明它在表现上可媲美甚至超越专门的顶级模型。


当今视频模型的困境

人工智能领域已见证了图像统一模型的蓬勃发展。像 Google 的 Imagen 和 OpenAI 的 DALL·E 等系统,已经能在单一、整体的框架下理解并生成图像。它们能就图像进行对话,按指令编辑,并创作新的视觉内容。这种统一性极具威力——它让模型形成整体理解,并实现任务间的技能迁移。

但视频却发展滞后。现有的视频模型通常分为两类:

  1. 单任务生成器: 精于一技,通常是文本到视频。它们使用文本编码器解析提示,再由生成器创作视频。这使它们只能处理文本指令,无法利用视觉上下文,如参考图像中的特定角色。
  2. 特定任务编辑器: 视频编辑模型往往为不同任务配备专用模块或复杂流程 (如一个用于风格变化,另一个用于对象移除) 。这导致模型难以扩展,无法应对开放性的创意指令。

正因为这种割裂,诸如从多个参考图像生成视频、用单条指令执行复杂编辑或理解视觉提示等高级功能,至今仍是单一模型难以企及的。UniVideo 的设计目标正是要打破这一局限。


核心方法: 双流架构的故事

UniVideo 如何同时应对如此多任务?秘诀就在于它巧妙的双流架构,将理解生成分工明确。

模型主要由两个部分组成,如图 2 所示:

  1. 理解分支 (MLLM) : 多模态大语言模型——系统的“大脑”。它负责解析用户指令,不管输入是文本、图像还是视频,并提取高层语义信息。
  2. 生成分支 (MMDiT) : 多模态扩散 Transformer——系统的“艺术家”,负责渲染与编辑视频帧。

UniVideo 架构图,展示 MLLM 理解流与 MMDiT 生成流。

图 2: UniVideo 的双流架构。MLLM 负责理解,而 MMDiT 负责生成,将推理与视觉保真度融合。

当你向 UniVideo输入一个提示——比如 “生成一段视频,让 中的女士拿着 中的包,出现在 的场景中”——两个流便同时启动:

  • MLLM 处理文本和视觉输入以理解意图。它判断女士是谁、包的样式以及她该出现的位置。
  • 提取出的语义特征通过一个可训练的连接器传递,与 MMDiT 的理解流对齐,从而用连贯的语义规划引导生成器。
  • 同时,图像和视频经过 VAE (变分自编码器) 编码后输入到 MMDiT 的生成流,确保纹理、人脸与场景的像素级精细度。

这种双流设计使模型既聪明细腻。旧的统一模型倾向于将所有输入压缩为小规模 token,丢失细节;而 UniVideo 通过结合语义流与视觉流,兼具细腻推理与高保真重建,对视频编辑时保持身份与精确性至关重要。


一个模型,多项任务

UniVideo 的作者在广泛的多模态任务上训练了模型——让一个模型学会处理各种任务,而不是为每项任务单独开发工具。

训练数据覆盖以下任务:

  • 文本到图像与文本到视频
  • 图像到视频
  • 图像编辑与风格迁移
  • 上下文视频生成 (参考图像引导的视频)
  • 上下文视频编辑 (对象替换、添加或删除)

用于 UniVideo 的多模态训练数据概览。

表 1: UniVideo 在数千万样本上进行了训练,涵盖基础视觉-语言任务。

研究人员将训练过程划分为三个阶段:

  1. 连接器对齐: 冻结预训练好的 MLLM 和 MMDiT,只训练连接器模块,使其平滑衔接两者。
  2. 微调 MMDiT: 使用高质量图像与视频数据对生成器进行优化,以提升真实感与连贯性。
  3. 多任务训练: 最后在综合任务上联合训练,使模型学习在多模态上下文中何时以及如何生成、编辑或风格化。

三个训练阶段的超参数配置。

表 2: 各阶段逐步提升模型能力——从对齐到微调,再到多任务精熟。


理解视觉提示

UniVideo 的亮点之一在于它能理解视觉提示——例如将草图或带标注的截图转化为连贯的视频叙事。

MLLM 能解析这些视觉信息,将其转化为结构化描述指导生成器。这让用户可以直接在图像上绘制故事板、标注运动路径或场景注释,UniVideo 则能将这些线索转换为视频。

图示 MLLM 如何解析视觉故事板,并生成密集字幕指导 MMDiT 合成视频。

图 3: MLLM 将手绘提示或标注图像转化为生成器的像素级指令。

UniVideo 在一个统一系统中完成全部操作,无需复杂的多模型管线——极大简化了多模态视频生成。


实验与结果: 评估 UniVideo 的影响力

为验证 UniVideo,研究人员在生成、理解与编辑任务上与主流模型进行了性能对比。

视觉理解与生成

UniVideo 是否仍能在文本到视频、图像到视频任务中竞争?毫无疑问。如表 3 所示,MLLM 拥有顶级理解分数,而其生成质量与 HunyuanVideo 等专门系统不相上下。

UniVideo 与其他模型在视觉理解与视频生成方面的定量比较。

表 3: UniVideo 在理解与生成任务上均取得优异成绩,可与专业模型媲美。


上下文视频生成与编辑

UniVideo 的独特优势在于处理上下文指令——利用参考图像创作或编辑视频。

在上下文生成与编辑任务中,UniVideo 与其他模型的定性示例比较。

图 4: 与其他模型相比,UniVideo 更好地保持身份一致性并遵循多模态指令。

人工评估与自动基准证实,UniVideo 在主体一致性方面处于领先,即使多角色场景中也能跨帧保持身份统一。

上下文视频生成的定量结果,显示 UniVideo 尤其在主体一致性上超越其他模型。

表 4: UniVideo 在主体一致性 (SC) 上得分最高,优于商业与学术基线。

对于上下文编辑任务,UniVideo 的优势是易用性——它是免掩码的。用户只需用文字描述编辑,如“将男子的衬衫换成红色”、“把图中的狗加进场景”。即使缺乏显式掩码指导,UniVideo 的表现仍与需精确区域标注的 SOTA 模型不相上下。

上下文视频编辑的定量结果。UniVideo 是唯一无需掩码却仍实现顶级性能的模型。

表 5: 即使没有用户提供的掩码,UniVideo 仍达到领先水平,使编辑过程自然直观。


统一之力: 零样本泛化

也许最令人振奋的成果来自 UniVideo 的零样本泛化能力——成功执行它从未在训练中见过的任务。

研究人员观察到两种显著形式:

  1. 未见自由形式编辑:
    虽然训练数据涵盖了结构化编辑 (添加、删除、替换、风格化) ,UniVideo 能泛化至创造性自由形式编辑,如“为男子添加绿幕”、“让女子变成玻璃质感”、“把白天变成夜晚”。这些能力得益于大量图像编辑任务的迁移。
  2. 任务组合:
    UniVideo 可自然组合任务——如“用这张图中的车替换原车,并按这幅画的风格进行处理”。这种组合推理能力源自统一训练。

UniVideo 零样本泛化到未见编辑任务及新颖任务组合的示例。

图 5: UniVideo 能处理新型编辑与复杂组合——甚至是训练时未遇到的任务。

统一设计将多模态学习转化为强大的泛化能力,使从图像中学习的技能提升视频表现。


理解复杂视觉提示

在更具创造性的测试中,UniVideo 将视觉线索——手绘注释或故事板——转化为鲜活的视频场景。结果显示其在运动理解、布局解析及事件过渡方面表现突出。

UniVideo 根据视觉提示和故事板生成视频的定性示例。

图 6: UniVideo 能根据草图和标注图像生成动态视频序列。

该能力展示了 UniVideo 将视觉与语言推理融合的优势——是迈向直观多模态创意控制的重要一步。


双流设计的价值: 消融研究洞察

为验证设计有效性,研究团队进行了针对性的消融实验。

  1. 多任务学习 vs 单任务:
    独立任务训练的模型表现较弱。联合学习的 UniVideo 显著优于之,特别是在编辑任务上,验证了统一训练下任务间的协同效应。
  2. 双流 vs 单流:
    若仅将视觉输入馈入 MLLM 而非 MMDiT,身份保持性能急剧下降。因此生成流对于维持真实感至关重要。

消融研究表明,多任务学习模型性能优于单任务模型。

表 6: 得益于跨任务学习,多任务 UniVideo 取得更高分数。

消融结果显示,将视觉信息直接传入 MMDiT 对保持主体一致性至关重要。

表 7: 移除 MMDiT 的视觉输入会显著降低主体一致性——验证了双流架构的重要性。


结论: 视频 AI 的统一未来

UniVideo 代表了多模态生成式 AI 的里程碑——超越了为单一任务设计的视频系统,迈向一个平衡推理与真实感的统一框架。

表格比较 UniVideo 与其他领先多模态模型的能力,突出其全面功能集。

表 8: UniVideo 率先支持图像与视频的全方位理解、生成与编辑。

核心要点:

  • 双流架构融合语义推理与高精度视觉控制。
  • 统一多任务训练打造可泛化能力,实现零样本创造。
  • 免掩码编辑让智能视频操作更自然、更友好。

尽管仍存在一些局限——如运动保持或轻微的过度编辑——UniVideo 已清晰描绘视频 AI 的未来: 走向统一、直觉化的系统,能同时理解语言与视觉,助我们将创意在文本、图像乃至视频中化为现实。