如果你一直关注人工智能领域,你一定见证了从文本生成到根据简单提示创作惊艳图像的巨大飞跃。而下一个前沿领域始终是视频。尽管将文本转化为短视频片段的模型越来越常见,但它们常常显得像只会一招的“独门小马”。
如果我们希望拥有一个 AI,不仅能生成视频,还能理解涉及图像的复杂指令,以精细的方式编辑现有视频,甚至能遵循手绘故事板呢?
这正是当今专门化的视频模型所面临的挑战。大多数模型都是为单一任务 (如文本到视频) 而构建的,难以理解多模态指令,例如“让这张图片中的人出现在视频里骑自行车”。编辑过程往往笨拙而独立,需要特定任务的工具。
现在,来自滑铁卢大学和快手科技的研究人员推出了 UniVideo 框架,这标志着迈向视频领域真正多模态 AI 助手的重要一步。UniVideo 不仅仅是又一个文本到视频生成器——它是一个统一的系统,能够无缝利用文本、图像和视频等多模态指令,进行理解、生成和编辑。它可以从文本提示生成视频,让照片中的角色出演视频,从场景中移除对象,甚至将视觉故事板变为现实。
图 1: UniVideo 是一个统一系统,能够理解多模态指令并生成多样化的视频内容。
在这次深度解析中,我们将剖析使 UniVideo 运作的架构,探索它如何同时掌握多种任务,并观察其令人印象深刻的成果,这些结果表明它在表现上可媲美甚至超越专门的顶级模型。
当今视频模型的困境
人工智能领域已见证了图像统一模型的蓬勃发展。像 Google 的 Imagen 和 OpenAI 的 DALL·E 等系统,已经能在单一、整体的框架下理解并生成图像。它们能就图像进行对话,按指令编辑,并创作新的视觉内容。这种统一性极具威力——它让模型形成整体理解,并实现任务间的技能迁移。
但视频却发展滞后。现有的视频模型通常分为两类:
- 单任务生成器: 精于一技,通常是文本到视频。它们使用文本编码器解析提示,再由生成器创作视频。这使它们只能处理文本指令,无法利用视觉上下文,如参考图像中的特定角色。
- 特定任务编辑器: 视频编辑模型往往为不同任务配备专用模块或复杂流程 (如一个用于风格变化,另一个用于对象移除) 。这导致模型难以扩展,无法应对开放性的创意指令。
正因为这种割裂,诸如从多个参考图像生成视频、用单条指令执行复杂编辑或理解视觉提示等高级功能,至今仍是单一模型难以企及的。UniVideo 的设计目标正是要打破这一局限。
核心方法: 双流架构的故事
UniVideo 如何同时应对如此多任务?秘诀就在于它巧妙的双流架构,将理解与生成分工明确。
模型主要由两个部分组成,如图 2 所示:
- 理解分支 (MLLM) : 多模态大语言模型——系统的“大脑”。它负责解析用户指令,不管输入是文本、图像还是视频,并提取高层语义信息。
- 生成分支 (MMDiT) : 多模态扩散 Transformer——系统的“艺术家”,负责渲染与编辑视频帧。
图 2: UniVideo 的双流架构。MLLM 负责理解,而 MMDiT 负责生成,将推理与视觉保真度融合。
当你向 UniVideo输入一个提示——比如 “生成一段视频,让
- MLLM 处理文本和视觉输入以理解意图。它判断女士是谁、包的样式以及她该出现的位置。
- 提取出的语义特征通过一个可训练的连接器传递,与 MMDiT 的理解流对齐,从而用连贯的语义规划引导生成器。
- 同时,图像和视频经过 VAE (变分自编码器) 编码后输入到 MMDiT 的生成流,确保纹理、人脸与场景的像素级精细度。
这种双流设计使模型既聪明又细腻。旧的统一模型倾向于将所有输入压缩为小规模 token,丢失细节;而 UniVideo 通过结合语义流与视觉流,兼具细腻推理与高保真重建,对视频编辑时保持身份与精确性至关重要。
一个模型,多项任务
UniVideo 的作者在广泛的多模态任务上训练了模型——让一个模型学会处理各种任务,而不是为每项任务单独开发工具。
训练数据覆盖以下任务:
- 文本到图像与文本到视频
- 图像到视频
- 图像编辑与风格迁移
- 上下文视频生成 (参考图像引导的视频)
- 上下文视频编辑 (对象替换、添加或删除)
表 1: UniVideo 在数千万样本上进行了训练,涵盖基础视觉-语言任务。
研究人员将训练过程划分为三个阶段:
- 连接器对齐: 冻结预训练好的 MLLM 和 MMDiT,只训练连接器模块,使其平滑衔接两者。
- 微调 MMDiT: 使用高质量图像与视频数据对生成器进行优化,以提升真实感与连贯性。
- 多任务训练: 最后在综合任务上联合训练,使模型学习在多模态上下文中何时以及如何生成、编辑或风格化。
表 2: 各阶段逐步提升模型能力——从对齐到微调,再到多任务精熟。
理解视觉提示
UniVideo 的亮点之一在于它能理解视觉提示——例如将草图或带标注的截图转化为连贯的视频叙事。
MLLM 能解析这些视觉信息,将其转化为结构化描述指导生成器。这让用户可以直接在图像上绘制故事板、标注运动路径或场景注释,UniVideo 则能将这些线索转换为视频。
图 3: MLLM 将手绘提示或标注图像转化为生成器的像素级指令。
UniVideo 在一个统一系统中完成全部操作,无需复杂的多模型管线——极大简化了多模态视频生成。
实验与结果: 评估 UniVideo 的影响力
为验证 UniVideo,研究人员在生成、理解与编辑任务上与主流模型进行了性能对比。
视觉理解与生成
UniVideo 是否仍能在文本到视频、图像到视频任务中竞争?毫无疑问。如表 3 所示,MLLM 拥有顶级理解分数,而其生成质量与 HunyuanVideo 等专门系统不相上下。
表 3: UniVideo 在理解与生成任务上均取得优异成绩,可与专业模型媲美。
上下文视频生成与编辑
UniVideo 的独特优势在于处理上下文指令——利用参考图像创作或编辑视频。
图 4: 与其他模型相比,UniVideo 更好地保持身份一致性并遵循多模态指令。
人工评估与自动基准证实,UniVideo 在主体一致性方面处于领先,即使多角色场景中也能跨帧保持身份统一。
表 4: UniVideo 在主体一致性 (SC) 上得分最高,优于商业与学术基线。
对于上下文编辑任务,UniVideo 的优势是易用性——它是免掩码的。用户只需用文字描述编辑,如“将男子的衬衫换成红色”、“把图中的狗加进场景”。即使缺乏显式掩码指导,UniVideo 的表现仍与需精确区域标注的 SOTA 模型不相上下。
表 5: 即使没有用户提供的掩码,UniVideo 仍达到领先水平,使编辑过程自然直观。
统一之力: 零样本泛化
也许最令人振奋的成果来自 UniVideo 的零样本泛化能力——成功执行它从未在训练中见过的任务。
研究人员观察到两种显著形式:
- 未见自由形式编辑:
虽然训练数据涵盖了结构化编辑 (添加、删除、替换、风格化) ,UniVideo 能泛化至创造性自由形式编辑,如“为男子添加绿幕”、“让女子变成玻璃质感”、“把白天变成夜晚”。这些能力得益于大量图像编辑任务的迁移。 - 任务组合:
UniVideo 可自然组合任务——如“用这张图中的车替换原车,并按这幅画的风格进行处理”。这种组合推理能力源自统一训练。
图 5: UniVideo 能处理新型编辑与复杂组合——甚至是训练时未遇到的任务。
统一设计将多模态学习转化为强大的泛化能力,使从图像中学习的技能提升视频表现。
理解复杂视觉提示
在更具创造性的测试中,UniVideo 将视觉线索——手绘注释或故事板——转化为鲜活的视频场景。结果显示其在运动理解、布局解析及事件过渡方面表现突出。
图 6: UniVideo 能根据草图和标注图像生成动态视频序列。
该能力展示了 UniVideo 将视觉与语言推理融合的优势——是迈向直观多模态创意控制的重要一步。
双流设计的价值: 消融研究洞察
为验证设计有效性,研究团队进行了针对性的消融实验。
- 多任务学习 vs 单任务:
独立任务训练的模型表现较弱。联合学习的 UniVideo 显著优于之,特别是在编辑任务上,验证了统一训练下任务间的协同效应。 - 双流 vs 单流:
若仅将视觉输入馈入 MLLM 而非 MMDiT,身份保持性能急剧下降。因此生成流对于维持真实感至关重要。
表 6: 得益于跨任务学习,多任务 UniVideo 取得更高分数。
表 7: 移除 MMDiT 的视觉输入会显著降低主体一致性——验证了双流架构的重要性。
结论: 视频 AI 的统一未来
UniVideo 代表了多模态生成式 AI 的里程碑——超越了为单一任务设计的视频系统,迈向一个平衡推理与真实感的统一框架。
表 8: UniVideo 率先支持图像与视频的全方位理解、生成与编辑。
核心要点:
- 双流架构融合语义推理与高精度视觉控制。
- 统一多任务训练打造可泛化能力,实现零样本创造。
- 免掩码编辑让智能视频操作更自然、更友好。
尽管仍存在一些局限——如运动保持或轻微的过度编辑——UniVideo 已清晰描绘视频 AI 的未来: 走向统一、直觉化的系统,能同时理解语言与视觉,助我们将创意在文本、图像乃至视频中化为现实。