超越文本到视频：UniVideo 如何统一理解、生成与编辑

如果你一直关注人工智能领域，你一定见证了从文本生成到根据简单提示创作惊艳图像的巨大飞跃。而下一个前沿领域始终是视频。尽管将文本转化为短视频片段的模型越来越常见，但它们常常显得像只会一招的“独门小马”。

如果我们希望拥有一个 AI，不仅能生成视频，还能理解涉及图像的复杂指令，以精细的方式编辑现有视频，甚至能遵循手绘故事板呢？

这正是当今专门化的视频模型所面临的挑战。大多数模型都是为单一任务 (如文本到视频) 而构建的，难以理解多模态指令，例如“让这张图片中的人出现在视频里骑自行车”。编辑过程往往笨拙而独立，需要特定任务的工具。

现在，来自滑铁卢大学和快手科技的研究人员推出了 UniVideo 框架，这标志着迈向视频领域真正多模态 AI 助手的重要一步。UniVideo 不仅仅是又一个文本到视频生成器——它是一个统一的系统，能够无缝利用文本、图像和视频等多模态指令，进行理解、生成和编辑。它可以从文本提示生成视频，让照片中的角色出演视频，从场景中移除对象，甚至将视觉故事板变为现实。

一张展示 UniVideo 功能的拼贴图，包括文本到视频、基于图像的上下文生成、上下文编辑以及绿幕或材质替换等自由形式的编辑。

图 1: UniVideo 是一个统一系统，能够理解多模态指令并生成多样化的视频内容。

在这次深度解析中，我们将剖析使 UniVideo 运作的架构，探索它如何同时掌握多种任务，并观察其令人印象深刻的成果，这些结果表明它在表现上可媲美甚至超越专门的顶级模型。

当今视频模型的困境

人工智能领域已见证了图像统一模型的蓬勃发展。像 Google 的 Imagen 和 OpenAI 的 DALL·E 等系统，已经能在单一、整体的框架下理解并生成图像。它们能就图像进行对话，按指令编辑，并创作新的视觉内容。这种统一性极具威力——它让模型形成整体理解，并实现任务间的技能迁移。

但视频却发展滞后。现有的视频模型通常分为两类:

单任务生成器: 精于一技，通常是文本到视频。它们使用文本编码器解析提示，再由生成器创作视频。这使它们只能处理文本指令，无法利用视觉上下文，如参考图像中的特定角色。
特定任务编辑器: 视频编辑模型往往为不同任务配备专用模块或复杂流程 (如一个用于风格变化，另一个用于对象移除) 。这导致模型难以扩展，无法应对开放性的创意指令。

正因为这种割裂，诸如从多个参考图像生成视频、用单条指令执行复杂编辑或理解视觉提示等高级功能，至今仍是单一模型难以企及的。UniVideo 的设计目标正是要打破这一局限。

核心方法: 双流架构的故事

UniVideo 如何同时应对如此多任务？秘诀就在于它巧妙的双流架构，将理解与生成分工明确。

模型主要由两个部分组成，如图 2 所示:

理解分支 (MLLM) : 多模态大语言模型——系统的“大脑”。它负责解析用户指令，不管输入是文本、图像还是视频，并提取高层语义信息。
生成分支 (MMDiT) : 多模态扩散 Transformer——系统的“艺术家”，负责渲染与编辑视频帧。

UniVideo 架构图，展示 MLLM 理解流与 MMDiT 生成流。

图 2: UniVideo 的双流架构。MLLM 负责理解，而 MMDiT 负责生成，将推理与视觉保真度融合。

当你向 UniVideo输入一个提示——比如 “生成一段视频，让中的女士拿着中的包，出现在的场景中”——两个流便同时启动:

MLLM 处理文本和视觉输入以理解意图。它判断女士是谁、包的样式以及她该出现的位置。
提取出的语义特征通过一个可训练的连接器传递，与 MMDiT 的理解流对齐，从而用连贯的语义规划引导生成器。
同时，图像和视频经过 VAE (变分自编码器) 编码后输入到 MMDiT 的生成流，确保纹理、人脸与场景的像素级精细度。

这种双流设计使模型既聪明又细腻。旧的统一模型倾向于将所有输入压缩为小规模 token，丢失细节；而 UniVideo 通过结合语义流与视觉流，兼具细腻推理与高保真重建，对视频编辑时保持身份与精确性至关重要。

一个模型，多项任务

UniVideo 的作者在广泛的多模态任务上训练了模型——让一个模型学会处理各种任务，而不是为每项任务单独开发工具。

训练数据覆盖以下任务:

文本到图像与文本到视频
图像到视频
图像编辑与风格迁移
上下文视频生成 (参考图像引导的视频)
上下文视频编辑 (对象替换、添加或删除)

用于 UniVideo 的多模态训练数据概览。

表 1: UniVideo 在数千万样本上进行了训练，涵盖基础视觉-语言任务。

研究人员将训练过程划分为三个阶段:

连接器对齐: 冻结预训练好的 MLLM 和 MMDiT，只训练连接器模块，使其平滑衔接两者。
微调 MMDiT: 使用高质量图像与视频数据对生成器进行优化，以提升真实感与连贯性。
多任务训练: 最后在综合任务上联合训练，使模型学习在多模态上下文中何时以及如何生成、编辑或风格化。

三个训练阶段的超参数配置。

表 2: 各阶段逐步提升模型能力——从对齐到微调，再到多任务精熟。

理解视觉提示

UniVideo 的亮点之一在于它能理解视觉提示——例如将草图或带标注的截图转化为连贯的视频叙事。

MLLM 能解析这些视觉信息，将其转化为结构化描述指导生成器。这让用户可以直接在图像上绘制故事板、标注运动路径或场景注释，UniVideo 则能将这些线索转换为视频。

图示 MLLM 如何解析视觉故事板，并生成密集字幕指导 MMDiT 合成视频。

图 3: MLLM 将手绘提示或标注图像转化为生成器的像素级指令。

UniVideo 在一个统一系统中完成全部操作，无需复杂的多模型管线——极大简化了多模态视频生成。

实验与结果: 评估 UniVideo 的影响力

为验证 UniVideo，研究人员在生成、理解与编辑任务上与主流模型进行了性能对比。

视觉理解与生成

UniVideo 是否仍能在文本到视频、图像到视频任务中竞争？毫无疑问。如表 3 所示，MLLM 拥有顶级理解分数，而其生成质量与 HunyuanVideo 等专门系统不相上下。

UniVideo 与其他模型在视觉理解与视频生成方面的定量比较。

表 3: UniVideo 在理解与生成任务上均取得优异成绩，可与专业模型媲美。

上下文视频生成与编辑

UniVideo 的独特优势在于处理上下文指令——利用参考图像创作或编辑视频。

在上下文生成与编辑任务中，UniVideo 与其他模型的定性示例比较。

图 4: 与其他模型相比，UniVideo 更好地保持身份一致性并遵循多模态指令。

人工评估与自动基准证实，UniVideo 在主体一致性方面处于领先，即使多角色场景中也能跨帧保持身份统一。

上下文视频生成的定量结果，显示 UniVideo 尤其在主体一致性上超越其他模型。

表 4: UniVideo 在主体一致性 (SC) 上得分最高，优于商业与学术基线。

对于上下文编辑任务，UniVideo 的优势是易用性——它是免掩码的。用户只需用文字描述编辑，如“将男子的衬衫换成红色”、“把图中的狗加进场景”。即使缺乏显式掩码指导，UniVideo 的表现仍与需精确区域标注的 SOTA 模型不相上下。

上下文视频编辑的定量结果。UniVideo 是唯一无需掩码却仍实现顶级性能的模型。

表 5: 即使没有用户提供的掩码，UniVideo 仍达到领先水平，使编辑过程自然直观。

统一之力: 零样本泛化

也许最令人振奋的成果来自 UniVideo 的零样本泛化能力——成功执行它从未在训练中见过的任务。

研究人员观察到两种显著形式:

未见自由形式编辑:
虽然训练数据涵盖了结构化编辑 (添加、删除、替换、风格化) ，UniVideo 能泛化至创造性自由形式编辑，如“为男子添加绿幕”、“让女子变成玻璃质感”、“把白天变成夜晚”。这些能力得益于大量图像编辑任务的迁移。
任务组合:
UniVideo 可自然组合任务——如“用这张图中的车替换原车，并按这幅画的风格进行处理”。这种组合推理能力源自统一训练。

UniVideo 零样本泛化到未见编辑任务及新颖任务组合的示例。

图 5: UniVideo 能处理新型编辑与复杂组合——甚至是训练时未遇到的任务。

统一设计将多模态学习转化为强大的泛化能力，使从图像中学习的技能提升视频表现。

理解复杂视觉提示

在更具创造性的测试中，UniVideo 将视觉线索——手绘注释或故事板——转化为鲜活的视频场景。结果显示其在运动理解、布局解析及事件过渡方面表现突出。

UniVideo 根据视觉提示和故事板生成视频的定性示例。

图 6: UniVideo 能根据草图和标注图像生成动态视频序列。

该能力展示了 UniVideo 将视觉与语言推理融合的优势——是迈向直观多模态创意控制的重要一步。

双流设计的价值: 消融研究洞察

为验证设计有效性，研究团队进行了针对性的消融实验。

多任务学习 vs 单任务:
独立任务训练的模型表现较弱。联合学习的 UniVideo 显著优于之，特别是在编辑任务上，验证了统一训练下任务间的协同效应。
双流 vs 单流:
若仅将视觉输入馈入 MLLM 而非 MMDiT，身份保持性能急剧下降。因此生成流对于维持真实感至关重要。

消融研究表明，多任务学习模型性能优于单任务模型。

表 6: 得益于跨任务学习，多任务 UniVideo 取得更高分数。

消融结果显示，将视觉信息直接传入 MMDiT 对保持主体一致性至关重要。

表 7: 移除 MMDiT 的视觉输入会显著降低主体一致性——验证了双流架构的重要性。

结论: 视频 AI 的统一未来

UniVideo 代表了多模态生成式 AI 的里程碑——超越了为单一任务设计的视频系统，迈向一个平衡推理与真实感的统一框架。

表格比较 UniVideo 与其他领先多模态模型的能力，突出其全面功能集。

表 8: UniVideo 率先支持图像与视频的全方位理解、生成与编辑。

核心要点:

双流架构融合语义推理与高精度视觉控制。
统一多任务训练打造可泛化能力，实现零样本创造。
免掩码编辑让智能视频操作更自然、更友好。

尽管仍存在一些局限——如运动保持或轻微的过度编辑——UniVideo 已清晰描绘视频 AI 的未来: 走向统一、直觉化的系统，能同时理解语言与视觉，助我们将创意在文本、图像乃至视频中化为现实。

当今视频模型的困境#

核心方法: 双流架构的故事#

一个模型，多项任务#

理解视觉提示#

实验与结果: 评估 UniVideo 的影响力#

视觉理解与生成#

上下文视频生成与编辑#

统一之力: 零样本泛化#

理解复杂视觉提示#

双流设计的价值: 消融研究洞察#

结论: 视频 AI 的统一未来#