引言
在生成式 AI 飞速发展的今天,我们目睹了工具的碎片化。如果你想从头生成一张图像,可能会使用 Stable Diffusion 或 Midjourney;如果你想改变现有照片的风格,可能会寻找风格迁移适配器;如果你想将特定产品插入背景中,可能需要像 AnyDoor 这样的专门物体插入模型。
虽然这些专门的“专家”模型在各自的领域表现出色,但它们限制了工作流程。现实世界的创作过程是流动的;我们可能希望生成一个场景,然后移除一个物体,接着改变光照,最后从另一张照片中插入一个角色——所有这些都在一次操作中完成。
这就引出了 UniReal , 这是由香港大学和 Adobe 的研究人员提出的一个新框架。UniReal 提出了一种范式转变: 与其为不同的任务构建单独的模型,不如构建一个单一的通用框架,将每一个图像任务——无论是创建、编辑还是合成——都视为一种形式的 不连续视频生成 (discontinuous video generation) 。
通过将输入和输出图像视为视频中的帧,UniReal 学会了模拟现实世界的“动态”——阴影、反射和物理交互——从而使其能够用单个模型处理种类繁多的任务。

在这篇文章中,我们将解构 UniReal 论文。我们将探讨将图像视为视频帧如何解决一致性问题,该架构如何管理复杂的多图像输入,以及研究人员如何巧妙地利用视频数据来训练出一个大师级的编辑器。
核心问题: 专才陷阱
要理解 UniReal 的重要性,我们首先需要看看当前的格局。大多数基于扩散的方法都是“专才”。
- 文本生成图像 (T2I): 擅长创建新图像,但在保留参考图像的具体细节方面表现糟糕。
- 指令式编辑 (Instructive Editing): 像 InstructPix2Pix 这样的模型可以遵循“让天下雨”这样的命令,但它们通常在复杂的结构变化或插入特定物体方面表现挣扎。
- 定制化 (Customization): 像 DreamBooth 这样的方法需要为每个新主体微调模型,这既计算量大又缓慢。
问题在于这些任务有着共同的基本需求。它们都需要在保留 一致性 (Consistency) (让这只狗看起来还是那只狗) 的同时引入 变化 (Variation) (把狗移到海滩上) 。
UniReal 的作者观察到,视频生成模型自然地解决了这种平衡。视频模型基于 \(t\) 帧生成 \(t+1\) 帧。它必须在保持主体一致性的同时考虑运动 (变化) 。UniReal 提出了一个问题: 如果我们把一次编辑——比如移除背包或改变背景——仅仅看作是从一个视频帧移动到另一个视频帧,会怎么样?
UniReal 方法
UniReal 是一个旨在解决几乎所有图像级任务的统一框架。它通过结合视频启发的架构和复杂的提示系统来实现这一目标。
1. 不连续视频生成
UniReal 的核心论点是,图像编辑本质上是“不连续视频生成”。
- 连续视频: 第 1 帧是一个人在走路。第 2 帧是人稍微向前移动。这种变化是微小的且具有时间连续性。
- 不连续视频 (UniReal 的视角) : 第 1 帧是一个背着背包的人。第 2 帧是这个人没有背包。这里的“运动”就是编辑本身。
通过采用视频生成架构,UniReal 可以处理任意数量的输入图像 (源图像、参考图像、条件图) ,并将输出图像作为一系列帧。它使用了在视频 Transformer 中发现的 全注意力机制 (Full Attention) 来同时查看所有“帧”,从而使其能够深入理解参考物体与目标背景之间的关系。
2. 架构: 具有全注意力机制的扩散 Transformer
让我们看看其内部结构。UniReal 并没有使用旧版扩散模型中的标准 U-Net 架构。相反,它使用了一种 扩散 Transformer (DiT) , 类似于 Sora 或 Stable Diffusion 3 背后的架构。

如上图 2 所示,该流程工作如下:
- VAE 编码: 所有输入图像 (待编辑图像、参考物体或条件图) 都被 VAE 编码器压缩到潜在空间中。
- 切片化 (Patchification): 这些潜在图像和随机噪声 (用于生成) 被切成小块,成为“视觉 Token”。
- Token 拼接: 这是巧妙的部分。模型将来自输入图像的视觉 Token、用于输出的噪声 Token 以及来自提示词的文本 Token 拼接到一个巨大的 1D 序列中。
- 全注意力 Transformer: 一个 Transformer 处理这个长序列。因为它使用“全注意力”,每个 Token 都可以“看到”其他所有 Token。噪声 Token (结果将出现在这里) 可以直接关注参考狗或背景场景的像素,从而确保高保真度。
3. 分层提示词: 解决歧义
构建通用模型面临的最大挑战之一是 歧义性 。
想象一下给模型一张狗的照片和文字“一只狗”。
- 如果是 编辑 任务,模型应该保留这只狗,或许清理一下图像。
- 如果是 定制化 任务,模型应该提取这只狗的特征并将它放入新的姿势中。
- 如果是 控制 任务,图像可能是一个深度图。
为了解决这个问题,UniReal 引入了 分层提示词 (Hierarchical Prompts) 。 它不仅仅依赖用户的文本,而是将指令分解为三层:
- 基础提示词 (Base Prompt): 用户的实际指令 (例如,“把这只狗放在草地上”) 。
- 上下文提示词 (Context Prompt): 描述任务类型的全局设置 (例如,“写实风格”、“带有参考物体”、“静态场景”) 。
- 图像提示词 (Image Prompt): 分配给每个输入图像的标签,用于定义其角色:
- 画布 (Canvas): 背景或在其上进行编辑的图像。
- 素材 (Asset): 要插入或参考的物体。
- 控制 (Control): 深度图、边缘图或掩码。

图 8 说明了为什么这一点很重要。在第一行中,将图像提示词从 [Canvas, Asset] 更改为 [Canvas, Control] 完全改变了第二张图像的使用方式。在第二行中,将上下文提示词从“合成 (Synthetic) ”更改为“写实 (Realistic) ”极大地改变了输出的艺术风格。这种层级结构赋予了模型对如何使用其输入的精确控制。
数据构建: 向世界学习
模型的好坏取决于它的数据。图像编辑的问题在于,大规模、高质量的“编辑前和编辑后”数据集非常罕见。手工绘制掩码或用 Photoshop 处理数百万张图像是不可能的。
UniReal 利用 视频 作为可扩展的真实数据来源。现实世界的视频自然包含模型需要学习的“动态”。

研究人员构建了一个自动化流程 (图 3) 从原始视频中获取训练数据:
- 视频帧对帧 (Video Frame2Frame): 他们从视频中随机选取两帧。它们之间的差异 (摄像机移动、主体旋转、光照变化) 作为“编辑”的训练样本。大型语言模型 (LLM) 会生成描述这种变化的标题。
- 视频多物体 (Video Multi-object): 使用分割模型 (如 SAM 2) ,他们从一帧中剪切出物体,并要求模型生成包含这些物体的另一帧。这教会了模型 定制化 和 合成 。
- 视频控制 (Video Control): 他们从视频帧中提取深度图或边缘图,以创建用于 可控生成 的训练对。
通过将这种可扩展的视频数据与现有数据集 (如 InstructPix2Pix) 混合,UniReal 学会了鲁棒的物理交互 (阴影、透视) ,这些通常是合成编辑数据集中所缺失的。
表 1 列出了数据来源。注意对新建视频数据集 (底部区块) 的严重依赖,包含了数百万个样本。

实验与能力
UniReal 在几项困难的任务中展示了最先进的性能。让我们看看结果。
1. 指令式图像编辑
此任务涉及根据文本命令 (例如,“添加一头大象”) 更改图像。

在图 4 中,将 UniReal (最右侧) 与 InstructPix2Pix 或 OmniGen 等竞争对手进行比较。
- 第 1 行 (大象) : UniReal 将大象逼真地融入水中,包括倒影和水下部分。其他模型通常像贴纸一样把大象贴在上面。
- 第 2 行 (移除玩具) : UniReal 完全移除了黄色鸭子,并完美地“脑补”出了原本被遮挡的岩石。
- 第 3 行 (蚂蚁) : 提示词“小蚂蚁举起汽车”很复杂。UniReal 实际上渲染了蚂蚁与汽车的互动,而其他模型很难可视化这种互动。
2. 定量评估
研究人员用确凿的数据支持了这些视觉效果。他们使用了 CLIP (衡量图像与文本的匹配程度) 和 DINO (衡量视觉质量) 等指标。

如表 2 所示,与 UltraEdit 等专业编辑器或 OmniGen 等通用模型相比,UniReal 在 CLIP_out (输出质量) 和 CLIP_dir (定向编辑准确性) 上的得分始终更高。
3. 图像定制化与物体插入
这可以说是生成式 AI 中最难的任务: 获取一个特定的物体 (不仅仅是“一只狗”,而是“这只特定的玩具狗”) 并将它放入新的上下文中。

在图 5 中,看第一行。任务是将蓝色的“Tuetan”罐头放在摆满水果的桌子上。
- UniReal 保留了罐头上的文字及其金属质感,同时根据新场景正确地进行了打光。
- OmniGen 和其他模型经常扭曲标志或丢失罐头的形状。
底行显示了 多主体合成 (打架的毛绒玩具) 。UniReal 设法保持了两个玩具的独特身份,而其他模型经常将它们的特征混合在一起。
4. 与 AnyDoor 的比较
AnyDoor 是一个专为物体插入设计的流行模型。然而,它通常需要用户提供掩码来告诉它把物体放在哪里。

图 7 突出了 UniReal 的一个主要优势: 它不需要掩码。 它从文本中推断位置。
- 第 1 行 (狗) : 模型把狗放在游泳池里。注意水中的折射。AnyDoor 很难将狗的毛发与水面融合。
- 第 3 行 (人) : UniReal 完美匹配了背景的光照和色调,使这个人看起来就像原本就在照片里一样。
为什么视频数据是“核心奥义”
论文中最有趣的发现之一是关于训练数据的消融实验。研究人员训练了一个仅在 Video Frame2Frame 数据集上训练的 UniReal 版本——这意味着它从未见过明确的“编辑”指令,只见过视频帧对。

如图 9 所示, 仅在视频上训练的模型 (第三列) 已经可以执行添加狗或改变汽车颜色等任务。这证明了一个假设: 学习视频帧之间的自然变化可以教会模型如何编辑图像。 完整模型 (最后一列) 更清晰、更听话,但核心能力来自视频数据。
涌现能力与未来潜力
由于 UniReal 是在如此多样化的任务和数据上训练的,它表现出了“涌现能力”——即它没有经过明确训练但可以通过结合现有知识来执行的技能。

图 10 (右侧区块) 展示了这些新颖的能力:
- 多物体插入: 无缝地将多个不同的物品 (玩具、背包) 添加到场景中。
- 局部参考编辑: 将参考图像中的发型转移到目标人物身上,而不改变他们的脸。
- 层感知编辑: 将物体放置在现有物体“后面” (例如大象出现在栅栏后面) ,而无需深度图输入。
结论
UniReal 代表了迈向“通用视觉智能”的重要一步。通过摆脱专门的、特定任务的流程,拥抱统一的、受视频启发的框架,它一次性解决了多个问题。
对于学生和研究人员来说,关键要点是:
- 统一架构是赢家: 如果数据结构正确,具有全注意力机制的单一强大 Transformer (DiT) 可以胜过专门的 UNet。
- 视频是超级信号: 静态图像是有限的。视频包含了逼真编辑所需的物理、光照和 3D 理解。
- 提示工程即架构: 分层提示系统表明,我们如何要求模型做某事与模型本身同样重要。
UniReal 预示着一个未来,我们将不再需要“背景去除器”和“风格迁移器”。我们将仅仅拥有一个理解世界动态的视觉引擎,随时准备逐帧编辑现实。
](https://deep-paper.org/en/paper/2412.07774/images/cover.png)