DreamOmni2：教 AI 用文字和图片编辑与创作图像

你是否曾尝试让 AI 图像生成器创作出与你脑海中构想完全一致的图像？也许你想捕捉一位小众画家的独特艺术风格、一种复古织物的粗糙质感，或是一张你钟爱的照片中那精准的黄金时刻光线。你输入了详尽的提示，但文字总是无法完美传达微妙的差别。你心想: “要是我能直接给它看我指的东西就好了。”

文字与视觉之间的这道鸿沟，是当前生成式 AI 模型的根本限制。它们能够将文本转化为令人惊艳的图像，但语言自身却是描述精细视觉细节的钝器。与此同时，那些能从图像中学习的模型——即所谓的主体驱动生成器——通常会将具体元素 (比如某个人或某个物体) 复制到新的场景中，却难以迁移抽象要素，如情绪、姿态、材质或艺术风格。

最近的一篇研究论文 “DREAMOMNI2: MULTIMODAL INSTRUCTION-BASED EDITING AND GENERATION” 针对这一问题提出了解决方案。研究人员推出了 DreamOmni2，一个能够理解来自文本和参考图像指令的统一框架。这种“多模态”方法让用户可以以非凡的精度引导 AI 进行图像编辑与生成——不仅仅是替换物体，还能控制诸如纹理、光照、构图和整体风格等抽象属性。

一组展示 DreamOmni2 多样化能力的图片，从更换物体、服装到匹配艺术风格与姿势。

图 1: DreamOmni2 可处理种类广泛的创意任务，让用户能够结合多张图片的概念进行编辑或生成新图像。

本文将深入探讨 DreamOmni2 的工作原理——它如何构建多模态数据集、框架如何学习处理多个参考图像，以及它与主流开源和商业模型相比的表现。

单独使用文字或图片的局限性

在理解 DreamOmni2 的解决方案之前，先回顾它所改进的两种主流技术:

基于指令的编辑 – 像 InstructPix2Pix 这样的模型能根据文字命令 (比如 “把苹果变成橙子”) 转换图像。这类方法对于简单编辑很有效，但在表达复杂视觉特征时却力不从心——如何仅用文字精确描述一条裙子的繁复纹样或画家的笔触质感？
主体驱动的生成 – 像 DreamBooth 或 IP-Adapter 这样的模型能从一张或多张照片中学习主体，使你可以生成包含该主体的新图像 (如“你的狗在月球上”) 。但这些方法主要聚焦于具体对象，而非风格、姿态或光照条件等抽象要素。

DreamOmni2 通过两种新的多模态任务弥合了这些方法之间的差距:

基于多模态指令的编辑: 同时使用文本和视觉参考修改图像。例如: “让第一张图片中的包拥有与第二张图片中夹克相同的皮革纹理。”
基于多模态指令的生成: 根据提示词及多个参考图像生成新图像。例如: “生成一个人物，姿态来自图 1，穿着图 2 的服装，并处于图 3 的光照下。”

但要训练一个能完成这些任务的模型，研究人员面临重大挑战: 当不存在此类数据集时，如何创建一个包含源图像、参考图像、文本指令和目标结果的数据集？

构建 DreamOmni2 数据工厂

团队设计了一个巧妙的三阶段数据合成管线，以构建支持多模态编辑与生成所需的大规模高质量数据集。

一张图示展示三阶段数据构建流程: 先为提取模型创建数据，再用于生成多模态编辑数据，最后生成多模态生成数据。

图 2: DreamOmni2 的数据工厂分三个阶段运行，每个阶段基于前一阶段成果构建更复杂的多模态训练样本。

阶段 1: 通过特征混合提取具体与抽象概念

首先，他们需要训练一个模型来“提取”图像中的元素，如物体或抽象属性 (纹理、风格、姿态) 。

以往方法使用双联画法——并排生成两张图像——但这会降低分辨率并在分隔处产生伪影。DreamOmni2 引入了特征混合机制，在两个生成分支之间混合注意力特征。该过程促使模型生成一对共享特定属性但仍各具差异的图像——例如源图是一只猫，目标图是一只狗，但两者都呈现“梵高风格”。

特征混合能产出高分辨率、无伪影的图像对，准确传达共享属性。这些成对样本用于训练一个提取模型，使其能识别并再现具体对象与抽象特征。

阶段 2: 合成多模态编辑数据

训练完成的提取模型用于生成多模态编辑数据:

从目标图像开始: 选择一张最终图像，如“沙滩上的毛绒玩具狗”。
创建参考图像: 使用提取模型分离出属性，例如提取“毛绒质感”纹理。
创建源图像: 使用基于指令的编辑模型改变概念 (将毛绒狗变成金属狗) 。
生成指令: 借助大型语言模型 (LLM) 自动生成自然指令，如“让图中的狗拥有与参考图中相同的毛绒质感。”

每个数据单元——源图像、参考图像、文本指令和目标图像——都形成一个完整的训练样本。

阶段 3: 合成多模态生成数据

第三阶段将设置扩展至生成任务。提取模型从早期样本中创建多个参考图像，捕捉不同属性——如物体、纹理、光照。例如，给定“金属狗”、“沙滩”、“毛绒纹理”的参考图像，模型学习生成一张*“沙滩上的毛绒狗”*。

最终数据集覆盖了具体物体 (人物、宠物、家具、饰品等) 及抽象特征，后者又细分为**局部属性 (发型、材质、表情) 和全局属性 **(风格、光照、色彩) 。

两张饼图展示编辑与生成任务的数据分布，按具体物体及局部/全局属性分类，并附图示例。

图 3: DreamOmni2 的数据集涵盖了多样的具体物体与抽象属性，为编辑与生成任务提供丰富而通用的训练基础。

DreamOmni2 框架

构建数据集解决了一个问题，但让模型能处理多张输入图像则需要重新设计架构。传统的扩散变换器 (DiT) 模型难以理解指令中提到的具体图片对应关系。DreamOmni2 提出了两项关键创新。

1. 索引编码与位置编码偏移

当用户在提示中提到“图 1”或“图 2”时，模型需要明确索引。DreamOmni2 引入索引编码，为每张输入图片添加标识标签，帮助模型理解复杂的多模态指令。

但仅靠这个可能会出现“复制粘贴”伪影——模型混淆了空间位置。DreamOmni2 对每个参考图像的位置编码进行偏移，确保模型将它们视作独立的视觉空间。这两种编码联合使用，有效消除了跨图像混合，并保持干净、上下文感知的构图。

2. 与视觉语言模型 (VLM) 的联合训练

现实中的用户指令常含糊不清或语义不一致。为了提高系统稳健性，作者将 DreamOmni2 与一个**视觉语言模型 (VLM) **(Qwen2.5-VL) 进行联合训练。VLM 负责理解杂乱的自然语言提示，并将其转化为生成模型可理解的精确输入。

这种联合训练显著提高了系统对复杂多模态意图的理解能力，从而得到更准确的编辑与生成结果。

评估 DreamOmni2

现有基准，如 DreamBooth 和 OmniContext，无法测试 DreamOmni2 所支持的新型多模态场景。因此，研究人员创建了 DreamOmni2 基准测试，其中包含现实场景的图像与测试案例，涵盖抽象与具体概念的编辑和生成任务。

一张表格比较 DreamOmni2 基准测试与 DreamBooth、OmniContext 等现有基准，显示只有 DreamOmni2 涵盖编辑、生成、多参考图像及抽象属性。

表 1: DreamOmni2 填补了评估基准的重要空白，独家支持多参考图像与抽象属性的多模态编辑与生成任务。

基于多模态指令的编辑性能

DreamOmni2 与多个模型进行了比对，包括开源系统 (DreamO、OmniGen2、Qwen-Image-Edit) 和商业闭源系统 (GPT-4o、Nano Banana) 。

不同模型执行相同编辑任务的视觉对比。DreamOmni2 的结果始终更准确、更忠于指令。

图 4: 与竞争方法相比，DreamOmni2 展现了清晰、准确的编辑结果，并更好地遵循多模态指令。

一张表展示多模态编辑的量化结果，DreamOmni2 在人工评估中得分最高，且与商业模型相比竞争力强。

表 2: 编辑任务的量化对比显示，DreamOmni2 超越了所有开源模型，并达到或超过商业系统水平。

人工评估者认为 DreamOmni2 的编辑最为精准，甚至优于 GPT-4o 和 Nano Banana。其他模型常会产生意外改动或颜色偏差——这些问题人工一眼可辨，但自动评分系统往往遗漏。

基于多模态指令的生成性能

在生成任务中，情况类似。DreamOmni2 不仅超越了开源模型，在视觉质量上与 GPT-4o 相当，同时在一致性上超过 Nano Banana。

生成任务的视觉对比。DreamOmni2 生成的结果与多个参考图像更加连贯一致。

图 5: 在生成任务中，DreamOmni2 成功融合多张图像的元素，保持风格连贯与细节准确。

一张表展示多模态生成的量化结果。DreamOmni2 再次在人类评估中领先。

表 3: DreamOmni2 的生成质量与 GPT-4o 相当，并在各项评估指标中超越其他模型。

为什么这些创新至关重要: 消融研究

为验证每个架构组件的重要性，团队进行了系统的消融实验——每次移除一个模块观察结果。

联合 VLM 训练: 如下图所示，同时训练 VLM 与生成模型 (方案 4) 显著优于分离训练，体现紧密耦合的优势。
编码方案: 同时启用索引编码与位置编码偏移可获得最佳的多模态处理性能。

消融研究表格显示索引编码与位置编码偏移的结合对最佳性能至关重要。

表 5: 消融实验结果证实，处理多参考图像时索引编码和位置编码均不可或缺。

结论: 迈向真正直观的 AI 创作

DreamOmni2 标志着生成式 AI 向更具表现力与直观操作的工具迈出了重要一步。通过同时融合文本与图像指令，它超越了模糊的文字交互，实现了精准的视觉引导。

其双重创新——稳健的三阶段数据合成管线与多图像理解架构——使模型能够处理从具体主体到光照、纹理等微妙抽象特征的各种概念。

有了 DreamOmni2，我们正逐步迈入一个全新的创作时代: 你只需告诉 AI，“让它看起来像这样，” 它便能真正领会你的想法。

单独使用文字或图片的局限性#

构建 DreamOmni2 数据工厂#

阶段 1: 通过特征混合提取具体与抽象概念#

阶段 2: 合成多模态编辑数据#

阶段 3: 合成多模态生成数据#

DreamOmni2 框架#

1. 索引编码与位置编码偏移#

2. 与视觉语言模型 (VLM) 的联合训练#

评估 DreamOmni2#

基于多模态指令的编辑性能#

基于多模态指令的生成性能#

为什么这些创新至关重要: 消融研究#

结论: 迈向真正直观的 AI 创作#