你是否曾尝试让 AI 图像生成器创作出与你脑海中构想完全一致的图像?也许你想捕捉一位小众画家的独特艺术风格、一种复古织物的粗糙质感,或是一张你钟爱的照片中那精准的黄金时刻光线。你输入了详尽的提示,但文字总是无法完美传达微妙的差别。你心想: “要是我能直接给它看我指的东西就好了。”
文字与视觉之间的这道鸿沟,是当前生成式 AI 模型的根本限制。它们能够将文本转化为令人惊艳的图像,但语言自身却是描述精细视觉细节的钝器。与此同时,那些能从图像中学习的模型——即所谓的主体驱动生成器——通常会将具体元素 (比如某个人或某个物体) 复制到新的场景中,却难以迁移抽象要素,如情绪、姿态、材质或艺术风格。
最近的一篇研究论文 “DREAMOMNI2: MULTIMODAL INSTRUCTION-BASED EDITING AND GENERATION” 针对这一问题提出了解决方案。研究人员推出了 DreamOmni2,一个能够理解来自文本和参考图像指令的统一框架。这种“多模态”方法让用户可以以非凡的精度引导 AI 进行图像编辑与生成——不仅仅是替换物体,还能控制诸如纹理、光照、构图和整体风格等抽象属性。
图 1: DreamOmni2 可处理种类广泛的创意任务,让用户能够结合多张图片的概念进行编辑或生成新图像。
本文将深入探讨 DreamOmni2 的工作原理——它如何构建多模态数据集、框架如何学习处理多个参考图像,以及它与主流开源和商业模型相比的表现。
单独使用文字或图片的局限性
在理解 DreamOmni2 的解决方案之前,先回顾它所改进的两种主流技术:
基于指令的编辑 – 像 InstructPix2Pix 这样的模型能根据文字命令 (比如 “把苹果变成橙子”) 转换图像。这类方法对于简单编辑很有效,但在表达复杂视觉特征时却力不从心——如何仅用文字精确描述一条裙子的繁复纹样或画家的笔触质感?
主体驱动的生成 – 像 DreamBooth 或 IP-Adapter 这样的模型能从一张或多张照片中学习主体,使你可以生成包含该主体的新图像 (如“你的狗在月球上”) 。但这些方法主要聚焦于具体对象,而非风格、姿态或光照条件等抽象要素。
DreamOmni2 通过两种新的多模态任务弥合了这些方法之间的差距:
- 基于多模态指令的编辑: 同时使用文本和视觉参考修改图像。例如: “让第一张图片中的包拥有与第二张图片中夹克相同的皮革纹理。”
- 基于多模态指令的生成: 根据提示词及多个参考图像生成新图像。例如: “生成一个人物,姿态来自图 1,穿着图 2 的服装,并处于图 3 的光照下。”
但要训练一个能完成这些任务的模型,研究人员面临重大挑战: 当不存在此类数据集时,如何创建一个包含源图像、参考图像、文本指令和目标结果的数据集?
构建 DreamOmni2 数据工厂
团队设计了一个巧妙的三阶段数据合成管线,以构建支持多模态编辑与生成所需的大规模高质量数据集。
图 2: DreamOmni2 的数据工厂分三个阶段运行,每个阶段基于前一阶段成果构建更复杂的多模态训练样本。
阶段 1: 通过特征混合提取具体与抽象概念
首先,他们需要训练一个模型来“提取”图像中的元素,如物体或抽象属性 (纹理、风格、姿态) 。
以往方法使用双联画法——并排生成两张图像——但这会降低分辨率并在分隔处产生伪影。DreamOmni2 引入了特征混合机制,在两个生成分支之间混合注意力特征。该过程促使模型生成一对共享特定属性但仍各具差异的图像——例如源图是一只猫,目标图是一只狗,但两者都呈现“梵高风格”。
特征混合能产出高分辨率、无伪影的图像对,准确传达共享属性。这些成对样本用于训练一个提取模型,使其能识别并再现具体对象与抽象特征。
阶段 2: 合成多模态编辑数据
训练完成的提取模型用于生成多模态编辑数据:
- 从目标图像开始: 选择一张最终图像,如“沙滩上的毛绒玩具狗”。
- 创建参考图像: 使用提取模型分离出属性,例如提取“毛绒质感”纹理。
- 创建源图像: 使用基于指令的编辑模型改变概念 (将毛绒狗变成金属狗) 。
- 生成指令: 借助大型语言模型 (LLM) 自动生成自然指令,如“让图中的狗拥有与参考图中相同的毛绒质感。”
每个数据单元——源图像、参考图像、文本指令和目标图像——都形成一个完整的训练样本。
阶段 3: 合成多模态生成数据
第三阶段将设置扩展至生成任务。提取模型从早期样本中创建多个参考图像,捕捉不同属性——如物体、纹理、光照。例如,给定“金属狗”、“沙滩”、“毛绒纹理”的参考图像,模型学习生成一张*“沙滩上的毛绒狗”*。
最终数据集覆盖了具体物体 (人物、宠物、家具、饰品等) 及抽象特征,后者又细分为**局部属性 (发型、材质、表情) 和全局属性 **(风格、光照、色彩) 。
图 3: DreamOmni2 的数据集涵盖了多样的具体物体与抽象属性,为编辑与生成任务提供丰富而通用的训练基础。
DreamOmni2 框架
构建数据集解决了一个问题,但让模型能处理多张输入图像则需要重新设计架构。传统的扩散变换器 (DiT) 模型难以理解指令中提到的具体图片对应关系。DreamOmni2 提出了两项关键创新。
1. 索引编码与位置编码偏移
当用户在提示中提到“图 1”或“图 2”时,模型需要明确索引。DreamOmni2 引入索引编码,为每张输入图片添加标识标签,帮助模型理解复杂的多模态指令。
但仅靠这个可能会出现“复制粘贴”伪影——模型混淆了空间位置。DreamOmni2 对每个参考图像的位置编码进行偏移,确保模型将它们视作独立的视觉空间。这两种编码联合使用,有效消除了跨图像混合,并保持干净、上下文感知的构图。
2. 与视觉语言模型 (VLM) 的联合训练
现实中的用户指令常含糊不清或语义不一致。为了提高系统稳健性,作者将 DreamOmni2 与一个**视觉语言模型 (VLM) **(Qwen2.5-VL) 进行联合训练。VLM 负责理解杂乱的自然语言提示,并将其转化为生成模型可理解的精确输入。
这种联合训练显著提高了系统对复杂多模态意图的理解能力,从而得到更准确的编辑与生成结果。
评估 DreamOmni2
现有基准,如 DreamBooth 和 OmniContext,无法测试 DreamOmni2 所支持的新型多模态场景。因此,研究人员创建了 DreamOmni2 基准测试,其中包含现实场景的图像与测试案例,涵盖抽象与具体概念的编辑和生成任务。
表 1: DreamOmni2 填补了评估基准的重要空白,独家支持多参考图像与抽象属性的多模态编辑与生成任务。
基于多模态指令的编辑性能
DreamOmni2 与多个模型进行了比对,包括开源系统 (DreamO、OmniGen2、Qwen-Image-Edit) 和商业闭源系统 (GPT-4o、Nano Banana) 。
图 4: 与竞争方法相比,DreamOmni2 展现了清晰、准确的编辑结果,并更好地遵循多模态指令。
表 2: 编辑任务的量化对比显示,DreamOmni2 超越了所有开源模型,并达到或超过商业系统水平。
人工评估者认为 DreamOmni2 的编辑最为精准,甚至优于 GPT-4o 和 Nano Banana。其他模型常会产生意外改动或颜色偏差——这些问题人工一眼可辨,但自动评分系统往往遗漏。
基于多模态指令的生成性能
在生成任务中,情况类似。DreamOmni2 不仅超越了开源模型,在视觉质量上与 GPT-4o 相当,同时在一致性上超过 Nano Banana。
图 5: 在生成任务中,DreamOmni2 成功融合多张图像的元素,保持风格连贯与细节准确。
表 3: DreamOmni2 的生成质量与 GPT-4o 相当,并在各项评估指标中超越其他模型。
为什么这些创新至关重要: 消融研究
为验证每个架构组件的重要性,团队进行了系统的消融实验——每次移除一个模块观察结果。
- 联合 VLM 训练: 如下图所示,同时训练 VLM 与生成模型 (方案 4) 显著优于分离训练,体现紧密耦合的优势。
- 编码方案: 同时启用索引编码与位置编码偏移可获得最佳的多模态处理性能。
表 5: 消融实验结果证实,处理多参考图像时索引编码和位置编码均不可或缺。
结论: 迈向真正直观的 AI 创作
DreamOmni2 标志着生成式 AI 向更具表现力与直观操作的工具迈出了重要一步。通过同时融合文本与图像指令,它超越了模糊的文字交互,实现了精准的视觉引导。
其双重创新——稳健的三阶段数据合成管线与多图像理解架构——使模型能够处理从具体主体到光照、纹理等微妙抽象特征的各种概念。
有了 DreamOmni2,我们正逐步迈入一个全新的创作时代: 你只需告诉 AI,“让它看起来像这样,” 它便能真正领会你的想法。