文本到图像生成的时代已经超越了仅仅输入“一只猫”并获得一只通用猫的阶段。如今,用户想要的是他们的猫——具体来说,就是那只正坐在他们沙发上的毛茸茸的斑纹猫。这被称为定制化生成 (Customized Generation) 。
虽然使用 DreamBooth 或 LoRA 等工具教 AI 识别单个特定主体 (如你的宠物或特定的玩具) 已成为标准做法,但一个显著的瓶颈依然存在: 可扩展性 。 如果你想生成一张你的狗和你的猫一起玩耍的图片,并且它们坐在你特定的沙发上,背景是你特定的房子,该怎么办?
大多数现有模型在这种压力下会崩溃。它们要么将概念混合在一起 (一只长着猫耳朵的狗) ,要么完全遗忘其中一个主体,要么需要耗费极长的时间进行计算。
LATEXBLEND 登场了,这是南京理工大学研究人员提出的一个新框架。这篇论文介绍了一种方法,可以高效地将多个定制概念“混合”到单次生成中,而无需为每种新组合重新训练模型。

问题: 为什么多概念生成很难?
要理解解决方案,我们必须先理解为什么现有方法举步维艰。
1. 计算成本
现有方法通常需要“联合训练”。如果你想生成包含 Alice 和 Bob 的场景,你必须收集两者的图像并同时对模型进行微调。如果你后来想添加 Charlie,你就必须从头开始。这导致训练成本呈组合级爆炸。其他方法试图合并不同的模型 (比如合并两个 LoRA) ,但这通常会降低两者的质量。
2. 去噪偏差与布局崩塌
研究人员指出的一个更微妙但关键的问题是去噪偏差 (Denoising Deviation) 。
当你针对特定主体 (例如一只狗) 微调模型时,通常只使用 3-5 张图像。这些参考图像通常将主体置于正中央。模型不仅对狗的脸部“过拟合”,还对这些参考图像的布局过拟合。
当你尝试在新的语境中生成那只定制的狗时,模型会与新的提示词对抗,因为它太强烈地“记住”了原始布局。如下所示,随着添加的概念越来越多,这种偏差会变得更糟。模型会偏离预训练模型原本会生成的自然结构,导致僵硬、“死记硬背”式的构图。

解决方案: 潜在文本空间
LATEXBLEND 的核心创新在于它注入定制内容的位置。
在标准的潜在扩散模型 (LDM) 中,文本提示词在控制图像生成之前要经过两个阶段的处理:
- 文本编码器 (Text Encoder) : 将单词转换为嵌入 (Embeddings) 。
- 线性投影 (Linear Projection) : 将这些嵌入投影为交叉注意力 (Cross-Attention) 层的“键 (Keys) ”和“值 (Values) ” (即 K 和 V) 。
大多数以前的方法要么修改输入单词 (文本反转 Textual Inversion) ,要么修改扩散模型的深层权重 (DreamBooth/LoRA) 。LATEXBLEND 针对的是文本编码器之后且线性投影之后的空间。作者将其称为潜在文本空间 (Latent Textual Space) 。

其假设简单而强大: 文本编码器的输出是“纠缠”的——改变一个单词会改变整个句子的上下文。然而,潜在文本特征 (进入注意力机制的键和值) 更加解耦且鲁棒。通过在这里混合概念,我们可以随意组合和匹配主体,而不会让它们在处理过程中相互干扰。
第 1 步: 单概念微调 (概念库)
首先,系统创建一个“概念库 (Concept Bank) ”。每个特定的主体 (例如你的狗) 都会被单独微调。
挑战在于如何将狗的所有视觉特征仅压缩到对应于单词“dog”的潜在特征中,而不将信息泄漏到周围的单词中。为此,作者使用了双流训练策略:
- 基础流 (Base Flow, \(\mathscr{F}_b\)) : 使用冻结的预训练权重。它处理像 “A photo of a [noun]” 这样的提示词,使用通用的标记。
- 概念流 (Concept Flow, \(\mathscr{F}_c\)) : 使用可学习的权重。它处理 “A photo of V* [noun]",其中 V* 是一个特殊的标识符。
在训练期间,系统强制模型重构参考图像。关键在于,它将概念流的目标特征 (狗) 混合到基础流的句子结构中。

混合操作将通用名词的潜在特征替换为特定概念的学习特征:

这确保了概念表示 \(\mathbf{h}_c\) 是自包含的。它不依赖句子的其他部分来定义这只狗;它自身完全携带了“狗的特性”。
第 2 步: 多概念推理 (混合)
一旦概念存储在库中,生成多主体图像就出奇地高效。不需要额外的训练。
当用户提供像 “A dog playing with a robot toy” (一只狗在玩机器人玩具) 这样的提示词时,系统会:
- 通过标准的预训练模型运行该提示词,获得“基础”潜在表示 (\(\mathbf{h}_b\)) 。
- 从库中检索特定的“狗”特征 (\(\mathbf{h}_{c1}\)) 和“机器人”特征 (\(\mathbf{h}_{c2}\)) 。
- 将 \(\mathbf{h}_b\) 中的通用特征替换为库中的特定特征。

因为这些概念在潜在文本空间中被训练为自包含的,它们可以完美地嵌入到新句子中。这保留了原始模型 (“基础”) 的布局能力,同时注入了特定的身份。

位置不变性 (Position Invariance)
这种方法的一个主要优势是位置不变性 。 因为概念被提炼成一个紧凑的特征向量,它可以被插入到句子的任何部分。无论提示词是 “A cat next to a dog” 还是 “A dog sitting far behind a cat”,同一个特征向量都有效。

优化结果: 混合引导 (Blending Guidance)
虽然混合方法效果很好,但复杂的提示词有时会混淆扩散模型的注意力机制 (例如,狗的“毛茸茸”纹理可能会意外地渗透到“机器人”上) 。
为了解决这个问题,作者引入了混合引导 (Blending Guidance) 。 这是一个推理时的优化,用于调整噪声预测。它鼓励两件事:
- 对齐 (Alignment) : 标识符标记 (V*) 的注意力图应与粗略类别标记 (例如 “dog”) 重叠。
- 分离 (Separation) : 狗的注意力图不应与机器人或其他背景元素重叠。

引导项 \(g\) 在去噪步骤中修改标准的分数估计 \(\hat{\epsilon}_t\):

实验结果
研究人员将 LATEXBLEND 与几个有竞争力的基线进行了评估,包括 Custom Diffusion、Cones 2、Mix-of-Show 和 OMG 。
1. 视觉质量与保真度
在定性上,LATEXBLEND 显示出在保持多个主体身份的同时不破坏场景逻辑结构的卓越能力。在下面的比较中,注意基线方法经常丢失其中一个主体或将它们融合成一团模糊的东西。LATEXBLEND 保持了吉他、花朵和灯塔的清晰可辨。

2. 定量指标
作者使用了 CLIP 分数 (用于文本对齐) 和 DINO 分数 (用于主体身份保真度) 。在下图中,x 轴代表概念对齐 (保真度) ,y 轴代表文本对齐。LATEXBLEND (紫色星星) 在保持强文本对齐的同时,始终如一地实现了更高的保真度 (更靠右) 。

3. 效率
对于学生和开发者来说,最具影响力的结果可能是计算成本。像“Mix-of-Show”或联合训练这样的方法,随着添加概念数量的增加 (N=2, N=3 等) ,成本会急剧飙升。
LATEXBLEND 在微调期间呈线性扩展 (只需训练每个概念一次) ,并且在推理时与标准生成相比零额外成本 (除非你使用重度引导) 。

结论与启示
LATEXBLEND 论文提出了一个巧妙的架构转变。它没有通过重新训练大量权重或合并各种模型来强行进行多概念生成,而是将潜在文本空间确定为生成式 AI 的最佳“调音台”。
主要收获:
- 解耦 (Disentanglement) : 通过在潜在空间中隔离概念特征,我们防止了它们破坏图像的布局。
- 模块化 (Modularity) : “概念库”方法允许真正的即插即用式生成。你可以今天训练一只“狗”,明天训练一顶“帽子”,下周将它们组合在一起,而无需重新训练。
- 效率 (Efficiency) : 这种方法使得个性化生成变得触手可及,而无需为每种新的物品组合配备超级计算机。
对于对扩散模型感兴趣的学生来说,这篇论文强调了理解这些网络的内部表示 (特别是交叉注意力输入) 的重要性,而不是仅仅将模型视为一个用于微调的黑盒。
](https://deep-paper.org/en/paper/2503.06956/images/cover.png)