引言

想象一下，你有一张你的专用徒步背包的照片——上面有独特的补丁和独特的纹理。你想生成一张这个确切的背包放在未来城市长椅上的图片。你在标准的文本到图像模型中输入提示词，但结果令人失望。它确实生成了一个背包，但这只是个普通的背包。它缺少了那些补丁，纹理看起来像光滑的塑料而不是帆布。

这就是主体驱动的图像个性化生成 (Subject-Driven Image Personalization) 的核心挑战。我们要做的不仅仅是生成“一只狗”，而是要生成“这只特定的狗”。虽然像 DreamBooth 和 IP-Adapter 这样的工具已经取得了巨大的进步，但它们往往难以保持一致性。它们可能会捕捉到大致的形状但丢失细节，或者反过来，捕捉到了纹理但将其粘贴在变形的形状上。

问题在于这些模型处理视觉信息的方式。大多数当前的方法以静态的方式将参考图像特征输入到生成过程中。它们往往不管模型是否准备好，就一股脑地将形状、颜色、纹理、边缘等所有信息“喊”给模型。

这就引出了 TFCustom , 这是 CVPR 上发表的一个新框架，它重新思考了这一过程。TFCustom 背后的研究人员认为，生成是一个随时间推移的旅程。就像画家从宽阔的笔触 (低频) 开始，最后以精细的细节 (高频) 结束一样，扩散模型在去噪过程的不同阶段需要不同类型的信息。

在这篇深度文章中，我们将探索 TFCustom 如何协调时间和频率 , 以在个性化图像生成中取得最先进的结果。

TFCustom 展示了在单主体和多主体驱动生成任务中的能力。

背景: 个性化生成的现状

要理解为什么需要 TFCustom，我们需要先看看“免微调 (fine-tuning-free) ”个性化的现状。

ReferenceNet 的兴起

早期的个性化方法 (如 DreamBooth) 需要为每个新主体微调整个模型，这既昂贵又缓慢。较新的方法 (如 IP-Adapter) 使用单独的编码器注入视觉特征，而无需重新训练模型。

目前该领域的黄金标准涉及使用 ReferenceNet 。这本质上是主扩散网络 (具体来说是 UNet) 的一个副本，用于处理参考图像。从该 ReferenceNet 提取的特征通过注意力机制注入到主生成网络中。

局限性: 静态注入

虽然基于 ReferenceNet 的方法很强大，但它们有一个缺陷。它们通常只从参考图像中提取一次特征 (或是以静态方式提取) ，然后将其提供给主网络。

然而，扩散模型是迭代工作的。它们从纯噪声开始，通常经过 50 个步骤慢慢去除噪声。

早期步骤: 模型决定布局和大致形状 (例如，“这里有一个背包”) 。
晚期步骤: 模型细化纹理和边缘 (例如，“拉链看起来像黄铜做的”，“面料是帆布”) 。

如果我们在这个早期的“布局”阶段向模型输入高频纹理细节，可能会混淆结构。如果我们未能在晚期阶段提供清晰的细节，结果就会看起来很模糊。TFCustom 正是为了解决这种不匹配而构建的。

核心方法: TFCustom

TFCustom 框架引入了三项主要创新，使参考特征与生成过程保持一致: 同步参考引导 (Synchronized Reference Guidance) 、时感知频率特征细化 (Time-Aware Frequency Feature Refinement) 和奖励模型优化 (Reward Model Optimization) 。

在深入细节之前，让我们先拆解一下整体架构。

TFCustom 框架展示了同步 ReferenceNet 和时感知频率模块。

如上图 Figure 2(a) 所示，该架构运行两条并行路径。顶部是处理输入图像 (例如狗) 的 Synchronized ReferenceNet 。底部是生成新图像的 DenoisingNet (去噪网络) 。奇迹发生在它们之间的连接处。

1. 同步参考引导 (Synchronized Reference Guidance)

在标准方法中，参考图像通常是干净的 (没有噪声) 。然而，正在生成的图像最初是纯噪声。这就产生了一个域差距 (domain gap) ——干净图像的特征与噪声潜在代码 (latent code) 的特征看起来截然不同。

TFCustom 通过对参考图像进行“加噪”来解决这个问题。如果生成过程处于时间步 \(t\) (其中 \(t\) 代表噪声水平) ，模型会在将参考图像输入 ReferenceNet 之前添加相应量的噪声。

添加噪声的公式是标准的扩散前向过程:

参考图像加噪的前向扩散过程公式。

通过这样做，ReferenceNet 从与生成图像当前状态匹配的噪声域中提取特征。这种“同步”确保了引导在语义上是对齐的。ReferenceNet 使用扩散损失进行训练，以确保它理解如何即使从这些噪声输入中也能提取有意义的特征。

2. 时感知频率特征细化 (TA-FFR)

这是论文最关键的贡献。一旦特征从同步 ReferenceNet 中提取出来，我们不应该只是把它们倾倒进 DenoisingNet 中。我们需要根据时间来过滤它们。

研究人员受到神经网络分层学习这一事实的启发。他们提出了一个模块，将参考特征分离为 高频 (High-Frequency) 和 低频 (Low-Frequency) 分量。

分离频率

如 Figure 2(b) (架构图右侧) 所示，该模块使用两个不同的卷积算子:

高斯算子 (Gaussian Operator): 充当低通滤波器，捕捉平滑的渐变、形状和颜色。
Krisch 算子 (Krisch Operator): 充当高通滤波器，捕捉边缘、纹理和细节。

提取这些特征的数学运算如下:

提取高频和低频特征的卷积运算。

这里，\(\mathbf{F}_{ref}\) 是原始特征，\(\mathbf{H}_{conv}\) / \(\mathbf{L}_{conv}\) 是滤波器。\(\mathbf{W}\) 代表可学习的权重，允许模型调整应用的滤波程度。

注入时间

一旦分离，模型需要决定使用多少频率分量。这个决定取决于时间步 \(t\)。

该模型使用 时感知注意力 (Time-Aware Attention, TA-Attention) 机制。它获取时间嵌入 \(t_{emb}\) (代表扩散过程中当前步骤的向量) ，并通过自适应层归一化 (AdaLN) 将其注入。

展示如何将时间嵌入注入高频和低频特征的公式。

结果是一个动态的特征集。在早期时间步 (当图像只是粗略形状时) ，网络可以强调低频路径以引导结构。在后期时间步 (细化细节时) ，它可以增加高频路径以引入纹理和边缘。

最后，这些细化的特征被重新加和在一起:

重新组合增强后的高频和低频特征。

这个增强后的特征图 \(\mathbf{F}_{enh}\) 最终通过交叉注意力被发送到主生成网络。

3. 奖励模型优化 (Reward Model Optimization)

即使有完美的特征，模型有时也会产生幻觉或混合对象 (特别是在生成多个特定主体时，如一只猫和一只狗) 。为了强制保持身份一致性，作者引入了一个 奖励模型 (Reward Model) 。

涉及生成器和判别器的奖励模型优化过程图解。

如 Figure 3 所示，系统尝试从当前的噪声状态 (\(x_t\)) 预测最终的“干净”图像 (\(x'_0\)) 。

从当前噪声状态预测干净图像 x0 的公式。

一旦模型预测了最终图像可能的样子，它就会使用 DINOv2 将此预测与原始参考图像进行比较。DINOv2 是一种视觉 Transformer，以有效捕捉高层语义身份而闻名。

损失函数计算参考图像与预测的生成图像之间的余弦相似度:

使用 DINOv2 计算生成图像和参考图像之间相似度的奖励损失函数。

这就像一个监督者。如果生成的图像开始偏离参考对象的身份，奖励模型就会对其进行惩罚，迫使网络修正路线。重要的是，这个奖励仅在较早的时间步 (\(t < T_0\)) 应用，因为当图像是纯噪声时预测误差太高。

实验与结果

研究人员在两个主要基准上测试了 TFCustom: DreamBench (单主体) 和 MS-Bench (多主体) 。他们将其与 IP-Adapter、MS-Diffusion 和 DreamBooth 等行业重量级模型进行了比较。

定量性能

使用的指标包括 CLIP-I 和 DINO (衡量图像相似度) 以及 CLIP-T (衡量文本提示词的遵循程度) 。

在单主体任务中，TFCustom 占据了排行榜的主导地位。

展示单主体模型定量比较的表格。

如 Table 1 所示，TFCustom 在零样本设置 (No-FT) 下实现了 71.4% 的 DINO 分数 , 显著高于 MS-Diffusion (67.1%) 和 IP-Adapter (61.3%)。这表明其在无需微调的情况下保留主体身份的能力更强。

对于多主体任务 (例如，“一只特定的猫和一只特定的狗”) ，差距甚至更大。

展示多主体模型定量比较的表格。

Table 2 显示 TFCustom 在 M-DINO (多主体 DINO) 方面处于领先地位，该指标专门检查两个主体是否都被准确表现出来。

定性分析: 视觉效果检验

数字令人印象深刻，但视觉结果才是该方法真正闪耀的地方。

单主体生成

在 Figure 4 中，我们看到了生成一只猫和一双特定靴子的比较。

定性比较显示 TFCustom 产生比竞争对手更高质量的结果。

注意底部的靴子。 IP-Adapter 的结果是模糊的，丢失了皮革的具体纹理。 SSR-Encoder 捕捉到了形状，但改变了色调。 TFCustom (最右侧) 捕捉到了靴子确切的光泽和形状，同时将它们自然地放置在雪地中。

多主体生成

多主体生成通常非常困难。属性通常会在对象之间“泄漏” (例如，狗获得了猫的颜色) 。

多主体定制的定性比较显示出清晰的对象分离。

在 Figure 5 (第 2 行) 中，提示词要求生成“一个背包和一双鞋子”。

SSR-Encoder 感到困惑并混合了颜色 (紫色背包，彩色的鞋子) 。
MS-Diffusion 做得不错，但背包纹理平淡。
TFCustom 完美地保留了粉色背包和特定的米色运动鞋，使它们保持清晰区分。

消融实验: 我们需要所有部分吗？

研究人员进行了消融实验，以证明每个组件 (同步噪声、频率细化、奖励模型) 都是必要的。

消融研究的可视化显示了移除组件后的退化。

观察 Figure 8 (上图的一部分) :

w/o \(\mathcal{L}_{ref}\) (无同步噪声): 袋子上的标志变得扭曲 (第 1 行) 。
w/o Frequency (无频率细化): 袋子上的文字 (“GITHUB”) 变成了乱码 (“Ga/beb”) ，因为高频细节没有在正确的时间注入。
w/o Reward Model (无奖励模型): 颜色变得浑浊，对比度下降。
Ours (完整模型): 文字“GITHUB”清晰，标志锐利，身份完美。

Figure 9 (也在上图中) 可视化了注意力图。“Ours”一列显示在所有时间步上对主体都有清晰、强烈的注意力，而其他方法的注意力则较为分散，这解释了它们一致性较低的原因。

结论

TFCustom 代表了个性化图像生成迈出的重要一步。通过将生成过程视为一个动态的时间线而不是静态事件，它允许对参考特征的使用方式进行更精细的控制。

关键要点是:

同步很重要: 将参考图像的噪声水平与生成过程相匹配，可以创造更好的特征对齐。
频率是时间依赖的: 结构先于细节 (低频先于高频) 。TFCustom 自动化了这一流程。
监督有所帮助: 奖励模型在训练期间充当了至关重要的质量检查。

对于学生和研究人员来说，TFCustom 强调了审视 UNet “黑盒”内部的重要性。理解不同时间步的不同行为，而不是将扩散视为单一的通用过程，能解锁新的精度和控制水平。随着我们迈向生成更复杂的场景乃至视频，这些时感知技术很可能成为标准。

引言#

背景: 个性化生成的现状#

ReferenceNet 的兴起#

局限性: 静态注入#

核心方法: TFCustom#

1. 同步参考引导 (Synchronized Reference Guidance)#

2. 时感知频率特征细化 (TA-FFR)#

分离频率#

注入时间#

3. 奖励模型优化 (Reward Model Optimization)#

实验与结果#

定量性能#

定性分析: 视觉效果检验#

单主体生成#

多主体生成#

消融实验: 我们需要所有部分吗？#

结论#

引言