引言
想象一下,你有一张你的专用徒步背包的照片——上面有独特的补丁和独特的纹理。你想生成一张这个确切的背包放在未来城市长椅上的图片。你在标准的文本到图像模型中输入提示词,但结果令人失望。它确实生成了一个背包,但这只是个普通的背包。它缺少了那些补丁,纹理看起来像光滑的塑料而不是帆布。
这就是主体驱动的图像个性化生成 (Subject-Driven Image Personalization) 的核心挑战。我们要做的不仅仅是生成“一只狗”,而是要生成“这只特定的狗”。虽然像 DreamBooth 和 IP-Adapter 这样的工具已经取得了巨大的进步,但它们往往难以保持一致性。它们可能会捕捉到大致的形状但丢失细节,或者反过来,捕捉到了纹理但将其粘贴在变形的形状上。
问题在于这些模型处理视觉信息的方式。大多数当前的方法以静态的方式将参考图像特征输入到生成过程中。它们往往不管模型是否准备好,就一股脑地将形状、颜色、纹理、边缘等所有信息“喊”给模型。
这就引出了 TFCustom , 这是 CVPR 上发表的一个新框架,它重新思考了这一过程。TFCustom 背后的研究人员认为,生成是一个随时间推移的旅程。就像画家从宽阔的笔触 (低频) 开始,最后以精细的细节 (高频) 结束一样,扩散模型在去噪过程的不同阶段需要不同类型的信息。
在这篇深度文章中,我们将探索 TFCustom 如何协调时间和频率 , 以在个性化图像生成中取得最先进的结果。

背景: 个性化生成的现状
要理解为什么需要 TFCustom,我们需要先看看“免微调 (fine-tuning-free) ”个性化的现状。
ReferenceNet 的兴起
早期的个性化方法 (如 DreamBooth) 需要为每个新主体微调整个模型,这既昂贵又缓慢。较新的方法 (如 IP-Adapter) 使用单独的编码器注入视觉特征,而无需重新训练模型。
目前该领域的黄金标准涉及使用 ReferenceNet 。 这本质上是主扩散网络 (具体来说是 UNet) 的一个副本,用于处理参考图像。从该 ReferenceNet 提取的特征通过注意力机制注入到主生成网络中。
局限性: 静态注入
虽然基于 ReferenceNet 的方法很强大,但它们有一个缺陷。它们通常只从参考图像中提取一次特征 (或是以静态方式提取) ,然后将其提供给主网络。
然而,扩散模型是迭代工作的。它们从纯噪声开始,通常经过 50 个步骤慢慢去除噪声。
- 早期步骤: 模型决定布局和大致形状 (例如,“这里有一个背包”) 。
- 晚期步骤: 模型细化纹理和边缘 (例如,“拉链看起来像黄铜做的”,“面料是帆布”) 。
如果我们在这个早期的“布局”阶段向模型输入高频纹理细节,可能会混淆结构。如果我们未能在晚期阶段提供清晰的细节,结果就会看起来很模糊。TFCustom 正是为了解决这种不匹配而构建的。
核心方法: TFCustom
TFCustom 框架引入了三项主要创新,使参考特征与生成过程保持一致: 同步参考引导 (Synchronized Reference Guidance) 、时感知频率特征细化 (Time-Aware Frequency Feature Refinement) 和奖励模型优化 (Reward Model Optimization) 。
在深入细节之前,让我们先拆解一下整体架构。

如上图 Figure 2(a) 所示,该架构运行两条并行路径。顶部是处理输入图像 (例如狗) 的 Synchronized ReferenceNet 。 底部是生成新图像的 DenoisingNet (去噪网络) 。奇迹发生在它们之间的连接处。
1. 同步参考引导 (Synchronized Reference Guidance)
在标准方法中,参考图像通常是干净的 (没有噪声) 。然而,正在生成的图像最初是纯噪声。这就产生了一个域差距 (domain gap) ——干净图像的特征与噪声潜在代码 (latent code) 的特征看起来截然不同。
TFCustom 通过对参考图像进行“加噪”来解决这个问题。如果生成过程处于时间步 \(t\) (其中 \(t\) 代表噪声水平) ,模型会在将参考图像输入 ReferenceNet 之前添加相应量的噪声。
添加噪声的公式是标准的扩散前向过程:

通过这样做,ReferenceNet 从与生成图像当前状态匹配的噪声域中提取特征。这种“同步”确保了引导在语义上是对齐的。ReferenceNet 使用扩散损失进行训练,以确保它理解如何即使从这些噪声输入中也能提取有意义的特征。
2. 时感知频率特征细化 (TA-FFR)
这是论文最关键的贡献。一旦特征从同步 ReferenceNet 中提取出来,我们不应该只是把它们倾倒进 DenoisingNet 中。我们需要根据时间来过滤它们。
研究人员受到神经网络分层学习这一事实的启发。他们提出了一个模块,将参考特征分离为 高频 (High-Frequency) 和 低频 (Low-Frequency) 分量。
分离频率
如 Figure 2(b) (架构图右侧) 所示,该模块使用两个不同的卷积算子:
- 高斯算子 (Gaussian Operator): 充当低通滤波器,捕捉平滑的渐变、形状和颜色。
- Krisch 算子 (Krisch Operator): 充当高通滤波器,捕捉边缘、纹理和细节。
提取这些特征的数学运算如下:

这里,\(\mathbf{F}_{ref}\) 是原始特征,\(\mathbf{H}_{conv}\) / \(\mathbf{L}_{conv}\) 是滤波器。\(\mathbf{W}\) 代表可学习的权重,允许模型调整应用的滤波程度。
注入时间
一旦分离,模型需要决定使用多少频率分量。这个决定取决于时间步 \(t\)。
该模型使用 时感知注意力 (Time-Aware Attention, TA-Attention) 机制。它获取时间嵌入 \(t_{emb}\) (代表扩散过程中当前步骤的向量) ,并通过自适应层归一化 (AdaLN) 将其注入。

结果是一个动态的特征集。在早期时间步 (当图像只是粗略形状时) ,网络可以强调 低频 路径以引导结构。在后期时间步 (细化细节时) ,它可以增加 高频 路径以引入纹理和边缘。
最后,这些细化的特征被重新加和在一起:

这个增强后的特征图 \(\mathbf{F}_{enh}\) 最终通过交叉注意力被发送到主生成网络。
3. 奖励模型优化 (Reward Model Optimization)
即使有完美的特征,模型有时也会产生幻觉或混合对象 (特别是在生成多个特定主体时,如一只猫和一只狗) 。为了强制保持身份一致性,作者引入了一个 奖励模型 (Reward Model) 。

如 Figure 3 所示,系统尝试从当前的噪声状态 (\(x_t\)) 预测最终的“干净”图像 (\(x'_0\)) 。

一旦模型预测了最终图像可能的样子,它就会使用 DINOv2 将此预测与原始参考图像进行比较。DINOv2 是一种视觉 Transformer,以有效捕捉高层语义身份而闻名。
损失函数计算参考图像与预测的生成图像之间的余弦相似度:

这就像一个监督者。如果生成的图像开始偏离参考对象的身份,奖励模型就会对其进行惩罚,迫使网络修正路线。重要的是,这个奖励仅在较早的时间步 (\(t < T_0\)) 应用,因为当图像是纯噪声时预测误差太高。
实验与结果
研究人员在两个主要基准上测试了 TFCustom: DreamBench (单主体) 和 MS-Bench (多主体) 。他们将其与 IP-Adapter、MS-Diffusion 和 DreamBooth 等行业重量级模型进行了比较。
定量性能
使用的指标包括 CLIP-I 和 DINO (衡量图像相似度) 以及 CLIP-T (衡量文本提示词的遵循程度) 。
在单主体任务中,TFCustom 占据了排行榜的主导地位。

如 Table 1 所示,TFCustom 在零样本设置 (No-FT) 下实现了 71.4% 的 DINO 分数 , 显著高于 MS-Diffusion (67.1%) 和 IP-Adapter (61.3%)。这表明其在无需微调的情况下保留主体身份的能力更强。
对于多主体任务 (例如,“一只特定的猫和一只特定的狗”) ,差距甚至更大。

Table 2 显示 TFCustom 在 M-DINO (多主体 DINO) 方面处于领先地位,该指标专门检查两个主体是否都被准确表现出来。
定性分析: 视觉效果检验
数字令人印象深刻,但视觉结果才是该方法真正闪耀的地方。
单主体生成
在 Figure 4 中,我们看到了生成一只猫和一双特定靴子的比较。

注意底部的靴子。 IP-Adapter 的结果是模糊的,丢失了皮革的具体纹理。 SSR-Encoder 捕捉到了形状,但改变了色调。 TFCustom (最右侧) 捕捉到了靴子确切的光泽和形状,同时将它们自然地放置在雪地中。
多主体生成
多主体生成通常非常困难。属性通常会在对象之间“泄漏” (例如,狗获得了猫的颜色) 。

在 Figure 5 (第 2 行) 中,提示词要求生成“一个背包和一双鞋子”。
- SSR-Encoder 感到困惑并混合了颜色 (紫色背包,彩色的鞋子) 。
- MS-Diffusion 做得不错,但背包纹理平淡。
- TFCustom 完美地保留了粉色背包和特定的米色运动鞋,使它们保持清晰区分。
消融实验: 我们需要所有部分吗?
研究人员进行了消融实验,以证明每个组件 (同步噪声、频率细化、奖励模型) 都是必要的。

观察 Figure 8 (上图的一部分) :
- w/o \(\mathcal{L}_{ref}\) (无同步噪声): 袋子上的标志变得扭曲 (第 1 行) 。
- w/o Frequency (无频率细化): 袋子上的文字 (“GITHUB”) 变成了乱码 (“Ga/beb”) ,因为高频细节没有在正确的时间注入。
- w/o Reward Model (无奖励模型): 颜色变得浑浊,对比度下降。
- Ours (完整模型): 文字“GITHUB”清晰,标志锐利,身份完美。
Figure 9 (也在上图中) 可视化了注意力图。“Ours”一列显示在所有时间步上对主体都有清晰、强烈的注意力,而其他方法的注意力则较为分散,这解释了它们一致性较低的原因。
结论
TFCustom 代表了个性化图像生成迈出的重要一步。通过将生成过程视为一个动态的时间线而不是静态事件,它允许对参考特征的使用方式进行更精细的控制。
关键要点是:
- 同步很重要: 将参考图像的噪声水平与生成过程相匹配,可以创造更好的特征对齐。
- 频率是时间依赖的: 结构先于细节 (低频先于高频) 。TFCustom 自动化了这一流程。
- 监督有所帮助: 奖励模型在训练期间充当了至关重要的质量检查。
对于学生和研究人员来说,TFCustom 强调了审视 UNet “黑盒”内部的重要性。理解不同时间步的不同行为,而不是将扩散视为单一的通用过程,能解锁新的精度和控制水平。随着我们迈向生成更复杂的场景乃至视频,这些时感知技术很可能成为标准。
](https://deep-paper.org/en/paper/file-2245/images/cover.png)