引言
在生成式 AI 飞速发展的世界中, 风格迁移 (Style Transfer) 仍然是最令人着迷的应用之一。其目标简单却充满挑战: 提取一张图像的艺术外观 (风格) ,并将其应用到另一张图像的结构 (内容) 上。想象一下用梵高《星月夜》的笔触来绘制你房子的照片。
随着扩散模型 (如 Stable Diffusion) 的出现,生成图像的质量突飞猛进。然而,针对特定的风格迁移任务调整这些庞大的模型通常需要昂贵的训练或微调 (如 LoRA 或 DreamBooth) 。这导致了免训练 (training-free) 方法的兴起,这些方法试图在不修改权重的情况下利用预训练模型的知识。
虽然免训练方法很方便,但它们通常会在两个特定方面失败:
- 布局破坏 (Layout Destruction) : 模型往往会因过于关注风格而忽略了原始内容的形状。
- 内容泄露 (Content Leakage) : 模型意外地将风格图像中的物体 (例如树或建筑物) 复制到新图像中,而不仅仅是复制纹理或颜色。
在这篇文章中,我们将深入探讨一篇最近的研究论文 StyleSSP , 它提出了一个巧妙的解决方案。研究人员发现,更好的风格迁移的秘诀不仅仅在于提示词或模型权重,还在于采样起始点 (Sampling Startpoint) , 即图像诞生之初的初始噪声。
核心问题: 结构丢失与内容泄露
要理解为什么 StyleSSP 是必要的,我们首先需要看看现有方法的不足之处。
当你要求扩散模型将“内容图像” (例如一艘船) 与“风格图像” (例如几何矢量艺术猫) 结合时,模型必须平衡两个相互竞争的目标。它需要保持船看起来像一艘船,但要用猫的几何艺术风格来渲染它。
现有的免训练方法通常难以把握这种平衡。

如上图 图 1 所示:
- 面板 (a) - 内容保留问题: 以前的方法 (右图) 通常会扭曲原始形状。由于“低多边形 (low-poly) ”风格压倒了内容布局,船只几乎无法辨认。
- 面板 (b) - 内容泄露: 这是一个微妙但恼人的问题。用户希望将风景画 (绿色植被) 的风格应用到金门大桥上。以前的方法 (右图) 不仅仅复制了绿色的颜色;它们实际上在河流上方生成了一片草坪。风格图像的语义内容“泄露”到了结果中。
StyleSSP 的研究人员认为,这些失败的发生是因为用于生成图像的初始噪声——即采样起始点——没有针对该任务进行优化。
关键洞察: 起始点的重要性
在扩散模型中,图像生成始于随机高斯噪声 (\(z_T\))。这种噪声被逐步去噪以形成图像。图像编辑中常用的一种技术是 DDIM 反演 (DDIM Inversion) , 即在原始内容图像上反向运行该过程,以获得一个“代表”该图像的特定噪声图。
大多数以前的工作假设简单地反演内容图像就足够了。然而,StyleSSP 的作者发现,这个起始点的频率分布和语义对齐至关重要。
如果起始点包含过多的“低频”信息 (大致的色块) ,它可能会与目标风格发生冲突。如果起始点在语义上与风格图像的物体过于接近,就会导致泄露。

图 2 (上图) 说明了这种敏感性。即使对起始点进行微小的操作 (如添加噪声或移动数值) ,也会极大地改变最终图像的色调、影调和内容保留情况。这一观察构成了 StyleSSP 的核心: 如果我们修正了起始点,我们就修正了输出。
解决方案: StyleSSP
StyleSSP 代表 Sampling StartPoint enhancement (采样起始点增强) 。这是一个免训练框架,在生成过程开始之前修改初始潜空间噪声。
该方法包含两个主要的技术创新:
- 频率操控 (Frequency Manipulation) : 用于保留原始布局 (边缘和形状) 。
- 基于反演的负面引导 (Negative Guidance via Inversion) : 用于防止内容泄露 (不需要的物体) 。
让我们看看整体框架。

如 图 3 所示,该过程首先将内容图像 (\(I^c\)) 反演为潜空间噪声 (\(z_T^c\))。关键在于,在这个反演过程中,他们应用了负面引导 (NG) 。然后,他们对这个噪声应用频率操控 (FM) 。最后,这个优化后的噪声 (\(z_T^{c,'}\)) 被用于生成最终的风格化图像。
让我们详细分解这两个组件。
1. 用于内容保留的频率操控
为什么风格迁移模型经常丢失物体的原始形状?作者受到的启发是: 图像中的高频信号通常代表边缘、轮廓和细节,而低频信号代表平滑的渐变和整体颜色布局。
在风格迁移中,你希望保留内容图像的边缘 (桥梁或脸部的形状) ,但改变颜色和纹理 (低频信息) 以匹配风格。
如果采样起始点包含过多来自原始照片的低频信息,它会迫使模型坚持使用原始颜色,从而阻碍风格的生效。反之,如果我们移除所有信息,我们就会丢失结构。
解决方案: 作者对反演后的潜变量应用高通滤波器。他们保留高频分量 (结构) ,但减少低频分量。

图 4 展示了这一理论。上行 (\(z_T^{H, \alpha}\)) 显示高频分量负责建筑物的清晰布局。下行 (\(z_T^{L, \alpha}\)) 显示低频分量导致模糊的形状。
通过在数学上抑制起始点中的低频信息,StyleSSP 告诉模型: “这是你必须尊重的边缘,但请随意用新的风格来填充颜色和纹理。”
频率操控方程定义为:

这里,\(\alpha\) 是一个参数,用于控制我们抑制低频的程度。最终的起始点将此过滤后的潜变量与一些高斯噪声混合,以确保模型仍有发挥创造力的空间。
它有效吗? 视觉证据表明是有效的。请看下面的对比。

在 图 5 中,请注意男人身后的背景。如果没有频率操控 (右图) ,墙上的涂鸦和文字会丢失或模糊。有了频率操控 (左图) ,模型在应用素描风格的同时,尊重了原始照片的高频细节。
2. 基于反演的负面引导以阻止泄露
第二个主要贡献解决了内容泄露问题。当风格图像包含明显的物体 (如月亮、汽车或特定的树) ,而模型错误地试图将这些物体粘贴到你的图像中时,就会发生这种情况。
标准的扩散模型使用无分类器引导 (Classifier-Free Guidance, CFG) 。 通常,这会将生成的图像推向某个提示词。还有一个“负面提示词”的概念,它是将图像推离某些概念 (例如“丑陋、模糊”) 。
StyleSSP 引入了一个巧妙的转折: 在反演阶段进行负面引导。
当将内容图像转换为噪声 (DDIM 反演) 时,模型通常遵循确定性的路径。StyleSSP 干预了这一路径。它使用风格图像的语义内容作为反演过程中的负面提示词 。
在数学上,他们在反演过程中修改了噪声预测:

这有什么作用? 它强制计算出的噪声 (\(z_T\)) 在数学上与风格图像中的物体保持“距离”。如果风格图像有一片“草地”,负面引导会将起始点噪声推离“草”的概念。
当生成过程开始时,噪声现在对生成草具有了“免疫力”,因此模型只应用草的艺术纹理,而不会生成物体本身。

图 6 展示了其影响。用户希望将动漫风景风格应用到金门大桥上。
- 右图 & 中图: 标准负面提示词 (在采样期间) 失败了。河流变成了草地,因为风格图像包含草。
- 左图 (本文方法) : 通过在反演期间应用负面引导,河流仍然是水。系统成功地将风格 (颜色/光照) 与内容 (草/树) 解耦了。
实现细节
为了使该系统具有鲁棒性,作者不仅仅依赖文本提示词,因为用文字描述视觉风格往往是不准确的。相反,他们使用了:
- IP-Instruct: 一个预训练模型,作为风格/内容提取器来生成用于引导的嵌入 (embeddings) 。
- ControlNet: 一个流行的结构引导模块。他们使用 ControlNet (tile) 在生成阶段提供额外的布局保留层。
纯净的起始点 (通过 StyleSSP) 与结构引导 (通过 ControlNet) 的结合创造了一个强大的流程。
实验与结果
研究人员将 StyleSSP 与 StyleID、InstantStyle 和 StyleAlign 等最先进的免训练方法进行了比较。他们使用了 ArtFID (衡量整体风格迁移质量) 和 LPIPS (衡量内容保真度) 等指标。
定量分析

如 表 1 所示,StyleSSP 在各项指标上均优于基线。
- 更低的 LPIPS: 意味着内容结构更接近原始图像。
- 更低的 FID/ArtFID: 意味着风格在统计上更接近目标艺术。
定性分析
数据固然重要,但在风格迁移中,视觉检查才是王道。

在 图 7 中,请看第一行 (男人的脸) 。
- DiffStyle 产生了可怕的扭曲。
- InstantStyle 有点模糊。
- StyleSSP (本文方法) 在应用粗略的艺术风格的同时,完美保留了面部特征。
在第四行 (摩天轮) 中,许多方法在天空中产生了波浪或混乱纹理的幻觉。StyleSSP 在应用调色板的同时保持了天空的干净。
消融实验: 我们需要这两个部分吗?
仅仅是频率操控在起作用吗?还是仅仅是负面引导?作者进行了消融实验来寻找答案。

图 8 证实了这两个组件都是必要的:
- w/o FM (无频率操控) : 背景细节 (如文字或细线) 被冲淡了。
- w/o NG (无负面引导) : 在最后一行,如果没有负面引导,风格图像中的黄色“星星”或“点”会侵略性地覆盖男人的夹克。有了 NG,夹克只吸收了颜色,而没有吸收物体。
结论
StyleSSP 论文提出了一个令人信服的观点: 当使用扩散模型进行编辑时, 初始化至关重要 。 通过将采样起始点视为可调节的变量而不仅仅是随机噪声,我们可以对输出施加显著的控制。
通过频率操控 , 该方法确保原始图像的布局和细节在数学上得到优先考虑。通过基于反演的负面引导 , 它确保风格图像的语义物体不会意外覆盖内容。
对于生成式 AI 的学生和研究人员来说,这突显了一个重要趋势: 改进并不总是来自于更大的模型或更大的数据集。有时,它们来自于对潜空间内发生的信号处理更深层次的理解。
StyleSSP 提供了一种鲁棒的、免训练的方式来实现专业的风格迁移结果,解决了困扰以前方法的布局破坏和内容泄露这两个双重问题。
本文中使用的所有图像和数据均源自研究论文 “StyleSSP: Sampling StartPoint Enhancement for Training-free Diffusion-based Method for Style Transfer”。
](https://deep-paper.org/en/paper/2501.11319/images/cover.png)