超越去噪：解锁扩散模型推理时搜索的力量

在生成式 AI 时代，我们已经习惯了一个被称为“缩放定律 (Scaling Laws) ”的简单真理: 如果你想要一个更好的模型，你需要用更多的数据、更多的参数和更长的时间来训练它。这一秘诀推动了大型语言模型 (LLM) 和扩散模型的爆炸式成功。

但最近，LLM 领域开启了一个新的前沿。研究人员发现，你并不总是需要一个更大的模型来获得更聪明的答案；有时，你只需要让模型在推理过程中“思考”更长时间。像思维链 (Chain-of-Thought) 或思维树 (Tree of Search) 这样的技术允许模型在训练完成后，仅仅通过在生成响应时使用更多的计算能力，就能扩展其性能。

这就引出了一个迷人的问题: 我们可以将同样的逻辑应用于扩散模型吗?

目前，生成图像的标准方法是运行扩散模型进行固定数量的“去噪步骤”。我们知道增加这些步骤会有所帮助，但仅限于一定程度。经过几十步之后，质量就会趋于平稳。在最近的一篇 CVPR 论文中，来自 NYU、MIT 和 Google 的研究人员提出了一个新的框架来突破这一上限。他们不仅将图像生成视为去噪过程，更将其视为一个搜索问题 。

在这篇文章中，我们将剖析他们关于“扩展推理时计算 (Scaling Inference Time Compute) ”的框架，探讨为何寻找“完美噪声”比单纯运行更大的模型能产生更好的图像，并分析其中的权衡。

问题所在: 推理的瓶颈

扩散模型通过逆转噪声过程来工作。它们从一个随机的高斯噪声向量开始，逐步去除噪声以揭示清晰的图像。这个过程由微分方程——具体来说是常微分方程 (ODE) 或随机微分方程 (SDE) ——控制。

扩散过程的 ODE 和 SDE 数学公式。

变量 \(t\) 代表时间 (或噪声水平) 。随着模型在时间上逐步推进，它会清理图像。自然地，人们可能会假设要获得更好的图像，我们应该增加步骤的数量 (即求解器的分辨率) 。

然而，经验证据显示了一个残酷的现实: 收益递减得很快。一旦达到足够的步数 (通常在 50 到 100 之间) ，增加更多的计算量几乎不会改变输出质量。模型已经收敛了。如果我们想要有效地扩展推理计算，我们需要一种超越仅仅“增加去噪”的策略。

这篇论文的作者提出，关键在于初始噪声 。在扩散模型中，你开始时的随机噪声决定了最终的图像。事实证明，并非所有的噪声都是生而平等的——有些随机种子自然会产生高质量、美观的图像，而另一些则会导致伪影或无聊的构图。

如果我们能将计算预算花在搜索那些“黄金”噪声向量上，而不是仅仅去噪我们找到的第一个噪声，我们就能解锁一条新的扩展轨迹。

对比通过去噪步骤扩展 NFE 与通过搜索扩展 NFE 的折线图。

如上方的 图 1 所示，标准方法 (虚线) 趋于平缓。相比之下，提出的“搜索”方法 (实线) 随着我们投入更多的计算量 (NFE - 函数评估次数) ，图像质量 (通过 FID 和美学评分衡量) 持续提高。

框架: 验证器与算法

为了将图像生成转化为搜索问题，我们需要形式化两件事:

验证器 (Verifiers) : 我们如何知道一张图像是“好”的？
算法 (Algorithms) : 我们如何找到下一个要测试的候选者？

研究人员沿着这两个轴构建了他们的设计空间。

1. 验证器

验证器只是一个函数，它接收生成的图像 (以及可选的文本提示) 并输出一个分数。

验证器函数的数学定义。

论文探讨了三种类型的验证器:

预言机验证器 (Oracle Verifiers) : 这些用于学术基准测试 (例如，最大化用于评估的确切指标，如 FID 或 Inception Score) 。它们代表了搜索所能达到的“上限”。
有监督验证器 (Supervised Verifiers) : 这些使用预训练模型来判断质量。例如，使用 CLIP 模型来判断图像与提示的匹配程度，或使用美学预测器来判断视觉美感。
自监督验证器 (Self-Supervised Verifiers) : 有趣的是，作者发现有时你不需要外部标签。你可以测量内部一致性——例如，模型在高噪声水平下的预测与最终清晰图像的相似程度。

2. 算法

一旦我们有了给图像评分的方法，我们需要一种策略来找到高分的图像。论文将算法定义为接收验证器、模型和一组候选者，并输出一组新的改进候选者的函数。

搜索算法的数学定义。

作者提出了三种不同的搜索策略，如下图所示:

随机搜索、零阶搜索和路径搜索的示意图。

随机搜索 (左) : 这是最简单的方法，通常称为“Best-of-N”。你采样 \(N\) 个不同的随机噪声向量，为所有向量生成图像，对它们进行评分，然后选出获胜者。它能很好地探索全局空间，但不会改进特定的图像。
零阶搜索 (中) : 这是一种局部改进策略。你从一个噪声向量开始，然后在它的邻域 (轻微扰动的版本) 中采样 \(N\) 个候选者。你选择最好的一个并重复该过程。这就像在噪声景观中爬山，而无需计算昂贵的梯度。
路径搜索 (右) : 这是最复杂的。算法不只是搜索初始噪声，而是在去噪过程的中间步骤进行分支。它允许模型在生成中途修正路线。

实验结果

这真的有效吗？作者在 ImageNet (类条件生成) 和文本到图像基准上进行了广泛的实验。

1. 随机搜索出奇地有效

在 ImageNet 上，使用“预言机”验证器 (直接针对 FID 或 Inception Score 进行优化) 的简单随机搜索产生了巨大的改进。

显示 ImageNet 上随机搜索性能的图表，不同引导比例。

在 图 3 中，注意陡峭的改进曲线。通过生成更多候选者并选择最好的，FID (越低越好) 显著下降，而 Inception Score (IS，越高越好) 飞涨。这证实了扩散模型的潜在空间中充满了更高质量的样本，我们通常只是因为取了第一个随机样本而错过了它们。

2. “验证器破解”的危险

当转移到现实场景 (我们没有预言机) 时，验证器的选择变得至关重要。研究人员测试了使用 CLIP 和 DINO (计算机视觉模型) 作为验证器。

显示有监督和自监督验证器性能的图表。

图 4 (上图左/上部分) 的结果显示，这些验证器确实提高了指标，但也存在问题。如果验证器与人类感知不完全一致，搜索算法可能会“破解”它——找到那些在指标上得分很高但看起来很奇怪或缺乏多样性的图像。这类似于强化学习中的“奖励破解 (reward hacking) ”。

有趣的是, 图 5 (右/下部分) 突显了自监督验证器的潜力。通过简单地测量模型早期预测与最终结果之间的特征相似度，他们在不需要任何外部条件信息的情况下实现了强大的扩展性能。

3. 算法比较

使用复杂的迭代算法比简单的随机搜索更值得吗？

零阶搜索和路径搜索的比较。

图 6 表明，虽然局部搜索方法 (零阶和路径) 是有效的，但它们的表现各不相同。随机搜索本质上是一种“散弹枪”方法，非常适合多样性。零阶搜索 (ZO) 在打磨特定样本 (寻找局部最大值) 方面效率很高，当你想要改进特定概念而不是探索新概念时，这可能更好。

4. 可视化差异

支持搜索的最有力论据来自图像本身。

比较扩展去噪步骤与扩展搜索的视觉效果。

图 7 对于理解定性差异至关重要:

顶行 (增加去噪步骤) : 图像变得更清晰锐利，但基本构图 (灯塔) 保持不变。
底行 (增加搜索) : 模型探索了不同的光照、构图和风格。看看“沙漏”或“泰迪熊”。搜索过程发现了具有戏剧性光照或更有趣的配饰细节 (如熊戴的耳机) 的样本，而单个随机样本错过了这些。

文本到图像生成中的扩展

作者将该框架应用于最先进的文本到图像模型 FLUX.1-dev 。他们使用了一个“验证器集成”——结合美学评分、CLIP 评分和 ImageReward——来稳健地判断图像质量。

条形图显示使用不同验证器在 FLUX.1-dev 上的相对性能增益。

图 8 显示了相对改进。使用验证器集成 (最右边的一组) 在所有指标上都产生了一致的改进，包括独立的基于 LLM 的评估。这强调了对于复杂的文本到图像任务，依赖单一指标 (如仅美学评分) 可能会导致权衡取舍，而集成则提供了一条平衡的扩展路径。

此外，这种搜索方法与其他对齐技术是兼容的。如 表 2 所示，将搜索应用于已经通过直接偏好优化 (DPO) 微调过的模型，会产生进一步的收益。

表格显示在 DPO 微调后的 SDXL 模型上的搜索性能。

带搜索的小模型 vs. 大模型

对于学生和从业者来说，最实际的发现可能是效率权衡。带搜索的小模型能打败不带搜索的大模型吗？

不同模型规模 (SiT-B, L, XL) 的搜索方法比较。

图 10 给出了响亮的“是”。看那条绿线 (带搜索的 SiT-L) 穿过了橙线 (不带搜索的 SiT-XL) 。

关键结论: 在固定的计算预算下，使用更小、更快的模型并将额外的计算量用于搜索好的样本，通常比将这些计算量用于大型模型的单次传递要好。

每次迭代分析中进一步详细说明了这一点:

单次搜索迭代的性能扩展。

图 9 显示，在搜索过程中使用的去噪步骤数 (NFEs/iter) 存在一个“最佳平衡点 (sweet spot) ”。你不必为你测试的每个候选者运行完整的昂贵生成过程。你可以廉价地进行搜索，然后高质量地生成最终的获胜者。

结论

这项研究有效地为扩散模型建立了“推理时缩放定律”。就像 LLM 受益于“思考时间”一样，扩散模型也受益于“搜索时间”。

其意义重大:

灵活性: 我们可以动态地用计算换取质量。如果你需要一个快速草稿，运行一次。如果你需要杰作，运行 10 分钟的搜索。
模型设计: 我们可能会停止痴迷于训练绝对最大的模型，转而专注于训练高效的搜索者模型。
验证器瓶颈: 限制因素不再是生成模型，而是验证器。随着我们需要开发更好的自动判断图像质量的方法 (与人类偏好一致) ，这种基于搜索的方法只会变得更加强大。

对于该领域的学生来说，“搜索框架”开启了一个巨大的设计空间。有什么比随机搜索更好的算法？我们可以训练特定的“搜索验证器”吗？从纯粹的生成向通过搜索生成 (Generation-via-Search) 的转变才刚刚开始。

问题所在: 推理的瓶颈#

框架: 验证器与算法#

1. 验证器#

2. 算法#

实验结果#

1. 随机搜索出奇地有效#

2. “验证器破解”的危险#

3. 算法比较#

4. 可视化差异#

文本到图像生成中的扩展#

带搜索的小模型 vs. 大模型#

结论#