在生成式 AI 时代,我们已经习惯了一个被称为“缩放定律 (Scaling Laws) ”的简单真理: 如果你想要一个更好的模型,你需要用更多的数据、更多的参数和更长的时间来训练它。这一秘诀推动了大型语言模型 (LLM) 和扩散模型的爆炸式成功。

但最近,LLM 领域开启了一个新的前沿。研究人员发现,你并不总是需要一个更大的模型来获得更聪明的答案;有时,你只需要让模型在推理过程中“思考”更长时间。像思维链 (Chain-of-Thought) 或思维树 (Tree of Search) 这样的技术允许模型在训练完成后,仅仅通过在生成响应时使用更多的计算能力,就能扩展其性能。

这就引出了一个迷人的问题: 我们可以将同样的逻辑应用于扩散模型吗?

目前,生成图像的标准方法是运行扩散模型进行固定数量的“去噪步骤”。我们知道增加这些步骤会有所帮助,但仅限于一定程度。经过几十步之后,质量就会趋于平稳。在最近的一篇 CVPR 论文中,来自 NYU、MIT 和 Google 的研究人员提出了一个新的框架来突破这一上限。他们不仅将图像生成视为去噪过程,更将其视为一个搜索问题

在这篇文章中,我们将剖析他们关于“扩展推理时计算 (Scaling Inference Time Compute) ”的框架,探讨为何寻找“完美噪声”比单纯运行更大的模型能产生更好的图像,并分析其中的权衡。

问题所在: 推理的瓶颈

扩散模型通过逆转噪声过程来工作。它们从一个随机的高斯噪声向量开始,逐步去除噪声以揭示清晰的图像。这个过程由微分方程——具体来说是常微分方程 (ODE) 或随机微分方程 (SDE) ——控制。

扩散过程的 ODE 和 SDE 数学公式。

变量 \(t\) 代表时间 (或噪声水平) 。随着模型在时间上逐步推进,它会清理图像。自然地,人们可能会假设要获得更好的图像,我们应该增加步骤的数量 (即求解器的分辨率) 。

然而,经验证据显示了一个残酷的现实: 收益递减得很快。一旦达到足够的步数 (通常在 50 到 100 之间) ,增加更多的计算量几乎不会改变输出质量。模型已经收敛了。如果我们想要有效地扩展推理计算,我们需要一种超越仅仅“增加去噪”的策略。

这篇论文的作者提出,关键在于初始噪声 。 在扩散模型中,你开始时的随机噪声决定了最终的图像。事实证明,并非所有的噪声都是生而平等的——有些随机种子自然会产生高质量、美观的图像,而另一些则会导致伪影或无聊的构图。

如果我们能将计算预算花在搜索那些“黄金”噪声向量上,而不是仅仅去噪我们找到的第一个噪声,我们就能解锁一条新的扩展轨迹。

对比通过去噪步骤扩展 NFE 与通过搜索扩展 NFE 的折线图。

如上方的 图 1 所示,标准方法 (虚线) 趋于平缓。相比之下,提出的“搜索”方法 (实线) 随着我们投入更多的计算量 (NFE - 函数评估次数) ,图像质量 (通过 FID 和美学评分衡量) 持续提高。

框架: 验证器与算法

为了将图像生成转化为搜索问题,我们需要形式化两件事:

  1. 验证器 (Verifiers) : 我们如何知道一张图像是“好”的?
  2. 算法 (Algorithms) : 我们如何找到下一个要测试的候选者?

研究人员沿着这两个轴构建了他们的设计空间。

1. 验证器

验证器只是一个函数,它接收生成的图像 (以及可选的文本提示) 并输出一个分数。

验证器函数的数学定义。

论文探讨了三种类型的验证器:

  • 预言机验证器 (Oracle Verifiers) : 这些用于学术基准测试 (例如,最大化用于评估的确切指标,如 FID 或 Inception Score) 。它们代表了搜索所能达到的“上限”。
  • 有监督验证器 (Supervised Verifiers) : 这些使用预训练模型来判断质量。例如,使用 CLIP 模型来判断图像与提示的匹配程度,或使用美学预测器来判断视觉美感。
  • 自监督验证器 (Self-Supervised Verifiers) : 有趣的是,作者发现有时你不需要外部标签。你可以测量内部一致性——例如,模型在高噪声水平下的预测与最终清晰图像的相似程度。

2. 算法

一旦我们有了给图像评分的方法,我们需要一种策略来找到高分的图像。论文将算法定义为接收验证器、模型和一组候选者,并输出一组新的改进候选者的函数。

搜索算法的数学定义。

作者提出了三种不同的搜索策略,如下图所示:

随机搜索、零阶搜索和路径搜索的示意图。

  1. 随机搜索 (左) : 这是最简单的方法,通常称为“Best-of-N”。你采样 \(N\) 个不同的随机噪声向量,为所有向量生成图像,对它们进行评分,然后选出获胜者。它能很好地探索全局空间,但不会改进特定的图像。
  2. 零阶搜索 (中) : 这是一种局部改进策略。你从一个噪声向量开始,然后在它的邻域 (轻微扰动的版本) 中采样 \(N\) 个候选者。你选择最好的一个并重复该过程。这就像在噪声景观中爬山,而无需计算昂贵的梯度。
  3. 路径搜索 (右) : 这是最复杂的。算法不只是搜索初始噪声,而是在去噪过程的中间步骤进行分支。它允许模型在生成中途修正路线。

实验结果

这真的有效吗?作者在 ImageNet (类条件生成) 和文本到图像基准上进行了广泛的实验。

1. 随机搜索出奇地有效

在 ImageNet 上,使用“预言机”验证器 (直接针对 FID 或 Inception Score 进行优化) 的简单随机搜索产生了巨大的改进。

显示 ImageNet 上随机搜索性能的图表,不同引导比例。

图 3 中,注意陡峭的改进曲线。通过生成更多候选者并选择最好的,FID (越低越好) 显著下降,而 Inception Score (IS,越高越好) 飞涨。这证实了扩散模型的潜在空间中充满了更高质量的样本,我们通常只是因为取了第一个随机样本而错过了它们。

2. “验证器破解”的危险

当转移到现实场景 (我们没有预言机) 时,验证器的选择变得至关重要。研究人员测试了使用 CLIP 和 DINO (计算机视觉模型) 作为验证器。

显示有监督和自监督验证器性能的图表。

图 4 (上图左/上部分) 的结果显示,这些验证器确实提高了指标,但也存在问题。如果验证器与人类感知不完全一致,搜索算法可能会“破解”它——找到那些在指标上得分很高但看起来很奇怪或缺乏多样性的图像。这类似于强化学习中的“奖励破解 (reward hacking) ”。

有趣的是, 图 5 (右/下部分) 突显了自监督验证器的潜力。通过简单地测量模型早期预测与最终结果之间的特征相似度,他们在不需要任何外部条件信息的情况下实现了强大的扩展性能。

3. 算法比较

使用复杂的迭代算法比简单的随机搜索更值得吗?

零阶搜索和路径搜索的比较。

图 6 表明,虽然局部搜索方法 (零阶和路径) 是有效的,但它们的表现各不相同。随机搜索本质上是一种“散弹枪”方法,非常适合多样性。零阶搜索 (ZO) 在打磨特定样本 (寻找局部最大值) 方面效率很高,当你想要改进特定概念而不是探索新概念时,这可能更好。

4. 可视化差异

支持搜索的最有力论据来自图像本身。

比较扩展去噪步骤与扩展搜索的视觉效果。

图 7 对于理解定性差异至关重要:

  • 顶行 (增加去噪步骤) : 图像变得更清晰锐利,但基本构图 (灯塔) 保持不变。
  • 底行 (增加搜索) : 模型探索了不同的光照、构图和风格。看看“沙漏”或“泰迪熊”。搜索过程发现了具有戏剧性光照或更有趣的配饰细节 (如熊戴的耳机) 的样本,而单个随机样本错过了这些。

文本到图像生成中的扩展

作者将该框架应用于最先进的文本到图像模型 FLUX.1-dev 。 他们使用了一个“验证器集成”——结合美学评分、CLIP 评分和 ImageReward——来稳健地判断图像质量。

条形图显示使用不同验证器在 FLUX.1-dev 上的相对性能增益。

图 8 显示了相对改进。使用验证器集成 (最右边的一组) 在所有指标上都产生了一致的改进,包括独立的基于 LLM 的评估。这强调了对于复杂的文本到图像任务,依赖单一指标 (如仅美学评分) 可能会导致权衡取舍,而集成则提供了一条平衡的扩展路径。

此外,这种搜索方法与其他对齐技术是兼容的。如 表 2 所示,将搜索应用于已经通过直接偏好优化 (DPO) 微调过的模型,会产生进一步的收益。

表格显示在 DPO 微调后的 SDXL 模型上的搜索性能。

带搜索的小模型 vs. 大模型

对于学生和从业者来说,最实际的发现可能是效率权衡。带搜索的小模型能打败不带搜索的大模型吗?

不同模型规模 (SiT-B, L, XL) 的搜索方法比较。

图 10 给出了响亮的“是”。看那条绿线 (带搜索的 SiT-L) 穿过了橙线 (不带搜索的 SiT-XL) 。

  • 关键结论: 在固定的计算预算下,使用更小、更快的模型并将额外的计算量用于搜索好的样本,通常比将这些计算量用于大型模型的单次传递要好。

每次迭代分析中进一步详细说明了这一点:

单次搜索迭代的性能扩展。

图 9 显示,在搜索过程中使用的去噪步骤数 (NFEs/iter) 存在一个“最佳平衡点 (sweet spot) ”。你不必为你测试的每个候选者运行完整的昂贵生成过程。你可以廉价地进行搜索,然后高质量地生成最终的获胜者。

结论

这项研究有效地为扩散模型建立了“推理时缩放定律”。就像 LLM 受益于“思考时间”一样,扩散模型也受益于“搜索时间”。

其意义重大:

  1. 灵活性: 我们可以动态地用计算换取质量。如果你需要一个快速草稿,运行一次。如果你需要杰作,运行 10 分钟的搜索。
  2. 模型设计: 我们可能会停止痴迷于训练绝对最大的模型,转而专注于训练高效的搜索者模型。
  3. 验证器瓶颈: 限制因素不再是生成模型,而是验证器。随着我们需要开发更好的自动判断图像质量的方法 (与人类偏好一致) ,这种基于搜索的方法只会变得更加强大。

对于该领域的学生来说,“搜索框架”开启了一个巨大的设计空间。有什么比随机搜索更好的算法?我们可以训练特定的“搜索验证器”吗?从纯粹的生成向通过搜索生成 (Generation-via-Search) 的转变才刚刚开始。