像 Midjourney、Stable Diffusion 和 Sora 这样的扩散模型,已经彻底改变了我们从简单文本提示创作数字艺术、视频和逼真图像的方式。它们催生了新一代的创意工具,但这些工具都有一个主要的限制:** 速度**。用像 SDXL 这样的模型生成一张高分辨率图像可能需要几十秒,这使得实时或交互式应用变得十分繁琐。
为什么它们这么慢?原因在于其核心机制。扩散模型从纯噪声 (就像电视的“雪花屏”) 开始,通过几十甚至上百步逐渐将噪声精炼成连贯的图像。在每一步,一个大型神经网络——称为 噪声预测器——负责估计还剩多少噪声需要移除。反复运行这个庞大的网络就占据了主要的计算时间。
然而,并非所有步骤都同等重要。有些步骤只做细微调整,对最终图像影响不大。最新的一篇研究论文 **《基于有界差分近似策略的免训练自适应扩散》 **(Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy) 提出了一种名为 AdaptiveDiffusion 的巧妙免训练方法,可智能识别并跳过冗余的噪声预测步骤。其结果实现了高达 5 倍的加速,而图像质量几乎没有损失。
作者通过引入一个 自适应判据 来实现这一点: 一个能够根据提示词复杂度和生成过程稳定性判断是否计算的智能机制。让我们来看看它的原理。
理解扩散模型为什么慢
扩散生成遵循 逆向去噪过程。模型从随机噪声 \(x_T\) 开始,通过 \(T\) 个时间步迭代去噪,直至获得干净的输出 \(x_0\)。
在每一步 \(i\):
- 网络使用 \(\epsilon_\theta(x_i, t_i, c)\) 预测噪声,其中 \(c\) 是条件输入 (如文本提示或图像嵌入) 。
- 调度器 (scheduler) 利用该预测更新潜空间图像:
其中,\(f\) 和 \(g\) 是由采样策略 (DDIM、DPM-Solver++、Euler 等) 决定的系数。
重复执行这一噪声预测 \(T\) 次是推理中的主要开销。在像 SDXL 这样的模型中,50 个步骤中的每一步都包含一次完整的 U-Net 前向传播,使图像生成成本极高。
传统的加速方法主要分为三类:
- **减少采样步数 **(如 DDIM、DPM-Solver) : 通过减少时间步数以速度换取质量。
- **优化模型架构 **(如 DeepCache) : 在 U-Net 内缓存中间计算结果。
- 并行推理: 多个步骤同时运行。
但这些方法都使用 固定的加速策略——对每个提示词执行相同的步数。AdaptiveDiffusion 的作者指出,提示词的复杂性差异很大。一个简单场景 (“白色背景上的一个红球”) 比复杂场景 (“油画风格的 18 世纪集市”) 需要更少的更新。为什么要强迫它们都用同样的步骤呢?
图 1: 不同的提示词需要不同数量的噪声预测才能实现近乎无损的生成。使用固定步数会浪费计算资源。
这一观察启发了新的范式——提示词自适应加速,即去噪步数根据提示词内容动态调整。
AdaptiveDiffusion 如何智能地跳过步骤
AdaptiveDiffusion 的核心机制是在每个去噪步骤判断模型是应该执行完整的噪声预测,还是仅重用上一步的预测结果。
图 2: AdaptiveDiffusion 集成了一个估计器,它能选择性地触发或跳过噪声预测,在过程稳定时重用缓存结果。
“跳过”意味着什么?
跳过并不是跳过整个更新步骤,而是仅跳过 耗时的噪声预测。潜空间更新 (即乘以 \(f\) 和 \(g\)) 本身很快且对结果精细化至关重要。
当步骤 \(i\) 被跳过时,AdaptiveDiffusion 会重用上一步预测的噪声:
\[ \begin{aligned} x_i &= f(i) \cdot x_{i+1} - g(i) \cdot \epsilon_\theta(x_{i+1}, t_{i+1}) \\ x_{i-1} &= f(i-1) \cdot x_i - g(i-1) \cdot \epsilon_\theta(x_{i+1}, t_{i+1}) \end{aligned} \]这可节省一次 U-Net 前向计算,从而减少延迟,同时保持图像的保真度。
图 3: 仅跳过噪声预测 (b) 能保持质量,而同时跳过预测和更新 (d) 则完全失败。
挑战在于: 如何判断 何时 跳过是安全的?
衡量稳定性: 扩散过程的“急动度”检测器
为判断何时跳过,AdaptiveDiffusion 通过计算潜空间状态在时间步上的导数来衡量去噪过程的稳定性。
作者引入了高阶 潜空间差分:
- 一阶差分: 连续步骤间的变化
\(\Delta x_i = x_i - x_{i+1}\) - 二阶差分: 变化率的变化
\(\Delta^{(2)} x_i = \Delta x_i - \Delta x_{i+1}\) - 三阶差分: 加速度的变化,类似于物理中的“急动度” (jerk)
\(\Delta^{(3)} x_i = \Delta^{(2)} x_i - \Delta^{(2)} x_{i+1}\)
通过分析完整去噪过程中的这些信号,作者发现了一个有趣规律:** 三阶潜空间差分与可跳过的步骤高度相关**。
图 4: 三阶潜空间差分能捕捉新的噪声预测是否必要。低值对应于稳定区域,可安全跳过。
当“急动度”很小时,潜空间轨迹较平滑,表明冗余;当它出现尖峰变化时,则需新的噪声预测以捕捉快速过渡。
三阶估计标准
这一洞见引出了一个简单规则,用于在每一步做出决策:
\[ \xi(x_{i-1}) = \left\| \Delta^{(3)} x_{i-1} \right\| \ge \delta \| \Delta x_i \| \]解释如下:
- \(\Delta^{(3)} x_{i-1}\): 三阶潜空间差分 (急动度)
- \(\Delta x_i\): 一阶差分 (速度)
- \(\delta\): 小的阈值超参数
含义: 如果 急动度 大于某个比例阈值,则执行新的噪声预测;否则,重用上一次预测。
为防止连续跳过过多导致误差积累,作者还引入了参数 \(C_{\text{max}}\),表示最大允许连续跳过步数。
图 5: 三阶估计器与最优跳过行为高度一致,为自适应加速提供了可靠的数学依据。
该标准为 免训练 的 (无需梯度更新或微调) ,并且 兼容任何扩散模型。它仅在推理阶段读取潜空间状态,根据数学指标决定是否跳过噪声预测。
结果: AdaptiveDiffusion 真的有效吗?
作者在多个任务上验证了 AdaptiveDiffusion——包括 文生图、图生视频 和 文生视频——使用了如 SD-1.5、SDXL、I2VGen-XL 和 ModelScopeT2V 等主流模型。
图像生成
在 MS-COCO 基准上,AdaptiveDiffusion 既实现了更快的推理速度,又提升了图像质量。
表 1: 在不同调度器与模型上,AdaptiveDiffusion (“Ours”) 在速度和保真度方面均超过 DeepCache 与 Adaptive DPM-Solver。
对于使用 Euler 采样的 SDXL,AdaptiveDiffusion 实现了 2.01 倍加速,同时保持近原始质量 (LPIPS ≈ 0.168,PSNR ≈ 24.3) 。
视觉对比进一步彰显了 AdaptiveDiffusion 的效果优势。
图 6: 并排比较显示 AdaptiveDiffusion 输出几乎与原始全步图像一致,表现优于 DeepCache。
视频生成
视频生成引入了时间维度的复杂性。该方法不仅需保持单帧质量,还要维持跨帧的时序一致性。
表 3: AdaptiveDiffusion 在困难的视频基准测试中显著提升空间保真度与时间连贯性。
AdaptiveDiffusion 在 PSNR (最高提升 +6.4 dB) 及 LPIPS 上均取得显著改善,且具有更低的 Fréchet 视频距离 (FVD) ,表示帧间运动更平滑。
图 7 & 8: 视觉比较证实了时间连贯性的无损保持。在 MS-COCO 上,大多数提示词仅需约 26 次噪声预测步骤,证明可跳过大量冗余计算。
更广泛的启示
AdaptiveDiffusion 展现了数学洞见——即三阶微分判据——如何在保持高质量的同时显著提升效率。
关键要点:
- 自适应性至关重要: 不同提示词复杂性不同。灵活分配计算资源的系统远胜于固定预算策略。
- “急动度”的力量: 三阶潜空间差分是一个出乎意料精准的信号,能标识何时确需重新计算。
- 免训练的通用性: AdaptiveDiffusion 无需重新训练或修改架构,只利用智能推理端启发式方法即可,适用于多种模型与任务。
通过动态跳过冗余的噪声预测,AdaptiveDiffusion 将延迟降低至原来的五分之一,实现近乎实时的图像与视频生成。这一方法不仅推动了扩散模型效率的极限,还为 交互式创意工具 打开了新可能,使生成模型能够真正跟上人类的想象力。