想象一下,只看过一两张照片后,你就能认出一种新的动物——比如耳廓狐。人类非常擅长这种从稀疏数据中快速学习的能力。然而,对于人工智能来说,这种能力是一项巨大的挑战,被称为 少样本学习 (Few-Shot Learning, FSL) 。 虽然深度学习模型在海量数据集上训练后可达到超人性能,但当被要求仅从少数几个样本中学习新概念时,它们往往表现不佳。
一个有前景的解决方案是元学习 (meta-learning) ,即“学会学习”。我们不再训练模型去分类特定的对象,而是训练它高效地学习新任务。在这个领域中,基于梯度的元学习方法显示出巨大潜力。这些方法学习一种通用的优化策略——元优化器 (meta-optimizer) ——它可以用少量梯度步骤快速将一个简单的模型 (“基础学习器”) 适应到新任务。
但基于梯度的元学习器有一个关键弱点: 它们的训练涉及复杂的双层优化循环。要更新元优化器,必须计算贯穿基础学习器整个学习过程的梯度。这种“通过优化的反向传播”计算代价高昂,消耗大量 GPU 内存,并可能遭受梯度消失,使训练困难。
如果我们能以完全不同的方式思考这个优化过程呢?如果学习可以被看作是一个逐步精炼的过程——像从一块大理石中雕刻出杰作一样?
这正是 MetaDiff 背后的突破性思想: 一种将元学习与扩散模型强大机制相结合的新方法——同样的技术驱动着当今最前沿的 AI 图像生成器。MetaDiff 的研究者提出了一个大胆的观点: 梯度下降的迭代过程与扩散模型中的去噪过程惊人地相似。通过将优化过程重新框定为去噪过程,他们构建了一个更高效、内存友好且性能卓越的元学习器。
在本文中,我们将深入探讨 MetaDiff 论文,解读这种将优化与扩散巧妙类比的思路,如何开启解决少样本学习的新途径。
背景: 元学习与扩散模型
在深入了解 MetaDiff 之前,让我们先回顾它所建立的两个核心理念: 基于梯度的元学习和扩散模型。
基于梯度的元学习: 学会如何学习
在典型的少样本学习中,我们有一个支持集 (support set) ,包含新类别的少量带标签样本 (例如,5 个类别,每类 1 张图片,即 5-way 1-shot) ,以及一个查询集 (query set) ,包含待分类的无标签样本。目标是用支持集训练一个在查询集上表现良好的分类器。
基于梯度的元学习训练一个优化器,使其能够快速适应新任务:
- 内循环 (Inner Loop) : 对于一个任务,从简单的基础学习器 (如一个小分类器) 开始,用元优化器和支持集进行几步权重更新。
- 外循环 (Outer Loop) : 在查询集上评估适应后的学习器,并用所得误差更新元优化器。
问题在于外循环。更新元优化器时,模型需要对内循环的每一步进行求导。对于较长的内循环,这种导数链会造成计算负担沉重且不稳定,从而降低效率。
扩散模型: 从噪声到数据
扩散模型是一类生成模型,通过逆转逐步加噪的过程来学习生成数据。它包含两个过程:
- 前向 (扩散) 过程: 从干净数据 \(x_0\) 开始,逐步添加高斯噪声至 \(T\) 个时间步,生成 \(x_1, x_2, \ldots, x_T\)。最终,\(x_T\) 变成纯随机噪声。
- 反向 (去噪) 过程: 训练一个神经网络 (通常是 UNet) 来预测添加的噪声。生成新数据时,从噪声 \(x_T\) 开始,反复应用该网络去除噪声,直到得到干净数据 \(x_0\)。
噪声预测网络 \(\epsilon_\theta\) 的训练目标非常简单:
\[ L = \mathbb{E}_{x_0 \sim p_{target}, \, \epsilon \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), \, t}[\|\epsilon - \epsilon_\theta(x_t, t)\|_2^2] \]该目标使扩散模型能高效训练并实现卓越的数据生成质量。
将优化视为去噪
MetaDiff 的作者注意到梯度下降与扩散去噪之间的有趣相似性。

图 1: (a) 梯度下降从随机初始化迭代更新权重至目标权重。(b) 扩散模型对带噪输入进行去噪以恢复干净数据。(c) MetaDiff 将权重优化过程建模为一个去噪扩散过程。
在标准梯度下降中,随机初始化的权重被逐步精炼为最优权重;在扩散模型中,随机噪声被迭代地去噪成干净数据。关键洞见是: 将学习器的权重视为被去噪的数据 。 随机初始化的权重 (\(w_T\)) 对应于噪声,最优权重 (\(w_0\)) 则是干净结果。因此,优化过程即是将带噪权重去噪成最优形式的过程。
数学上的联系
去噪过程的更新规则为:
\[ x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1 - \overline{\alpha}_t}}\epsilon_\theta(x_t, t)\right) + \sigma_t z, \; z \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \]重写后可反映其与梯度下降的相似性:
\[ x_{t-1} = x_t - \eta\,\epsilon_\theta(x_t, t) + (\gamma - 1)x_t + \xi z \]其中:
- 第一项 类似于梯度下降步骤,\(\epsilon_\theta\) 预测梯度;
- 第二项 起动量更新作用;
- 第三项 用随机噪声引入不确定性。
这表明梯度下降是扩散去噪的一个简化特例。扩散模型充当了一个广义、可学习的优化器 , 它自然地包含动量与不确定性,为元学习提供了理论上稳健的框架。
MetaDiff 框架
基于上述洞见,MetaDiff 提出了一个基于扩散的元学习架构,包含三个主要组件。

图 2: (a) MetaDiff 整体框架: 支持集 \(S\) 由特征提取器编码,权重通过扩散去噪从 \(w_T\) 演化到 \(w_0\)。 (b) MetaDiff 优化器结构。
- 嵌入网络 (\(f_\varphi(\cdot)\)) : 一个预训练的 CNN (如 ResNet12) ,将输入图像转化为跨任务共享的紧凑特征表示。
- 基础学习器 (\(g_w(\cdot)\)) : 一个简单的任务特定分类器,通常基于原型,其权重 \(w\) 需为每个新任务调整。
- MetaDiff 优化器 (\(\epsilon_\theta(\cdot)\)) : 一个条件扩散模型,输入当前权重 \(w_t\)、支持集 \(S\) 和时间步 \(t\),预测去除的噪声 (即梯度) 。
MetaDiff 的推理过程
推理阶段:
- 初始化: 从随机权重 \(w_T \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\) 开始。
- 迭代去噪: 对于 \(t = T, T-1, \ldots, 1\), \[ w_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(w_t - \frac{\beta_t}{\sqrt{1 - \overline{\alpha}_t}}\epsilon_\theta(w_t, S, t)\right) \] MetaDiff 优化器以任务支持集为条件进行去噪。
- 预测: 经过 \(T\) 步后,去噪后的权重 \(w_0\) 用于分类查询集。
任务条件 UNet (TCUNet)
MetaDiff 的有效性依赖其噪声预测网络 \(\epsilon_\theta\)。作者设计了一个具任务感知能力的网络——任务条件 UNet (Task-Conditional UNet, TCUNet) 。

图 3: TCUNet 架构,输入支持集 \(S\)、权重 \(W_t\) 和时间嵌入 \(t\),预测用于去噪的噪声。
TCUNet 先使用当前权重和支持集损失计算初始梯度,再通过以时间步 \(t\) 为条件的 UNet 对该梯度进行优化。概念上,它学习的是如何改进一个已有的梯度估计,而非从零预测梯度,从而提高稳定性与准确性。
训练 MetaDiff
训练扩散型优化器时,我们需要与最优任务性能对应的“干净”权重真值 \(w_0\)。作者巧妙地生成这些权重:
- 任务采样: 从基础数据集中采样 N-way K-shot 任务。
- 辅助训练: 对每个任务,使用类别的全部数据训练分类器至收敛;其权重即为真值 \(w_0\)。
- 扩散训练: 向 \(w_0\) 加噪得到 \(w_t\),再训练 TCUNet 在支持集 \(S\) 条件下恢复原始噪声,使用目标函数:
此方法消除了双层优化 , 避免了高内存占用和梯度消失问题。
实验与结果
作者在标准少样本学习数据集 miniImagenet 和 tieredImagenet 上评估了 MetaDiff,并与主流梯度型元学习方法进行对比。

表 1: MetaDiff 在不同骨干网络上的性能始终与领先的元学习模型持平或更优。
MetaDiff 取得了更高或相当的准确率——通常比最新基线高出 1–3%。这些结果验证了将优化过程视为去噪的实际效益。
内存效率
MetaDiff 的一大优势是 GPU 内存使用量随优化步骤保持恒定。

图 4: 随着步骤数增长,MetaDiff 保持恒定 GPU 内存使用,不同于 MetaLSTM 和 ALFA。
传统方法如 MetaLSTM,其内存占用随内循环步数线性增长。MetaDiff 的训练在单一时间步上评估,将成本与步骤数解耦,从而允许更长、更精细的去噪路径。
收敛行为
作者进一步测试了收敛性,绘制了 1000 个去噪步骤的准确率与损失曲线。

图 5: 准确率稳步上升,损失稳步下降,并在约 450 步时趋于稳定——表现出有效的收敛。
MetaDiff 在有限步数内稳定收敛,展现了可靠的优化特性。
结论
MetaDiff 通过建立梯度优化与扩散去噪的正式联系,为元学习带来了新的范式视角。它将“学会学习”重新定义为学会去噪 。
核心要点:
- 新颖的联系: 扩散去噪是融合动量与不确定性的广义、可学习梯度下降形式。
- 高效的框架: MetaDiff 消除了昂贵的双层优化,实现恒定内存占用与稳定训练。
- 卓越的结果: 该方法在标准少样本学习基准上取得了领先性能。
MetaDiff 开启了令人兴奋的新方向——这种基于扩散的观点能否推广到强化学习或持续学习?它在优化与生成建模之间建立的桥梁,或许预示着学习范式的新时代。
](https://deep-paper.org/en/paper/2307.16424/images/cover.png)