人类拥有一种非凡的能力,仅凭一两个例子就能学会新概念。只要看过一次巨嘴鸟的图片,你可能一辈子都能认出它。相比之下,深度学习模型是出了名的数据贪婪。它们通常需要成千上万个样本才能达到类似的性能,这使得它们在数据稀缺或收集成本高昂的情境下举步维艰——例如医学影像或专业机器人领域。
这就是少样本学习 (few-shot learning) 的挑战所在: 我们如何让模型像人类一样,仅凭少数样本进行泛化?一个被称为元学习 (meta-learning)——或“学习如何学习”的研究领域正致力于解决这个问题,它通过训练模型利用从大量相关任务中获取的先验知识。其核心思想是,通过学习众多任务间的共有结构,模型能够以极少的数据快速适应新的、未见过的任务。
这种“先验知识”的质量至关重要。大多数元学习方法依赖于简单的、预设的先验,如高斯分布。尽管这些方法在某种程度上有效,但固定形状的先验就像一个“一刀切”的工具——其表达能力不足以捕捉在复杂且数据匮乏的场景中所需的精细模式。
最近,一篇题为 “使用非单射变量变换进行元学习以获得通用先验” (Meta-Learning Universal Priors Using Non-Injective Change of Variables) 的论文提出了突破性的解决方案。作者不再依赖固定的、现成的先验,而是提出了一种方法来学习灵活的、数据驱动的先验,使其形状能够针对不同任务自适应调整。其关键创新是一种名为 非单射变量变换 (Non-injective Change of Variables, NCoV) 的新型生成模型,该模型在理论上被证明是概率分布的通用逼近器。让我们来看看它的工作原理。
背景: “学习如何学习”框架
元学习的核心是处理一组不同的任务。对于每个任务 \( t \),我们有一个小规模训练数据集 \( \mathcal{D}_t^{\mathrm{trn}} \) 和一个验证数据集 \( \mathcal{D}_t^{\mathrm{val}} \)。目标是学习一个共享的、任务无关的表示 (即先验) ,帮助模型快速学习每个任务的细节。
这个过程自然地可以被表述为一个双层优化问题 (bilevel optimization problem) 。

图 1: 元学习被形式化为双层优化——跨任务学习共享先验。
我们来分解一下:
- 内层 (任务层面) : 对每个任务 \( t \),寻找最优的任务特定参数 \( \phi_t^* \)。该优化依赖于训练集 \( \mathcal{D}_t^{\mathrm{trn}} \),并由共享先验引导,其正则化项记为 \( \mathcal{R}(\phi_t; \theta) \)。
- 外层 (元层面) : 在各自验证集 \( \{\mathcal{D}_t^{\mathrm{val}}\}_{t=1}^T \) 上评估已优化的任务参数 \( \{\phi_t^*\}_{t=1}^T \),再更新共享先验参数 \( \theta \),以获得更优秀的跨任务先验。
从贝叶斯角度看,\( \mathcal{L} \) 表示负对数似然 (即数据拟合度) ,而 \( \mathcal{R} \) 表示负对数先验 \( -\log p(\phi_t; \theta) \)。因此,内循环执行的是最大后验 (MAP) 估计,先验在此作为一种智能正则化或初始化手段,从而在数据稀缺时防止过拟合。
MAML 与隐式高斯先验
模型无关元学习 (Model-Agnostic Meta-Learning, MAML) 是最具影响力的元学习算法之一。它不使用显式正则化项 \( \mathcal{R} \),而是为所有任务学习一个共享的初始化 \( \phi^0 = \theta \),并从此共同起点进行若干步梯度下降。

图 2: MAML 的内循环优化使用了 K 步梯度下降。
虽然 MAML 没有显式定义先验,但后续研究表明,其更新过程近似于在高斯先验下的 MAP 估计。

图 3: MAML 隐式假设高斯先验,因而在表达复杂分布时受到限制。
在这里,学习到的初始化 \( \phi^0 \) 就相当于一个隐式高斯先验的均值。这揭示了一个关键局限: 高斯先验本质上是单峰且对称的,限制了其表达能力。真实世界中的参数分布可能是多峰或偏斜的,而 MAML 的隐式高斯无法捕捉这种复杂性。
核心方法: 使用 NCoV 学习通用先验
与其凭猜测设定先验的形状,我们能否从数据中学习它?作者正是基于这个想法,提出使用一个概率论中的核心概念: 变量变换原理 (change of variables principle) 。
标准化流简介
该原理是标准化流 (Normalizing Flows, NFs) 模型的核心。这些模型学习一个可逆变换 \( f \),将简单随机变量 \( \mathbf{Z} \) 映射为更复杂的 \( \mathbf{Z}' = f(\mathbf{Z}) \)。由于 \( f \) 可逆,\( \mathbf{Z}' \) 的概率密度可以通过变量变换公式精确计算:

图 4: 标准化流中使用的标准变量变换公式。
这使得标准化流可以高效地求解密度并进行采样。然而,它们受到一个关键约束——可逆性 (invertibility) 。 变换必须是双射的,即每个输出对应唯一一个输入。该约束限制了标准化流对多峰分布或低维流形 (如自然图像) 上分布的建模能力。
NCoV 的突破: 放弃可逆性约束
论文的核心创新简单却深刻: 如果我们放弃函数 \( f \) 必须可逆的要求呢?
根据定理 3.1 (多元概率积分变换) , 对于任意目标累积分布函数 (CDF) \( Q \),存在一个 (可能为非单射的) 函数 \( f^* \),它能将简单的源分布转化为具有目标分布 \( Q \) 的随机变量 \( \mathbf{Z}' \)。

图 5: 通过放宽可逆性限制,NCoV 能够建模任意目标分布。
这带来了颠覆性变化: NCoV 模型能够表示任何分布——无论是多峰、离散还是偏斜——且不受结构限制。代价是,我们丧失了解析形式的密度表达,它变为关于所有 \( f \) 原像积分的形式:

图 6: 非单射变换下的密度函数涉及对 \( f \) 所有原像的积分。
幸运的是,在元学习中,我们并不需要密度的解析形式——我们只需从分布中采样并优化变换即可。因此,非单射性反而成为一种优势而非缺陷。
使用 Sylvester NCoV 实现通用逼近
为逼近理想的 \( f^* \),作者采用一种参数化模型——Sylvester Flow , 其定义如下:

图 7: 单层 Sylvester NCoV 变换的函数形式。
其中,\( \mathbf{A} \)、\( \mathbf{B} \)、\( \mathbf{c} \) 是可学习参数,\( \sigma \) 是非线性激活函数 (通常为 sigmoid) 。论文中的定理 3.5 证明,一个足够宽的 Sylvester NCoV 可以逼近任意“良性”目标分布——从而确立了一个分布的通用逼近定理。

图 8: Sylvester NCoV 能灵活地将简单高斯分布转化为复杂多峰目标分布。
这些结果凸显了非单射变换的强大表达能力,使得对简单先验无法表示的分布进行精确建模成为可能。
MetaNCoV 算法: 将 NCoV 引入元学习
接下来,将 NCoV 与元学习框架结合,形成方法 MetaNCoV , 用于学习跨任务自适应的通用数据驱动先验。
我们不再直接优化任务参数 \( \phi_t \),而是引入潜变量 \( \mathbf{z}_t \),其来自简单先验 \( p_{\mathbf{Z}} = \mathcal{N}(\mathbf{0}, \mathbf{I}) \)。通过变换 \( f(\mathbf{z}_t; \theta_f) \) 生成模型参数 \( \phi_t \)。元学习同时优化潜变量 (内层) 与变换参数 \( \theta_f \) (外层) 。

图 9: MetaNCoV 的双层优化结构——跨任务学习潜在先验。
初始化过程既简单又优雅: 对于高斯基础分布,最大先验点为 \( \mathbf{z}_t^0 = \mathbf{0} \)。

图 10: 从基础分布众数初始化潜变量。
这消除了显式学习任务无关初始化的需要——这是 MAML 的关键参数之一。共享变换 \( f \) 现在捕捉了所有可迁移的先验信息。
实验: 更好的先验是否能提升性能?
作者在标准少样本学习基准上进行了广泛的实证评估。
miniImageNet 少样本分类
MetaNCoV 作为插件式先验被整合入现有方法 (如 MAML 和 MetaSGD) 中,并在 miniImageNet 数据集上进行了测试。

图 11: MetaNCoV 表现优异,尤其在先验最关键的 1-shot 学习场景中。
MetaNCoV 带来显著性能提升,特别是在 1-shot 场景下——验证了富表达能力的先验在数据稀缺情况下尤为重要。
扩展实验: WRN-28-10 与 TieredImageNet
接着,作者使用更强的 Wide ResNet (WRN-28-10) 作为骨干网络,在 miniImageNet 和 tieredImageNet 上评估 MetaNCoV。

图 12: 更强架构下性能持续提升,验证了 MetaNCoV 的鲁棒性。
即便使用高容量特征提取器,MetaNCoV 仍能带来稳定的准确率提升,展示了其架构兼容性。
CUB-200-2011 细粒度分类
模型捕捉细微差异的能力在 CUB-200-2011 (鸟类细粒度数据集) 上进一步得到验证。

图 13: MetaNCoV 的富表达先验增强了细粒度特征学习能力。
MetaNCoV 再次超过竞争方法,印证了其在细粒度、低数据场景中的优势。
消融研究与跨域泛化
为验证理论基础,作者进行了消融实验。

图 14: 实验验证设计选择——非单射结构与 sigmoid 激活是关键。
结果表明,非单射 NCoV 明显优于单射流,且 sigmoid 优于 ReLU——这与理论预测完全一致。
跨域泛化
最后,MetaNCoV 被应用于跨域少样本学习。模型在 miniImageNet 上训练,并在 tieredImageNet、CUB 与 Cars 数据集上评估。

图 15: MetaNCoV 展现出强跨域迁移能力,学到的先验能在不同领域泛化。
MetaNCoV 在多领域间均保持高性能,表明其学习到的先验捕捉了任务的基本结构,而非仅记住具体数据。
结论: 迈向更具表现力的类人学习
论文 “使用非单射变量变换进行元学习以获得通用先验” 提出了一条令人信服的方向: 少样本学习的未来在于灵活且富有表现力的数据驱动先验。通过取消传统生成模型的可逆性约束,所提出的 NCoV 框架能够学习丰富、自适应且具通用逼近能力的先验。
由此产生的 MetaNCoV 算法 在多个少样本学习基准上取得了最先进性能,尤其在极低数据量场景中表现卓越。更广泛地看,这项工作表明,改进先验——即模型在看到数据前所“相信”的东西——能显著提升样本效率与适应能力。
随着我们迈向能够学习如何学习的人类式 AI 模型,像 MetaNCoV 这样灵活的通用先验可能成为下一代自适应人工智能系统的关键基石。
