想象一下,你试图教一台机器识别一种新的鸟类——但你只有一张照片。欢迎来到少样本学习的世界,这是现代人工智能的一个前沿领域,模型必须仅从少量样本中学习新任务。人类对此驾轻就熟,而传统的深度学习系统通常需要成千上万的带标签样本。
应对少样本学习最有效的策略之一是模型无关元学习 (Model-Agnostic Meta-Learning, MAML) 。 其精妙之处在于学习如何学习。与其为某个固定任务训练网络,MAML 的目标是训练一个模型,使其能找到一组初始参数,这些参数经过极少的梯度更新便能迅速适应任何新任务。
尽管 MAML 在实际应用中表现出色,但长期以来它的理论机制却始终扑朔迷离。它将深度非凸神经网络与双层优化问题结合,这种组合出了名地难以分析。两个核心问题尤为突出:
- MAML 为什么有效? 我们能否证明,使用深度神经网络的梯度下降训练能够让 MAML 收敛到最优解,还是我们只是碰巧成功?
- 能否高效地找到更好的架构? 大多数少样本学习系统依赖于如 ResNet 等标准骨干网络,这些网络本是为大规模监督学习设计的。它们对元学习而言真的最优吗?如果不是,能否在不付出传统神经架构搜索 (Neural Architecture Search, NAS) 巨大的计算代价 (常需数天或数周 GPU 时间) 的情况下发现更优架构?
近期,Wang 等人发表的研究《Global Convergence of MAML and Theory-Inspired Neural Architecture Search for Few-Shot Learning》对这两个问题给出了严格的回答。作者首先为 MAML 建立了全局收敛性保证,巩固了其理论基础。与此同时,他们提出了一个新的数学构造——元神经正切核 (Meta Neural Tangent Kernel, MetaNTK) , 该核优雅地描述了 MAML 的学习行为。基于这一洞见,他们设计了 MetaNTK-NAS 方法,使少样本学习架构搜索速度比以往快 100 倍。
让我们一步步来解读这些思想。
背景: 关键概念
在深入探讨这些贡献之前,先回顾一下几个基本概念——少样本学习、MAML 和神经正切核。
少样本学习: 在有限数据上学习
在少样本分类中,模型在一系列被称为元训练任务的微型任务上进行训练。每个任务 \( \mathcal{T}_i \) 涉及学习如何对一小组样本进行分类。
- 支持集 (Support set) \((X'_i, Y'_i)\): 每个类别包含极少的带标签样本 (例如 5 张猫的图片和 5 张狗的图片) 。
- 查询集 (Query set) \((X_i, Y_i)\): 另一组样本,用于评估任务学习效果。

一个少样本学习任务包括用于适应的小型支持集和用于评估的查询集。
元学习通过在多个任务上训练,使模型在测试阶段面对一个新任务时能够仅使用支持集快速适应。这种设置通常被称为 N-way, K-shot 学习 , 其中 N 是类别数,K 是每个类别的样本数。
MAML: 学习如何快速学习
MAML 的核心思想是为所有任务学习一个良好的起点——记作参数初始化 \( \theta \)。
每次 MAML 的迭代包含两个优化阶段:
- 内循环 – 任务适应 (Inner Loop – Task Adaptation): 对于每个任务 \( \mathcal{T}_i \),从共享参数 \( \theta \) 出发,在支持集 \((X'_i, Y'_i)\) 上执行一或多次梯度下降,得到任务特定参数 \( \theta'_i \)。

内循环将 MAML 的全局参数适应于各个具体任务。
- 外循环 – 元更新 (Outer Loop – Meta-Update): 在查询集 \((X_i, Y_i)\) 上评估 \( f_{\theta'_i} \) 的表现。元目标是最小化所有任务的查询损失,并据此更新初始化参数 \( \theta \)。

MAML 的训练包含嵌套优化: 任务级适应与全局元更新。
这种结构化的“学习如何学习”方法使模型仅需几次梯度更新便能实现近乎完美的适应。
MAML 的一大难点是要对内循环求梯度,这涉及二阶导数 (海森矩阵) 的计算与存储,代价高昂。
神经正切核 (NTK): 无限宽度下的简化
近年来的理论研究提出了神经正切核 (Neural Tangent Kernel, NTK) 概念——当神经网络无限宽时,其在梯度下降下的训练动态可被简化为核回归形式。
在这一无限宽度极限中,NTK 能完整表征网络的演化,从而使得标准监督学习的全局收敛性可被严格证明。
理论突破: 全局收敛性与 MetaNTK
使用深度神经网络的 MAML 是否能收敛到全局最小值?
作者的回答是: 能。
他们证明,当神经网络足够宽时,MAML 将以线性速率收敛到一个训练损失为零的全局最优解。

定理 1: MAML 的训练损失以指数级速度下降至零,实现全局收敛。
直观而言,在过参数化网络中,优化景观近似二次且光滑。训练中参数变化极小,始终接近其初值。这种稳定性让梯度下降运作高效并确保收敛到全局最小值。
从 NTK 到 MetaNTK: 理解 MAML 的内部机制
经典 NTK 能解释监督学习的训练动态,而 MAML 的双层优化结构需要新的理论工具。作者推导出了元神经正切核 (MetaNTK) , 它同时捕捉内循环适应与外循环元更新两部分的动态。

MetaNTK 将 MAML 元输出函数的梯度交互形式化。
当网络宽度 \( l \to \infty \) 时,MetaNTK 变得确定——仅由架构决定,不再受随机初始化影响。

在无限宽度极限下,MetaNTK 的行为变得可预测,不再依赖随机权重。
该核可视为由 NTK 构建的复合核,精确刻画 MAML 的两层优化过程。

MetaNTK 结合了多个 NTK 项,以反映耦合的学习动态。
通过这一公式,作者进一步证明: 在无限宽度极限下, MAML 的输出等价于使用 MetaNTK 的核回归模型 。

定理 2: MAML 的行为与由 MetaNTK 控制的核回归相一致。
这一发现将我们对 MAML 的理解从经验性算法转变为受理论支撑的、由明确核函数驱动的过程。
从理论到实践: MetaNTK-NAS
在证明了 MetaNTK 决定 MAML 的学习行为后,作者迈出了大胆的下一步: 使用 MetaNTK 指导神经架构搜索 (NAS) 。
传统的少样本 NAS 算法 (如 MetaNAS) 通常需要耗费数天昂贵 GPU 计算。 MetaNTK-NAS 则突破了这一瓶颈,能够 不经过训练 就评估架构。

MetaNTK-NAS 流程利用源自 MetaNTK 的理论指标对未经训练的超网进行剪枝。
快速架构发现的两个关键指标
- 通过 MetaNTK 条件数衡量可训练性: MetaNTK 矩阵的条件数可作为网络在元学习下优化难度的度量。条件数越低,优化越顺畅,收敛速度越快。

条件数越低,表明在 MAML 下可训练性越好。
- 通过线性区域计数衡量表达能力: 借鉴自 TE-NAS,该指标衡量网络在输入空间中划分的独立线性区域数量,区域越多代表更强的表示能力。
从一个包含所有候选操作的“超网”出发,MetaNTK-NAS 根据上述指标评估各操作的重要性,迭代地剪枝低重要性的操作。目标是定位既易于训练 (低条件数) 、又具高表达力 (多线性区域) 的架构。
由于所有计算均在随机初始化网络上完成,其搜索速度比任何训练驱动的 NAS 方法高出数个数量级。
实验: 验证理论
数据集与评估
研究者在两个标准少样本图像数据集上验证了 MetaNTK-NAS:
- miniImageNet: 100 个类别,共 60,000 张图像
- tieredImageNet: 608 个类别,共 779,165 张图像
他们依据 5-way 分类任务下的 1-shot 和 5-shot 设置进行测试。
结果: 速度与准确率

MetaNTK-NAS 在显著降低计算成本的同时,表现与先前 NAS 方法持平或更优。
主要发现:
- 准确率具竞争力: MetaNTK-NAS 在多种配置下与 MetaNAS 持平或略优。在 tieredImageNet (8-cell, 5-shot) 上,MetaNTK-NAS 达到 86.43% , 而 MetaNAS 为 86.48% 。
- 速度提升显著: 在 miniImageNet 上,MetaNAS 搜索需 168 GPU 小时 ; 而 MetaNTK-NAS 仅需 约 2 GPU 小时 , 实现 100 倍加速 。
以下展示了 MetaNTK-NAS 发现的 Cell 示例。

MetaNTK-NAS 在 miniImageNet 和 tieredImageNet 上发现的架构。
消融实验: MetaNTK 的关键作用
为验证 MetaNTK 的独特价值,作者进行了替代指标的实验。

MetaNTK 提供了关键信号——使用标准 NTK 会导致准确率下降。
实验结果表明:
- 用 NTK (源自 TE-NAS) 替换 MetaNTK,会显著降低性能——MetaNTK 捕捉了 NTK 所遗漏的元学习细节。
- 仅使用线性区域计数也会导致准确率下降。
- 结合两种指标 (MetaNTK-NAS 的方法) 可以发现最佳架构。
这些结果充分证明 MetaNTK 指标在无需训练的情况下预测少样本性能的独特价值。
结论: 连接理论与应用
这项研究达成了两个里程碑式成果:
- 理论突破: 首次证明深度神经网络下的 MAML 能实现全局收敛,并揭示 MetaNTK 是其优化动态的核心核函数。
- 实践创新: 将理论转化为高效算法 MetaNTK-NAS , 使少样本架构搜索速度提升超过 100 倍,同时维持领先性能。
这两项成果充分展现了深度理论研究如何引领革命性实践突破。 通过将严谨的数学与高效系统相结合,作者不仅揭示了 MAML 成功背后的原理,也开创了一个以理论为驱动力的快速少样本架构发现新时代。
](https://deep-paper.org/en/paper/2203.09137/images/cover.png)