人类具有非凡的能力,仅凭一两个例子就能学习新事物。看一张巨嘴鸟的图片,你往往就能识别其他巨嘴鸟,即使它们的姿势、光照或背景各不相同。对于机器学习模型——尤其是深度神经网络——来说,这却是一个巨大的挑战。它们以“数据饥渴”而闻名,通常需要数千个带标签的样本才能达到类似的效果。人类与机器学习之间的这种差距,正是小样本学习 (few-shot learning) 研究的核心战场。
解决这一问题最具潜力的方法之一是元学习 (meta-learning) , 即“学习如何学习”。元学习算法不再训练一个模型去解决单一特定任务 (例如区分猫与狗) ,而是学习一个能够快速掌握新任务的学习过程。它在多种任务上进行训练,以便在遇到新的任务时,能用极少的数据迅速适应。
尽管元学习取得了显著进展,但其性能仍远不及人类。来自华为诺亚方舟实验室的研究人员在2018年的论文 Deep Meta-Learning: Learning to Learn in the Concept Space 中指出,这可能是因为我们一直让模型在错误的空间中学习。他们认为,关键不仅是学习如何学习,更要学习在哪里学习。与其让模型在原始像素这种混乱、复杂的世界中思考,不如让它在一个更干净、更抽象的概念空间 (concept space) 中进行学习。这正是他们提出的框架——深度元学习 (DEML) 的核心思想。
本文将解析DEML的工作原理、其高效性的原因,以及它对于构建更灵活、更高效的人工智能所带来的启示。
从像素中学习的问题
设想你想通过几张图片向计算机描述“狗”这个概念。一张可能是公园里的金毛寻回犬,另一张是昏暗房间中的吉娃娃,还有一张是斑点狗的卡通绘图。在原始像素空间中,这些图片彼此差异极大: 颜色、光照、背景、纹理几乎没有共性。常规的学习算法很难从如此有限的样本中提炼出一致的模式。
这正是实例空间 (instance space) ——即原始数据空间——中的小样本学习难题。高层概念 (如“狗”) 被姿势、光照、背景等低层变化所掩盖。
元学习通过让模型经历众多不同任务 (如猫 vs. 兔子、椅子 vs. 桌子) ,从而学习出提取有用特征的通用策略。然而,它仍然在混乱的像素级数据上运行。DEML的作者认为,我们可以更进一步: 与其在实例空间内让模型努力适应,不如对该空间进行转化,将学习迁移到更简洁的概念空间中。
在这个新的空间里,金毛寻回犬与吉娃娃会拥有相似的表示,因为它们都体现了“狗”这一抽象概念。
深度元学习 (DEML) 框架
为了实现这种转变,研究人员提出了一个包含三个协同训练组件的框架: 概念生成器、元学习器和概念判别器 。

图1: 深度元学习架构。原始图像被编码为概念级表示,分别供元学习器进行小样本任务与概念判别器进行分类使用。
1. 概念生成器 (\(\mathcal{G}\))
这是DEML的核心。它是一个深度神经网络 (论文中采用ResNet-50) ,将原始输入图像映射到概念空间中的向量。目标是训练此生成器,使其输出的表示更有利于小样本学习。
2. 元学习器 (\(\mathcal{M}\))
这一模块可以是任何标准元学习算法,如匹配网络 (Matching Networks) 、MAML或Meta-SGD 。 关键是,它不直接处理原始图像,而是接收概念生成器输出的概念向量。它的任务是在这些“预加工特征”上执行小样本分类。此任务的误差信号会反向传递,指导生成器: “请生成能让我学习更轻松的概念表示。”
3. 概念判别器 (\(\mathcal{D}\))
概念判别器保证概念生成器学习到的表示具有通用性。它是一个在大型外部数据集 (如ImageNet部分子集) 上训练的分类器。它接收概念向量并预测类别标签。其误差信号指导生成器: “请产生对通用分类有意义的概念表示。”
联合训练的力量
DEML的精髓在于三者的联合训练 。 概念生成器 (\(\mathcal{G}\)) 受到两个互补方向的拉动:
- 元学习器 (\(\mathcal{M}\)) 促使其生成对特定小样本任务有用的表示——元层级知识;
- 概念判别器 (\(\mathcal{D}\)) 促使其生成通用、稳健的表示——外部知识。
结合两者目标后,生成器学到的表示既足够通用,可跨领域应用,又足够专门,可快速适应任务。
数学上,联合优化目标可表示为:
\[ \min_{\boldsymbol{\theta}_{\mathcal{G}},\boldsymbol{\theta}_{\mathcal{M}},\boldsymbol{\theta}_{\mathcal{D}}} \mathbb{E}_{\mathcal{T} \sim p(\mathcal{T}), (\mathbf{x},\mathbf{y}) \sim \mathbb{D}} \left[J\left( \mathcal{L}_{\mathcal{T}}(\boldsymbol{\theta}_{\mathcal{M}}, \boldsymbol{\theta}_{\mathcal{G}}), \mathcal{L}_{(\mathbf{x},\mathbf{y})}(\boldsymbol{\theta}_{\mathcal{D}},\boldsymbol{\theta}_{\mathcal{G}})\right)\right] \]其中,\(J\)结合了两种损失:
- 元学习损失 (\(\mathcal{L}_{\mathcal{T}}\)) : 衡量元学习器在概念空间中完成小样本任务的效果;
- 概念判别损失 (\(\mathcal{L}_{(\mathbf{x},\mathbf{y})}\)) : 衡量在外部数据上的分类准确率。
权重超参数 (\(\lambda\)) 在优化过程中平衡这两者。
即插即用的框架
DEML的另一大优势是其灵活性——可接入任何元学习算法。论文中展示了以下几种实现:
- 匹配网络 : 在概念空间中进行基于度量的学习;
- MAML (模型无关的元学习) : 在概念向量上学习快速适应策略;
- Meta-SGD : 同时学习初始化参数与学习率。
这表明DEML的优势来自“概念空间学习”,而非某一具体算法技巧。
DEML的实证测试
研究人员在多个基准数据集上评估了DEML的表现,包括MiniImageNet、Caltech-256、CIFAR-100和CUB-200 , 并使用包含200个ImageNet类别的外部数据集用于概念判别。

图2: 实验架构。ResNet-50骨干网络生成2048维特征,分别输入元学习器 (用于小样本学习) 与图像分类器 (用于概念判别) 。
DEML vs. 原始元学习
DEML的提升幅度究竟有多大?答案是: 非常显著。

表1: DEML在所有元学习器和数据集上均显著提升准确率。例如,Meta-SGD在CUB-200上的准确率由53.34%提升至66.95%。
在所有数据集与元学习算法中,DEML都稳定优于其原始版本。概念空间的表示让小样本学习变得更轻松。
是否仅仅因为网络更深?
这些提升会不会只是由于使用了更强大的骨干网络 (如ResNet-50) ?作者通过创建“深度”版本的基线模型 (去除概念判别器及联合损失) 进行了测试。

表2: DEML与深度基线的对比。尽管网络深度相同,DEML通过联合学习在概念空间中取得了更优结果。
结果表明,单纯的深度并非关键,真正的秘诀在于协同联合训练 。
DEML vs. 迁移学习
传统迁移学习通常在大型数据集 (如ImageNet) 上预训练网络,再将特征迁移到新任务。作者比较了两个迁移学习基线——Decaf+kNN与Decaf+Meta-SGD 。

表3: DEML与迁移学习的对比。迁移学习在相似数据集上表现良好,但在跨域任务上效果不足。DEML能在各类场景中实现更高、更稳定的准确率。
迁移学习在源和目标数据集相似时 (如MiniImageNet vs. ImageNet) 效果较好,但在领域差异较大时则会失效。DEML的联合训练使概念生成器能在跨领域间保持通用性与任务相关性。

图3: DEML+Meta-SGD始终优于迁移学习及微调方法,凸显了联合优化的优势。
平衡参数 (\(\lambda\)) 的调整
超参数 \(\lambda\) 控制外部概念学习与特定任务学习之间的平衡。模型对这种权衡是否敏感?

图4: CIFAR-100上不同 \(\lambda\) 值下的小样本学习 (红色) 与分类 (蓝色) 准确率。适度的 λ 可最佳地平衡外部与内部学习。
随着 \(\lambda\) 增大,概念分类性能上升,而小样本学习效果先提升后下降。过度依赖外部数据会使生成器失去任务特性。适度平衡能获得最佳表现。
结论: 在关键之处学习
深度元学习框架带来一个重要洞见: 模型学习的“地点”与“方式”同样重要 。 通过将小样本学习迁移至更抽象的概念空间,DEML使模型能够以更少样本、更快速度、更高效率进行学习。
其三个关键模块协同作用:
- 概念生成器 — 构建概念空间;
- 元学习器 — 提供任务特定的反馈;
- 概念判别器 — 融合外部通用知识。
除了提升小样本学习能力,DEML也为终身学习系统铺平了道路。概念生成器不是静态的——它可随新数据与任务不断演化,持续完善概念空间并实现长期适应。通过这种方式,DEML让机器学习更接近人类的持续学习。
当我们让模型首先学会概念,它们或许终将具备像人类一样的多样性与高效性来学习全新的任务。
](https://deep-paper.org/en/paper/1802.03596/images/cover.png)