人类具有非凡的能力,仅凭一两个例子就能学习新事物。看一张巨嘴鸟的图片,你往往就能识别其他巨嘴鸟,即使它们的姿势、光照或背景各不相同。对于机器学习模型——尤其是深度神经网络——来说,这却是一个巨大的挑战。它们以“数据饥渴”而闻名,通常需要数千个带标签的样本才能达到类似的效果。人类与机器学习之间的这种差距,正是小样本学习 (few-shot learning) 研究的核心战场。

解决这一问题最具潜力的方法之一是元学习 (meta-learning) , 即“学习如何学习”。元学习算法不再训练一个模型去解决单一特定任务 (例如区分猫与狗) ,而是学习一个能够快速掌握新任务的学习过程。它在多种任务上进行训练,以便在遇到新的任务时,能用极少的数据迅速适应。

尽管元学习取得了显著进展,但其性能仍远不及人类。来自华为诺亚方舟实验室的研究人员在2018年的论文 Deep Meta-Learning: Learning to Learn in the Concept Space 中指出,这可能是因为我们一直让模型在错误的空间中学习。他们认为,关键不仅是学习如何学习,更要学习在哪里学习。与其让模型在原始像素这种混乱、复杂的世界中思考,不如让它在一个更干净、更抽象的概念空间 (concept space) 中进行学习。这正是他们提出的框架——深度元学习 (DEML) 的核心思想。

本文将解析DEML的工作原理、其高效性的原因,以及它对于构建更灵活、更高效的人工智能所带来的启示。


从像素中学习的问题

设想你想通过几张图片向计算机描述“狗”这个概念。一张可能是公园里的金毛寻回犬,另一张是昏暗房间中的吉娃娃,还有一张是斑点狗的卡通绘图。在原始像素空间中,这些图片彼此差异极大: 颜色、光照、背景、纹理几乎没有共性。常规的学习算法很难从如此有限的样本中提炼出一致的模式。

这正是实例空间 (instance space) ——即原始数据空间——中的小样本学习难题。高层概念 (如“狗”) 被姿势、光照、背景等低层变化所掩盖。

元学习通过让模型经历众多不同任务 (如猫 vs. 兔子、椅子 vs. 桌子) ,从而学习出提取有用特征的通用策略。然而,它仍然在混乱的像素级数据上运行。DEML的作者认为,我们可以更进一步: 与其在实例空间内让模型努力适应,不如对该空间进行转化,将学习迁移到更简洁的概念空间中。

在这个新的空间里,金毛寻回犬与吉娃娃会拥有相似的表示,因为它们都体现了“狗”这一抽象概念。


深度元学习 (DEML) 框架

为了实现这种转变,研究人员提出了一个包含三个协同训练组件的框架: 概念生成器元学习器概念判别器

小样本图像识别系统的示意图。原始像素流入概念生成器,该生成器为元学习器和概念判别器输出表示。反馈箭头表示模块间的联合训练与自适应。

图1: 深度元学习架构。原始图像被编码为概念级表示,分别供元学习器进行小样本任务与概念判别器进行分类使用。

1. 概念生成器 (\(\mathcal{G}\))

这是DEML的核心。它是一个深度神经网络 (论文中采用ResNet-50) ,将原始输入图像映射到概念空间中的向量。目标是训练此生成器,使其输出的表示更有利于小样本学习。

2. 元学习器 (\(\mathcal{M}\))

这一模块可以是任何标准元学习算法,如匹配网络 (Matching Networks)MAMLMeta-SGD 。 关键是,它不直接处理原始图像,而是接收概念生成器输出的概念向量。它的任务是在这些“预加工特征”上执行小样本分类。此任务的误差信号会反向传递,指导生成器: “请生成能让我学习更轻松的概念表示。”

3. 概念判别器 (\(\mathcal{D}\))

概念判别器保证概念生成器学习到的表示具有通用性。它是一个在大型外部数据集 (如ImageNet部分子集) 上训练的分类器。它接收概念向量并预测类别标签。其误差信号指导生成器: “请产生对通用分类有意义的概念表示。”


联合训练的力量

DEML的精髓在于三者的联合训练 。 概念生成器 (\(\mathcal{G}\)) 受到两个互补方向的拉动:

  • 元学习器 (\(\mathcal{M}\)) 促使其生成对特定小样本任务有用的表示——元层级知识;
  • 概念判别器 (\(\mathcal{D}\)) 促使其生成通用、稳健的表示——外部知识。

结合两者目标后,生成器学到的表示既足够通用,可跨领域应用,又足够专门,可快速适应任务。

数学上,联合优化目标可表示为:

\[ \min_{\boldsymbol{\theta}_{\mathcal{G}},\boldsymbol{\theta}_{\mathcal{M}},\boldsymbol{\theta}_{\mathcal{D}}} \mathbb{E}_{\mathcal{T} \sim p(\mathcal{T}), (\mathbf{x},\mathbf{y}) \sim \mathbb{D}} \left[J\left( \mathcal{L}_{\mathcal{T}}(\boldsymbol{\theta}_{\mathcal{M}}, \boldsymbol{\theta}_{\mathcal{G}}), \mathcal{L}_{(\mathbf{x},\mathbf{y})}(\boldsymbol{\theta}_{\mathcal{D}},\boldsymbol{\theta}_{\mathcal{G}})\right)\right] \]

其中,\(J\)结合了两种损失:

  • 元学习损失 (\(\mathcal{L}_{\mathcal{T}}\)) : 衡量元学习器在概念空间中完成小样本任务的效果;
  • 概念判别损失 (\(\mathcal{L}_{(\mathbf{x},\mathbf{y})}\)) : 衡量在外部数据上的分类准确率。

权重超参数 (\(\lambda\)) 在优化过程中平衡这两者。


即插即用的框架

DEML的另一大优势是其灵活性——可接入任何元学习算法。论文中展示了以下几种实现:

  • 匹配网络 : 在概念空间中进行基于度量的学习;
  • MAML (模型无关的元学习) : 在概念向量上学习快速适应策略;
  • Meta-SGD : 同时学习初始化参数与学习率。

这表明DEML的优势来自“概念空间学习”,而非某一具体算法技巧。


DEML的实证测试

研究人员在多个基准数据集上评估了DEML的表现,包括MiniImageNetCaltech-256CIFAR-100CUB-200 , 并使用包含200个ImageNet类别的外部数据集用于概念判别。

实验架构示意图。ResNet-50处理224×224输入图像,生成特征向量后分别送入元学习器分支 (三层全连接网络) 和图像分类分支。

图2: 实验架构。ResNet-50骨干网络生成2048维特征,分别输入元学习器 (用于小样本学习) 与图像分类器 (用于概念判别) 。


DEML vs. 原始元学习

DEML的提升幅度究竟有多大?答案是: 非常显著。

性能对比表: 原始元学习方法与DEML版本在所有数据集上的准确率均显著提高。

表1: DEML在所有元学习器和数据集上均显著提升准确率。例如,Meta-SGD在CUB-200上的准确率由53.34%提升至66.95%。

在所有数据集与元学习算法中,DEML都稳定优于其原始版本。概念空间的表示让小样本学习变得更轻松。


是否仅仅因为网络更深?

这些提升会不会只是由于使用了更强大的骨干网络 (如ResNet-50) ?作者通过创建“深度”版本的基线模型 (去除概念判别器及联合损失) 进行了测试。

对比表格: DEML优于使用相同架构的“深度”基线,证实优势来自联合训练。

表2: DEML与深度基线的对比。尽管网络深度相同,DEML通过联合学习在概念空间中取得了更优结果。

结果表明,单纯的深度并非关键,真正的秘诀在于协同联合训练


DEML vs. 迁移学习

传统迁移学习通常在大型数据集 (如ImageNet) 上预训练网络,再将特征迁移到新任务。作者比较了两个迁移学习基线——Decaf+kNNDecaf+Meta-SGD

对比表格: DEML在所有数据集上表现优于迁移学习,尤其是在CIFAR-100与CUB-200等领域差异较大的数据集上。

表3: DEML与迁移学习的对比。迁移学习在相似数据集上表现良好,但在跨域任务上效果不足。DEML能在各类场景中实现更高、更稳定的准确率。

迁移学习在源和目标数据集相似时 (如MiniImageNet vs. ImageNet) 效果较好,但在领域差异较大时则会失效。DEML的联合训练使概念生成器能在跨领域间保持通用性与任务相关性。

条形图比较了DEML+Meta-SGD与Decaf变体在CIFAR-100和CUB-200上的1-shot与5-shot任务表现,显示DEML的优势。

图3: DEML+Meta-SGD始终优于迁移学习及微调方法,凸显了联合优化的优势。


平衡参数 (\(\lambda\)) 的调整

超参数 \(\lambda\) 控制外部概念学习与特定任务学习之间的平衡。模型对这种权衡是否敏感?

折线图显示,小样本学习准确率在λ≈1时达到峰值,而概念分类准确率随λ增大持续提高。

图4: CIFAR-100上不同 \(\lambda\) 值下的小样本学习 (红色) 与分类 (蓝色) 准确率。适度的 λ 可最佳地平衡外部与内部学习。

随着 \(\lambda\) 增大,概念分类性能上升,而小样本学习效果先提升后下降。过度依赖外部数据会使生成器失去任务特性。适度平衡能获得最佳表现。


结论: 在关键之处学习

深度元学习框架带来一个重要洞见: 模型学习的“地点”与“方式”同样重要 。 通过将小样本学习迁移至更抽象的概念空间,DEML使模型能够以更少样本、更快速度、更高效率进行学习。

其三个关键模块协同作用:

  • 概念生成器 — 构建概念空间;
  • 元学习器 — 提供任务特定的反馈;
  • 概念判别器 — 融合外部通用知识。

除了提升小样本学习能力,DEML也为终身学习系统铺平了道路。概念生成器不是静态的——它可随新数据与任务不断演化,持续完善概念空间并实现长期适应。通过这种方式,DEML让机器学习更接近人类的持续学习。

当我们让模型首先学会概念,它们或许终将具备像人类一样的多样性与高效性来学习全新的任务。