一个孩子如何能在只看过一张斑马的插图后,将来就能毫不费力地认出这种动物?这种从一个或少数几个例子中进行泛化的能力——被称为小样本学习 (few-shot learning)——对人类来说是与生俱来的。然而,对于深度学习模型来说,这仍然是一个巨大的挑战。
传统的深度神经网络在数据充足的情况下才能表现出色。为了达到高准确率,它们通常需要每个类别有数千个标记样本。对于像猫、汽车和树木这样的常见物体来说,这没问题,但对于稀有物种、新产品或专业医疗案例,收集大规模数据集往往是不可能的。
小样本学习的目标是构建能够从少量样本中学习新概念的模型,模仿人类的灵活性。多年来,研究人员提出了基于元学习、记忆系统和度量学习的方法。其中,一个特别优雅的想法脱颖而出——直接学习如何比较 。
这正是论文 《学习比较: 用于小样本学习的关系网络》(Learning to Compare: Relation Network for Few-Shot Learning) 的核心前提。作者提出了一个简单而强大的框架,称为关系网络 (Relation Network, RN) 。 与仅仅学习良好表示不同,关系网络学习的是如何比较样本对本身。这一细微的转变催生了一个在小样本和零样本学习中都取得了顶尖成果的模型,同时在概念上保持了直观性。
小样本学习的概况
为了理解关系网络的贡献,我们首先要明确小样本学习的设置。典型的任务被定义为 C-way K-shot 问题:
- 一个支持集 (support set) 包含 \( K \) 个带标签的样本,每个类别有 \( C \) 个类别——例如在 5-way 1-shot 设置中,有 5 个类别,每个类别 1 张图片。
- 一个查询集 (query set) 包含未标注的图像,必须仅依据支持集中的有限信息进行分类。
- 目标是正确地将每个查询图像分配到这 \( C \) 个类别中的一个。
直接在如此少量数据上训练传统深度网络会导致严重的过拟合。为了解决这一问题,现代小样本学习方法采用元学习 (meta-learning)——即学习如何学习。在训练过程中,模型会经历许多被称为 “episodes” 的模拟小样本任务。每个 episode 会从大型数据集中随机抽取若干类别及对应的小型支持集/查询集划分。通过解决成千上万个这样的微任务,网络逐渐学习到可迁移的知识,以处理新的、未见过的任务。
先前的策略以不同方式实现元学习:
- 学习良好的初始化: 像 MAML 这样的方法学习一组权重,使模型在经过少数几次梯度更新后即可快速适应新类别。然而,它仍需在测试时微调。
- 学习嵌入表示: 诸如原型网络 (Prototypical Networks) 和孪生网络 (Siamese Networks) 等方法学习将样本映射到一个特征空间,在这个空间中,同类样本会紧密聚集。然后用一个固定的度量 (通常是欧氏距离) 进行分类。
关系网络从这里出发,提出一个简单的问题: 如果度量本身也可以被学习呢?
核心思想: 学习一个深度度量
关键洞见在于,比较两张图像是一个复杂的操作——这种复杂性远非欧氏距离或余弦距离等固定度量所能捕捉。作者提出,不只是依赖嵌入来简化比较,而是要端到端地学习比较函数 。
关系网络由两个主要模块组成:
- 嵌入模块 (\( f_\varphi \)) — 一个卷积神经网络,用于从输入图像中提取特征图。
- 关系模块 (\( g_\phi \)) — 一个较小的神经网络,它接受成对的特征图并生成一个介于 0 和 1 之间的关系分数 (relation score) , 表示图像的相似度。

图 1: 5-way 1-shot 任务的关系网络架构。每个查询图像被嵌入并与五个支持图像的嵌入进行比较,以产生关系分数。
让我们来看一个 5-way 1-shot 示例:
- 查询图像 \( x_j \) 和五个支持图像 \( x_i \) (每个类别一个) 通过共享的嵌入模块 \( f_\varphi \)。
- 它们的特征图 \( f_\varphi(x_i) \) 与 \( f_\varphi(x_j) \)在深度维度上拼接 (concatenate) 。
- 拼接结果输入到关系模块 \( g_\phi \),产生一个标量关系分数: \[ r_{i,j} = g_{\phi}\big(C(f_{\varphi}(x_i), f_{\varphi}(x_j))\big) \]
- 查询图像被分类为其对应支持图像产生最高关系分数的类别。
从 One-Shot 到 K-Shot
如果每个类别有更多样本 (\( K > 1 \)),模型会通过逐元素求和 (elementwise summing) 的方式将它们的嵌入汇总成一个类别表示。这个聚合后的特征图代表该类别的“原型”。剩余步骤与之前相同: 将此表示与查询图像嵌入拼接,计算关系分数进行分类。
关系网络的训练方式
与其他元学习模型一样,关系网络采用 episodic 式训练。网络会被优化,使得同类样本对产生高关系分数 (接近 1) ,不同类样本对产生低关系分数 (接近 0) 。
为此,作者使用均方误差 (Mean Squared Error, MSE) 损失函数,将每个分数 \( r_{i,j} \) 回归到其真实相似度:

图 2: 关系网络的训练目标。匹配的对标为 1,不匹配的对标为 0,MSE 损失鼓励网络生成准确的关系分数。
这种方法将任务视作回归问题,使网络能够学习超越简单类别标签的细微相似性模式。
架构: 简单而有效
在实现上,关系网络的结构异常简单——完全由标准的卷积块构成。

图 3: 架构概览。嵌入模块由四个卷积块组成;关系模块增加了两个卷积块和两个全连接层。
- 嵌入模块 (
f_φ) 使用四个卷积块,每个包含一个 3×3 卷积 (64 个滤波器) 、批量归一化和 ReLU 激活。前两个块含有 2×2 最大池化。 - 关系模块 (
g_φ) 包含两个 3×3 卷积块 (同样带最大池化) ,后接两个全连接层。最后一层用 Sigmoid 激活输出一个介于 0 和 1 之间的相似度分数。
虽然结构简单,但这种模块化设计在充分训练后能学习到非常丰富的关系。
从小样本到零样本学习
关系网络最引人注目的特点之一是其自然扩展到零样本学习 (zero-shot learning, ZSL) 。 在 ZSL 中,对于未见过的类别没有任何图像可用;每个类别由一个描述属性的语义向量定义 (例如“有条纹”、“是哺乳动物”等) 。
为此,关系网络将图像支持分支替换为一个独立的语义嵌入模块 (一个简单的多层感知机) ,而查询分支仍使用 CNN 处理视觉输入。

图 4: 用于零样本学习的关系网络。网络学习比较语义描述嵌入与图像嵌入。
零样本任务的关系分数公式为:

使用异构嵌入定义零样本学习关系分数的方程。
这种“学习比较”原则将小样本学习和零样本学习统一到一个概念框架下。
实验结果: 实证验证
作者在多个基准数据集上评估了关系网络,并与领先的小样本与零样本方法进行了比较。
小样本分类
标准数据集包括 Omniglot 与 miniImageNet 。

表 1: Omniglot 结果。关系网络在几乎所有测试中均无需微调即可达到最先进准确率。
关系网络优于复杂的基线模型如 MAML 和记忆增强网络,并且仅通过前馈推理即可——无需微调。

表 2: miniImageNet 结果。关系网络在 5-way 1-shot 任务上达到顶尖性能,并在 5-shot 任务上保持竞争力。
结果展示了关系网络在不同复杂任务间的强大泛化能力。
零样本分类
论文还在 Animals with Attributes (AwA) 和 Caltech-UCSD Birds (CUB) 数据集上进行了评估。这些数据集包括传统 ZSL 和更现实的广义零样本学习 (Generalized Zero-Shot Learning, GZSL) 设置,在测试时已见与未见类别同时出现。

表 3: 传统 ZSL 结果。关系网络在细粒度的 CUB 数据集上达到了最先进准确率。
关系网络在 AwA 上表现竞争,在 CUB 上表现优异,展示了其在跨模态比较任务中的鲁棒性。在更严格的现代 GBU 基准下,它仍保持顶尖表现,特别是在现实 GZSL 评估中。
为什么关系网络有效
关系网络的成功源于其联合学习嵌入与比较 。 传统度量学习方法使用固定相似性度量 (如欧氏距离或余弦距离) ,假设嵌入空间能使样本线性可分——这对特征提取器而言是沉重负担。而关系网络引入一个可学习的深度非线性比较器,能更丰富地建模特征间关系。

图 4: 合成可视化。关系网络学习出复杂的螺旋相似结构,这是静态度量无法表达的。
在此示例中,关系网络捕捉了样本对之间的非线性螺旋关系——简单度量法无法实现。
真实数据集也显示出类似优势。

图 5: Omniglot 可视化。左: 匹配样本 (青色) 与不匹配样本 (品红色) 在原始嵌入空间中纠缠在一起。右: 经过关系模块后,它们线性可分。
通过显式学习相似性函数,关系网络将混乱的嵌入空间转化为一个能轻松区分匹配与不匹配样本的空间。
结论与关键要点
关系网络以学习比较为核心理念,重新定义了小样本和零样本学习。通过结合深度嵌入模块与可学习关系模块,它在各项基准上取得了突出成绩——无需微调、记忆机制或复杂优化。
核心洞见:
- 简单即力量: 关系网络仅使用标准 CNN 组件,却能媲美甚至超越复杂替代方案。
- 学习度量,而非仅学习特征: 深度关系模块捕捉复杂的相似性结构。
- 统一框架: 一个模型即可优雅地处理小样本和零样本学习。
- 顶尖表现: 在保持直观与高效的同时,关系网络达成领先性能。
在架构日益复杂的时代,关系网络提醒我们: 最强大的解决方案,往往源自一个简单的思想——不仅要学习表示,更要学习关系。
](https://deep-paper.org/en/paper/1711.06025/images/cover.png)