引言: 超越零样本,迈向小样本学习

像 CLIP 这样的大规模视觉语言模型,已经改变了我们处理计算机视觉问题的方式。通过在海量的图文对数据集上进行训练,CLIP 能够识别出它从未明确见过的各种物体和概念——这一壮举被称为 零样本学习 (zero-shot learning) 。 给它一张稀有鸟类或不常见工具的图片,它通常都能正确识别。

但在实际应用中,零样本学习常常会遇到瓶颈。假设你希望识别特定的机械零件或稀有物种,而每个新类别可能只有少量带标签的样本。这就进入了 小样本学习 (few-shot learning) 的领域,其目标是利用极少数样本来让像 CLIP 这样的通用模型适配新任务——而无需耗费高昂的成本和时间进行全面重新训练。

现有的小样本适配策略大致可分为两类:

  1. 离线方法 — 利用新的小样本数据对模型的部分参数进行微调。这类方法能取得良好的性能,但每个新任务都需要额外训练,过程缓慢,并容易导致 过拟合 (overfitting) ——即模型对少量样本过度特化,失去泛化能力。

  2. 在线方法 — 在推理时 无需 调优或训练。一个典型的例子是 Tip-Adapter , 它使用一个固定的、手工设计的函数,将 CLIP 的原始特征与小样本图像嵌入缓存进行融合。这种方法速度快,但依赖于针对特定数据集的超参数,这些参数必须为每个新任务手动搜索。因此,当应用于未见过的领域时,其性能通常会下降。

这便引出了一个重要问题: 能否构建一个能够 自主学习如何进行小样本适配适配器?也就是说,一个能将适配过程本身泛化,而无需手动设计规则或针对数据集调整超参数的模型?

这正是论文 《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》 的目标。作者提出了一种轻量级、即插即用的 Meta-Adapter , 只需训练一次,就能成为小样本适配的通用专家。它可以直接附加在 CLIP 上,用于新任务,无需微调,即可实现高准确率与高效率。

为了展示“学会学习”在实践中的效果,Meta-Adapter 在各种数据集上都持续优于零样本 CLIP 和最先进的 Tip-Adapter。

图1展示了Meta-Adapter的卓越性能。左侧的雷达图显示,Meta-Adapter (紫色) 在八个数据集上的准确率均高于Tip-Adapter (棕褐色) 和零样本CLIP (绿色) 。右侧的折线图显示,其在ImageNet上的准确率随着样本数的增加而稳步提升,超越了Tip-Adapter,同时保持了高效的推理时间。

图1: Meta-Adapter 在多个基准测试中取得了比其他小样本方法更高的准确率,同时保持了高效的推理性能。

在本文中,我们将探讨 Meta-Adapter 的工作原理,分析其实验与结果,并解读为何这种“学会学习”的理念标志着自适应人工智能的一次重要演进。


背景: 视觉语言模型适配的现状

在深入了解 Meta-Adapter 的设计之前,让我们先回顾 CLIP 的基本原理以及小样本适配所面临的挑战。

CLIP 简介

CLIP (Contrastive Language-Image Pre-training,对比语言-图像预训练) 学习在共享的表示空间中对齐图像和文本。它由两个关键编码器组成:

  • 一个 视觉编码器 , 将图像转换为特征向量 \(f\)。
  • 一个 文本编码器 , 将类别名称转换为文本特征或 嵌入 \(w_i\)。

在零样本分类中,诸如“一张狗的照片”或“一张柠檬的照片”的文本提示被编码为文本嵌入 \(w_i\),而输入图像则编码为 \(f\)。然后,CLIP 使用余弦相似度来衡量 \(f\) 与各个 \(w_i\) 之间的相似度:

\[ \mathrm{logits}(y_c = i) = \frac{w_i^{\top} f}{\|w_i\| \|f\|} \]

相似度高意味着图像很可能属于该类别。这一机制使 CLIP 能够仅凭描述性提示就识别出未见过的类别。

小样本适配: 离线与在线方法

增加一些带标签的样本可以显著提高准确率,但关键在于如何高效利用这些信息。

  • 离线方法 , 如 CoOpCLIP-Adapter , 会在少量样本上微调少量参数。其性能提升以额外的训练成本为代价,过程计算量大且容易过拟合。

  • 在线方法则完全避免训练。其中最具代表性的是 Tip-Adapter , 它会从小样本中创建一个特征“缓存”,并通过一个固定函数将其与零样本得分融合:

\[ \operatorname{logits}(y_c = i | \mathbf{x}, \alpha, \beta) = \frac{w_i^{\top} f}{\|w_i\|\|f\|} + \alpha \exp\big[-\beta \big(1 - \frac{\mathbf{F}_j^{\top} f}{\|\mathbf{F}_j\|\|f\|}\big)\big] \mathbf{L}_j \]

其中,超参数 \(\alpha\) 和 \(\beta\) 需要针对每个数据集进行调优。若设置不当,Tip-Adapter 的性能会下降,暴露出其脆弱的泛化能力。Meta-Adapter 的目的正是克服这一缺陷。


核心方法: Meta-Adapter 的内部机制

Meta-Adapter 摒弃了 Tip-Adapter 手工设计的融合公式,改用一个能够 元学习 适配过程的 可学习网络 。 它不是人为定义视觉与文本特征如何融合,而是通过大量小样本任务自动学习这一机制。

架构概览

图2展示了Meta-Adapter的架构。支持集图像和类别文本被编码以生成嵌入。这些嵌入被送入Meta-Adapter,它使用多头注意力机制来优化类别嵌入。优化后的嵌入随后与查询图像的特征进行比较以进行分类。

图2: Meta-Adapter 使用门控多头注意力机制,将小样本视觉特征与文本类别嵌入相融合。

其工作流程如下:

  1. 特征提取:
  • 查询图像经过 CLIP 的图像编码器,得到特征向量 \(f\)。
  • 少量带标签的 支持集图像 经相同编码器处理,获得支持嵌入 \(\mathbf{F}\)。
  • 类别名称 通过 CLIP 的文本编码器处理,生成文本嵌入 \(w\)。
  1. 交叉注意力实现知识迁移: Meta-Adapter 的核心是一个 门控多头注意力 (MHA) 模块。类别嵌入充当 查询 (Query) , 支持嵌入作为 键 (Key)值 (Value) 。 由此生成的亲和度图决定每个支持样本对类别嵌入的影响:

    \[ \hat{\mathbf{F}} = \mathbf{F}^\top \sigma\big((\mathbf{F}W_1^\top)(wW_2^\top)^\top / \sqrt{D}\big) \]

    该过程生成聚合后的视觉特征 \(\hat{\mathbf{F}}\),突出与各类别最相关的支持样本。

  2. 自适应门控: 可学习的门控函数 \(g(w)\) 控制来自支持集的信号应融合到原始嵌入的程度:

    \[ \hat{w} \approx w + g(w) \odot \hat{\mathbf{F}} \]

    这种残差式更新确保 CLIP 强大的零样本能力得以保留,同时注入更具辨别力的小样本信息。

  3. 最终预测: 优化后的嵌入 \(\hat{w}\) 替换原始嵌入,分类过程如下:

    \[ \mathrm{logits}(y_c = i | \mathbf{x}) = \frac{\hat{w}_i^{\top} f}{\|\hat{w}_i\|\|f\|} \]

总体而言,Meta-Adapter 是一个小型神经滤波器,学习如何利用小样本来优化文本嵌入——无需改变嵌入维度或进行特定数据集再训练。


实验与结果: Meta-Adapter 的性能验证

为验证其泛化能力,作者进行了广泛的实验,涵盖三种场景: 跨类别泛化、跨数据集泛化、跨任务泛化。

1. 跨类别泛化 —— 简单类别学习,困难类别测试

每个数据集被划分为 基础类 (CLIP 已能很好识别) 和 新颖类 (较难且陌生的类别) 。Meta-Adapter 仅在基础集上训练,再在新颖类别上测试,以评估真正的泛化能力。

表2展示了在四个数据集上的结果。Meta-Adapter在“新颖”类别上的表现始终优于Tip-Adapter,展示了更好的泛化能力。例如,在UCF101上,它在新颖类别上达到了52.28%的准确率,而Tip-Adapter为40.09%。

表2: Meta-Adapter 在新颖类别上大幅领先,验证了其抗过拟合能力。

相比仅在训练类别上表现优异的 Tip-Adapter,Meta-Adapter 在基础类和新颖类上均衡表现,展现出跨数据集的泛化能力。这一趋势在多种 CLIP 主干架构中同样成立。

表3显示,在ImageNet上,Meta-Adapter在六种不同的视觉主干网络上始终优于Tip-Adapter,并且随着主干网络 (如ViT-B/16) 变得更强大,性能差距往往会扩大。

表3: Meta-Adapter 在各种 CLIP 架构中 (从 ResNet50 到 ViT-B/16) 都保持优势。

2. 跨数据集泛化 —— 真正的跨领域适应力

在此实验中,Meta-Adapter 在 ImageNet 上训练,然后直接在七个不同数据集 (如 FGVCAircraft、OxfordPets 和 DTD) 上评估,无需重新训练或调优。

表1比较了在ImageNet上训练后,在其他七个数据集上测试的Meta-Adapter和Tip-Adapter。Meta-Adapter取得了51.81%的平均准确率,比Tip-Adapter大幅提升了4.99%,展示了其卓越的跨数据集泛化能力。

表1: 无需调优,Meta-Adapter 在不同数据集上均保持强劲性能,而 Tip-Adapter 性能显著下降。

这一结果凸显了 Meta-Adapter 的核心优势——所学到的适配规则能够通用于内容、风格和复杂度各异的数据集。作者还可视化了跨数据集迁移的性能提升。

图3展示了跨数据集迁移性能。当从ImageNet迁移到其他数据集时 (a) ,Meta-Adapter的迁移结果 (红线) 比Tip-Adapter (品红线) 更强、更稳定。

图3: Meta-Adapter 在不同数据集及领域偏移方向上均保持高迁移准确率。

在针对鲁棒性基准 (ImageNet-A、ImageNet-R、ImageNet-Sketch) 测试中,Meta-Adapter 再次稳健表现,而 Tip-Adapter 甚至落后于零样本基线。

表4显示,在像ImageNet-A和ImageNet-Sketch这样的分布外数据集上,Tip-Adapter的性能相较于零样本CLIP基线有所下降,而Meta-Adapter则保持或提升了性能。

表4: 在领域偏移导致其他方法失效的情况下,Meta-Adapter 依然保持稳健性能。

3. 跨任务泛化 —— 超越分类任务

为测试超越分类的适应性,Meta-Adapter 被集成至 ViLD , 一个基于 CLIP 的开放词汇目标检测框架。利用 LVIS 数据集中的稀有类别小样本,以增强检测能力。

表5展示了在LVIS开放词汇目标检测基准上的结果。将Meta-Adapter与ViLD集成,提升了对罕见类别的性能 (AP_r从18.1提升到19.1) 。相比之下,简单地集成Tip-Adapter严重损害了性能。

表5: Meta-Adapter 提升了 ViLD 对稀有目标的检测性能,而 Tip-Adapter 的启发式融合反而降低了效果。

由于 Meta-Adapter 直接优化文本嵌入,因此可以无缝集成至基于 CLIP 的检测管线,无需修改架构。这种灵活性与性能提升彰显了其在分类之外任务中的潜力。


结论: 为何“元学习”意义重大

Meta-Adapter 为当今人工智能的核心挑战提供了一个实用且优雅的解决方案: 如何让大型视觉语言模型无需频繁训练即可具备适应性

它的优势包括:

  • 泛化性: 学习到可跨类别、数据集甚至任务迁移的适配机制。
  • 高效性: 仅需一次轻量训练,推理时开销极小。
  • 即插即用设计: 可作为模块轻松融入任何基于 CLIP 的方法。
  • 鲁棒性: 消除了对脆弱超参数的依赖并有效避免过拟合。

简言之,Meta-Adapter 将小样本学习从一个依赖人工设计的难题,转化为一种可学习的能力。随着我们将 CLIP 等基础模型应用到实际场景——从医学影像到工业检测——具备自适应、元学习能力的模块将变得愈发关键。

通过学习 如何学习,Meta-Adapter 使我们向真正灵活与智能的视觉语言系统又迈进一步。