Meta-Adapter：一种“学会学习”的方法，仅用少量样本即可增强 CLIP

引言: 超越零样本，迈向小样本学习

像 CLIP 这样的大规模视觉语言模型，已经改变了我们处理计算机视觉问题的方式。通过在海量的图文对数据集上进行训练，CLIP 能够识别出它从未明确见过的各种物体和概念——这一壮举被称为 零样本学习 (zero-shot learning) 。给它一张稀有鸟类或不常见工具的图片，它通常都能正确识别。

但在实际应用中，零样本学习常常会遇到瓶颈。假设你希望识别特定的机械零件或稀有物种，而每个新类别可能只有少量带标签的样本。这就进入了 小样本学习 (few-shot learning) 的领域，其目标是利用极少数样本来让像 CLIP 这样的通用模型适配新任务——而无需耗费高昂的成本和时间进行全面重新训练。

现有的小样本适配策略大致可分为两类:

离线方法 — 利用新的小样本数据对模型的部分参数进行微调。这类方法能取得良好的性能，但每个新任务都需要额外训练，过程缓慢，并容易导致 过拟合 (overfitting) ——即模型对少量样本过度特化，失去泛化能力。
在线方法 — 在推理时无需调优或训练。一个典型的例子是 Tip-Adapter , 它使用一个固定的、手工设计的函数，将 CLIP 的原始特征与小样本图像嵌入缓存进行融合。这种方法速度快，但依赖于针对特定数据集的超参数，这些参数必须为每个新任务手动搜索。因此，当应用于未见过的领域时，其性能通常会下降。

这便引出了一个重要问题: 能否构建一个能够 自主学习如何进行小样本适配 的 适配器？也就是说，一个能将适配过程本身泛化，而无需手动设计规则或针对数据集调整超参数的模型？

这正是论文 《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》 的目标。作者提出了一种轻量级、即插即用的 Meta-Adapter , 只需训练一次，就能成为小样本适配的通用专家。它可以直接附加在 CLIP 上，用于新任务，无需微调，即可实现高准确率与高效率。

为了展示“学会学习”在实践中的效果，Meta-Adapter 在各种数据集上都持续优于零样本 CLIP 和最先进的 Tip-Adapter。

图1展示了Meta-Adapter的卓越性能。左侧的雷达图显示，Meta-Adapter (紫色) 在八个数据集上的准确率均高于Tip-Adapter (棕褐色) 和零样本CLIP (绿色) 。右侧的折线图显示，其在ImageNet上的准确率随着样本数的增加而稳步提升，超越了Tip-Adapter，同时保持了高效的推理时间。

图1: Meta-Adapter 在多个基准测试中取得了比其他小样本方法更高的准确率，同时保持了高效的推理性能。

在本文中，我们将探讨 Meta-Adapter 的工作原理，分析其实验与结果，并解读为何这种“学会学习”的理念标志着自适应人工智能的一次重要演进。

背景: 视觉语言模型适配的现状

在深入了解 Meta-Adapter 的设计之前，让我们先回顾 CLIP 的基本原理以及小样本适配所面临的挑战。

CLIP 简介

CLIP (Contrastive Language-Image Pre-training，对比语言-图像预训练) 学习在共享的表示空间中对齐图像和文本。它由两个关键编码器组成:

一个 视觉编码器 , 将图像转换为特征向量 \(f\)。
一个 文本编码器 , 将类别名称转换为文本特征或嵌入 \(w_i\)。

在零样本分类中，诸如“一张狗的照片”或“一张柠檬的照片”的文本提示被编码为文本嵌入 \(w_i\)，而输入图像则编码为 \(f\)。然后，CLIP 使用余弦相似度来衡量 \(f\) 与各个 \(w_i\) 之间的相似度:

\[ \mathrm{logits}(y_c = i) = \frac{w_i^{\top} f}{\|w_i\| \|f\|} \]

相似度高意味着图像很可能属于该类别。这一机制使 CLIP 能够仅凭描述性提示就识别出未见过的类别。

小样本适配: 离线与在线方法

增加一些带标签的样本可以显著提高准确率，但关键在于如何高效利用这些信息。

离线方法 , 如 CoOp 和 CLIP-Adapter , 会在少量样本上微调少量参数。其性能提升以额外的训练成本为代价，过程计算量大且容易过拟合。
在线方法则完全避免训练。其中最具代表性的是 Tip-Adapter , 它会从小样本中创建一个特征“缓存”，并通过一个固定函数将其与零样本得分融合:

\[ \operatorname{logits}(y_c = i | \mathbf{x}, \alpha, \beta) = \frac{w_i^{\top} f}{\|w_i\|\|f\|} + \alpha \exp\big[-\beta \big(1 - \frac{\mathbf{F}_j^{\top} f}{\|\mathbf{F}_j\|\|f\|}\big)\big] \mathbf{L}_j \]

其中，超参数 \(\alpha\) 和 \(\beta\) 需要针对每个数据集进行调优。若设置不当，Tip-Adapter 的性能会下降，暴露出其脆弱的泛化能力。Meta-Adapter 的目的正是克服这一缺陷。

核心方法: Meta-Adapter 的内部机制

Meta-Adapter 摒弃了 Tip-Adapter 手工设计的融合公式，改用一个能够 元学习 适配过程的 可学习网络 。它不是人为定义视觉与文本特征如何融合，而是通过大量小样本任务自动学习这一机制。

架构概览

图2展示了Meta-Adapter的架构。支持集图像和类别文本被编码以生成嵌入。这些嵌入被送入Meta-Adapter，它使用多头注意力机制来优化类别嵌入。优化后的嵌入随后与查询图像的特征进行比较以进行分类。

图2: Meta-Adapter 使用门控多头注意力机制，将小样本视觉特征与文本类别嵌入相融合。

其工作流程如下:

特征提取:

查询图像经过 CLIP 的图像编码器，得到特征向量 \(f\)。
少量带标签的 支持集图像 经相同编码器处理，获得支持嵌入 \(\mathbf{F}\)。
类别名称 通过 CLIP 的文本编码器处理，生成文本嵌入 \(w\)。

交叉注意力实现知识迁移: Meta-Adapter 的核心是一个 门控多头注意力 (MHA) 模块。类别嵌入充当 查询 (Query) , 支持嵌入作为 键 (Key) 和 值 (Value) 。由此生成的亲和度图决定每个支持样本对类别嵌入的影响:
\[ \hat{\mathbf{F}} = \mathbf{F}^\top \sigma\big((\mathbf{F}W_1^\top)(wW_2^\top)^\top / \sqrt{D}\big) \]
该过程生成聚合后的视觉特征 \(\hat{\mathbf{F}}\)，突出与各类别最相关的支持样本。
自适应门控: 可学习的门控函数 \(g(w)\) 控制来自支持集的信号应融合到原始嵌入的程度:
\[ \hat{w} \approx w + g(w) \odot \hat{\mathbf{F}} \]
这种残差式更新确保 CLIP 强大的零样本能力得以保留，同时注入更具辨别力的小样本信息。
最终预测: 优化后的嵌入 \(\hat{w}\) 替换原始嵌入，分类过程如下:
\[ \mathrm{logits}(y_c = i | \mathbf{x}) = \frac{\hat{w}_i^{\top} f}{\|\hat{w}_i\|\|f\|} \]

总体而言，Meta-Adapter 是一个小型神经滤波器，学习如何利用小样本来优化文本嵌入——无需改变嵌入维度或进行特定数据集再训练。

实验与结果: Meta-Adapter 的性能验证

为验证其泛化能力，作者进行了广泛的实验，涵盖三种场景: 跨类别泛化、跨数据集泛化、跨任务泛化。

1. 跨类别泛化 —— 简单类别学习，困难类别测试

每个数据集被划分为 基础类 (CLIP 已能很好识别) 和 新颖类 (较难且陌生的类别) 。Meta-Adapter 仅在基础集上训练，再在新颖类别上测试，以评估真正的泛化能力。

表2展示了在四个数据集上的结果。Meta-Adapter在“新颖”类别上的表现始终优于Tip-Adapter，展示了更好的泛化能力。例如，在UCF101上，它在新颖类别上达到了52.28%的准确率，而Tip-Adapter为40.09%。

表2: Meta-Adapter 在新颖类别上大幅领先，验证了其抗过拟合能力。

相比仅在训练类别上表现优异的 Tip-Adapter，Meta-Adapter 在基础类和新颖类上均衡表现，展现出跨数据集的泛化能力。这一趋势在多种 CLIP 主干架构中同样成立。

表3显示，在ImageNet上，Meta-Adapter在六种不同的视觉主干网络上始终优于Tip-Adapter，并且随着主干网络 (如ViT-B/16) 变得更强大，性能差距往往会扩大。

表3: Meta-Adapter 在各种 CLIP 架构中 (从 ResNet50 到 ViT-B/16) 都保持优势。

2. 跨数据集泛化 —— 真正的跨领域适应力

在此实验中，Meta-Adapter 在 ImageNet 上训练，然后直接在七个不同数据集 (如 FGVCAircraft、OxfordPets 和 DTD) 上评估，无需重新训练或调优。

表1比较了在ImageNet上训练后，在其他七个数据集上测试的Meta-Adapter和Tip-Adapter。Meta-Adapter取得了51.81%的平均准确率，比Tip-Adapter大幅提升了4.99%，展示了其卓越的跨数据集泛化能力。

表1: 无需调优，Meta-Adapter 在不同数据集上均保持强劲性能，而 Tip-Adapter 性能显著下降。

这一结果凸显了 Meta-Adapter 的核心优势——所学到的适配规则能够通用于内容、风格和复杂度各异的数据集。作者还可视化了跨数据集迁移的性能提升。

图3展示了跨数据集迁移性能。当从ImageNet迁移到其他数据集时 (a) ，Meta-Adapter的迁移结果 (红线) 比Tip-Adapter (品红线) 更强、更稳定。

图3: Meta-Adapter 在不同数据集及领域偏移方向上均保持高迁移准确率。

在针对鲁棒性基准 (ImageNet-A、ImageNet-R、ImageNet-Sketch) 测试中，Meta-Adapter 再次稳健表现，而 Tip-Adapter 甚至落后于零样本基线。

表4显示，在像ImageNet-A和ImageNet-Sketch这样的分布外数据集上，Tip-Adapter的性能相较于零样本CLIP基线有所下降，而Meta-Adapter则保持或提升了性能。

表4: 在领域偏移导致其他方法失效的情况下，Meta-Adapter 依然保持稳健性能。

3. 跨任务泛化 —— 超越分类任务

为测试超越分类的适应性，Meta-Adapter 被集成至 ViLD , 一个基于 CLIP 的开放词汇目标检测框架。利用 LVIS 数据集中的稀有类别小样本，以增强检测能力。

表5展示了在LVIS开放词汇目标检测基准上的结果。将Meta-Adapter与ViLD集成，提升了对罕见类别的性能 (AP_r从18.1提升到19.1) 。相比之下，简单地集成Tip-Adapter严重损害了性能。

表5: Meta-Adapter 提升了 ViLD 对稀有目标的检测性能，而 Tip-Adapter 的启发式融合反而降低了效果。

由于 Meta-Adapter 直接优化文本嵌入，因此可以无缝集成至基于 CLIP 的检测管线，无需修改架构。这种灵活性与性能提升彰显了其在分类之外任务中的潜力。

结论: 为何“元学习”意义重大

Meta-Adapter 为当今人工智能的核心挑战提供了一个实用且优雅的解决方案: 如何让大型视觉语言模型无需频繁训练即可具备适应性 。

它的优势包括:

泛化性: 学习到可跨类别、数据集甚至任务迁移的适配机制。
高效性: 仅需一次轻量训练，推理时开销极小。
即插即用设计: 可作为模块轻松融入任何基于 CLIP 的方法。
鲁棒性: 消除了对脆弱超参数的依赖并有效避免过拟合。

简言之，Meta-Adapter 将小样本学习从一个依赖人工设计的难题，转化为一种可学习的能力。随着我们将 CLIP 等基础模型应用到实际场景——从医学影像到工业检测——具备自适应、元学习能力的模块将变得愈发关键。

通过学习 如何学习，Meta-Adapter 使我们向真正灵活与智能的视觉语言系统又迈进一步。

引言: 超越零样本，迈向小样本学习#

背景: 视觉语言模型适配的现状#

CLIP 简介#

小样本适配: 离线与在线方法#

核心方法: Meta-Adapter 的内部机制#

架构概览#

实验与结果: Meta-Adapter 的性能验证#

1. 跨类别泛化 —— 简单类别学习，困难类别测试#

2. 跨数据集泛化 —— 真正的跨领域适应力#

3. 跨任务泛化 —— 超越分类任务#

结论: 为何“元学习”意义重大#