引言: 超越零样本,迈向小样本学习
像 CLIP 这样的大规模视觉语言模型,已经改变了我们处理计算机视觉问题的方式。通过在海量的图文对数据集上进行训练,CLIP 能够识别出它从未明确见过的各种物体和概念——这一壮举被称为 零样本学习 (zero-shot learning) 。 给它一张稀有鸟类或不常见工具的图片,它通常都能正确识别。
但在实际应用中,零样本学习常常会遇到瓶颈。假设你希望识别特定的机械零件或稀有物种,而每个新类别可能只有少量带标签的样本。这就进入了 小样本学习 (few-shot learning) 的领域,其目标是利用极少数样本来让像 CLIP 这样的通用模型适配新任务——而无需耗费高昂的成本和时间进行全面重新训练。
现有的小样本适配策略大致可分为两类:
离线方法 — 利用新的小样本数据对模型的部分参数进行微调。这类方法能取得良好的性能,但每个新任务都需要额外训练,过程缓慢,并容易导致 过拟合 (overfitting) ——即模型对少量样本过度特化,失去泛化能力。
在线方法 — 在推理时 无需 调优或训练。一个典型的例子是 Tip-Adapter , 它使用一个固定的、手工设计的函数,将 CLIP 的原始特征与小样本图像嵌入缓存进行融合。这种方法速度快,但依赖于针对特定数据集的超参数,这些参数必须为每个新任务手动搜索。因此,当应用于未见过的领域时,其性能通常会下降。
这便引出了一个重要问题: 能否构建一个能够 自主学习如何进行小样本适配 的 适配器?也就是说,一个能将适配过程本身泛化,而无需手动设计规则或针对数据集调整超参数的模型?
这正是论文 《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》 的目标。作者提出了一种轻量级、即插即用的 Meta-Adapter , 只需训练一次,就能成为小样本适配的通用专家。它可以直接附加在 CLIP 上,用于新任务,无需微调,即可实现高准确率与高效率。
为了展示“学会学习”在实践中的效果,Meta-Adapter 在各种数据集上都持续优于零样本 CLIP 和最先进的 Tip-Adapter。

图1: Meta-Adapter 在多个基准测试中取得了比其他小样本方法更高的准确率,同时保持了高效的推理性能。
在本文中,我们将探讨 Meta-Adapter 的工作原理,分析其实验与结果,并解读为何这种“学会学习”的理念标志着自适应人工智能的一次重要演进。
背景: 视觉语言模型适配的现状
在深入了解 Meta-Adapter 的设计之前,让我们先回顾 CLIP 的基本原理以及小样本适配所面临的挑战。
CLIP 简介
CLIP (Contrastive Language-Image Pre-training,对比语言-图像预训练) 学习在共享的表示空间中对齐图像和文本。它由两个关键编码器组成:
- 一个 视觉编码器 , 将图像转换为特征向量 \(f\)。
- 一个 文本编码器 , 将类别名称转换为文本特征或 嵌入 \(w_i\)。
在零样本分类中,诸如“一张狗的照片”或“一张柠檬的照片”的文本提示被编码为文本嵌入 \(w_i\),而输入图像则编码为 \(f\)。然后,CLIP 使用余弦相似度来衡量 \(f\) 与各个 \(w_i\) 之间的相似度:
\[ \mathrm{logits}(y_c = i) = \frac{w_i^{\top} f}{\|w_i\| \|f\|} \]相似度高意味着图像很可能属于该类别。这一机制使 CLIP 能够仅凭描述性提示就识别出未见过的类别。
小样本适配: 离线与在线方法
增加一些带标签的样本可以显著提高准确率,但关键在于如何高效利用这些信息。
离线方法 , 如 CoOp 和 CLIP-Adapter , 会在少量样本上微调少量参数。其性能提升以额外的训练成本为代价,过程计算量大且容易过拟合。
在线方法则完全避免训练。其中最具代表性的是 Tip-Adapter , 它会从小样本中创建一个特征“缓存”,并通过一个固定函数将其与零样本得分融合:
其中,超参数 \(\alpha\) 和 \(\beta\) 需要针对每个数据集进行调优。若设置不当,Tip-Adapter 的性能会下降,暴露出其脆弱的泛化能力。Meta-Adapter 的目的正是克服这一缺陷。
核心方法: Meta-Adapter 的内部机制
Meta-Adapter 摒弃了 Tip-Adapter 手工设计的融合公式,改用一个能够 元学习 适配过程的 可学习网络 。 它不是人为定义视觉与文本特征如何融合,而是通过大量小样本任务自动学习这一机制。
架构概览

图2: Meta-Adapter 使用门控多头注意力机制,将小样本视觉特征与文本类别嵌入相融合。
其工作流程如下:
- 特征提取:
- 查询图像经过 CLIP 的图像编码器,得到特征向量 \(f\)。
- 少量带标签的 支持集图像 经相同编码器处理,获得支持嵌入 \(\mathbf{F}\)。
- 类别名称 通过 CLIP 的文本编码器处理,生成文本嵌入 \(w\)。
交叉注意力实现知识迁移: Meta-Adapter 的核心是一个 门控多头注意力 (MHA) 模块。类别嵌入充当 查询 (Query) , 支持嵌入作为 键 (Key) 和 值 (Value) 。 由此生成的亲和度图决定每个支持样本对类别嵌入的影响:
\[ \hat{\mathbf{F}} = \mathbf{F}^\top \sigma\big((\mathbf{F}W_1^\top)(wW_2^\top)^\top / \sqrt{D}\big) \]该过程生成聚合后的视觉特征 \(\hat{\mathbf{F}}\),突出与各类别最相关的支持样本。
自适应门控: 可学习的门控函数 \(g(w)\) 控制来自支持集的信号应融合到原始嵌入的程度:
\[ \hat{w} \approx w + g(w) \odot \hat{\mathbf{F}} \]这种残差式更新确保 CLIP 强大的零样本能力得以保留,同时注入更具辨别力的小样本信息。
最终预测: 优化后的嵌入 \(\hat{w}\) 替换原始嵌入,分类过程如下:
\[ \mathrm{logits}(y_c = i | \mathbf{x}) = \frac{\hat{w}_i^{\top} f}{\|\hat{w}_i\|\|f\|} \]
总体而言,Meta-Adapter 是一个小型神经滤波器,学习如何利用小样本来优化文本嵌入——无需改变嵌入维度或进行特定数据集再训练。
实验与结果: Meta-Adapter 的性能验证
为验证其泛化能力,作者进行了广泛的实验,涵盖三种场景: 跨类别泛化、跨数据集泛化、跨任务泛化。
1. 跨类别泛化 —— 简单类别学习,困难类别测试
每个数据集被划分为 基础类 (CLIP 已能很好识别) 和 新颖类 (较难且陌生的类别) 。Meta-Adapter 仅在基础集上训练,再在新颖类别上测试,以评估真正的泛化能力。

表2: Meta-Adapter 在新颖类别上大幅领先,验证了其抗过拟合能力。
相比仅在训练类别上表现优异的 Tip-Adapter,Meta-Adapter 在基础类和新颖类上均衡表现,展现出跨数据集的泛化能力。这一趋势在多种 CLIP 主干架构中同样成立。

表3: Meta-Adapter 在各种 CLIP 架构中 (从 ResNet50 到 ViT-B/16) 都保持优势。
2. 跨数据集泛化 —— 真正的跨领域适应力
在此实验中,Meta-Adapter 在 ImageNet 上训练,然后直接在七个不同数据集 (如 FGVCAircraft、OxfordPets 和 DTD) 上评估,无需重新训练或调优。

表1: 无需调优,Meta-Adapter 在不同数据集上均保持强劲性能,而 Tip-Adapter 性能显著下降。
这一结果凸显了 Meta-Adapter 的核心优势——所学到的适配规则能够通用于内容、风格和复杂度各异的数据集。作者还可视化了跨数据集迁移的性能提升。

图3: Meta-Adapter 在不同数据集及领域偏移方向上均保持高迁移准确率。
在针对鲁棒性基准 (ImageNet-A、ImageNet-R、ImageNet-Sketch) 测试中,Meta-Adapter 再次稳健表现,而 Tip-Adapter 甚至落后于零样本基线。

表4: 在领域偏移导致其他方法失效的情况下,Meta-Adapter 依然保持稳健性能。
3. 跨任务泛化 —— 超越分类任务
为测试超越分类的适应性,Meta-Adapter 被集成至 ViLD , 一个基于 CLIP 的开放词汇目标检测框架。利用 LVIS 数据集中的稀有类别小样本,以增强检测能力。

表5: Meta-Adapter 提升了 ViLD 对稀有目标的检测性能,而 Tip-Adapter 的启发式融合反而降低了效果。
由于 Meta-Adapter 直接优化文本嵌入,因此可以无缝集成至基于 CLIP 的检测管线,无需修改架构。这种灵活性与性能提升彰显了其在分类之外任务中的潜力。
结论: 为何“元学习”意义重大
Meta-Adapter 为当今人工智能的核心挑战提供了一个实用且优雅的解决方案: 如何让大型视觉语言模型无需频繁训练即可具备适应性 。
它的优势包括:
- 泛化性: 学习到可跨类别、数据集甚至任务迁移的适配机制。
- 高效性: 仅需一次轻量训练,推理时开销极小。
- 即插即用设计: 可作为模块轻松融入任何基于 CLIP 的方法。
- 鲁棒性: 消除了对脆弱超参数的依赖并有效避免过拟合。
简言之,Meta-Adapter 将小样本学习从一个依赖人工设计的难题,转化为一种可学习的能力。随着我们将 CLIP 等基础模型应用到实际场景——从医学影像到工业检测——具备自适应、元学习能力的模块将变得愈发关键。
通过学习 如何学习,Meta-Adapter 使我们向真正灵活与智能的视觉语言系统又迈进一步。
](https://deep-paper.org/en/paper/2311.03774/images/cover.png)