引言
想象一下,你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间,你的大脑处理了语言,扫描了图像,过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”,并锁定了特定的目标。
在计算机视觉领域,这项任务被称为指称表达理解 (Referring Expression Comprehension, REC) 。 其目标是根据自然语言描述在图像中定位特定区域。虽然这对人类来说很直观,但对 AI 来说却是一个复杂的挑战。它要求模型具备强大的视觉感知能力、深厚的语言理解能力,最重要的是,要有能够完美对齐这两种模态的能力。
传统上,要在 REC 任务中取得最先进的结果,通常需要“全量微调 (full fine-tuning)”。这意味着采用庞大的预训练模型 (如 Vision Transformers) 并更新网络中的每一个参数以适应任务。虽然这种方法有效,但它的计算成本高昂且占用大量存储空间。它还存在“灾难性遗忘”的风险,即模型可能会丢失其在原始预训练期间获得的丰富通用知识。
最近,研究人员转向了参数高效迁移学习 (Parameter-Efficient Transfer Learning, PETL) 。 其核心思想很简单: 冻结庞大的预训练模型,只训练一小部分额外的参数 (适配器) 。然而,标准的 PETL 方法在 REC 任务上往往表现不佳,因为它们缺乏将文本与细粒度视觉细节对齐的特定能力。
这就是 MaPPER (Multimodal Prior-guided Parameter Efficient Tuning,多模态先验引导的参数高效微调) 登场的地方。在一篇新论文中,研究人员提出了一种新颖的框架,该框架在仅更新 1.41% 参数的情况下,实现了比全量微调更好的准确率。

如上图 1 所示,与全量微调 (最右侧的蓝色圆圈) 和其他适配器方法相比,MaPPER (粉色星号) 以极少的可训练参数在 RefCOCO 基准测试中实现了卓越的性能。
在这篇文章中,我们将解构 MaPPER 的工作原理,探索它如何利用“多模态先验”和“局部卷积”来弥合效率与准确性之间的差距。
背景: 高效微调的挑战
要理解为什么 MaPPER 是必要的,我们首先需要看看现有方法在指称表达理解 (REC) 背景下的局限性。
全量微调的问题
目前的 REC 方法通常使用双塔架构: 一个视觉编码器 (用于看图像) 和一个文本编码器 (用于读提示) 。为了使这些模型擅长指向特定对象,工程师会重新训练整个骨干网络。
- 优点: 模型能深度学习该任务。
- 缺点: 它需要巨大的 GPU 显存。如果你有一个 10 亿参数的模型,你就需要更新 10 亿个数字。它还会破坏模型在原始预训练期间嵌入的“先验知识”。
标准 PETL 的局限性
参数高效迁移学习 (PETL) 方法,如 LoRA (Low-Rank Adaptation) 或 Adapters , 会将小型的可训练模块插入冻结的骨干网络中。这对通用任务很有用,但 REC 很独特。
- 局部感知: 标准的视觉 Transformer 擅长全局上下文 (“这是一个公园”) ,但往往会遗漏局部细节 (“这是小鸟的具体纹理”) 。标准的适配器无法修复这个问题。
- 多模态对齐: 通用的语言适配器天生不了解图像。它们孤立地处理文本,使得将“黄衬衫”与黄衬衫的视觉像素对齐变得更加困难。
MaPPER背后的研究人员意识到,要让 PETL 在 REC 中发挥作用,他们需要引入局部视觉语义和视觉-语言对齐线索的任务特定适配器。
MaPPER 框架
MaPPER 代表 Multimodal Prior-guided Parameter Efficient Tuning for REC (面向 REC 的多模态先验引导参数高效微调) 。该架构背后的理念是保持沉重的骨干网络 (用于视觉的 DINOv2 和用于文本的 BERT) 完全冻结。MaPPER 不改变骨干网络,而是用智能、轻量级的模块将它们包裹起来。
让我们看看高层架构:

如图 2 所示,该框架包含两个主要的并行流:
- 语言分支 (右) : 使用增强了动态先验适配器 (DyPA) 的冻结 BERT 编码器。
- 视觉分支 (左) : 使用增强了局部卷积适配器 (LoCA) 的冻结 DINOv2 编码器。
这些分支汇聚在一个预测边界框的多模态 Transformer 处。让我们分解每个分支中的创新点。
1. 先验引导的文本理解
像 BERT 这样的标准文本编码器是在纯文本上训练的。它们理解“狗”这个词,但它们天生不知道狗看起来是什么样的。为了在不重新训练 BERT 的情况下弥合这一差距,MaPPER 引入了视觉对齐先验 (Vision-Aligned Prior) 。
视觉对齐先验 (VAP)
研究人员利用冻结的 CLIP 模型来生成“先验”。CLIP 是一个经过专门训练以匹配图像和文本的模型。 给定文本输入 \(\pmb{t}\),模型将其通过冻结的 CLIP 文本编码器,以获得已与视觉概念对齐的向量表示。这个向量就是“先验” (\(\pmb{p}\))。

这里,\(M\) 是一个映射层。这个先验 \(\pmb{p}\) 充当了网络其余部分的“提示”,携带了关于文本应该对应什么样子的信息。
动态先验适配器 (DyPA)
既然我们有了这个视觉提示 (先验) ,我们该如何使用它呢?作者引入了动态先验适配器 (DyPA) 。 与仅处理文本的标准适配器不同,DyPA 会根据视觉先验调整其行为。

如图 3 所示,DyPA 被插入到 BERT 层中。它接收中间文本特征和视觉对齐先验作为输入。
奇迹发生在动态缩放模块 (Dynamic Scale Module) 中。模型不是直接添加适配器特征,而是根据先验计算一个缩放因子 \(S_f\)。

缩放因子 \(S_f\) 决定了适配器应该产生多大的影响。如果视觉先验表明相关性很强,缩放比例可能会增加。这允许冻结的文本编码器根据视觉概念动态调整其关注点。
DyPA 的完整操作由以下方程控制,其中适配器的输出在向上投影回之前由 \(S_f\) 缩放:

先验引导文本模块 (PGT)
最后,在文本编码过程结束时,框架显式地将先验与文本特征融合。这确保了输入到跨模态交互模块的最终表示富含视觉线索。

通过将变换后的先验 \(\pmb{p'}\) 与文本 token \(\pmb{t}\) 拼接,模型确保语言表示已为视觉定位“预热”。
2. 全局与局部视觉感知
所使用的视觉骨干网络是 DINOv2 , 这是一个强大的 Transformer。Vision Transformers (ViTs) 通过将图像分割成块 (patches) 来处理图像。虽然这很有效,但 ViTs 有时会在细粒度的局部细节上挣扎——比如边界框的精确边缘,或者小前景物体与背景之间的区别。
为了修复这个问题,MaPPER 引入了局部卷积适配器 (LoCA) 。
局部卷积适配器 (LoCA)
LoCA 旨在将“局部性”注入回 Transformer 中。卷积 (CNs) 天生擅长处理像素的局部邻域。通过在 Transformer 层旁边插入一个小型的卷积网络,MaPPER 兼得了两者的优点: Transformer 的全局上下文和 CNN 的局部精度。
LoCA 采用多尺度设计。它同时使用 \(1\times1\) 卷积 (用于通道混合) 和 \(3\times3\) 卷积 (用于空间上下文) 处理特征,有效地捕获不同尺度的细节。

这些卷积的结果被拼接以形成局部特征 \(\pmb{f_{loc}}\)。然后,这个局部特征被添加到由 Transformer 生成的全局特征中。

集成
集成到 Transformer 块的过程是相加的。标准的度多头注意力 (MHA) 和 MLP 层的输出由来自 LoCA 的缩放局部特征增强。

这种简单的相加 (\(s \cdot f_{loc}\)) 使得冻结的 DINOv2 模型突然能够更清晰地“看到”局部纹理和边界,这对于绘制准确的边界框至关重要。
实验与结果
研究人员在三个标准基准上测试了 MaPPER: RefCOCO、RefCOCO+ 和 RefCOCOg 。 这些数据集包含用于定位对象的复杂描述图像。
与最先进水平 (SOTA) 的比较
如下表 1 所示,结果相当显著。MaPPER (最后一行) 不仅优于 DARA 等其他 PETL 方法,甚至击败了使用全量微调的方法 (顶部部分) 。

注意 “Tuned/Total param.” (调整/总参数) 一列。传统方法调整 100% 的参数。MaPPER 仅调整 1.41% 。 尽管计算开销大幅减少,但它实现了更高的准确率 (例如,在 RefCOCO TestA 上达到 88.90% , 而 Dynamic-MDETR 为 88.82%) 。
与其他 PETL 方法的比较
MaPPER 与 LoRA 或 AdaptFormer 等通用适配器相比表现如何?

表 2 显示,简单地将 LoRA 或标准 Adapters 应用于此任务会产生次优结果 (RefCOCO val 约为 83-84%) 。MaPPER 跃升至 86.03% 。 这证实了通用适配器不足以完成 REC 任务的假设;先验引导和局部卷积的设计至关重要。
消融实验: 这些组件真的有效吗?
研究人员进行了消融实验,以证明 MaPPER 的每个部分都是必要的。
1. 局部卷积适配器 (LoCA) 有帮助吗? 是的。如表 3 所示,与冻结的基线相比,添加 LoCA 显著提高了性能 (行 ‘a’ 对比 行 ‘b’) 。

2. 多尺度卷积重要吗? 是的。仅使用 1x1 卷积是不够的。结合 1x1 和 3x3 卷积 (表 4 中的行 ‘b’) 提供了局部细节的最佳平衡。

3. 视觉对齐先验有帮助吗? 表 5 (下表) 剖析了文本分支。
- 行 (b) 使用不带先验的标准适配器。
- 行 (c) 使用 DyPA (带先验) 。分数从 84.78 跃升至 85.32。
- 行 (f) 添加了 PGT 模块,实现了最终的高分。

可视化
数字虽好,但我们能看到区别吗?研究人员可视化了模型的注意力图。

在图 4 中,第一行显示了输入 (例如,“right zebra drinking”,右边喝水的斑马) 。
- 第三行 (无先验) 显示模型的注意力是分散的。它看着大致区域,但错过了精确的目标。
- 第四行 (有视觉对齐先验) 显示了紧凑、聚焦的热力图,与真值 (第二行) 完美对齐。先验成功引导模型聚焦于“右边的斑马”或“绿衬衫”。
结论与启示
MaPPER 代表了高效多模态学习向前迈出的重要一步。它解决了现代 AI 中“房间里的大象”: 模型正变得太大,无法为每个特定任务重新训练。
通过识别冻结模型在指称表达理解背景下的特定弱点——即缺乏局部视觉细节和弱文本-图像对齐——作者设计了一个外科手术般的解决方案。
- DyPA 使用先验将视觉理解注入语言模型。
- LoCA 使用卷积将局部精度注入视觉模型。
其结果是一个训练成本极低 (仅微调约 1.4% 的参数) 但性能优于重量级、全量微调同行的模型。对于 GPU 资源有限的学生和研究人员来说,MaPPER 提供了一个如何有效调整基础模型 (Foundation Models) 的蓝图: 不要只是增加参数;添加与你的特定任务相匹配的先验和归纳偏置。
](https://deep-paper.org/en/paper/2409.13609/images/cover.png)