引言

想象一下，你正看着一张拥挤的街景照片。一位朋友站在你身边说: “看那个站在自行车旁边、穿黄衬衫的家伙。”瞬间，你的大脑处理了语言，扫描了图像，过滤掉“穿蓝衬衫的家伙”和“汽车旁边的家伙”，并锁定了特定的目标。

在计算机视觉领域，这项任务被称为指称表达理解 (Referring Expression Comprehension, REC) 。其目标是根据自然语言描述在图像中定位特定区域。虽然这对人类来说很直观，但对 AI 来说却是一个复杂的挑战。它要求模型具备强大的视觉感知能力、深厚的语言理解能力，最重要的是，要有能够完美对齐这两种模态的能力。

传统上，要在 REC 任务中取得最先进的结果，通常需要“全量微调 (full fine-tuning)”。这意味着采用庞大的预训练模型 (如 Vision Transformers) 并更新网络中的每一个参数以适应任务。虽然这种方法有效，但它的计算成本高昂且占用大量存储空间。它还存在“灾难性遗忘”的风险，即模型可能会丢失其在原始预训练期间获得的丰富通用知识。

最近，研究人员转向了参数高效迁移学习 (Parameter-Efficient Transfer Learning, PETL) 。其核心思想很简单: 冻结庞大的预训练模型，只训练一小部分额外的参数 (适配器) 。然而，标准的 PETL 方法在 REC 任务上往往表现不佳，因为它们缺乏将文本与细粒度视觉细节对齐的特定能力。

这就是 MaPPER (Multimodal Prior-guided Parameter Efficient Tuning，多模态先验引导的参数高效微调) 登场的地方。在一篇新论文中，研究人员提出了一种新颖的框架，该框架在仅更新 1.41% 参数的情况下，实现了比全量微调更好的准确率。

与其他 PETL 方法的比较。

如上图 1 所示，与全量微调 (最右侧的蓝色圆圈) 和其他适配器方法相比，MaPPER (粉色星号) 以极少的可训练参数在 RefCOCO 基准测试中实现了卓越的性能。

在这篇文章中，我们将解构 MaPPER 的工作原理，探索它如何利用“多模态先验”和“局部卷积”来弥合效率与准确性之间的差距。

背景: 高效微调的挑战

要理解为什么 MaPPER 是必要的，我们首先需要看看现有方法在指称表达理解 (REC) 背景下的局限性。

全量微调的问题

目前的 REC 方法通常使用双塔架构: 一个视觉编码器 (用于看图像) 和一个文本编码器 (用于读提示) 。为了使这些模型擅长指向特定对象，工程师会重新训练整个骨干网络。

优点: 模型能深度学习该任务。
缺点: 它需要巨大的 GPU 显存。如果你有一个 10 亿参数的模型，你就需要更新 10 亿个数字。它还会破坏模型在原始预训练期间嵌入的“先验知识”。

标准 PETL 的局限性

参数高效迁移学习 (PETL) 方法，如 LoRA (Low-Rank Adaptation) 或 Adapters , 会将小型的可训练模块插入冻结的骨干网络中。这对通用任务很有用，但 REC 很独特。

局部感知: 标准的视觉 Transformer 擅长全局上下文 (“这是一个公园”) ，但往往会遗漏局部细节 (“这是小鸟的具体纹理”) 。标准的适配器无法修复这个问题。
多模态对齐: 通用的语言适配器天生不了解图像。它们孤立地处理文本，使得将“黄衬衫”与黄衬衫的视觉像素对齐变得更加困难。

MaPPER背后的研究人员意识到，要让 PETL 在 REC 中发挥作用，他们需要引入局部视觉语义和视觉-语言对齐线索的任务特定适配器。

MaPPER 框架

MaPPER 代表 Multimodal Prior-guided Parameter Efficient Tuning for REC (面向 REC 的多模态先验引导参数高效微调) 。该架构背后的理念是保持沉重的骨干网络 (用于视觉的 DINOv2 和用于文本的 BERT) 完全冻结。MaPPER 不改变骨干网络，而是用智能、轻量级的模块将它们包裹起来。

让我们看看高层架构:

MaPPER 的整体架构。

如图 2 所示，该框架包含两个主要的并行流:

语言分支 (右) : 使用增强了动态先验适配器 (DyPA) 的冻结 BERT 编码器。
视觉分支 (左) : 使用增强了局部卷积适配器 (LoCA) 的冻结 DINOv2 编码器。

这些分支汇聚在一个预测边界框的多模态 Transformer 处。让我们分解每个分支中的创新点。

1. 先验引导的文本理解

像 BERT 这样的标准文本编码器是在纯文本上训练的。它们理解“狗”这个词，但它们天生不知道狗看起来是什么样的。为了在不重新训练 BERT 的情况下弥合这一差距，MaPPER 引入了视觉对齐先验 (Vision-Aligned Prior) 。

视觉对齐先验 (VAP)

研究人员利用冻结的 CLIP 模型来生成“先验”。CLIP 是一个经过专门训练以匹配图像和文本的模型。给定文本输入 \(\pmb{t}\)，模型将其通过冻结的 CLIP 文本编码器，以获得已与视觉概念对齐的向量表示。这个向量就是“先验” (\(\pmb{p}\))。

视觉对齐先验公式

这里，\(M\) 是一个映射层。这个先验 \(\pmb{p}\) 充当了网络其余部分的“提示”，携带了关于文本应该对应什么样子的信息。

动态先验适配器 (DyPA)

既然我们有了这个视觉提示 (先验) ，我们该如何使用它呢？作者引入了动态先验适配器 (DyPA) 。与仅处理文本的标准适配器不同，DyPA 会根据视觉先验调整其行为。

动态先验适配器的结构。

如图 3 所示，DyPA 被插入到 BERT 层中。它接收中间文本特征和视觉对齐先验作为输入。

奇迹发生在动态缩放模块 (Dynamic Scale Module) 中。模型不是直接添加适配器特征，而是根据先验计算一个缩放因子 \(S_f\)。

动态缩放因子公式

缩放因子 \(S_f\) 决定了适配器应该产生多大的影响。如果视觉先验表明相关性很强，缩放比例可能会增加。这允许冻结的文本编码器根据视觉概念动态调整其关注点。

DyPA 的完整操作由以下方程控制，其中适配器的输出在向上投影回之前由 \(S_f\) 缩放:

DyPA 输出公式

先验引导文本模块 (PGT)

最后，在文本编码过程结束时，框架显式地将先验与文本特征融合。这确保了输入到跨模态交互模块的最终表示富含视觉线索。

先验引导文本融合公式

通过将变换后的先验 \(\pmb{p'}\) 与文本 token \(\pmb{t}\) 拼接，模型确保语言表示已为视觉定位“预热”。

2. 全局与局部视觉感知

所使用的视觉骨干网络是 DINOv2 , 这是一个强大的 Transformer。Vision Transformers (ViTs) 通过将图像分割成块 (patches) 来处理图像。虽然这很有效，但 ViTs 有时会在细粒度的局部细节上挣扎——比如边界框的精确边缘，或者小前景物体与背景之间的区别。

为了修复这个问题，MaPPER 引入了局部卷积适配器 (LoCA) 。

局部卷积适配器 (LoCA)

LoCA 旨在将“局部性”注入回 Transformer 中。卷积 (CNs) 天生擅长处理像素的局部邻域。通过在 Transformer 层旁边插入一个小型的卷积网络，MaPPER 兼得了两者的优点: Transformer 的全局上下文和 CNN 的局部精度。

LoCA 采用多尺度设计。它同时使用 \(1\times1\) 卷积 (用于通道混合) 和 \(3\times3\) 卷积 (用于空间上下文) 处理特征，有效地捕获不同尺度的细节。

局部卷积适配器处理公式

这些卷积的结果被拼接以形成局部特征 \(\pmb{f_{loc}}\)。然后，这个局部特征被添加到由 Transformer 生成的全局特征中。

LoCA 集成公式

集成

集成到 Transformer 块的过程是相加的。标准的度多头注意力 (MHA) 和 MLP 层的输出由来自 LoCA 的缩放局部特征增强。

Transformer 块输出公式

这种简单的相加 (\(s \cdot f_{loc}\)) 使得冻结的 DINOv2 模型突然能够更清晰地“看到”局部纹理和边界，这对于绘制准确的边界框至关重要。

实验与结果

研究人员在三个标准基准上测试了 MaPPER: RefCOCO、RefCOCO+ 和 RefCOCOg 。这些数据集包含用于定位对象的复杂描述图像。

与最先进水平 (SOTA) 的比较

如下表 1 所示，结果相当显著。MaPPER (最后一行) 不仅优于 DARA 等其他 PETL 方法，甚至击败了使用全量微调的方法 (顶部部分) 。

与最新的 SOTA 方法在 RefCOCO 数据集上的比较。

注意 “Tuned/Total param.” (调整/总参数) 一列。传统方法调整 100% 的参数。MaPPER 仅调整 1.41% 。尽管计算开销大幅减少，但它实现了更高的准确率 (例如，在 RefCOCO TestA 上达到 88.90% , 而 Dynamic-MDETR 为 88.82%) 。

与其他 PETL 方法的比较

MaPPER 与 LoRA 或 AdaptFormer 等通用适配器相比表现如何？

与使用 DINO-B 骨干网络的 PETL 方法比较。

表 2 显示，简单地将 LoRA 或标准 Adapters 应用于此任务会产生次优结果 (RefCOCO val 约为 83-84%) 。MaPPER 跃升至 86.03% 。这证实了通用适配器不足以完成 REC 任务的假设；先验引导和局部卷积的设计至关重要。

消融实验: 这些组件真的有效吗？

研究人员进行了消融实验，以证明 MaPPER 的每个部分都是必要的。

1. 局部卷积适配器 (LoCA) 有帮助吗? 是的。如表 3 所示，与冻结的基线相比，添加 LoCA 显著提高了性能 (行 ‘a’ 对比行 ‘b’) 。

局部卷积适配器 (LoCA) 的有效性。

2. 多尺度卷积重要吗? 是的。仅使用 1x1 卷积是不够的。结合 1x1 和 3x3 卷积 (表 4 中的行 ‘b’) 提供了局部细节的最佳平衡。

视觉分支多尺度大小的有效性。

3. 视觉对齐先验有帮助吗? 表 5 (下表) 剖析了文本分支。

行 (b) 使用不带先验的标准适配器。
行 (c) 使用 DyPA (带先验) 。分数从 84.78 跃升至 85.32。
行 (f) 添加了 PGT 模块，实现了最终的高分。

文本分支视觉先验的有效性。

可视化

数字虽好，但我们能看到区别吗？研究人员可视化了模型的注意力图。

注意力图的可视化。

在图 4 中，第一行显示了输入 (例如，“right zebra drinking”，右边喝水的斑马) 。

第三行 (无先验) 显示模型的注意力是分散的。它看着大致区域，但错过了精确的目标。
第四行 (有视觉对齐先验) 显示了紧凑、聚焦的热力图，与真值 (第二行) 完美对齐。先验成功引导模型聚焦于“右边的斑马”或“绿衬衫”。

结论与启示

MaPPER 代表了高效多模态学习向前迈出的重要一步。它解决了现代 AI 中“房间里的大象”: 模型正变得太大，无法为每个特定任务重新训练。

通过识别冻结模型在指称表达理解背景下的特定弱点——即缺乏局部视觉细节和弱文本-图像对齐——作者设计了一个外科手术般的解决方案。

DyPA 使用先验将视觉理解注入语言模型。
LoCA 使用卷积将局部精度注入视觉模型。

其结果是一个训练成本极低 (仅微调约 1.4% 的参数) 但性能优于重量级、全量微调同行的模型。对于 GPU 资源有限的学生和研究人员来说，MaPPER 提供了一个如何有效调整基础模型 (Foundation Models) 的蓝图: 不要只是增加参数；添加与你的特定任务相匹配的先验和归纳偏置。

引言#

背景: 高效微调的挑战#

全量微调的问题#

标准 PETL 的局限性#

MaPPER 框架#

1. 先验引导的文本理解#

视觉对齐先验 (VAP)#

动态先验适配器 (DyPA)#

先验引导文本模块 (PGT)#

2. 全局与局部视觉感知#

局部卷积适配器 (LoCA)#

集成#

实验与结果#

与最先进水平 (SOTA) 的比较#

与其他 PETL 方法的比较#

消融实验: 这些组件真的有效吗？#

可视化#

结论与启示#

引言