引言

人类拥有一种通过多种感官理解世界的先天能力。我们可以毫不费力地结合视觉线索和语言来解读复杂的场景。如果你看到一张“一匹马骑着一个人”的图片,你会立刻识别出这种荒谬感,并将其与“一个人骑着一匹马”区分开来。这种理解不同组成部分 (物体、属性、关系) 如何组合形成意义的能力被称为组合推理 (Compositional Reasoning)

在人工智能领域,像 CLIP 这样的视觉-语言模型 (VLMs) 彻底改变了计算机理解图像和文本的方式。它们在识别物体和将图像与标题进行一般性匹配方面表现出色。然而,它们面临着一个“词袋 (bag-of-words) ”问题。对于标准的 VLM 来说,“一匹马骑着一个人”和“一个人骑着一匹马”在数学上看起来几乎是一样的,因为它们包含相同的单词。

研究人员试图通过使用“硬负样本 (Hard Negatives) ”——即语法上棘手的标题——对这些模型进行微调来解决这个问题。虽然这提高了模型的逻辑性,但往往代价高昂: 模型会产生“管视效应 (tunnel vision) ”,丧失了识别新概念 (零样本性能) 或检索简单图像的通用能力。

在这篇文章中,我们将深入探讨一篇新论文, “Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality” (为提高视觉-语言组合性而保留预训练 VLM 的多模态能力) , 该论文提出了一种名为 FSC-CLIP 的解决方案。这种方法允许模型在学习细粒度逻辑的同时,不遗忘其预训练的通用知识。

权衡: 更聪明的逻辑 vs. 通用知识

要理解核心问题,我们需要先看看像 CLIP 这样的模型通常是如何微调的。标准方法涉及对比学习 (Contrastive Learning) 。 你取一张图像及其正确的标题 (正样本) ,并将其与不正确的标题 (负样本) 进行对比。

为了教授组合性,研究人员使用硬负样本 (Hard Negatives, HN) 。 这些标题与事实非常相似,但在关键方面有所不同,例如交换主语和宾语。

  • 图像: 一只狗在咬一个人。
  • 正样本文本: “A dog biting a man.” (一只狗在咬一个人。)
  • 硬负样本文本: “A man biting a dog.” (一个人在咬一只狗。)

目标是强制模型将“硬负样本”的表示推离图像。然而,大多数方法使用全局表示 (Global Representations) 来做到这一点——即用单个向量表示整个图像和整个句子。

由于硬负样本文本在语义上与原始文本非常相似,强行将它们的向量分开会扭曲模型精心学习的“多模态空间”。模型变得过于痴迷于这种特定的语法区分,以至于破坏了图像和文本之间的一般对齐。

图 1: 视觉-语言组合性微调方法的整体比较。在以前的方法中,增强组合性往往会损害多模态任务的性能。我们的 FSC-CLIP 弥合了这一差距,将这些权衡降至最低。完整的实验结果见表 1。

如上图 图 1 所示,先前的方法 (蓝线和绿线) 在尝试提高组合性时,往往会导致通用性能 (零样本平均值和检索平均值) 下降。论文提出的 FSC-CLIP 方法 (橙线) 将边界向外推移,在两个轴上都取得了高分。

FSC-CLIP 框架

研究人员提出了 细粒度选择性校准 CLIP (Fine-grained Selective Calibrated CLIP, FSC-CLIP) 。 该框架不再仅仅依赖粗糙的全局比较,而是引入了两大创新:

  1. 局部硬负样本 (LHN) 损失: 用放大镜 (图像块-令牌对齐) 而不是望远镜 (全局向量) 来看待问题。
  2. 选择性校准正则化 (SCR) : 一种更智能的损失计算方法,可以处理硬负样本的模糊性。

在分解数学原理之前,让我们先可视化整个架构。

图 2: 完整的 FSC-CLIP 框架,包含局部硬负样本 (LHN) 损失和选择性校准正则化 (SCR) ,以及全局 HN 损失。LHN 损失在图像块和令牌级别测量图像与文本之间的相似度,以更准确地识别原始文本与 HN 文本之间的细微差异。SCR 结合了焦点损失与标签平滑,以减轻使用硬负样本损失的不利影响。

图 2 中,你可以看到双路径方法。模型计算全局相似度 (上方路径) 和局部相似度 (下方路径) ,并将它们结合起来更新模型。

创新 1: 局部硬负样本 (LHN) 损失

标准微调的第一个问题是,全局向量太抽象了,无法捕捉“人骑马”和“马骑人”之间的差异。

FSC-CLIP 引入了 局部硬负样本 (LHN) 损失 。 它不是将整个图像总结为一个向量,而是查看单个视觉块 (visual patches) (\(v_p\)) 并将其与特定的文本标记 (text tokens) (\(t_w\)) 对齐。

第 1 步: 文本对齐的视觉块

首先,模型确定图像的哪些部分对应哪些单词。它计算每个单词和每个图像块之间的相似度图。然后,它对这些分数进行归一化,以创建“注意力权重” (\(a_{w,p}\)):

公式 008

利用这些权重,模型聚合视觉块,为每个单词创建一个“文本对齐”的视觉表示 (\(\hat{v}_w\))。本质上,对于单词“dog (狗) ”,模型主要基于狗所在的像素合成一个视觉向量。

公式 009

第 2 步: 令牌级相似度

一旦我们为每个单词都有了一个视觉向量,我们就直接比较它们。局部相似度得分 \(S_l\) 是每个单词标记 (\(t_w\)) 与其对应的视觉区域 (\(\hat{v}_w\)) 之间相似度的总和。

公式 010

第 3 步: LHN 损失函数

最后,这个局部相似度得分被用于对比损失函数中。这迫使模型确保图像的特定块与正确的句子结构对齐得更好,而不是与硬负样本的句子结构对齐。

公式 007

通过关注这些局部细节,模型可以学习组合性 (找到狗,找到人,检查谁在咬谁) ,而无需大幅改变代表场景一般概念的全局向量。

创新 2: 选择性校准正则化 (SCR)

即使有局部注意力,也存在风险。硬负样本文本在很大程度上是正确的。“一个人在咬一只狗”包含了“一只狗在咬一个人”这张图像中的所有正确物体。如果我们告诉模型“这个文本是错误的 (0% 匹配) ”,我们其实是在撒谎。它可能有 90% 的匹配度,只有 10% 的结构错误。

对这些高相似度的负样本惩罚过重会导致通用知识的“灾难性遗忘”。 选择性校准正则化 (SCR) 通过两项技术解决了这个问题。

技术 A: 焦点损失 (Focal Loss)

标准的交叉熵损失对所有错误一视同仁。最初为目标检测设计的焦点损失,会降低“简单”样本的权重,并专注于“困难”样本。

在这里,如果模型已经对图像与原始文本之间的关系充满信心,损失函数就会减少信号。它优先考虑那些令人困惑的情况——即与图像极具欺骗性相似的“硬负样本”。

图 3: HN 损失中基于置信度的加权机制的概念图解。它通过降低来自自信预测的信号,同时选择性地关注具有挑战性的预测,从而减少 HN 监督的不利影响,这对于学习组合性至关重要。

这种焦点损失的数学公式应用了一个调节因子 \((1 - p)^\gamma\)。随着正确类别的概率 \(p\) 增加 (置信度上升) ,损失趋近于零。

公式 012

技术 B: 标签平滑 (Label Smoothing)

这是 SCR 的“校准”部分。研究人员不再使用 1 作为正样本文本的目标、0 作为硬负样本的目标,而是使用 标签平滑

他们为硬负样本分配一个小的正值。这告诉模型: “这个负面句子看起来和图片很像也没关系;它实际上共享了很多内容。只要确保原始句子的得分更高就行了。”

公式 013

在这里,\(\beta\) 是一个平滑参数。这可以防止模型猛烈推开硬负样本向量,从而保持已学习表示空间的完整性。

总体目标

最终的训练目标结合了标准 CLIP 损失 (用于保持通用知识) 、全局硬负样本损失和新的局部硬负样本损失,并由权重因子 \(\lambda\) 进行平衡。

公式 014

实验与结果

研究人员在大量的基准测试套件上评估了 FSC-CLIP:

  • 11 个组合性基准: 如 SugarCrepe 和 Winoground,专门用于测试逻辑/语法理解。
  • 21 个零样本任务: 标准分类数据集 (ImageNet 等) ,用于检查通用知识是否保持完整。
  • 检索任务: 在 COCO 和 Flickr30k 上根据文本查找图像。

定量性能

表 1 总结的结果表明,FSC-CLIP 实现了“两全其美”。

表 1: 微调方法的整体比较…

  • 组合性: FSC-CLIP 得分为 66.3 , 显著高于原始 CLIP (57.1),并与 NegCLIP 等最先进的模型相媲美。
  • 零样本 (ZS): 至关重要的是,当其他模型的零样本性能显著下降时 (例如,DAC-LLM 降至 51.1) ,FSC-CLIP 保持了 58.3 的得分,非常接近原始预训练模型。
  • 检索: 它在微调模型中取得了最高的检索分数,表明潜在空间得到了很好的保留。

“帕累托前沿”

可视化权衡的一个好方法是轨迹图。 图 4 绘制了组合性 (Y 轴) 与零样本分类 (X 轴) 的关系图。理想情况下,你希望处于右上角。

图 4: 通过鲁棒微调方法得到的组合性 (Comp) 和零样本分类 (ZS) 之间的微调轨迹…

大多数方法 (蓝色、绿色) 都向后弯曲——当它们的组合性提高时,分类能力会向左移动 (变差) 。FSC-CLIP (橙色) 几乎垂直向上,在不牺牲通用知识的情况下提高了逻辑性。

定性示例

这在实践中看起来如何? 图 5 展示了一个检索任务,模型必须选择正确的标题。

  • 场景 1: 一张有橘子和苹果的图片。

  • CLIP: 感到困惑,给“橘子和杯子”排位很高。

  • DAC-LLM: 感到困惑。

  • FSC-CLIP: 正确识别出“橘子和苹果”,并正确拒绝“橘子和杯子”。

  • 场景 2: 一个男人弯腰在有蜡烛的桌子旁。

  • CLIP: 认为这是“带有蜡烛的蛋糕” (产生幻觉,因为蜡烛通常意味着蛋糕) 。

  • FSC-CLIP: 正确关注了“桌子”与“蛋糕”的区别。

  • (注: 虽然此处描述了定性图以说明观点,但请参考原论文中的图 5 查看视觉示例) 。*

为什么每个组件都很重要

研究人员进行了消融研究 (移除模型的部分以查看哪里会出问题) 。

表 2: 各个组件的影响…

  • 第 2 行: 使用局部 HN 损失保留了多模态性能 (高检索分数) ,但没有最大化组合性。
  • 第 3 行: 结合全局和局部 HN 损失提高了组合性,但损害了检索 (出现了权衡) 。
  • 第 6 行 (Ours) : 添加 SCR (焦点损失 + 标签平滑) 恢复了检索性能,同时保持了高组合性。这证实了校准局部架构同样重要。

结论

论文“Preserving Multi-Modal Capabilities of Pre-trained VLMs” (保留预训练 VLM 的多模态能力) 强调了 AI 发展中关键的成熟步骤。我们正在从“让模型工作”的阶段,迈向“让模型在不破坏现有功能的前提下精确工作”的阶段。

FSC-CLIP 证明了 局部硬负样本损失 允许模型看到全局向量错过的细粒度细节。同时, 选择性校准正则化 以细微差别处理学习过程,承认“负”样本并非总是 100% 错误的。

通过尊重多模态空间的微妙几何结构,FSC-CLIP 让我们得以鱼与熊掌兼得: 一个既能理解视觉场景语法,又能保持稳健、通用学习能力的 AI。随着 VLM 继续集成到机器人、搜索引擎和助手中,这种可靠的组合理解能力将变得至关重要。