简介
在人工智能飞速发展的今天,多模态大语言模型 (Multimodal Large Language Models, MLLMs) ——即能够同时理解文本和图像的模型——已成为新的前沿领域。这些模型的一个关键能力是 上下文学习 (In-Context Learning, ICL) 。 这指的是模型仅通过观察提示 (prompt) 中提供的几个示例,就能学会一项新任务的能力,且无需更新其权重 (即不需要微调) 。
例如,如果你想让 MLLM 为一张图片写一段有趣的说明文字,你可以先给它看三张带有有趣说明的图片示例。模型会“领会这个意图”,并将这种模式应用到你的新图片上。
但这里有一个价值连城的问题: 你应该选择哪些示例?
如果你选择随机示例,性能通常表现平平。为了解决这个问题,研究人员使用 检索器 (retrievers) ——一种旨在搜索数据集并找到最相关“记忆”以帮助模型的算法。然而,现有的多模态检索方法有一个明显的盲点: 它们严重偏向于视觉数据,往往忽略了与这些图像相关的文本信息。
在这篇文章中,我们将深入探讨一篇挑战这一现状的研究论文。我们将探索文本信息如何成为多模态检索中缺失的一环,并解析一种名为 MSIER (Multimodal Supervised In-context Examples Retrieval,多模态有监督上下文示例检索) 的新颖有监督方法。这种方法不仅寻找相似的图片,它还能学习预测哪些示例能真正帮助模型解决任务。
背景: 多模态 ICL 剖析
要理解这项创新,我们首先需要了解基准。当前的多模态上下文学习 (M-ICL) 是如何工作的?
在标准设置中,你有一个 查询 (Query) (你想让模型处理的测试图像) 和一个 记忆库 (Memory) (包含图像-文本对的训练数据集) 。目标是从记忆库中检索出几个项目来构建提示。

如 图 1 所示,该过程遵循一个流程:
- 查询输入: 系统接收一个输入,例如一张金毛寻回犬的照片。
- 检索器: 该组件扫描记忆库。在大多数先前的工作中 (如 RICES 方法) ,检索器仅查看视觉相似性。它可能会想: “这个查询是一只狗;让我找找其他看起来像这样的图片。”
- 提示构建: 检索到的示例 (例如一张鸟的照片) 与查询堆叠在一起。
- MLLM 推理: MLLM 处理这个序列以生成输出。
图 1 中展示的问题微妙但至关重要。检索器选择了一张鸟和一家餐馆的图片。虽然它们可能共享一些低级视觉特征,或者只是随机选择,但它们并不一定能教模型 如何 为这张狗的图片生成说明。
这篇论文背后的研究人员提出了一个基本假设: 既然 MLLM 处理的是视觉和语言,我们的检索系统难道不应该考虑示例的文本,而不仅仅是像素吗?
无监督探索: 文本重要吗?
在构建复杂的新系统之前,作者首先必须证明文本确实会产生影响。他们使用无监督检索 (即在不训练特定神经网络的情况下寻找相似示例) 进行了一项调查。
他们比较了两种设置:
- Q-I-M-I (Query-Image-Memory-Image) : 这是标准方法。系统计算查询图像与记忆库图像之间的余弦相似度。文本被忽略。
- Q-I-M-IT (Query-Image-Memory-Image+Text) : 在这里,系统基于图像 以及 与记忆库图像关联的说明文字来计算相似度。
结果立竿见影且引人注目。

图 3 显示了在图像描述任务上的性能 (由 CIDEr 分数衡量,越高越好) ,随着“样本数 (shots) ” (示例数量) 的增加而变化。包含文本的红线 (Q-I-M-IT) 始终优于蓝线 (Q-I-M-I) 。
这证实了直觉: 文本信息不仅仅是“额外”的元数据;它是选择高质量上下文示例的关键信号。
核心方法: MSIER
确定文本的重要性只是第一步。第二步是解决无监督检索的局限性。仅仅因为一张图片看起来相似,或者一段说明文字读起来相似,并不能保证它能帮助 MLLM 表现得更好。衡量好示例的最终标准是: 包含这个示例是否能降低模型在查询上的误差?
为了对此进行优化,作者引入了 MSIER (多模态有监督上下文示例检索) 。
概念: 学习如何检索
MSIER 是一种 有监督 的方法。这意味着它需要一个训练阶段,在这个阶段中,检索器模型有效地“学习”哪些示例是有帮助的,哪些是没有帮助的。
该方法分两个不同阶段运行: 评分 和 训练 。

第 1 阶段: 使用 MLLM 进行评分
请看 图 2 。 该过程始于“检索器”从训练数据中选择一组广泛的候选者 (Top-N) 。但我们要如何知道这 50 个左右的候选者中哪些是真正好的呢?
为了找出答案,研究人员使用 MLLM 本身作为裁判。
- 他们取一个训练实例 (例如,一张食物的图片) 。
- 他们将其与从记忆库中检索到的不同候选者配对。
- 他们让 MLLM 生成说明文字并测量 NLL 损失 (负对数似然,Negative Log-Likelihood) 。
如果一个候选示例使 MLLM 非常自信且准确 (低 NLL 损失) ,它就被标记为 正 (Positive) 样本。如果它导致混淆或结果不佳 (高 NLL 损失) ,它就被标记为 负 (Negative) 样本。
在图 2 中,具有高 CIDEr 分数 (107.41) 的示例是“正”配对,而分数较低 (81.71) 的则是“负”配对。
第 2 阶段: 对比学习
现在我们针对各种查询都有了一个标记为“好”和“坏”示例的数据集,我们可以训练检索器了。
目标是训练一个模型 (使用 CLIP 初始化) ,使得对于任何给定的查询,查询的向量表示接近“正”示例的向量表示,并远离“负”示例的向量表示。这是通过 对比学习 (Contrastive Learning) 实现的。
数学目标是最小化损失函数 \(\mathcal{L}\):

在这个公式中:
- \(x_q\) 是查询。
- \(e^+\) 代表正示例。
- \(e^-\) 代表负示例。
- 该函数试图最大化查询与正示例之间的相似度 (余弦) (分子) ,同时最小化与负示例的相似度 (分母) 。
文本在监督中的作用
作者不仅仅是盲目地应用监督;他们重申了关于文本的核心发现。他们尝试了不同的监督训练配置: 仅使用图像训练 vs. 使用图像和文本训练。

图 4 展示了这项消融研究。“T”代表训练设置,“E”代表评估设置。
- 绿色/紫色柱 (T: Q-I-M-I) : 检索器仅使用图像进行训练。
- 粉色/蓝色柱 (T: Q-I-M-IT) : 检索器使用图像和文本进行训练。
结果很明显: 右侧的柱子 (粉色/蓝色) ,即在训练过程中包含文本的情况,显著更高。这证明了 在有监督训练阶段结合文本可以创建一个更健壮的检索器。
实验与结果
研究人员在三个不同的多模态任务中验证了 MSIER:
- 图像描述 (MS COCO 数据集)
- 视觉问答 (OK-VQA)
- 仇恨模因分类 (检测模因中的仇恨言论)
定量性能
所提出的方法在所有方面都表现出色。例如,在图像描述任务中,仅使用 4-shot (4 个示例) 的 MSIER 达到了与使用 32-shot 的随机选择相当的性能。这是一个巨大的效率提升,使得 MLLM 能够用更短的提示 (节省计算成本和上下文窗口空间) 表现得更好。
下表 (论文中的表 9) 显示了 MS COCO 数据集上的具体比较,强调了使用 MSIER 作为检索器始终比使用标准 CLIP 检索 (MMICES-CLIP) 产生更高的分数。

定性分析
数字虽然很好,但“更好”的示例实际上看起来是什么样的呢?

图 6 展示了检索到的示例,非常有趣。
- 第 1 行 (RICES) : 基线视觉检索器看到一个网球运动员,检索到了……仅仅是一个普通的网球运动员。
- 第 2 行 (MUIER) : 带文本的无监督方法更接近一点,提到了网球场。
- 第 3 行 (MSIER) : 有监督方法检索到了一个语义密集的示例: “一个在网球场上拿着网球拍、球在空中的男人。”
通过检索那些共享深层语义结构而不仅仅是表面视觉相似性的示例,MSIER 帮助 MLLM 为查询生成了更精确和描述性的说明文字。
鲁棒性和可迁移性
对有监督方法的两个常见担忧是对顺序的敏感性和缺乏可迁移性。论文解决了这两个问题。
1. 示例的顺序重要吗? 在标准的大语言模型中,提示示例的顺序会彻底改变输出。令人惊讶的是, 图 5 显示对于 MSIER (绿色“Sup”线) ,无论排列顺序如何,性能都相对稳定。这表明当示例质量很高时,模型不太会被它们的排列所困扰。

2. 检索器能迁移到新数据集吗? 为每个数据集训练检索器是很昂贵的。作者测试了在 OK-VQA 上训练的检索器是否能在 MS COCO 上工作。

表 3 显示,虽然在目标数据集 (MS COCO) 上训练是最佳的,但在 OK-VQA 上训练的检索器 (最后一行) 在 MS COCO 上仍然表现出色,优于无监督基线。这表明 MSIER 学习了“什么构成好示例”的通用原则,这些原则可以跨越数据集边界。
3. 它能在模型尺寸之间迁移吗? 对于从业者来说也许最重要的是,作者发现使用较小的“评分”模型 (OpenFlamingo-3B) 训练的检索器对于较大的推理模型 (OpenFlamingo-9B) 也能完美工作。你不需要燃烧资源用你最大的模型进行评分来训练检索器。
遮蔽文本的影响
作为最后的验证性测试,研究人员问: “如果我们找到了完美的示例,但在提示中删除了它们的文本,会发生什么?”

表 7 显示了遮蔽的毁灭性影响。如果你从选定的示例中移除文本说明 (带有“w/ mask”的行) ,性能会崩溃 (例如,对于 MSIER,从 100.58 降至 77.62) 。这强化了核心论点: MLLM 严重依赖上下文示例中的文本部分来确立其理解。
结论
研究论文《文本信息如何影响多模态上下文学习的检索?》 (How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?) 为多模态 AI 领域提供了一次路线修正。它强调我们在检索阶段一直未能充分利用“视觉-语言”模型中的语言部分。
通过从仅视觉的无监督检索转向 文本感知的有监督检索 (MSIER) , 我们可以:
- 找到语义相关而不仅仅是视觉相似的示例。
- 用更少的示例实现更高的准确性。
- 创建在不同任务和模型尺寸间具有鲁棒性和可迁移性的检索器。
随着 MLLM 规模的不断扩大,高效的上下文利用将变得日益重要。MSIER 提供了一个蓝图,展示了如何为这些模型提供它们成功所需的准确信息。
](https://deep-paper.org/en/paper/2404.12866/images/cover.png)