简介

在人工智能飞速发展的今天，多模态大语言模型 (Multimodal Large Language Models, MLLMs) ——即能够同时理解文本和图像的模型——已成为新的前沿领域。这些模型的一个关键能力是 上下文学习 (In-Context Learning, ICL) 。这指的是模型仅通过观察提示 (prompt) 中提供的几个示例，就能学会一项新任务的能力，且无需更新其权重 (即不需要微调) 。

例如，如果你想让 MLLM 为一张图片写一段有趣的说明文字，你可以先给它看三张带有有趣说明的图片示例。模型会“领会这个意图”，并将这种模式应用到你的新图片上。

但这里有一个价值连城的问题: 你应该选择哪些示例?

如果你选择随机示例，性能通常表现平平。为了解决这个问题，研究人员使用 检索器 (retrievers) ——一种旨在搜索数据集并找到最相关“记忆”以帮助模型的算法。然而，现有的多模态检索方法有一个明显的盲点: 它们严重偏向于视觉数据，往往忽略了与这些图像相关的文本信息。

在这篇文章中，我们将深入探讨一篇挑战这一现状的研究论文。我们将探索文本信息如何成为多模态检索中缺失的一环，并解析一种名为 MSIER (Multimodal Supervised In-context Examples Retrieval，多模态有监督上下文示例检索) 的新颖有监督方法。这种方法不仅寻找相似的图片，它还能学习预测哪些示例能真正帮助模型解决任务。

背景: 多模态 ICL 剖析

要理解这项创新，我们首先需要了解基准。当前的多模态上下文学习 (M-ICL) 是如何工作的？

在标准设置中，你有一个 查询 (Query) (你想让模型处理的测试图像) 和一个 记忆库 (Memory) (包含图像-文本对的训练数据集) 。目标是从记忆库中检索出几个项目来构建提示。

图 1: 多模态上下文示例检索概述。

如 图 1 所示，该过程遵循一个流程:

查询输入: 系统接收一个输入，例如一张金毛寻回犬的照片。
检索器: 该组件扫描记忆库。在大多数先前的工作中 (如 RICES 方法) ，检索器仅查看视觉相似性。它可能会想: “这个查询是一只狗；让我找找其他看起来像这样的图片。”
提示构建: 检索到的示例 (例如一张鸟的照片) 与查询堆叠在一起。
MLLM 推理: MLLM 处理这个序列以生成输出。

图 1 中展示的问题微妙但至关重要。检索器选择了一张鸟和一家餐馆的图片。虽然它们可能共享一些低级视觉特征，或者只是随机选择，但它们并不一定能教模型如何为这张狗的图片生成说明。

这篇论文背后的研究人员提出了一个基本假设: 既然 MLLM 处理的是视觉和语言，我们的检索系统难道不应该考虑示例的文本，而不仅仅是像素吗?

无监督探索: 文本重要吗？

在构建复杂的新系统之前，作者首先必须证明文本确实会产生影响。他们使用无监督检索 (即在不训练特定神经网络的情况下寻找相似示例) 进行了一项调查。

他们比较了两种设置:

Q-I-M-I (Query-Image-Memory-Image) : 这是标准方法。系统计算查询图像与记忆库图像之间的余弦相似度。文本被忽略。
Q-I-M-IT (Query-Image-Memory-Image+Text) : 在这里，系统基于图像以及与记忆库图像关联的说明文字来计算相似度。

结果立竿见影且引人注目。

图 3: 仅图像 vs. 图像+文本检索性能的比较。

图 3 显示了在图像描述任务上的性能 (由 CIDEr 分数衡量，越高越好) ，随着“样本数 (shots) ” (示例数量) 的增加而变化。包含文本的红线 (Q-I-M-IT) 始终优于蓝线 (Q-I-M-I) 。

这证实了直觉: 文本信息不仅仅是“额外”的元数据；它是选择高质量上下文示例的关键信号。

核心方法: MSIER

确定文本的重要性只是第一步。第二步是解决无监督检索的局限性。仅仅因为一张图片看起来相似，或者一段说明文字读起来相似，并不能保证它能帮助 MLLM 表现得更好。衡量好示例的最终标准是: 包含这个示例是否能降低模型在查询上的误差?

为了对此进行优化，作者引入了 MSIER (多模态有监督上下文示例检索) 。

概念: 学习如何检索

MSIER 是一种 有监督 的方法。这意味着它需要一个训练阶段，在这个阶段中，检索器模型有效地“学习”哪些示例是有帮助的，哪些是没有帮助的。

该方法分两个不同阶段运行: 评分和训练。

图 2: MSIER 方法概述。

第 1 阶段: 使用 MLLM 进行评分

请看 图 2 。该过程始于“检索器”从训练数据中选择一组广泛的候选者 (Top-N) 。但我们要如何知道这 50 个左右的候选者中哪些是真正好的呢？

为了找出答案，研究人员使用 MLLM 本身作为裁判。

他们取一个训练实例 (例如，一张食物的图片) 。
他们将其与从记忆库中检索到的不同候选者配对。
他们让 MLLM 生成说明文字并测量 NLL 损失 (负对数似然，Negative Log-Likelihood) 。

如果一个候选示例使 MLLM 非常自信且准确 (低 NLL 损失) ，它就被标记为 正 (Positive) 样本。如果它导致混淆或结果不佳 (高 NLL 损失) ，它就被标记为 负 (Negative) 样本。

在图 2 中，具有高 CIDEr 分数 (107.41) 的示例是“正”配对，而分数较低 (81.71) 的则是“负”配对。

第 2 阶段: 对比学习

现在我们针对各种查询都有了一个标记为“好”和“坏”示例的数据集，我们可以训练检索器了。

目标是训练一个模型 (使用 CLIP 初始化) ，使得对于任何给定的查询，查询的向量表示接近“正”示例的向量表示，并远离“负”示例的向量表示。这是通过 对比学习 (Contrastive Learning) 实现的。

数学目标是最小化损失函数 \(\mathcal{L}\):

公式 2: 对比损失函数。

在这个公式中:

\(x_q\) 是查询。
\(e^+\) 代表正示例。
\(e^-\) 代表负示例。
该函数试图最大化查询与正示例之间的相似度 (余弦) (分子) ，同时最小化与负示例的相似度 (分母) 。

文本在监督中的作用

作者不仅仅是盲目地应用监督；他们重申了关于文本的核心发现。他们尝试了不同的监督训练配置: 仅使用图像训练 vs. 使用图像和文本训练。

图 4: 文本对所提出的 MSIER 方法的影响。

图 4 展示了这项消融研究。“T”代表训练设置，“E”代表评估设置。

绿色/紫色柱 (T: Q-I-M-I) : 检索器仅使用图像进行训练。
粉色/蓝色柱 (T: Q-I-M-IT) : 检索器使用图像和文本进行训练。

结果很明显: 右侧的柱子 (粉色/蓝色) ，即在训练过程中包含文本的情况，显著更高。这证明了 在有监督训练阶段结合文本可以创建一个更健壮的检索器。

实验与结果

研究人员在三个不同的多模态任务中验证了 MSIER:

图像描述 (MS COCO 数据集)
视觉问答 (OK-VQA)
仇恨模因分类 (检测模因中的仇恨言论)

定量性能

所提出的方法在所有方面都表现出色。例如，在图像描述任务中，仅使用 4-shot (4 个示例) 的 MSIER 达到了与使用 32-shot 的随机选择相当的性能。这是一个巨大的效率提升，使得 MLLM 能够用更短的提示 (节省计算成本和上下文窗口空间) 表现得更好。

下表 (论文中的表 9) 显示了 MS COCO 数据集上的具体比较，强调了使用 MSIER 作为检索器始终比使用标准 CLIP 检索 (MMICES-CLIP) 产生更高的分数。

表 9: M-ICL 性能比较。

定性分析

数字虽然很好，但“更好”的示例实际上看起来是什么样的呢？

图 6: 不同方法检索到的多模态上下文示例。

图 6 展示了检索到的示例，非常有趣。

第 1 行 (RICES) : 基线视觉检索器看到一个网球运动员，检索到了……仅仅是一个普通的网球运动员。
第 2 行 (MUIER) : 带文本的无监督方法更接近一点，提到了网球场。
第 3 行 (MSIER) : 有监督方法检索到了一个语义密集的示例: “一个在网球场上拿着网球拍、球在空中的男人。”

通过检索那些共享深层语义结构而不仅仅是表面视觉相似性的示例，MSIER 帮助 MLLM 为查询生成了更精确和描述性的说明文字。

鲁棒性和可迁移性

对有监督方法的两个常见担忧是对顺序的敏感性和缺乏可迁移性。论文解决了这两个问题。

1. 示例的顺序重要吗? 在标准的大语言模型中，提示示例的顺序会彻底改变输出。令人惊讶的是, 图 5 显示对于 MSIER (绿色“Sup”线) ，无论排列顺序如何，性能都相对稳定。这表明当示例质量很高时，模型不太会被它们的排列所困扰。

图 5: 检索到的多模态上下文示例顺序的影响。

2. 检索器能迁移到新数据集吗? 为每个数据集训练检索器是很昂贵的。作者测试了在 OK-VQA 上训练的检索器是否能在 MS COCO 上工作。

表 3: MSIER 的可迁移性。

表 3 显示，虽然在目标数据集 (MS COCO) 上训练是最佳的，但在 OK-VQA 上训练的检索器 (最后一行) 在 MS COCO 上仍然表现出色，优于无监督基线。这表明 MSIER 学习了“什么构成好示例”的通用原则，这些原则可以跨越数据集边界。

3. 它能在模型尺寸之间迁移吗? 对于从业者来说也许最重要的是，作者发现使用较小的“评分”模型 (OpenFlamingo-3B) 训练的检索器对于较大的推理模型 (OpenFlamingo-9B) 也能完美工作。你不需要燃烧资源用你最大的模型进行评分来训练检索器。

遮蔽文本的影响

作为最后的验证性测试，研究人员问: “如果我们找到了完美的示例，但在提示中删除了它们的文本，会发生什么？”

表 7: 遮蔽文本的影响。

表 7 显示了遮蔽的毁灭性影响。如果你从选定的示例中移除文本说明 (带有“w/ mask”的行) ，性能会崩溃 (例如，对于 MSIER，从 100.58 降至 77.62) 。这强化了核心论点: MLLM 严重依赖上下文示例中的文本部分来确立其理解。

结论

研究论文《文本信息如何影响多模态上下文学习的检索？》 (How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning?) 为多模态 AI 领域提供了一次路线修正。它强调我们在检索阶段一直未能充分利用“视觉-语言”模型中的语言部分。

通过从仅视觉的无监督检索转向 文本感知的有监督检索 (MSIER) , 我们可以:

找到语义相关而不仅仅是视觉相似的示例。
用更少的示例实现更高的准确性。
创建在不同任务和模型尺寸间具有鲁棒性和可迁移性的检索器。

随着 MLLM 规模的不断扩大，高效的上下文利用将变得日益重要。MSIER 提供了一个蓝图，展示了如何为这些模型提供它们成功所需的准确信息。

简介#

背景: 多模态 ICL 剖析#

无监督探索: 文本重要吗？#

核心方法: MSIER#

概念: 学习如何检索#

第 1 阶段: 使用 MLLM 进行评分#

第 2 阶段: 对比学习#

文本在监督中的作用#

实验与结果#

定量性能#

定性分析#

鲁棒性和可迁移性#

遮蔽文本的影响#

结论#

简介