图像描述 (Image captioning) ——即教计算机描述它们所看到的内容——传统上依赖于成对图像和文本的海量数据集。你给模型看一张猫的照片,提供文本“一只猫坐在垫子上”,然后重复数百万次。虽然这种方法很有效,但它昂贵且计算繁重。

但是,如果一个模型可以在训练期间从未看过图像就能学会描述图像呢?

这个概念被称为仅文本训练 (text-only training) , 它利用了语言模型中嵌入的丰富语义知识。然而,它面临着一个重大障碍: 模态鸿沟 (Modality Gap) 。 模型数学化表示文本数据的方式通常与表示图像数据的方式有根本不同。如果你在文本上训练但在图像上测试,模型通常会因为输入在嵌入空间中“看起来”不同而表现不佳。

在这篇文章中,我们将深入探讨由汉阳大学研究人员提出的 IFCap (Image-like Retrieval and Frequency-based Entity Filtering,类图检索与基于频率的实体过滤) ,这是一种新颖的框架。IFCap 引入了一种巧妙的方法,利用噪声注入和一种不依赖固定词汇表的统计方法来进行对象检测,从而弥合这一模态鸿沟。

核心问题: 模态鸿沟

要理解 IFCap,我们需要先了解它的运行环境。现代视觉语言模型如 CLIP (Contrastive Language-Image Pre-training) 将图像和文本投影到一个共享的向量空间中。理论上,狗的照片和文本“一只狗”的嵌入 (embedding) 应该是完全相同的。

实际上,它们只是接近,并非完全相同。它们占据了该空间中的不同区域。

当一个描述生成模型严格在文本数据上进行训练 (文本到文本) 时,它会优化其内部权重以处理文本嵌入。在推理 (测试) 期间,我们输入的是图像嵌入。由于分布上的细微不匹配——即模态鸿沟——模型的性能会下降。这就像训练一个翻译员阅读法语,却用克里奥尔方言测试他们;他们可能明白大意,但精确度却丢失了。

上图: 模态鸿沟导致训练和推理之间的脱节。下图: 实体检索方法的比较。

图 1 (上图) 所示,传统的文本到文本检索方法忽略了这一差距。黄色箭头代表训练流 (文本) ,而蓝色箭头代表推理流 (图像) 。它们指向不同的方向,导致结果不理想。

研究人员使用 t-SNE (一种可视化高维数据的技术) 明确地可视化了这一现象。

CLIP 嵌入特征的分布。注意文本检索 (黄色) 和图像数据 (紫色) 之间的差距。

图 2 中,请看黄色点 (文本到文本检索) 与紫色/橙色点 (图像和真实标注) 之间的分离。图上的这种物理距离代表了导致描述生成错误的模态鸿沟。

IFCap 解决方案

IFCap 提出了一个统一的框架来解决这个问题,方法是让训练数据“看起来”更像推理数据,并在测试期间提取更好的对象信息。

IFCap 架构概览。

该架构如 图 4 所示,包含三个主要创新点:

  1. 类图检索 (Image-like Retrieval, ILR) : 一种模拟图像特征的训练技术。
  2. 融合模块 (Fusion Module, FM) : 一种将输入特征与检索到的上下文相结合的机制。
  3. 基于频率的实体过滤 (Frequency-based Entity Filtering, EF) : 一种用于识别对象的稳健推理策略。

让我们逐步分解这些内容。

1. 类图检索 (Image-like Retrieval, ILR)

研究人员提出了一个简单的问题: 如果模型在测试期间会看到图像嵌入,为什么我们在训练期间不强迫文本嵌入看起来像图像嵌入呢?

他们通过噪声注入实现了这一点。在训练阶段,他们不使用输入文本的干净、完美的嵌入,而是向其中添加特定的高斯噪声。

\[ T _ { i } = { \mathcal { E } } _ { T } ( t _ { i } ) , T _ { i } ^ { \epsilon } = T _ { i } + \epsilon _ { r } . \]

这里,\(T_i\) 是文本嵌入。\(\epsilon_r\) 是从正态分布中采样的噪声。生成的 \(T_i^\epsilon\) 是一个“带噪声”的文本嵌入,它在统计上与图像嵌入的分布有更多的重叠。

当系统执行检索 (在数据库中查找相似的句子以帮助生成描述) 时,它使用的是这个带噪声的查询。这迫使模型变得鲁棒,能够应对稍后实际看到图像嵌入时会遇到的那种变化。

回到 图 2 , 看看标记为“Ours”的绿点。注意它们如何比标准文本检索方法更紧密地聚集在图像和真实标注分布周围。通过模拟图像数据的“不完美”,模型学会了如何处理它。

2. 融合模块

检索相似的句子很好,但仅仅把它们交给语言模型是不够的。模型需要权衡输入的重要性与检索到的上下文。

融合模块使用注意力机制来混合这些来源。它接收带噪声的输入文本特征 (\(T_e\)) 和检索到的描述特征 (\(R_e\)),并通过一个交叉注意力层对它们进行处理。

\[ \begin{array} { r } { \begin{array} { r l } & { T _ { e } = T _ { i } + \epsilon , ~ R _ { e } = \mathcal { E } _ { T } ( \mathrm { I L R } ( T _ { i } ) ) , } \\ & { F _ { e } = f _ { A t t } ( f _ { l _ { 1 } } ( T _ { e } ) , f _ { l _ { 2 } } ( R _ { e } ) ) , } \\ & { F = \mathrm { M a p } ( F _ { e } ; \theta _ { q } ) . } \end{array} } \end{array} \]

融合表示 \(F\) 有效地捕捉了输入和检索到的知识之间的交互。这个融合后的特征随后被输入到一个映射网络 (一个 Transformer) 中,以便为描述解码器 (GPT-2) 做好准备。

3. 基于频率的实体过滤 (EF)

这篇论文最直观的贡献可能是它如何在推理 (即模型实际描述图像时) 期间处理对象检测。

以前的方法 (如 ViECap) 使用分类器来猜测图像中有什么对象。然而,分类器受限于固定的词汇表。如果“avocado” (牛油果) 不在分类器的列表中,模型就永远不会明确地检测到它,可能会将其错误地标记为“fruit” (水果) 或“ball” (球) 。

IFCap 采用了一种不同的方法: 基于频率的实体过滤。

  1. 检索 (Retrieve) : 给定一张输入图像,系统从海量文本数据库中检索前 \(K\) 个最相似的句子。
  2. 解析 (Parse) : 提取这些检索到的句子中的所有名词。
  3. 计数 (Count) : 计算每个名词的频率。
  4. 过滤 (Filter) : 频繁出现的名词很可能存在于图像中。这些名词被选中以形成一个“硬提示 (hard prompt) ”。

例如,如果你为一张公园的照片检索了 10 个句子,其中 8 个包含单词“bench” (长椅) ,那么图像中几乎肯定有一张长椅,即使标准分类器错过了它。

实体精度的比较。绿色柱状图 (实体过滤) 显著优于标准分类器。

该方法的有效性在 图 3 中显而易见。绿色柱状图代表 IFCap 的实体过滤。在 COCO 数据集上,它达到了 86.1% 的精度 , 大幅超过 ViECap (蓝色) 甚至对象检测器 DETR (棕色) 。

这种方法创建了一个动态词汇表。如果检索到的句子包含生僻词,IFCap 也可以使用它们,从而使模型摆脱了固定对象列表的束缚。

自适应阈值

为了决定保留哪些名词,研究人员建议根据名词频率的统计分布使用自适应阈值:

\[ \tau _ { \mathrm { a d a p } } = \mu _ { F } + \sigma _ { F } . \]

通过将阈值 (\(\tau\)) 设置为平均频率加上一个标准差,系统可以动态地适应检索句子的置信度水平,只选择最显著的实体。

实验与结果

研究人员在 MS-COCO、Flickr30k 和 NoCaps 等标准基准上验证了 IFCap。结果表明,解决模态鸿沟能带来显著的提升。

域内性能

在 COCO 和 Flickr30k 数据集 (训练文本风格与测试风格匹配) 上,IFCap 在仅文本方法中取得了最先进的结果。

域内描述的结果。IFCap 在几乎所有指标上都领先。

表 1 中,你可以看到 IFCap (最后一行) 在 COCO 的 CIDEr 指标上得分 108.0 , 击败了之前最好成绩 (SynTIC) 的 101.1。在图像描述领域,这是一个巨大的优势。

跨域泛化

对描述生成模型的一个真正考验是它如何处理来自未见过域的图像。研究人员通过在 COCO 文本上训练但在 Flickr30k 图像上测试 (反之亦然) 来对此进行测试。

跨域描述的结果。

表 2 突出了 IFCap 强大的泛化能力。即使在训练期间没有看到图像,类图检索提供的对齐也使模型能够比 Knight 或 ViECap 等竞争对手更有效地适应新的视觉领域。

视频描述

值得注意的是,IFCap 也扩展到了视频。通过对视频帧的视觉特征进行平均,团队将相同的架构应用于 MSR-VTT 和 MSVD 数据集。

视频描述的结果。

表 4 所示,IFCap 树立了仅文本视频描述的新标准,证明了即使引入了时间动态,类图检索的原则仍然成立。

调整噪声

这项研究中一个有趣的方面是确定在训练期间究竟需要注入多少噪声。噪声太少,模态鸿沟依然存在;噪声太多,信号就会丢失。

噪声水平 sigma 的超参数搜索。

图 5 可视化了这一搜索过程。性能 (Y轴) 在噪声方差 (\(\sigma^2\)) 约为 0.04 时达到峰值。这个“最佳点”证实了需要特定量的扰动才能最佳地对齐文本和图像空间。

结论

IFCap 代表了零样本图像描述的一大步。通过承认并积极解决模态鸿沟 , 研究人员将仅文本训练的弱点转化为一个可管理的工程问题。

类图检索 (让文本看起来像图像) 和基于频率的实体过滤 (使用检索共识来查找对象) 的结合,使得模型能够在没有收集成对图像-文本数据的巨大成本的情况下,生成准确、详细的描述。

这项工作表明,在像 CLIP 这样的大型预训练模型时代,我们不仅可以通过构建更大的模型,还可以通过更好地对齐我们已有的表示来取得显著成果。对于多模态 AI 领域的学生和研究人员来说,IFCap 是一个完美的例子,展示了统计直觉和几何对齐如何解决深度学习问题。