近年来,人工智能经历了一场视觉革命。像 CLIP 和 SigLIP 这样的模型可以查看照片并立即对其进行分类,以超人的准确度区分“金毛寻回犬”和“拉布拉多犬”。它们通过零样本学习 (Zero-Shot Learning) 来实现这一点,这意味着它们可以识别未经过显式训练的类别,前提是它们在互联网海量预训练期间见过类似的概念。

但这其中有个问题。这些模型依赖于丰富的数据。它们擅长识别网络上频繁出现的事物——狗、汽车、日落和名人。但是,当我们要求它们识别特定类型的稀有植物、复杂的电子电路图或特定的皮肤病变时会发生什么?

这些是低资源领域 。 在这些利基 (小众) 领域,通用视觉语言模型 (VLM) 通常会失败,因为它们在预训练期间根本没有见过足够的示例。

标准解决方案通常是“更多训练”。工程师可能会微调模型或使用生成式 AI (如 Stable Diffusion) 来创建合成训练数据。然而,微调需要专业知识和可能并不存在的数据,而合成数据往往是凭空捏造的或在物理上是不正确的。

在这篇文章中,我们将深入探讨一篇研究论文,它提出了一种巧妙的、无需训练的替代方案: CoRE (检索增强组合,Combination of Retrieval Enrichment) 。 研究人员没有强迫模型学习新的权重,而是提出这样一个问题: 如果我们只是让模型从数据库中“查找”它所需的上下文会怎样?

问题所在: 当通用知识不足时

为了理解为什么 CoRE 是必要的,我们需要先看看当前视觉语言模型 (VLM) 的局限性。

VLM 的工作原理是将图像和文本映射到一个共享的“嵌入空间”中。理想情况下,一张电路放大器的照片和文本“放大器的电路图”在这个数学空间中应该紧挨着。

然而,在低资源领域,模型的内部表示很弱。它可能大致知道“电路”是什么,但很难区分放大器LED 驱动器,因为这些特定概念在预训练期间被数以亿计的猫和咖啡的照片淹没了。

合成数据的陷阱

最近解决这个问题的流行方法是生成合成数据。如果你只有 5 张某种罕见疾病的照片,你可能会要求图像生成器再制作 100 张,然后在这些照片上训练你的分类器。

论文强调了这种方法的一个主要缺陷。当你为稀有领域生成合成数据时,生成器通常也不“懂”该主题的物理学或生物学原理。

表 7: 来自 (Zhang et al.,2024) 基线的合成图像。我们展示了原始样本、“正向”增强和“负向”增强。

如上图所示,合成增强可能会出错。“正向”列显示的增强与原始图像太相似 (没有增加新信息) ,而“负向”列显示的增强打破了领域规则——创造了无法工作的电路或不存在的生物特征。这种噪声混淆了分类器,而不是帮助它。

解决方案: CoRE (检索增强组合)

研究人员提出了 CoRE , 这是一种在不生成伪造图像或重新训练模型的情况下提高分类准确性的方法。

直觉很简单: 如果你 (作为一个人类) 被要求识别一个罕见的发动机部件,而你不知道它是什么,你不会胡编乱造一个答案。你会去数据库中搜索相似的图像或描述以获取上下文。

CoRE 正是这样做的。它使用了一种检索增强 (Retrieval-Augmented) 策略。它通过从海量外部数据库 (如 CC12M 或 COYO-700M) 中检索相关的现实世界标题,来丰富查询图像 (我们想要分类的图片) 和类原型 (我们从中选择的文本标签) 的数学表示。

图 1: 我们基于检索的解决方案用包含领域和类别的现实世界标题丰富了图像和文本描述。即使标题是通用的 (每个示例的第三行) ,它们仍然可以将焦点限制在正确的领域。

如图 1 所示,即使模型不知道确切的类别,检索像“控制 LED 模式的电子设备”这样的标题也有助于将模型引向正确的领域 (电路) ,并避开不相关的概念。

CoRE 如何工作: 深度解析

CoRE 的架构是对称的。它在两个方面执行检索: 文本侧 (类丰富) 和图像侧 (查询丰富) 。让我们看看完整的架构:

图 2: 我们的 CoRE 利用从大规模网络抓取数据库 D 中检索到的标题丰富了图像嵌入 z_q 和类提示 p。我们根据检索到的标题 T 的相似度得分 S^T 对其进行加权,并使用可控温度 tau_i2t 和 tau_t2t 对其进行偏斜处理。通过参数 alpha 和 beta 将检索到的标题嵌入与原始表示 W 和 q 相结合,我们获得了丰富的表示 W^+ 和 z_q^+,用于零样本分类。

让我们分解每个分支的数学原理和逻辑。

第一部分: 类表示丰富

在标准的零样本分类中,我们要取一个类名 (例如“放大器”) 并将其包装在一个提示中 (例如“放大器的照片”) 。我们将此文本编码为向量 \(W\)。在低资源领域,这个向量 \(W\) 通常过于通用。

CoRE 通过寻找相关上下文来丰富它:

  1. 提示 (Prompting) : 系统为类别 \(c_n\) 生成提示 (例如,“放大器的电路图”) 。
  2. 检索 (Retrieval) : 它使用大型语言模型 (LLM) 编码器在海量数据库 \(\mathbb{D}\) 中搜索 \(k\) 个最相似的标题。
  3. 加权 (Weighting) : 并非所有检索到的标题都同样有用。系统根据相似度得分 \(S^T\) 为每个检索到的标题计算权重 \(\sigma_n^T\)。它使用带有温度参数 \(\tau_{t2t}\) 的“softmax”函数来控制这种加权的锐度:

文本检索的 softmax 加权方程

如果 \(\tau_{t2t}\) 较低,模型只关注最匹配的项。如果较高,它会考虑更广泛的标题。

  1. 丰富 (Enrichment) : 检索到的标题被编码并组合成单个“检索上下文”向量 \(W^T\)。最后,使用平衡参数 \(\alpha\) 将此上下文与原始类原型 \(W\) 合并:

混合原始类权重与检索文本权重的方程

在这里,\(W^+\) 是新的、增强后的类表示。它包含原始类名加上在数据库中找到的所有丰富上下文。

第二部分: 图像查询丰富

对于我们要分类的图像,过程是镜像的。标准模型只是将图像编码为向量 \(z_q\)。CoRE 问道: 通常有哪些文本标题与看起来像这样的图像相关联?

  1. 视觉编码 (Visual Encoding) : 查询图像 \(q\) 被编码为向量 \(z_q\)。
  2. 图生文检索 (Image-to-Text Retrieval) : 系统在数据库中搜索在视觉上与查询图像相似的标题。
  3. 加权 (Weighting) : 与文本侧类似,检索到的标题根据其相似度得分进行加权,由温度 \(\tau_{i2t}\) 控制:

图生文检索的 softmax 加权方程

  1. 丰富 (Enrichment) : 这些检索到的标题形成上下文向量 \(z^T\)。这使用平衡参数 \(\beta\) 与原始图像嵌入合并:

混合原始图像嵌入与检索标题嵌入的方程

现在,\(z_q^+\) 是图像的丰富表示。它不再仅仅是像素数据;它是被外部世界中发现的描述性文本所支持的像素数据。

第三部分: 最终预测

随着双方都得到丰富,分类变成了一个简单的比较。模型计算丰富后的图像 \(z_q^+\) 与所有丰富后的类原型 \(W^+\) 之间的相似度。

预测的类别 \(\hat{c}\) 是使该相似度最大化的类别:

使用丰富向量进行最终分类的方程

这种方法之所以优雅,是因为它是无需训练的 。 参数 \(\alpha\) (alpha) 和 \(\beta\) (beta) 是超参数,而不是学习到的权重。你不需要反向传播、不需要用于训练的 GPU,也不需要稀有数据的训练集拆分。你只需要一个数据库和一个预训练的 VLM。

实验与结果

作者在三个不同的低资源数据集上验证了 CoRE:

  1. Circuits (电路) : 1,332 张电子图表图像 (32 类) 。
  2. iNaturalist 2021 (LT100): 稀有动植物 (100 类) 。
  3. HAM10000: 皮肤病变的皮肤镜医学图像 (7 类) 。

他们将 CoRE 与 CLIPSigLIPImageBind 等顶级模型以及使用合成数据生成 (微调) 的最先进方法进行了比较。

关键发现

结果全面令人印象深刻。CoRE 始终优于标准的零样本基线,更重要的是,在大多数情况下优于复杂的微调方法。

  • 击败微调: 在 Circuits 数据集上,CoRE 实现了 43.88% 的 top-1 准确率 (使用 COYO-700M) ,以巨大优势击败了微调后的 ImageBind 模型 (24.10%) 和微调后的 SigLIP (19.53%) 。
  • 医学影像: 在 HAM10000 上,CoRE 实现了 62.21% 的准确率,这是 CLIP 等标准零样本模型 (大约 7-8%) 的两到三倍,并且显著优于微调后的 ImageBind (31.60%) 。

为什么微调会失败?在这些“稀有”领域,训练数据非常稀缺 (有时只有 5 个样本或更少) ,导致模型迅速过拟合或从合成数据中学习噪声。另一方面,检索引入了强大的外部知识,而没有过拟合的风险。

调节旋钮: Alpha 和 Beta

分析的一个有趣部分是了解究竟需要多少“丰富”。参数 \(\alpha\) 和 \(\beta\) 控制原始模型知识和检索知识之间的混合比例。

图 3: CoRE CC12M 在不同 alpha 和 beta 下在 Circuits 上的 Top-1 准确率。CoRE 在图像检索标题的平衡合并 (beta ~ 0.5) 下实现了最佳性能,而对于类相关标题,最佳权重略低 (alpha ~ 0.2)

上面的热图说明了 Circuits 数据集准确率的“最佳击球点”。

  • \(\beta \approx 0.5\): 对于图像侧,原始图像信号和检索文本信号的平衡混合 (50/50) 效果最好。检索到的文本提供了像素本身缺乏的重要上下文。
  • \(\alpha \approx 0.2\): 对于类侧,原始类名仍然是最重要的特征。检索到的上下文有帮助,但不应压倒特定的类标签。

提示工程很重要

作者还发现, 如何请求数据很重要。当为零样本权重检索数据时,特异性是关键。

表 5: 我们的 CoRE CC12M 在不同提示策略下的准确率,用于零样本权重和文本到文本检索。对零样本使用特定领域的具体前缀,对检索使用通用的前缀,通常会在所有基准测试中带来更好的结果。

如表 5 所示,对零样本权重使用特定领域的提示 (如“A circuit diagram of…”,即“…的电路图”) ,并结合通用的提示进行检索,产生了最好的结果。这凸显出虽然检索拓宽了上下文,但分类器仍然需要知道它具体在哪个“领域”运行才能做出最终决定。

结论

CoRE 论文为应用于图像分类的检索增强生成 (RAG) 提供了令人信服的论据。在大规模基础模型的时代,我们经常假设“越大越好”或“更多训练就是解决方案”。

然而,对于低资源领域——即稀有植物、特定电子元件和独特医疗条件存在的长尾分布区域——训练往往不是一种选择。CoRE 证明了我们可以通过简单地将模型连接到外部知识数据库来弥合这一差距。

通过利用检索到的现实世界上下文丰富图像和类标签,CoRE 将一个困惑的 VLM 变成了一个领域专家,而无需更新任何模型参数。这对于效率、准确性以及利基领域 AI 的普及来说是一场胜利。