简介
在大型视觉语言模型 (LVLM) 快速发展的世界中,人工智能观察图像并提出智能问题的能力与其回答问题的能力同样重要。我们依靠海量的“视觉问答” (VQA) 对数据集来训练这些模型。然而,存在一个瓶颈: 为图像创建高质量的多项选择题对人类来说是劳动密集型的,而当机器尝试这样做时,它们往往会陷入冗余的循环中。
想象一下给一个孩子看一张长颈鹿站在树旁的照片。如果你问: “照片里是谁?”,然后紧接着问: “照片里是什么动物?”,这并不会增加多少价值。你是在对图像的同一区域提问两次。然而,这正是包括 GPT-4o 在内的许多最先进模型倾向于做的事情。它们表现出“隧道视野”,反复关注最明显的主体,而忽略了背景、上下文或物体之间的关系。
今天,我们将深入探讨一篇研究论文,该论文针对这一问题提出了一个巧妙的解决方案。这篇题为 “Exploring Union and Intersection of Visual Regions for Generating Questions, Answers, and Distractors” (探索视觉区域的并集与交集以生成问题、答案和干扰项) 的论文,引入了一个名为 ReBo 的框架。
ReBo 迫使 AI “环顾四周”。它循环生成问题、答案和干扰项 (QADs),确保每一个新问题都关注图像的不同部分。通过在数学上优化视觉区域的 并集 (Union) (看全貌) 并最小化 交集 (Intersection) (避免冗余) ,ReBo 创建了更丰富、更多样化的训练数据。

如上图所示,GPT-4o 问了三个关于长颈鹿的变体问题,而 ReBo 智能地转移了视线——询问了关于长颈鹿、背景中的树木以及地面上的岩石。
在这篇文章中,我们将剖析 ReBo 的工作原理、其“视觉注意力”背后的数学原理,以及为什么这对 AI 训练的未来至关重要。
背景: 多项选择 VQA 的挑战
在解构解决方案之前,让我们先建立背景。多项选择视觉问答 (MC-VQA) 要求模型能够:
- 阅读图像。
- 理解自然语言问题。
- 从选项列表中选择正确答案。
- 忽略“干扰项” (旨在迷惑模型的错误选项) 。
为了让 AI 学会这一点,它需要训练数据——具体来说,是 QADs (问题、答案、干扰项) 集。
当前生成方法的问题
传统上,生成这些数据集是一个脱节的过程。有些算法先生成问题,然后尝试寻找答案。有些先生成答案,然后反推问题。干扰项通常是独立生成的,导致选项要么太容易猜到,要么毫无意义。
更重要的是,当机器为单张图像生成多个 QAD 时,它们缺乏 内在依赖性 。 模型不记得它两秒钟前问了什么。如果图像中最显著的物体是一辆红色汽车,模型可能会生成五个关于红色汽车的不同问题,完全忽略了行人、红绿灯或天气。
这种冗余限制了在这些数据上训练的 LVLM 的学习潜力。它们成为了识别图像“主角”的专家,但在全面的场景理解方面却很失败。
核心方法: ReBo
研究人员介绍了 ReBo (Recurrent Bounding box,循环边界框),这是一个旨在统一生成问题、答案和干扰项,同时强制视觉多样性的框架。
在高层次上,ReBo 基于两个主要原则工作:
- 循环性 (Recurrence): 它记得它已经问过什么。
- 区域评分 (Region Scoring): 它显式计算图像的哪些部分已被覆盖,并惩罚重叠的注意力。
1. 架构
ReBo 的架构建立在许多语言模型使用的标准编码器-解码器结构之上,但有一个关键的转折。

如架构图所示,该系统由三部分组成:
- 图像编码器 (冻结的): 这从原始图像中提取视觉特征。研究人员使用的是标准的 Vision Transformer (ViT)。
- LLM 解码器 (冻结的): 这是语言大脑 (基于 FlanT5-XL) ,负责实际编写问题和答案的文本。
- 循环多模态编码器 (可训练的): 这是“管理者”,也是论文的核心创新之处。
过程是循环的。为了生成 \(n\) 组 QAD:
- 步骤 1: 编码器查看图像和提示词 (Prefix) 以生成第一个 QAD。
- 步骤 2: 编码器查看图像、前缀 以及 步骤 1 中生成的 QAD。
- 步骤 3: 编码器查看图像、前缀以及步骤 1 和 2 中的 QAD。
通过将之前的输出反馈到输入中,模型受到其自身历史的调节。它“知道”已经讨论过什么。
2. 利用并集和交集实现多样化
仅有循环性是不够的。模型实际上需要一张图像地图,以了解它已经检查了哪些物理区域。研究人员通过将每个 QAD 与一个 边界框 (Bounding Box) 相关联来实现这一点——即图像中问题所涉及的矩形区域。
目标是选择一组边界框组合,最大化图像的覆盖范围 (并集),同时最小化框之间的重叠 (交集)。
定义组合
假设我们要生成 \(n\) 个 QAD。每个 QAD 对应一个特定区域 \(R\)。模型会探索区域所有可能组合的集合。

这里,\(C\) 代表所有可能的边界框组合的集合。如果图像中有许多潜在物体,组合的数量可能会很大 (\(n^n\)),因此高效的评分至关重要。
惩罚项: 交并比 (IoU)
为了防止模型盯着同一个点 (如长颈鹿的例子) ,我们计算一组框的交并比。

在这个方程中,我们将区域对之间的交集加总。在这种情况下, 高 IoU 分数 是不好的——这意味着框堆叠在一起,提供了冗余信息。我们需要这个值很低。
奖励项: 全图并集比 (UoT)
相反,我们希望问题能够探索图像的“四个角落”。我们将全图并集比 (UoT) 定义为所有选定边界框的组合面积与图像总面积 (\(H \times W\)) 的比率。

高 UoT 分数 是好的。这意味着总体而言,生成的问题覆盖了图像像素的很大一部分。
评分函数
研究人员将这两个指标结合成一个单一的评分向量 \(s\)。这个分数充当视觉多样性的指南或“真实标签”。

公式简单而优雅: \(s_k = \frac{UoT_k}{IoU_k}\)。
- 如果覆盖率高 (分子大) 且重叠率低 (分母小) ,分数就会非常高。
- 如果覆盖率低或重叠率高,分数就会下降。
3. 训练模型
神经网络如何学习优化这个数学分数?它将多样性分数视为目标分布。
首先,模型预测 QAD 的嵌入 (向量表示) 。它使用余弦相似度将这些预测的嵌入 (\(e_i\)) 与真实嵌入 (\(e_j^*\)) 进行比较。

这种相似度告诉我们生成的问题与特定基于区域的主题相匹配的可能性有多大。利用这些相似度,模型计算选择特定边界框组合的概率 \(p\)。

最后,损失函数 (模型在训练期间试图最小化的指标) 结合了两个目标:
- 语言建模损失 (\(LM\)): 文本在语法上是否正确且合理?
- 多样性损失 (\(H(s,p)\)): 区域的概率分布是否匹配之前计算的最佳多样性分数?

通过最小化这个交叉熵项 \(H(s,p)\),ReBo 学会了倾向于生成能产生高并集和低交集的 QAD 序列。
实验与结果
研究人员主要在 Visual7W 数据集上评估了 ReBo,这是一个基于图像的视觉问答标准基准。他们将 ReBo 与一系列重量级模型进行了比较,包括 LLM (Llama-2, Llama-3, ChatGPT) 和视觉语言模型 (BLIP, VisualBERT, Qwen-VL) 。
定量表现
结果令人印象深刻。在 BLEU (n-gram 精度) 、ROUGE (召回率) 和 CIDEr (基于共识的图像描述) 等标准文本生成指标上,ReBo 始终优于基线。

如表 1 所示,ReBo 达到了 48.28 的 CIDEr 分数 , 明显高于最接近的竞争对手 Qwen-VL (34.45) 和像 Llama-3 (23.09) 这样的大型模型。这表明 ReBo 生成的 QAD 不仅更多样化,而且与经过人工验证的参考更加一致。
消融实验: 组件重要吗?
这也引出了一个问题: 改进是来自循环结构,还是花哨的边界框数学计算?研究人员进行了消融研究,移除了边界框组合评分 (BBCS) 和循环多模态编码器 (RME)。

上图 (图 3) 中的条形图显示,当移除这些组件时,性能明显下降 (黑色条柱 vs 紫色条柱) 。这证实了循环生成和几何引导 (并集/交集) 对于峰值性能都是必不可少的。
人工评估
像 BLEU 这样的指标只能说明部分问题。研究人员还招募了人工标注员对 QAD 的质量、交集 (越低越好,但此处评分为分数,越高代表交集越少/越好) 和并集 (覆盖率) 进行评分。
查看上图中的表 4,ReBo 在以下方面得分最高:
- 质量 (Quality): 4.07 (对比 BLIP2 的 3.68)
- 交集 (Intersection): 3.70 (表明冗余更少)
- 并集 (Union): 4.02 (表明更好的图像覆盖)
ReBo 能帮助训练其他模型吗? (数据增强)
像 ReBo 这样的生成器最有价值的应用之一是创建合成数据来训练其他模型。研究人员使用 ReBo 基于 Visual7W 图像生成了海量合成 QAD 数据集。然后,他们使用这些增强数据训练了一个标准的 VQA 模型 (InstructBLIP),并在一个完全不同的数据集 (A-OKVQA) 上进行了测试。

表 3 显示,添加 ReBo 生成的数据 (“Raw+ReBo”) 导致了最高的准确率 (平均 41.80%) ,相比之下,使用 Llama-3 或 Qwen-VL 生成的数据效果较差。这证明了 ReBo 问题的多样性实际上有助于下游模型学习更好的通用推理技能。
定性案例研究
让我们看一个具体的例子来了解质量上的差异。

在这个滑雪的例子中:
- GPT-4o 问“图像中是谁?”,但提供了“单板滑雪者”作为“滑雪者”的干扰项。在视觉上,这可能很难区分,使得干扰项可能“太”好了或具有误导性。
- ReBo (无优化) 产生了一个错误,将夹克颜色识别为“黄色”,而它明显是绿色的。
- ReBo (完整模型) 生成了三个独特的 QAD:
- 谁在滑雪? (关注人物)
- 滑雪者在哪里? (关注雪地)
- 背景中是什么? (关注树木)
完整的 ReBo 模型成功地将图像的不同语义层 (行动者、环境、背景) 分离成独立的、有效的问题。
结论与启示
“ReBo” 框架代表了我们在思考机器视觉和自动问题生成方面迈出的重要一步。通过摆脱独立生成并转向 整体的、循环的方法 , 作者解决了一个关键的冗余问题。
主要收获如下:
- 上下文很重要: 当你知道你已经问过什么时,生成的问题会更好。
- 几何引导语义: 使用简单的几何属性 (如边界框的并集和交集) 是语义多样性的强大代理。
- 更好的老师造就更好的学生: 使用 ReBo 生成训练数据比使用标准大型语言模型的数据能创建出更聪明的 VQA 模型。
对于该领域的学生和研究人员来说,ReBo 提醒我们,如果没有正确的逻辑约束,“更大”的模型 (如 GPT-4) 并不总是在特定任务上表现更好。有时,你需要明确地通过编程让 AI 拓宽视野,观察全貌。
](https://deep-paper.org/en/paper/file-3063/images/cover.png)