想象一下,你正看着一张山脉的照片。
如果你是在旅游博客上看到这张图片,你可能会问: “这是在哪里?”或者“爬这座山难吗?”
然而,如果你是在一本科学杂志上看到完全相同的图片,你的问题可能会变成: “这是一个火山群吗?”或者“这些山峰是如何形成的?”
这个简单的思想实验突显了人类交流的一个基本方面: 我们的问题很少是凭空产生的。它们受到我们的目标、我们所处的环境以及我们已有信息的影响。
然而,多年来,视觉问答 (VQA) 领域——即训练 AI 模型回答有关图像的问题——在很大程度上忽略了这一现实。传统的数据集将图像和问题孤立地呈现,把这项任务视为物体识别测试,而不是一种交流行为。
在这篇文章中,我们将探讨 CommVQA , 这是一篇挑战现状的研究论文,它引入了一个新的数据集和基准测试框架。这项工作提出,要构建真正有用的 AI 助手,特别是在无障碍领域,我们必须将 VQA 置于现实的交流语境中。
“真空”状态下 VQA 的问题
要理解为什么需要 CommVQA,我们首先需要看看 VQA 模型通常是如何训练的。在标准数据集中,标注者看到一张图片,并被要求写一个问题来“难倒智能机器人”。这种对抗性的方法导致问题往往是用来验证视觉内容的 (例如,“这只狗是黑色的还是白色的?”) ,而不是基于用户需求去寻求新信息。
这种脱节对于无障碍应用来说尤其成问题。盲人和低视力 (BLV) 用户依靠 VQA 工具来理解他们看不见的图像。在现实场景中,BLV 用户并不是试图测试 AI;他们通常有一些背景信息 (比如他们正在浏览的网站或简短的替代文本描述) ,并且有一个特定的目标 (比如购买礼物或阅读新闻) 。
CommVQA 的研究人员认为,当前的数据集缺乏两个核心的交流驱动力:
- 信息需求: 用户的目标会根据场景 (例如,购物 vs. 社交媒体) 而变化。
- 先验知识: 用户通常拥有一些信息 (如图片说明) ,并基于此提出后续问题。
介绍 CommVQA
为了解决这些局限性,研究人员推出了 CommVQA,这是一个旨在将 VQA 视为交流任务的数据集。该数据集包含 1000 张图像,但与以往的集合不同,这些图像深深嵌入在语境之中。
数据集包括:
- 来源于维基百科的 图像 。
- 图像出现的 场景 (例如,健康网站) 。
- 描述 (模拟替代文本) 。
- 具有语境意识的问题 和 答案 。
数据集是如何构建的
CommVQA 的构建是一个多步骤的流程,旨在模拟真实世界的信息差。

如上图 1 所示,该过程涉及几个不同的阶段:
- 场景匹配: 首先,将图像与合理的网站场景进行配对。研究人员确定了六个类别: 购物、旅游、科学杂志、新闻、健康和社交媒体。
- 描述生成: 为了模拟用户可能拥有的先验知识 (如替代文本) ,GPT-4V 生成了初始描述,随后由人工编辑进行润色以确保质量。
- 问题诱导 (关键步骤) : 这是 CommVQA 与传统做法的分歧点。人类参与者获得了 场景 和 描述 , 但 看不到图像 。 他们被要求想象自己正在浏览那个特定的网站,并提出他们希望由能看到图像的人回答的问题。这模拟了 BLV 用户的体验,他们可以访问文本元数据,但无法访问视觉内容本身。
- 答案诱导: 最后,另一组参与者 (可以看到图像、问题和语境) 提供答案。
数据长什么样?
结果是一系列丰富的问题,这些问题比标准 VQA 数据集感觉更加自然且目标明确。

在上面的例子 (图 5) 中,请注意问题与语境的特定相关性。在 购物 场景 (场景 3) 中,用户通过描述知道有潜水员和沉船,但特别询问脚蹼的颜色——如果他们想购买潜水装备,这可能与之相关。在 健康 场景 (场景 4) 中,用户询问锻炼者的年龄,这符合了解健康生活方式的目标。
语境真的会改变问题吗?
怀疑论者可能会问: “网站类别真的会那么大程度地改变问题吗?”
为了验证这一点,研究人员微调了一个 BERT 模型,仅根据问题的文本来分类问题来自哪个场景。如果问题是通用的,模型将会失败。相反,该模型达到了 56% 的准确率 (远高于 16% 的随机概率) ,证明问题的语言模式与它们所处的语境有着内在的联系。

图 2 展示了这种可区分性。有些场景截然不同;例如,模型可以轻松区分 科学杂志 和 购物 (准确率 94%) 。然而, 旅游 和 社交媒体 较难区分 (准确率 83%) ,这可能是因为旅游照片经常在社交平台上分享,导致对“地点”和“人物”的兴趣重叠。
研究人员还发现,特定的疑问词与场景相关联。“Who” (谁) 类问题在社交媒体语境中占主导地位,而“Where” (哪里) 类问题在旅游语境中最为常见。这证实了要解决 VQA 问题,模型必须理解用户的意图,而不仅仅是像素。
AI 模型基准测试: 它们能处理语境吗?
随着数据集的建立,研究人员对四个最先进的视觉语言模型 (VLMs) 进行了测试: LLaVA、BLIP-2、mPLUG-Owl 和 IDEFICS 。
他们设计了两种实验设置:
- 基线 (Baseline) : 给模型提供图像和问题。 (这是模型通常的测试方式) 。
- 语境化 (Contextual) : 给模型提供图像、问题、场景和描述。 (这模仿了完整的 CommVQA 设置) 。
假设很简单: 给模型提供更多语境应该有助于它提供更好的答案。
结果
性能使用标准指标 (BLEU、METEOR、CIDEr) 进行测量,这些指标将模型生成的文本与人类参考答案进行比较。

表 1 揭示了令人惊讶的性能分化。 IDEFICS 是唯一一个成功利用语境的模型,性能显著提升 (例如,CIDEr 分数从 0.758 上升到 0.839) 。
然而,对于 LLaVA、mPLUG-Owl 和 BLIP-2 , 当添加语境时,性能实际上 下降 了。为什么拥有 更多 信息反而让这些模型的表现 变差 了呢?
“鹦鹉学舌”问题
其他模型分数的下降并不是因为它们不再理解图像,而是因为它们变懒了。
当提供详细的图像文本描述时,像 LLaVA 和 mPLUG-Owl 这样的模型倾向于过度依赖该文本。它们不是观察图像来回答特定的新问题,而是简单地重复描述中已有的信息。

研究人员使用 CLIPScore (表 2) 证实了这一点,该指标衡量答案描述图像的程度。矛盾的是,虽然基于参考的分数 (如 BLEU) 下降了,但 CLIPScore 却上升了。这表明模型正在生成高度描述性的视觉文本——只是不是回答用户问题所需的 特定 文本。
我们可以通过观察模型答案与提供的描述之间的语义相似度来直观地看到这种行为。

图 4 显示,模型 (绿色分布) 与描述的相似度远高于人类回答者 (橙色分布) 。人类知道提问者已经阅读了描述,因此他们提供 新 信息。而模型难以理解这种“交流沟壑”,只是像鹦鹉学舌一样重复它们被告知的内容。
失败的具体案例
为了观察实际情况,请看下面关于海象的例子。

在图 3 中,描述清楚地提到了海象和雪地环境。用户问: “图片里还有什么?”人类会寻找描述中 没有 的细节。然而,模型 (IDEFICS 语境版) ,尽管总体表现最好,仍然掉进了重复“一只长着长牙的海象”的陷阱。
这凸显了当前 AI 的一个主要局限性: 心智理论 (Theory of Mind) 。 模型难以建模用户已经知道什么与用户想要知道什么。
幻觉与无法回答的问题
研究还揭示了当前模型的另外两个关键弱点。
1. 幻觉: 即使是最好的模型 (IDEFICS) 也经常胡编乱造。在对 100 个答案的人工评估中,23% 包含明显的错误信息。对于无障碍工具来说,这是一个危险的故障率。无法通过视觉验证图像的用户将被迫信任 AI。
2. 无法回答的问题: 由于 CommVQA 中的提问者看不到图像,他们有时会提出图像无法回答的问题 (例如,当文字太模糊时问“文字写了什么?”) 。
- IDEFICS 最能识别这一点,成功拒绝回答 (说“我无法回答”) 的比例为 21%。
- BLIP-2 100% 未能拒绝回答,总是试图编造一个答案。
有趣的是,当研究人员明确提示 IDEFICS“如果你不知道,请说‘无法回答’”时,其成功率跃升至 87%。这表明模型具有判断自身不确定性的潜在能力,但需要非常具体的指令才能做到。
结论: 情境化 VQA 的未来
CommVQA 表明,视觉问答不仅仅是一个计算机视觉问题;它是一个交流问题。
数据清楚地表明,“在哪里” (场景) 和“我知道什么” (描述) 从根本上改变了“我想要什么” (问题) 。
- 对于数据集创建者: 我们需要更多模仿这些信息差的基准,而不是孤立的物体识别测试。
- 对于模型构建者: “鹦鹉学舌”效应表明,目前的指令微调是不够的。模型需要被训练来提供 信息增益——告诉用户他们 不知道 的事情,而不是总结他们已经知道的事情。
通过将 VQA 进一步推向这些现实世界的交流语境,我们为构建不仅智能而且真正有用的 AI 助手铺平了道路,特别是对于那些依靠它们在视觉世界中导航的人来说。
](https://deep-paper.org/en/paper/2402.15002/images/cover.png)