引言
近年来,多模态视觉-语言模型 (VLMs) ,如 GPT-4V 和 Gemini,在图像解读方面展示了惊人的能力。它们可以识别物体、读取照片中的文字,并描述复杂的场景。然而,识别一场“婚礼”是一回事;理解印度农村的婚礼与埃塞俄比亚的婚礼之间在具体仪式、服饰和传统上的差异,则完全是另一项挑战。
随着数字交互日益全球化,AI 模型必须超越一般的物体识别,去掌握文化价值观——即定义人类社会的共同信仰、仪式和传统。
这篇博客文章将探讨该领域迈出的重要一步: CulturalVQA 。 这篇研究论文引入了一个新颖的基准测试,旨在对最先进 VLM 的文化素养进行“压力测试”。我们将探讨研究人员如何构建该数据集、他们针对的具体文化层面,以及那些揭示了 AI 在理解世界多元文化方面仍有很长路要走的发人深省的结果。

如图 1 所示,虽然 VLM 的性能呈上升趋势,但在理解西方文化和非西方文化之间存在明显的差距。让我们来分析一下这种差距存在的原因以及 CulturalVQA 是如何衡量它的。
当前基准测试存在的问题
要提高 AI 的文化理解能力,我们首先需要一把衡量它的标尺。此前虽有尝试对这一能力进行基准测试,但往往存在严重的局限性:
- 范围有限: 像 GD-VCR 这样的数据集依赖于电影场景,这些场景往往是戏剧化的,不能反映日常现实。
- 缺乏深度: 像 MaXM 这样的数据集侧重于一般推理 (例如,数物体) ,而不是文化细微差别。
- 格式受限: 许多基准测试使用判断题或多选题。这使得模型可以在没有真正理解的情况下猜对答案。
CulturalVQA 的作者认为,要真正评估文化能力,模型必须处理关于多样化现实世界图像的开放式问题 。

如表 1 所示,CulturalVQA 通过结合开放式任务格式与文化多样性的图像,填补了一个独特的空白。其问题专门设计用于探究文化理解,而不仅仅是视觉推理。
构建 CulturalVQA: 方法论
这项研究的核心贡献在于数据集本身。为“文化”建立基准是困难的,因为文化是多层面的。研究人员将其分解为两大类:
- 有形元素: 食物、饮料和服装。
- 无形元素: 仪式和传统 (构成了共享的文化“常识”) 。
1. 国家选择与图像来源
团队选择了 11 个国家,以确博广泛代表不同的文化集群,并有意过度代表了通常在 AI 数据集中被边缘化的非洲和伊斯兰文化。这些国家包括:
- 美洲: 美国、加拿大、巴西
- 欧洲: 德国
- 亚洲: 中国、印度
- 非洲/中东: 埃塞俄比亚、尼日利亚、卢旺达、土耳其、伊朗
图像来源于 CANDLE 数据集,并使用 CLIP (对比语言-图像预训练) 进行过滤以确保文化相关性,随后经过了严格的人工筛选过程。
2. 人在回路的标注
仅靠自动抓取不足以捕捉文化细微差别。研究人员聘请了当地人或相关国家的长期居民作为标注员。这些标注员收到了具体的指令:
- 提出具有挑战性的问题: 问一些当地人知道,但外地人可能不知道的事情。
- 使用当地术语: 不要使用“面包”或“舞蹈”等通用术语,而要使用像“Naan” (馕) 或“Guhamiriza”这样的具体术语。
以下是数据集中的几个例子,突显了所需的特异性:




3. 数据集构成
最终的数据集包含与 2,328 张独特图像相关的 2,378 个问题和 7,206 个答案。

图 3 (上图) 按国家对数据进行了细分。值得注意的是,标注员间的一致性各不相同。像加拿大这样的国家一致性最高,而卢旺达最低。这种差异通常是因为“国家”是“文化”的一个不完美的代理指标——像尼日利亚和卢旺达这样的国家拥有巨大的内部亚文化多样性,导致即使在当地人之间答案也各不相同。

图 4 中的词云揭示了数据集的丰富性。“食物”层面在数据集中占主导地位 (37.3%) ,但对“传统” (26.1%) 和“仪式” (18%) 也有显著的覆盖,这些对于模型来说是最难掌握的,因为它们依赖于像素中无法直接看到的无形背景。
实验设置
你如何给 AI 的开放式文化考试评分?标准的精确字符串匹配 (检查模型的文本是否与答案键逐字匹配) 太严苛了。如果答案是“Spicy stew” (辣炖菜) ,而模型说是“Hot stew” (热炖菜) ,这应该算作正确。
研究人员使用了名为 LAVE (LLM 辅助评估) 的指标,利用 GPT-4 进行评估。该方法要求大语言模型基于人类参考答案来判断模型的回答是否正确,在保持准确性的同时允许语义上的灵活性。
确定视觉信息的必要性
在测试 VLM 之前,研究人员运行了基线测试,以确保问题确实需要看图才能回答。
- 仅 LLM (LLM-only): 模型能仅凭文本问题猜出答案吗?
- LLM + 国家 (LLM + Country): 知道国家有帮助吗?
- GPT-4V: 完整的视觉-语言模型。

图 5 显示,仅 LLM 的方法表现严重不足 (准确率约为 20-30%) 。CulturalVQA 中的问题确实需要视觉依据;模型必须看到图像才能正确回答。
结果与分析
研究人员对各种模型进行了基准测试,从 BLIP2、LLaVA 和 InternVL 等开源选项,到 GPT-4、Gemini 和 Claude 等闭源专有模型。
1. 开源与闭源的差距
最直接的发现是专有模型与开源模型之间的差距。

表 2 强调了 GPT-4 是明显的领先者,实现了 61.36% 的平均准确率。最好的开源模型 Intern-VL 落后于 46.18%。这表明,商业模型的巨大规模和专有训练数据目前在文化知识方面提供了显著优势。
2. 西方偏见
仔细观察表 2 中的“国家”行。性能并不均匀。
- 高性能: 美国 (GPT-4: 66.77%),加拿大 (72.00%),巴西 (76.44%)。
- 低性能: 尼日利亚 (43.27%),卢旺达 (46.41%),埃塞俄比亚 (56.38%)。
这表明这些模型的训练数据存在强烈的偏见,偏向西方和主要经济强国。模型在非洲和伊斯兰文化概念上非常吃力。
3. 模型与人类的表现
这些模型“足够好”了吗?为了找出答案,研究人员将模型与人类基线进行了比较。

图 6 展示了性能差距。 负值表示模型比人类差。 在每一个国家,即使是最好的模型 (闭源) 也表现得不如人类。这种差距在伊朗、尼日利亚和埃塞俄比亚尤为明显,因为模型缺乏当地居民所拥有的“文化常识”。
4. 层面分析: 哪些概念最难?
模型对食物的理解比仪式更好吗?

有趣的是,图 7 显示专有模型 (如 GPT-4) 实际上在仪式和传统等无形概念上的表现要优于食物和饮料。
- 为什么? 作者推测,仪式通常涉及具体的命名实体 (如“Christmas”圣诞节或“Holi”霍利节) ,这些在文本数据中有详细记录。
- 食物问题: 食物识别通常需要细粒度的视觉辨别 (例如,区分特定配料或菜肴的区域变体) ,这仍然是一个挑战。
5. 定性失败案例
观察模型在何处失败可以深入了解其“思维过程”。

如图 8 所示 (右下角示例) ,GPT-4 将 Naghali (一种伊朗传统的讲故事人) 误认为是“Dervish” (苦行僧) 。虽然在外行眼里视觉上相似,但它们代表了完全不同的文化概念。同样,它未能识别出尼日利亚珊瑚珠的文化意义,仅仅将其视为珠宝,而不是财富和遗产的象征。这些错误表明,虽然 VLM 具有良好的通用视觉能力,但它们缺乏深度理解所需的特定文化词汇。
结论
CulturalVQA 论文给 AI 社区敲响了警钟。虽然视觉-语言模型取得了巨大的进步,但它们离成为“全球”公民还很远。
基准测试显示:
- 当从西方语境转移到非西方语境 (特别是非洲和伊斯兰文化) 时,性能急剧下降。
- 与专有模型相比,开源模型明显滞后。
- 始终无法达到人类水平的文化常识。
通过创建一个严格的、人工标注的基准,作者为未来的改进提供了路线图。为了让 AI 真正具有包容性并在全球范围内有效,未来的训练数据集必须超越网络抓取的数量,专注于文化代表性的质量,确保卢旺达的婚礼能像纽约的婚礼一样被精准识别。
](https://deep-paper.org/en/paper/2407.10920/images/cover.png)