在过去几年里，像 CLIP、BLIP-2 和 GPT-4V 这样的视觉语言模型 (VLMs) 彻底改变了计算机理解世界的方式。它们可以为照片生成标题，回答有关视觉场景的问题，甚至根据文本生成艺术作品。我们通常将它们的成功归功于训练数据的巨大规模——从互联网上抓取的数十亿图像-文本对。

但这规模背后有一个隐藏的代价。互联网并非现实世界的完美镜像；它严重偏向于西方文化，特别是北美和欧洲。

当这些模型被要求识别印度的婚礼或埃塞俄比亚的早餐时会发生什么？它们能理解不同文化中的“通用”人类概念，还是会默认采用西方标准？

这篇文章将探讨一篇名为**“From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models” (从本土概念到通用概念: 评估视觉语言模型的多文化理解能力)** 的有趣研究论文。研究人员引入了一个新的基准测试 GLOBALRG , 旨在对现代 AI 的文化包容性进行压力测试。我们将剖析他们的方法、提出的两项独特任务，以及关于当前 AI 文化智商的令人深省的结果。

地理多样性问题

要理解这就论文的重要性，我们首先需要审视“地理多样性问题”。大多数用于训练 AI 的大规模数据集都来源于西方网络。因此，模型往往表现出性能差异。它们可能毫不费力地认出一个汉堡，却无法识别一个 vadai (一种南印度的炸豆饼) 。

以前的基准测试曾试图衡量这一点，但在范围上受到了限制——通常只覆盖 5 到 7 种文化，或者严格专注于“视觉问答”。它们也忽略了一个关键的细微差别: 通用概念 (每个人都做的事情，如吃早餐) 与本土概念 (特定的文化物品，如 molinillo 搅拌棒) 之间的区别。

GLOBALRG 基准测试通过评估模型在两种不同能力上的表现来解决这个问题:

跨通用概念检索 (Retrieval Across Universals) : 模型能否为像“婚礼”这样的宽泛概念检索出多样化的图像？
文化视觉定位 (Cultural Visual Grounding) : 模型能否在图像中定位特定的、具有文化属性的物体？

图 1: GLOBALRG 中每个任务的示例实例: i) 跨通用概念检索衡量 VLM 为查询 q 检索文化多样性图像的能力。ii) 文化视觉定位旨在评估 VLM 识别文化概念 q 的能力。

如图 1 所示，第一个任务 (上方) 要求模型理解，婚礼在美国、印度或尼日利亚看起来可能截然不同。第二个任务 (下方) 要求模型确切地知道特定的文化物体长什么样，以及它在场景中的位置。

任务 1: 跨通用概念检索

第一个挑战集中在“人类通用概念”上——即几乎存在于所有文化中的概念。作者选择了 20 个这样的概念，包括“早餐”、“葬礼”、“农业”和“音乐”。

这里的目标不仅仅是看模型是否能找到一张婚礼的照片；而是看模型是否能检索出具有文化多样性的图像。

数据集

为了构建这个数据集，研究人员覆盖了 10 个不同区域的 50 个国家。这提供了比以往尝试更广泛的覆盖范围。

表 1: 检索任务涵盖的文化列表。

该团队使用了一个名为 CANDLE 的文化知识库来提取特定背景的句子 (例如，“海娜手绘仪式在印度传统中具有重要意义”) ，并利用这些句子来抓取多样化的图像。经过人工验证剔除低质量数据后，他们整理了一个包含 3,000 张视觉多样化图像的数据集 (50 种文化 \(\times\) 20 个通用概念 \(\times\) 3 张图像) 。

衡量多样性: 一个新指标

在标准信息检索中，我们通常只关心 精确度 (Precision，或相关性) : 模型返回了相关的图像吗？如果我搜索“婚礼”，模型返回了 10 张婚礼照片，它的精确度得分就很高。

然而，如果这 10 张照片全是西方教堂里的白色婚纱，那么模型就在文化多样性测试中失败了。为了量化这一点，作者引入了一个基于熵的 Diversity@k (前 k 项多样性) 指标。

Diversity@k 公式

在这个公式中:

\(m\) 是文化的总数。
\(p_i\) 是前 \(k\) 个结果中来自第 \(i\) 种文化的图像比例。

本质上, 0 分意味着低多样性 (偏向特定国家) ，而接近 1 的分数表示高多样性 (检索到的图像在不同文化中分布良好) 。这迫使评估在考虑准确性的同时也考虑公平性。

任务 2: 文化视觉定位

第二个任务测试模型知识的深度。虽然“食物”是一个通用概念，但“泡菜”或“法棍”是该概念的本土化实例。

视觉定位 (Visual Grounding) 是在图像中找到物体并在其周围画出“边界框”的任务。大多数现有的数据集 (如 COCO) 都集中在通用物体上，如“车”、“狗”或“人”。

对于 GLOBALRG，研究人员创建了一个专注于来自 15 个国家的文化特有物品的数据集。

表 12: 文化视觉定位数据集中涵盖的文化概念列表

如上表所示，这些概念非常具体。在阿根廷，模型必须找到 alfajor (夹心饼干) 或 mate (马黛茶) 。在越南，它必须寻找 Ao Dai (奥黛) 或 Banh Mi (越式法包) 。

收集真实数据

你不能在没有上下文的情况下简单地抓取这些图像。研究人员从各自的文化中招募了标注员，以寻找高质量的图像并手动绘制边界框。这确保了“基本真值” (Ground Truth) 在文化上是准确的。他们收集了 591 张经过验证的图像，并确保目标物体不是图片中唯一的东西 (否则任务就太简单了) 。

实验与结果

作者评估了广泛的模型，包括 CLIP、OpenCLIP、CoCA、BLIP-2 和 Grounding DINO 。结果暴露了当前 AI 能力的巨大差距。

1. 检索: 多样性的幻觉

在检索任务中，模型的评判标准包括相关性 (它们找到正确的概念了吗？) 和多样性 (它们代表了世界吗？) 。

表 3: 各种 VLM 在跨通用概念检索任务上的平均性能，分为相关性和多样性。

表 3 显示，在海量数据集上训练的模型，如 CoCA (30 亿张图像) 和 OpenCLIP (20 亿张图像) ，通常表现最好。 TCL 是一个令人惊讶的例外；尽管其训练数据集小得多 (400 万张图像) ，但它的表现却很有竞争力，这表明其训练目标 (三重对比学习) 在学习不同特征方面可能非常高效。

然而，数字背后隐藏着更深层的偏见。即使模型获得了很高的“国家多样性”得分，视觉检查显示，它们经常检索到的图像——虽然技术上来自不同的国家——仍然遵循西方的视觉规范。

图 2: 模型 CLIP、CoCA 和 BLIP-2 为部分通用概念检索到的前 5 张图像。每张图像都标注了代表该国的国旗，国旗的背景颜色代表该区域。

上面的图 2 也许是论文中最能说明问题的插图:

早餐 (第一行) : 看看 CLIP 检索到的图像。它们来自不同的国家 (国旗) ，但几乎都以鸡蛋、香肠和吐司为特征。模型已经学会了“早餐”=“西式早餐”，而忽略了日本的早餐可能是鱼和米饭，或者是埃塞俄比亚的 injera (英杰拉薄饼) 。
葬礼 (第二行) : 模型绝大多数检索到的是穿着黑色衣服的人的图像。然而，在许多文化中，白色才是哀悼的颜色。
婚礼 (底行) : 虽然有一些多样性，但在婚礼传统颜色为红色或其他颜色的文化中，模型仍然强烈偏好白色礼服。

这表明 VLMs 捕捉到了一种“表面上的”多样性，但在概念的内容上仍然强加了西方霸权。

2. 视觉定位: 偏见地图

对于定位任务 (寻找特定物体) ，性能差异非常明显。

图 3: 文化视觉定位任务中每个模型的国家级准确率。

图 3 中的热图可视化了各国的准确率。蓝色表示高准确率；红色表示低准确率。

蓝色区域: 注意大多数模型在 加拿大 和 墨西哥 (北美背景) 上的表现还不错。
红色区域: 看看越南、菲律宾 和 尼日利亚 。深红色的方块表明，最先进的模型几乎完全无法识别来自这些地区的文化物体。

图 4: 文化视觉定位的文化群体级准确率。

图 4 按区域汇总了这些数据。从北美 (平均约 64%) 到东南亚 (平均约 20-30%) ，准确率出现了巨大的断崖式下跌。这证实了这些模型的训练数据可能严重缺乏来自亚洲和非洲地区的代表性。

为什么模型在定位上会失败？

作者在定位任务中发现了两种主要类型的错误:

不熟悉: 模型根本不知道这个词。例如，当被要求找一个 bayong (一种来自菲律宾的编织袋) 时，模型可能只是选择了图像中的一个人，因为它与“bayong”这个词没有任何关联。
形状混淆: 模型找到了看起来模糊相似的东西。

图 5: 展示专家模型和通用模型在文化视觉定位任务上表现的定性示例。

图 5 提供了这些失败的定性示例:

第 3 行 (印度 - “Diya”) : 任务是找到 diya (一种小油灯) 。几个模型未能定位到这个小的特定物体，而是识别了整个托盘或错误的区域。
第 4 行 (尼日利亚 - “Ogene”) : ogene 是一种双铃乐器。模型难以将其与持有者或其他背景元素区分开来。

Grounding DINO (一种专为目标检测设计的专家模型) 通常优于通用模型 (如 LLaVA 或 MiniGPT-v2) ，但即使是它，在西方背景之外也表现得很吃力。

结论与启示

GLOBALRG 基准测试为 AI 社区敲响了警钟。虽然视觉语言模型已经变得极其强大，但它们所拥有的世界观比我们生活的真实世界要狭隘得多。

核心要点:

仅靠数据规模是不够的: 仅仅在更多的互联网数据上进行训练并不能解决偏见，因为互联网本身就是有偏见的。CoCA 和 OpenCLIP 表现稍好，但它们仍然默认遵循西方视觉标准 (例如，早餐就是鸡蛋) 。
“西方的通用性”: 模型倾向于同质化通用概念。它们难以理解“婚礼”或“葬礼”在不同文化中看起来有着根本的不同。
区域性能差距: 与北美和欧洲相比，东南亚、东亚和非洲用户的模型性能存在可量化的、急剧的下降。

这为什么重要? 随着我们将这些模型整合到搜索引擎、教育工具和机器人中，我们面临着创造出仅服务于全球一小部分人口的系统的风险。越南的机器人助手在被要求去取一个 Banh Mi (越式法包) 时不应该感到困惑。一个多样化的图像生成工具不应该要求用户显式输入“非西式风格”才能获得对自己文化的准确描绘。

作者总结道，未来的研究必须优先考虑文化多样性的数据收集 (不仅仅是网络抓取) 和新的训练目标 , 以具体惩罚文化同质化。只有这样，我们才能从本土概念迈向真正的通用概念。

地理多样性问题#

任务 1: 跨通用概念检索#

数据集#

衡量多样性: 一个新指标#

任务 2: 文化视觉定位#

收集真实数据#

实验与结果#

1. 检索: 多样性的幻觉#

2. 视觉定位: 偏见地图#

为什么模型在定位上会失败？#

结论与启示#