简介

想象一下,向 AI 展示一张热闹的街头节日照片。如果这个节日是新奥尔良的狂欢节 (Mardi Gras) ,大多数顶尖的 AI 模型都能立刻识别出珠子、花车和背景。但如果这张照片描绘的是巴基斯坦的 Mela Chiraghan 灯节,或者是斯里兰卡的传统 Angampora 武术表演呢?

这正是现代人工智能开始显露缺陷的地方。虽然大型多模态模型 (LMMs) ——能够同时看懂图像和处理文本的系统——在能力上已经取得了惊人的飞跃,但它们拥有一个巨大的盲点: 世界上大多数的文化和语言。

目前用于测试这些模型的主流基准大多是“WEIRD”的——即西方 (Western) 、受过教育 (Educated) 、工业化 (Industrialized) 、富裕 (Rich) 且民主 (Democratic) 。它们严重侧重于英语和高资源语言,导致全球很大一部分人口被代表不足。

为了解决这个问题,一个庞大的研究团队推出了 ALM-bench (万语攸关基准测试,All Languages Matter Benchmark) 。 这不仅仅是又一个数据集;这是一项巨大的工程,旨在评估 AI 在 73 个国家的 100 种不同语言中,理解视觉和语言细微差别的能力。

ALM-bench 概念图,展示了跨越各大洲的多样化语言和文化问题。

在这篇文章中,我们将剖析这篇研究论文,了解 ALM-bench 是如何构建的,为什么它比以前的基准测试更难解决,以及它揭示了像 GPT-4o 和 Gemini 这样的模型在“文化智能”方面的哪些问题。

背景: AI 中的文化鸿沟

在深入了解 ALM-bench 之前,了解视觉-语言评估的现状非常重要。

LMM 是在互联网规模的数据上训练的。自然地,互联网被英语和少数几种其他高资源语言 (如中文、西班牙语和法语) 所主导。因此,模型学会了将“婚礼”识别为白色礼服和燕尾服,却往往无法在同样的语境下识别出红色的纱丽或传统的和服。

以前的基准测试试图解决这个问题,但它们有局限性:

  • 范围受限: 许多“多语言”基准测试仅涵盖 5-10 种语言。
  • 以英语为中心: 一些数据集 (如 CulturalVQA) 虽然专注于文化内容,但仅以英语呈现。
  • 视觉偏差: 数据集通常缺乏“视觉文化多样性”——这意味着图像本身是通用的,即使文本被翻译了。

ALM-bench 背后的研究人员认为,真正的包容性需要同时测试模型对 低资源语言 (训练数据较少的语言) 和 特定文化图像 的理解能力。

ALM-bench 与 MaRVL 和 CulturalVQA 等先前基准的比较。

如上表所示,ALM-bench 将评估范围显著扩大到 100 种语言,并引入了许多自动化基准所缺乏的严格人工验证流程。

核心方法: 构建 ALM-bench

ALM-bench 的创建是一项巨大的后勤工作,涉及超过 800 小时的人类专家工作。研究人员不仅仅是爬取网络并运行谷歌翻译;他们构建了一个旨在捕捉真实文化语境的流水线。

1. 范围

该基准涵盖:

  • 100 种语言: 分为高资源 (如英语、法语) 和低资源 (如阿姆哈拉语、僧伽罗语、约鲁巴语) 。
  • 24 种文字 (Script) : 从拉丁文和西里尔文到吉兹文 (Ge’ez) 和僧伽罗文。
  • 19 个领域: 分为 通用 (日常物品) 和 文化 (特定传统) 。

2. 数据流水线

研究人员采用了一个多阶段流水线来确保质量。

ALM-bench 的数据收集和验证流水线。

步骤 A: 图像收集 对于 文化 子集,他们没有使用通用的库存照片。他们抓取了特定于“国家-语言对”的开放许可图像。例如,对于埃塞俄比亚的“食物”类别,他们寻找的是特定的当地菜肴,而不是通用的“非洲食物”。

步骤 B: 问题生成 他们使用 GPT-4o 基于图像生成初始的问答 (QA) 对。模型被指示创建不同类型的问题:

  • 多项选择题 (MCQs)
  • 真/假题 (True/False)
  • 简短视觉问答 (Short VQA)
  • 长篇视觉问答 (Long VQA) (需要详细解释)

步骤 C: 人工验证 (关键) 这是最重要的一步。母语人士和专家对数据进行了验证。他们不仅仅是检查语法;他们还在检查 文化幻觉 。 如果一张图片显示了一个特定的节日,但生成的问题识别错误,人工标注者会对其进行修正。他们还对人脸进行了模糊处理以保护隐私。

3. 文化领域

为了确保模型不仅仅是在进行肤浅的翻译测试,该基准包含了 13 个深度的文化领域。

13 个文化类别的细分,包括习俗、仪式和食物。

这些类别包括:

  • 仪式与习俗: 理解手势、问候和典礼。
  • 建筑: 区分哥特式大教堂和莫卧儿清真寺。
  • 食物: 识别特定的区域菜肴。
  • 音乐与文学: 识别传统乐器或当地著名作家。

4. 数据规模

最终结果是一个包含超过 22,000 个问答对的数据集。文字和问题类型的巨大多样性使研究人员能够准确指出模型 在哪里 失败——是语言处理的失败 (文字问题) 还是视觉识别的失败 (文化无知) 。

数据统计展示了语言、文字和问题类型的分布。

实验与结果

研究人员测试了 16 个最先进的 LMM,包括专有模型 (如 GPT-4o 和 Gemini 1.5 Pro) 和开源模型 (如 LLaVA、Qwen 和 Yi) 。结果描绘了当前 AI 包容性状况的严峻图景。

1. “资源差距”

最显著的发现是高资源语言和低资源语言之间的性能差异。

不同模型在 100 种语言上的性能热力图。

在上面的热力图中,深红色表示得分较高。你可以看到一堵性能下降的“墙”。

  • 闭源主导: GPT-4o (第一行) 是明显的赢家,整体准确率达到 78.8%。Gemini 1.5 Pro 紧随其后。
  • 性能断崖: 即使是最好的模型 GPT-4o,也从 英语的 88.4% 准确率 跌至 阿姆哈拉语的 50.8%
  • 开源的挣扎: 最好的开源模型 (GLM-4V) 远远落后于专有巨头,在低资源的非洲和亚洲语言上极其吃力。

2. 文字 (Script) 至关重要

这不仅仅关乎词汇量;书写系统 (文字) 构成了一个主要障碍。模型在非拉丁文字上的表现明显更差。

GPT-4o 和 Qwen2-VL 在不同语言文字上的性能比较。

如图表所示,虽然模型处理拉丁文和西里尔文相当不错,但在 吉兹文 (Ge’ez) (埃塞俄比亚使用) 、僧伽罗文 (Sinhala) (斯里兰卡) 和 高棉文 (Khmer) (柬埔寨) 等文字上,性能直线下降。这表明分词器 (tokenizer) ——模型阅读文本的部分——很可能在这些独特的字符集上训练不足。

3. 文化幻觉

论文中最引人入胜的部分之一是错误分析。模型经常产生文化语境的幻觉。它们会看到一个视觉线索,然后自信地将其映射到错误的文化上。

模型失败的定性示例,例如错误识别节日。

看看上图 (图 10) 中的例子。模型看到了一张巴基斯坦 Mela Chiraghan (灯节) 的照片。

  • 错误: 模型自信地将其识别为 圣纪节 (Eid Milad un Nabi)
  • 原因: 两者都是涉及灯光的宗教节日。然而,模型错过了特定的视觉细微差别——Mela Chiraghan 的特点是明亮、多彩的灯光和特定的鼓 (Dhol) ,而圣纪节通常以绿色灯光和朴素的服饰为特征。模型缺乏区分差异的“文化分辨率”。

4. 错误分析

研究人员将错误归类为“缺乏知识”、“语言错误”和“推理错误”等类型。

针对不同文字的错误分析雷达图。

  • 孟加拉语: 高比例的“缺乏文化理解”。
  • 俄语 (西里尔文) : 高比例的“缺乏知识”。
  • 僧伽罗语: 高比例的“语言错误”——意味着模型可能知道答案,但无法用僧伽罗文正确地组成句子。

5. 位置感知提示

一个有趣的子实验涉及“位置感知提示”。研究人员发现,如果他们明确告诉模型图片来自哪个国家 (例如,“这张图片来自南非”) ,顶级模型的性能会提高大约 2.6% 到 5%。

表格显示添加国家信息到提示中带来的性能提升。

这表明模型内部 确实 潜藏着一些文化知识,但它们需要明确的触发器来访问这些知识。它们很难仅凭像素推断出文化语境。

结论与启示

ALM-bench 论文是对 AI 社区的一次现实检验。当我们为模型能写代码或通过律师考试而欢呼时,我们必须承认,对于数十亿人的文化,这些系统在功能上仍然是“文盲”。

主要启示:

  1. “数字鸿沟”是真实存在的: 在多语言环境中,最佳专有模型与最佳开源模型之间存在巨大的性能差距 (超过 27%) 。
  2. 视觉需要语境: 如果没有明确的文本提示,模型无法识别文化标记 (服装、节日、食物) 。
  3. 低资源语言被遗忘: 当前的训练范式辜负了那些拥有独特文字且互联网存在感有限的语言。

ALM-bench 为解决这些问题提供了路线图。通过准确指出模型失败的地方——无论是文本的文字还是仪式的细微差别——研究人员可以策划更好的训练数据。目标是创造一个未来,让“万语攸关 (All Languages Matter) ”不仅仅是一个基准测试的标题,而是人工智能的一项基本能力。