引言
在人工智能的世界里,计算机视觉历来痴迷于客观性。给模型看一张公园的照片,它会尽职地报告: “一只狗在绿草地上奔跑。”这令人印象深刻,但它遗漏了人类经验的一个基础层面: 主观性和情感。当我们欣赏一幅画——比如《星月夜》——我们看到的不仅仅是“蓝色背景上的黄色圆圈”。我们会感到敬畏、忧郁或兴奋。
此外,我们描述这些感觉的方式深深植根于我们的文化和语言中。纽约的观众对一幅肖像画的描述可能与开罗或河内的观众不同,这不仅是因为他们所说的语言不同,更是因为他们观察世界的文化视角不同。
当前大多数视觉-语言 (VL) 基准测试 (如 COCO) 都以英语为主导,且侧重于客观事实。这在 AI 中造成了“文化鸿沟”。为了弥补这一差距,来自阿卜杜拉国王科技大学 (KAUST) 、牛津大学和东北大学的研究团队推出了 ArtELingo-28 。
这篇论文代表了情感 (情绪) 视觉-语言理解领域的巨大飞跃。通过将数据集扩展到覆盖 28 种语言并强调文化多样性,研究人员向 AI 发起了挑战,要求其超越“这是什么物体?”的层面,进而回答“这让你有什么感觉,为什么?”。
问题: 多模态 AI 中的英语偏见
最近关于多模态 AI 的调查揭示了一个严峻的现实: 该领域绝大多数是以英语为中心的。虽然英语是全球通用语,但世界上 75% 的人口并不说英语。当数据集从英语翻译而来时,它们往往会失去文化的细微差别。从英语母语者那里收集并翻译成印地语的数据集,与直接从印地语母语者那里收集的数据集是截然不同的。
之前的尝试 (如 ArtEmis) 为艺术引入了情感描述,但它们是英语的。最初的 ArtELingo 增加了阿拉伯语和中文。 ArtELingo-28 极大地扩展了这一范围,增加了 25 新语言,其中许多在 NLP 世界中被视为“低资源”语言,如孟加拉语、斯瓦希里语和豪萨语。
目标不仅仅是翻译;而是捕捉观点的多样性 。 如下所示,该数据集捕捉了不同文化如何解读相同的视觉输入。

在图 1 中,我们可以看到该基准测试的核心。对于同一张图像,来自不同语言背景的标注者不仅提供了情感标签 (如“恐惧”或“满足”) ,还提供了说明原因的文字描述。这将任务从简单的分类转变为复杂的、基于文化的推理。
构建 ArtELingo-28
创建这个基准测试是一项庞大的后勤工程。研究人员雇用了来自 23 个国家的 220 名母语标注员,耗费了超过 6000 个工时。
数据规模
该数据集建立在 WikiArt 图像之上。它包括:
- 28 种语言: 覆盖非洲、东南亚、次印度大陆、东亚、中东、中亚、欧洲和北美。
- 约 200,000 条标注: 每张图像大约 140 条标注。
- 9 个情感标签: 包括满足、敬畏、兴奋、娱乐、悲伤、愤怒、恐惧、厌恶以及“其他”。
与之前数据集的对比凸显了此次扩展的规模:

参与的多样性
为了确保数据不出现偏差,研究人员尽可能平衡了各语言的标注数量,尽管低资源语言标注员的可用性自然会有所不同。

跨文化的情感一致性
这篇论文最迷人的方面之一是对“情感分歧”的分析。来自不同文化的人对同一件艺术品会有相同的感觉吗?
为了衡量这一点,作者使用了 Kullback-Leibler (KL) 散度 , 这是一种衡量两个概率分布差异程度的统计方法。在这里,它衡量了两种语言之间所选情感分布的差异程度。

在图 4 中,较浅的颜色表示高度一致,而较深的颜色表示分歧。层次聚类揭示了两个主要群体:
- 一个包含主要非洲语言的大型聚类。
- 一个包含主要亚洲语言的小型聚类。
这表明文化背景显著影响情感感知——这一发现证明了该数据集存在的必要性。如果每个人的感受都一样,我们就不需要 28 种语言来训练 AI 了。
核心方法: 让模型适应多语言情感
收集数据只是第一步。第二步是构建能够实际使用这些数据的模型。研究人员需要一个能够接收图像和目标语言作为输入,并输出该语言情感解释的模型。
架构
标准的以英语为中心的模型 (如 LLaMA) 在这里无法胜任,因为它们在缅甸语或阿姆哈拉语等语言中的词汇量有限。研究人员转而使用了 BLOOMZ , 这是一个多语言的大型语言模型 (LLM) 。
他们通过将语言解码器替换为 BLOOMZ,改造了几个最先进的视觉-语言模型 (如 MiniGPT-4、InstructBLIP 和 ClipCap) 。
指令微调
为了将视觉特征与多语言文本对齐,研究人员使用了两阶段的训练过程。
第一阶段: 视觉对齐 使用大型多语言图像-文本数据集 (如 LAION-2B-multi) ,他们教导模型使用标准提示语以各种语言描述图像: *“Could you describe the contents of this image for me? Use only [Language] characters.” (你能为我描述这张图片的内容吗?仅使用[某种语言]字符。) *
第二阶段: 跨语言对齐 (ArtELingo) 在这里,他们使用 ArtELingo 数据来教导模型理解情感细微差别。他们利用了一种特定的提示策略来鼓励跨语言迁移:

通过要求模型针对同一图像同时生成两种随机采样语言的说明,模型学会了将相同的视觉特征映射到不同的语言和文化概念上。
实验与结果
论文在三种不同的设置下评估了这些模型,以模拟现实场景: 零样本 (Zero-Shot) 、少样本 (Few-Shot) 和 一对多零样本 (One-vs-All Zero-Shot) 。
设置 1: 零样本性能
在此设置中,模型仅在搞资源语言 (英语、中文、阿拉伯语) 上进行训练,然后在其他 25 种语言上进行测试。这测试了模型泛化到它并未针对此特定任务明确学习过的文化的能力。

如表 2 所示, MiniGPT-4 在 BLEU-4 和 CIDEr 等指标上显著优于竞争对手。这表明底层 LLM 的推理能力对于此任务至关重要。
从定性上看,模型生成的结果令人印象深刻。在下面的图 5 中,第一行显示了训练期间见过的语言,而第二行显示了在特定情感训练阶段从未见过的语言。模型仍然设法生成了连贯、情感共鸣的说明。

设置 2: 少样本性能
在这里,研究人员向训练集中添加了少量来自低资源语言的数据 (约 7k 个样本) 。

表 3 显示性能有了巨大的飞跃 (BLEU-4 从零样本的 1.09 升至 13.5) 。然而有趣的是,将少样本数据的比例从 20% 增加到 100% 并没有产生巨大的收益。这表明对于这种特定类型的泛化, 横向扩展 (增加更多语言) 比纵向扩展 (增加每种语言的样本量) 更有价值。
设置 3: 一对多零样本 (文化测试)
这可以说是最具洞察力的实验。研究人员在一种语言 (源语言) 上微调模型,并在所有其他语言 (目标语言) 上进行测试。
假设很简单: 文化相关的语言之间,跨语言迁移效果应该更好。

图 6 证实了这一假设。热力图显示了高性能的聚类 (深蓝色) ,这些聚类与文化群体一致,而不仅仅是语言家族或书写系统。
从聚类中得出的关键观察:
- 非洲聚类: 祖鲁语 (IsiZulu) 、科萨语 (IsiXhosa) 和茨瓦纳语 (Setswana) 紧密聚类。
- 南亚聚类: 乌尔都语、印地语和泰米尔语在彼此之间表现良好。值得注意的是,乌尔都语和印地语有着共同的历史,但使用不同的书写系统,然而迁移是成功的。这证明模型正在学习文化,而不仅仅是文本模式。
- 东南亚聚类: 印度尼西亚语和越南语显示出很强的迁移能力。
这个结果意义深远。它意味着通过针对特定语言进行训练,AI 学习到了一种特定的观察和感受世界的方式,这种方式与邻近文化是兼容的。
情感标签预测
最后,研究人员测试了模型仅根据说明文本预测情感标签的能力。

表 4 显示, ArtELingo-28 模型 (在原生数据上训练) 的表现远优于基础模型以及仅在翻译/高资源数据上训练的版本。这经验性地证明,你不能简单地翻译英语数据集并期望 AI 理解其他文化的情感现实。
结论与启示
ArtELingo-28 不仅仅是一个数据集;它是给 AI 社区的一记警钟。这篇论文证明了:
- 文化创造数据: 对艺术的情感反应不是普遍的;它们具有文化特异性。
- 原生数据为王: 在高质量、母语者标注的数据上训练的模型,显著优于那些依赖翻译或仅依赖高资源语言的模型。
- AI 可以检测文化: 聚类结果表明,多模态模型可以捕捉语言之间深层的文化联系。
通过拥抱多样性和主观性,ArtELingo-28 为 AI 系统铺平了道路,使其不再仅仅将世界视为物体的集合,而是将其理解为丰富多彩的人类经验。对于进入该领域的学生和研究人员来说,这突显了一个至关重要的方向: AI 的未来不仅仅在于更大的模型;更在于更广泛、更具包容性的代表性。
](https://deep-paper.org/en/paper/2411.03769/images/cover.png)