当我们看一张照片时,我们认为自己看到的是客观现实。如果你向一个在纽约的人和一个在慕尼黑的人展示一张公园的照片,想必他们看到的是同样的草地、同样的长椅和同样的天空。
真的是这样吗?
认知科学和心理学表明,视觉感知与文化紧密相关。西方观察者可能会专注于前景物体——特定的人或特定品牌的汽车。而东亚观察者可能会将更多的重心放在背景、语境以及物体之间的关系上。
这对人工智能来说是一个巨大的问题。现代视觉-语言模型 (VLMs) ,如流行的 CLIP,主要是在英语数据上训练的。当研究人员想要制作这些模型的多语言版本时,标准做法是将英语图像标题通过机器翻译 (甚至人工翻译) 转换成目标语言。
但是,如果一个讲德语的人“看”图像的方式与讲英语的人不同,那么仅仅翻译英语描述就搞错了重点。你是在将英国人的感知翻译成德语单词,而不是捕捉德国人的原生感知。
在这篇文章中,我们将深入探讨一篇引人入胜的研究论文,题为 “Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval” (量化多模态多语言检索训练中翻译与原生感知之间的差距) 。 我们将探讨依赖翻译如何损害 AI 的性能,量化这种“感知差距”,并看看研究人员如何利用大型语言模型 (LLM) 来试图解决这个问题。
视觉-语言模型中的多语言挑战
要理解这个问题,我们首先需要了解像 CLIP 这样的模型是如何工作的。这些模型通过在海量的图像-标题对数据集上进行训练,学习将图像与文本联系起来。一旦训练完成,你就可以使用文本搜索图像 (图像-文本检索) 或自动描述图像。
然而,这些训练数据绝大多数都是英语。为了创建多语言版本 (如 mCLIP) ,研究人员通常使用两种方法:
- 翻译训练数据: 获取英语数据集 (如 Flickr30K) 并将标题翻译成其他语言。
- 多语言文本编码器: 使用能够理解多种语言的模型 (如 XLM-R) ,将外语文本映射到与英语文本相同的“嵌入空间”中。
该论文指出,这些方法忽视了一个关键缺陷: 翻译并不等同于原生描述。
感知中的文化差异
心理学研究早就证实了文化会影响注意力。例如:
- 物体具体性: 某些文化对特定的群体成员有很强的联想 (例如,区分“知更鸟”与仅仅是“鸟”) ,而其他文化则更概括。
- 前景与背景: 正如 Nisbett 和 Masuda (2013) 指出的,美国人倾向于关注前景物体,而东亚人通常关注背景语境。
- 语言相对论: 我们所说的语言塑造了我们寻找的东西。讲德语的人,其语言使用有性别的名词,可能会潜意识地赋予物体不同的属性。
如果我们使用翻译过来的英语标题为德语用户训练 AI 模型,该模型学会的是像美国人一样“看”图像,只是用德语单词来描述。它无法学会原生德语使用者自然会关心的特定细微差别。

上方的 图 1 完美地说明了这一现象。
- 左图: 英语使用者可能只看到“man on a bench” (长椅上的人) 。而原生德语使用者,识别出文化背景,将其特别指认为“Heurigen bench” (霍里格长椅,与酒馆相关) ,并以不同的方式描述场景。
- 右图: 英语标题关注“Union Jack motifs” (英国国旗图案) 。德语标题可能会不同地关注遮阳伞或群体动态。
当我们简单地翻译英语标题时,我们完全丢失了“Heurigen”这个概念。模型永远学不会识别那个特定的视觉特征,因为英语源文本从未提及它。
方法论: 测量差距
为了科学地量化这个问题,研究人员设计了一个严格的实验,比较不同的检索模型训练方法。
任务
目标是德语的 图像-文本检索 。
- 输入: 一个德语文本查询 (例如,“Ein Hund läuft im Gras”) 。
- 输出: 从大型数据库中找到正确的图像。
模型
他们使用了 mCLIP (多语言 CLIP) 。该模型用 XLM-R (一种强大的多语言语言模型) 替换了标准的文本编码器,并将其与 CLIP 的视觉能力对齐。
对照组
研究的核心是比较四种不同的训练数据来源。所有模型都经过训练/微调以执行德语检索,但德语监督信号的来源各不相同:
- ENG (基线) : 模型在原始英语标题上进行微调。它完全依赖 mCLIP 既有的跨语言能力来在测试期间理解德语查询。
- ENG2GER-MT (机器翻译) : 英语标题使用现成的机器翻译 (MT) 模型 (Opus-MT) 翻译成德语。这代表了制作多语言数据集的标准“简单”方法。
- ENG2GER-HT (人工翻译) : 英语标题由专业人工翻译员翻译成德语。
- 关键注意: * 这些翻译员只看文本*,不看图像。他们是在翻译英语句子,而不是描述场景。
- GER (原生感知) : 模型在由原生德语使用者编写的标题上进行微调,这些使用者看着图像从头开始编写描述。
数据集
研究人员使用了 Multi30K 数据集,该数据集的独特之处在于它包含了针对相同图像的专业英语标题翻译以及独立编写的原生德语标题。这允许进行完美的“同类比较”。
结果: “感知差距”是真实的
实验结果证实,翻译——即便是专业的人工翻译——与原生感知有着根本的不同。

让我们分析 表 1 中的发现:
- 原生数据为王 (GER): 在原生德语标题上训练的模型实现了 38.4 的最高平均召回率。这是黄金标准。
- 机器翻译落后 (ENG2GER-MT): 在机器翻译文本上训练的结果得分为 33.4 。 这与原生性能相比有巨大的差距 (-5.0)。
- 人工翻译还不够 (ENG2GER-HT): 即使是由专业人员进行翻译,得分也只有 36.8 。
- 这比机器翻译好,但仍比原生标题 低 1.6 分 。
- 这 1.6 的差距代表了 感知差距 。 由于人工翻译员是流利的专家,错误不在于语言 (语法/词汇) ;错误在于感知。翻译员保留了英语使用者的关注点,但这与德语用户的搜索意图并不完全一致。
弥合差距的策略
承认我们无法负担为每种语言收集数百万条原生描述的成本,作者提出了三种增强策略来改善翻译数据。
目标是在翻译之前使英语源文本多样化,希望能捕捉到更广泛的概念,从而更好地与德语感知保持一致。
1. 上位词化 (HYPER)
这种策略涉及用更通用的术语 (上位词) 替换特定的物体。
- *概念: * 不用“野马 (Bronco)”,而用“马 (Horse)”。不用“霍里格长椅 (Heurigen bench)”,而用“长椅 (Bench)”。
- *原因: * 文化差异通常体现在具体性上。如果英语使用者在德语使用者不关心的事情上过于具体 (反之亦然) ,概括术语可能会减少这种不匹配。
2. 随机改写 (PARA-RND)
在这里,研究人员使用 LLaMA-3 , 一种强大的大型语言模型,来重写英语标题。
- *提示词: * 他们要求 LLaMA 以“结构上不同的方式”编写标题,同时保持原意。
- *目标: * 打破可能无法很好转化为德语视觉偏好的特定英语句法结构。
3. 定向改写 (PARA-TGT)
这是最复杂的方法。
- *方法: * 他们利用了 上下文学习 (In-Context Learning) 。 他们向 LLaMA 提供实际原生德语标题 (回译成英语) 的示例,向模型展示德语描述的“风格”。
- *过程: * LLaMA 分析英语标题,参考“德语风格”的示例,并重写英语标题以模仿那种感知风格。
- *示例: * 如果德语标题倾向于将“穿红衬衫骑自行车的男人”简化为仅仅是“骑自行车的人”,LLM 会在翻译成德语之前对英语文本进行这种修改。
这种方法有效吗?
回顾 表 1 , 特别是中间部分:
- PARA-CMB (组合) : 结合这些改写策略将机器翻译模型的性能从 33.4 提高到了 34.7 。
- 影响: 这是一个实实在在的提升 (+1.3),但与人工翻译 (36.8) 和原生 (38.4) 得分相比,差距依然存在。
这表明,虽然 LLM 可以帮助丰富数据,但如果不看到图像本身,它们无法完全凭空产生原生使用者的文化细微差别。
深入探究: 全球感知分析
这篇论文最有趣的部分之一是对不同语言如何“看”世界的广泛分析。研究人员超越了德语,分析了涵盖 36 种语言的 XM3600 数据集。
他们按地区/文化 (欧洲、阿拉伯、印地语、东亚等) 对语言进行分组,并计算了在同一组图像的标题中不同物体被提及的频率。

表 2 揭示了惊人的差异:
- 自然与景色: 印地语/孟加拉语使用者提及 “树 (trees)” 的次数是欧洲使用者的两倍多 (581.5 对 270.5) 。
- 城市关注点: 斯瓦希里语标题对 “建筑物 (buildings)” 的提及率最高 (502) ,显著高于东亚语言 (253) 。
- 家居用品: 印地语使用者最频繁地提及 “桌子 (table)” , 而欧洲使用者则低得多。
- 性别: 印度尼西亚语标题提及 “女人 (woman)” 的次数 (164.5) 显著多于印地语标题 (114) 。
这些不仅仅是翻译错误;这些代表了对图像中什么是“值得描述的”这一认知的根本转变。如果你使用翻译过来的欧洲标题训练印地语模型,该模型将学会忽略原生印地语使用者期望模型识别的树木。
识别准确率
这种感知差距是否真的影响了模型识别物体的能力?是的。

表 3 比较了物体识别的“精确率 (Precision)”和“召回率 (Recall)”。
- 召回率: 原生德语模型 (GER) 通常具有更高的召回率 (最后一行) 。这意味着它更擅长找到图像中实际存在且与用户相关的物体。
- 精确率: 有趣的是,人工翻译模型 (ENG2GER-HT) 通常具有更高的精确率。这很可能是因为翻译后的标题通常更字面化和保守,而原生使用者使用的词汇更丰富,可能会让模型稍微困惑,即使它更“自然”。
表格显示,原生德语标题提及“车辆 (Vehicles)” 2604 次,而翻译组提及了 2724 次。这种差异意味着,对于同样的图像,英语使用者 (翻译的来源) 觉得比德语使用者更有必要指出汽车。
结论: 多语言 AI 的未来
Buettner 和 Kovashka 的研究为 AI 社区敲响了至关重要的警钟。当我们竞相构建会说 100 多种语言的“通用”模型时,我们不能仅仅依赖翻译。
主要收获:
- 翻译 \(\neq\) 感知: 从原生文化的角度来看,一个句子的正确翻译并不一定是对图像的正确描述。
- 差距是可量化的: 使用机器翻译与原生数据相比,存在明显的性能下降 (约 5%) ,即使是专业的人工翻译也无法完全弥合这一差距。
- 增强有帮助,但不能治本: 使用 LLM 改写和丰富训练数据可以改善结果,但我们仍然需要更好的方法来捕捉文化细微差别。
为什么这很重要
如果我们希望 AI 在全球范围内真正普及和有用,它就不能只转换语言;它必须转换视角。印度的医疗 AI 分析扫描图时,可能需要比美国的 AI 关注不同的视觉标记。日本的安全机器人在解读“杂乱”环境时,可能需要与加拿大的机器人有不同的理解。
这就意味着,计算机视觉的未来不仅仅是更高的分辨率或更快的处理速度——它是关于构建能够理解我们在观察共享世界时存在的微妙、人性化差异的模型。研究人员必须优先收集原生数据,并开发“具有文化意识”的增强策略,以确保没有人会在“翻译中迷失”。
](https://deep-paper.org/en/paper/2410.02027/images/cover.png)