我们都听过这句习语: “一图胜千言”。这是关于视觉传播力量的普遍真理。但有一个我们很少讨论的隐忧: 每个人是否都以同样的方式聆听那张图像?
在我们日益全球化的世界中,我们消费来自各地的通过内容。一部在美国制作的电影在日本上映;一份在印度制作的教育练习题可能会在尼日利亚使用。虽然我们在使用机器翻译翻译文本 (文字) 方面已经做得很好,但我们经常忽视视觉。
想象一份美国一年级学生的数学练习题,要求他们数硬币。图片显示的是 25 美分和 10 美分硬币。如果你把同样的练习题给印度的孩子,文本可能会翻译成印地语,但如果图片仍然显示美元货币,孩子会感到困惑。视觉语境断裂了。
这种为了适应特定文化语境而调整内容 (包括文本和视觉) 的过程被称为 创译 (Transcreation) 。
在这篇文章中,我们将深入探讨最近的一篇研究论文,该论文介绍了 图像创译 这一任务。我们将探索当前的生成式 AI 模型如何处理文化适配,研究人员构建了哪些管道来测试它们,以及为什么——尽管 AI 艺术被大肆宣传——机器仍然难以理解文化。
问题所在: 当翻译还不够时
传统上,翻译是语言学层面的。我说“apple”,你翻译成“manzana”、“pomme”或“ringo” (苹果) 。但在多媒体中,意义源于文本和图像的交互。
文化适配不仅仅是替换单词。它需要理解什么能在目标受众中产生相同的“效果”。

如图 1 所示,创译已经在多个行业中通过人工手动进行:
- 视听媒体: 在电影《头脑特工队》(Inside Out) 中,主角孩子讨厌的蔬菜从西兰花 (美国版) 变成了青椒 (日本版) ,因为日本孩子通常比讨厌西兰花更讨厌青椒。
- 教育: 数学题会根据当地货币或文化相关物体进行调整,以帮助孩子更快地学习。
- 广告: 可口可乐或费列罗等品牌会调整其包装和图像以适应当地节日,如中国的农历新年或印度的排灯节。
研究人员发现了一个空白: 虽然人类译者在做这件事,但机器学习系统目前仍局限于文本。没有专门的自动化系统被设计用来获取图像并“翻译”其文化语境,同时保留其原始意图。
方法: 三种文化适配管道
由于没有现成的“图像创译”模型,作者利用最先进的生成式模型构建了三个不同的管道。他们想看看现有的 AI 是否可以通过提示来执行这项复杂的任务。
目标: 获取源图像 (例如,来自尼日利亚的一盘食物) 并将其适配到目标文化 (例如,美国) ,反之亦然。

如图 2 所示,研究人员设计了三种方法,范围从简单的指令到复杂的检索。
1. e2e-instruct: 直接方法
这是最直接的方法。它使用基于指令的图像编辑模型 (具体为 InstructPix2Pix )。
- 工作原理: 你向模型输入原始图像和一段文本提示: “Make this image culturally relevant to [Target Country].” (让这张图片与 [目标国家] 的文化相关。)
- 逻辑: 这测试了图像模型本身是否有足够的“世界知识”来理解文化相关性意味着什么,而无需额外帮助。
2. cap-edit: LLM 辅助方法
这个管道承认视觉模型可能还不够聪明。它引入了一个大型语言模型 (LLM) 来充当“文化大脑”。
- 第 1 步 (Caption): 一个模型描述图像 (例如,“一碗辣拉面”) 。
- 第 2 步 (LLM Edit): 要求 GPT-3.5 编辑该说明文字以适应目标文化 (例如,如果是针对巴西,将“拉面”改为“巴西黑豆炖肉”) 。
- 第 3 步 (Image Edit): 图像编辑模型根据新的说明文字更新视觉效果,并试图保留原始图像的结构。
3. cap-retrieve: 检索方法
有时,编辑图像看起来很假。这个管道认为,最好找到一张与新文化语境相匹配的真实照片。
- 第 1 & 2 步: 与上述相同 (说明文字 \(\rightarrow\) LLM 编辑) 。
- 第 3 步 (Retrieve): 系统不生成像素,而是使用新的经过文化适配的说明文字在海量数据库 (LAION) 中搜索来自目标国家的真实图像。
构建评估数据集
没有多样化、基于现实的数据集,就无法评估文化相关性。作者创建了一个包含 7 个地理上多样化国家的两部分数据集: 巴西、印度、日本、尼日利亚、葡萄牙、土耳其和美国。
第一部分: 概念数据集 (The Concept Dataset)
该数据集侧重于简单的、单一概念的图像。研究人员与选定国家的当地人合作,确定了 5 个跨越通用类别的文化显著概念,如食物、庆祝活动和住房。

图 3 展示了该数据集的广度。对于“食物”,他们不仅仅是挑选随机菜肴;他们挑选了当地人认为具有代表性的菜肴。这产生了大约 600 张图像,内容在跨文化上是连贯的,但在视觉上截然不同。
第二部分: 应用数据集 (The Application Dataset)
为了测试这些模型是否在现实世界中有效,研究人员策划了来自两个具有挑战性领域的图像:
- 教育: 视觉效果是问题一部分的数学练习题 (例如,数物体) 。
- 文学: 图像必须与故事文本相匹配的故事书插图。

图 4 和图 5 突显了为什么这很难。在图 4 中,你不能只是把圣诞球换成随机物体;新物体必须仍然是可数的,并且可以通过颜色区分。在下方的图 5 中,图像必须匹配特定的句子“我妈妈买了米”。

实验与结果: AI 的现实检验
研究人员进行了大规模的人工评估。他们不仅依赖自动化评分 (这往往无法捕捉细微差别) 。他们要求来自目标国家的评估员对图像的文化相关性、视觉质量和意义保留进行评分。
结果具有启发性——且对当前的 AI 现状来说有些发人深省。
发现 1: 模型难以处理文化细微差别
总体而言,这项任务极其困难。即使是最好的管道,根据国家的不同,也只能成功创译约 5% 到 30% 的图像。

如图 6 所示,成功率 (底部行 “C1+C3”) 很低。cap-retrieve (寻找真实图像) 通常比尝试生成新像素表现更好,但它经常检索到不相关的图像。
发现 2: “国旗偏差”与刻板印象
最有趣——也是最有问题——的失败之一来自 e2e-instruct 管道。当被要求使图像与某个国家“文化相关”时,模型经常惊慌失措,只是简单地在图像上贴满该国的国旗颜色。

在图 19 中,模型被要求为巴西调整一份“数热狗”的练习题。它没有换成巴西小吃,而是把热狗变成了奇怪的巴西国旗。
同样,在下方的图 18 中,我们看到了为土耳其调整可口可乐瓶时发生的情况。e2e-instruct 模型 (图 b) 似乎产生幻觉,认为土耳其文化意味着红色液体,或者可能混淆了品牌红与土耳其国旗红。

发现 3: 布局保留 vs. 文化准确性
cap-edit 管道试图保持原始图像的结构。这对布局很重要的练习题来说很好,但它创造了“弗兰肯斯坦”式的拼凑图像。
看图 16 (源: 日本,目标: 巴西) 。提示要求将拉面 (日本) 改为黑豆炖肉 (Feijoada) (巴西) 。

- 图像 (b)
e2e-instruct: 只是把拉面变成了黄色/绿色 (巴西国旗颜色) 。 - 图像 (c)
cap-edit: 它试图强行把黑豆炖肉 (一种豆类炖菜) 放进带有面条的拉面碗形状里。结果看起来很不自然。 - 图像 (d)
cap-retrieve: 找到了一张真实的食材图片,但完全丢失了“一碗汤”的结构。
发现 4: 成功取决于语境
有时,模型未能做到逼真,但在任务上却成功了。
在教育数据集中,目标通常是教授一个概念 (如计数) 。在图 7 中,任务是为日本调整樱桃。

cap-edit 管道 (c) 将水果变成了花朵 (樱花) 。虽然在语义上这是一个转变 (水果 \(\rightarrow\) 花朵) ,但它与日本文化相关,而且至关重要的是, 孩子仍然可以数花朵。 研究人员认为这是一个成功的创译,因为它保留了教育实用性。
为什么这这么难?
论文强调了 AI 在这方面挣扎的几个原因:
- 视觉偏差: 大多数模型都是在以西方图像为主的互联网数据上训练的。它们清楚地“知道”汉堡的高清外观,但对尼日利亚的 Amala 长什么样可能只有一个模糊、刻板的概念。
- 缺乏语义理解: 图像编辑器关注像素和形状。它们不明白,如果你把“热狗”改成“塔可 (taco)”,你就不能保留完全相同的圆柱形状。
- “偷懒”的捷径: 模型会优化最简单的路径。添加国旗是满足“让它变成美国式”这一提示的更简单方法,比起重新设计背景中的房屋架构要容易得多。
结论与启示
这篇论文是迈向 AI 新前沿的“第一步”。我们正在超越仅仅生成高质量图像的时代;我们正在进入需要文化准确图像的时代。
作者总结道:
- LLM 是必要的: 纯视觉模型还没有足够的文化语境。我们需要语言模型来指导它们。
- 检索很强大: 有时,生成图像的最佳方式是找到一张已经存在的图像。
- 评估是关键: 我们无法改进我们无法衡量的东西。本论文创建的数据集为未来的模型提供了基准。
对于学生和研究人员来说,这项工作开启了巨大的机遇。我们如何构建能够理解婚纱在西方是白色的但在东方通常是红色的模型?我们如何调整教育内容,以便每个孩子都能在教科书中看到自己的世界?
正如论文所暗示的,一张图片也许胜过千言万语,但我们需要确保我们的 AI 系统所说的语言是每个人都能听懂的。
](https://deep-paper.org/en/paper/2404.01247/images/cover.png)