引言: 房间里的“粉红色大象”
想象一下,你试图告诉朋友你昨晚喝得酩酊大醉。如果你说的是英语,你可能会说自己“seeing pink elephants” (看见粉红色的大象了) 。现在,想象一下把这句话输入翻译引擎去和一位中国朋友交流。如果 AI 按字面意思翻译,你的中国朋友可能会困惑你为什么在动物园。在中国文化中,表达喝得烂醉的一个常见隐喻对应词是“烂醉如泥” (collapsed like quagmire) 。
这就是当今机器翻译 (MT) 面临的根本挑战。我们已经攻克了语法,在事实准确性上也越来越好,但我们仍在努力应对语言的灵魂: 隐喻。
目前的 AI 翻译评估指标,如 BLEU 或 ROUGE,主要是通过匹配单词或 n-gram (词序列) 来运作的。它们非常擅长检查机器是否搞对了语法结构,但在判断机器是否捕捉到了比喻表达的生动性或情感分量方面却表现糟糕。
在这篇文章中,我们将深入探讨研究论文 《MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language》 (MMTE: 用于评估隐喻语言机器翻译质量的语料库与指标) 。 这项工作背后的研究人员开发了一个新的框架来评估机器翻译隐喻的能力,引入了一个名为隐喻等效性 (Metaphorical Equivalence) 的关键概念。他们还发布了一个新的语料库,以帮助训练下一代翻译模型,使其不仅准确,而且富有诗意。

如图 1 所示,语言之间的桥梁并不总是一条直线——它往往需要创造性的跳跃。让我们来看看如何衡量这种跳跃。
背景: 不仅仅是文字
要理解为什么这项研究是必要的,我们必须从认知角度来看待什么是隐喻。根据基础语言学理论 (特别是 Lakoff 和 Johnson 的理论) ,隐喻不仅仅是一种花哨的修辞手段;它是一种概念映射 (conceptual mapping) 。 我们用一个概念 (通常是具体的) 来理解另一个概念 (通常是抽象的) 。
例如,在句子 *“The scream pierced the night” (尖叫声刺穿了夜空) * 中,我们将尖锐物体的物理动作 (刺穿) 映射到了声音 (尖叫) 上。
虽然其中一些映射是通用的 (与语言无关) ,但许多映射深深植根于文化之中。当 AI 翻译“The Senator steamrollered the bill” (参议员强行通过了法案/字面意: 参议员用蒸汽压路机压过了法案) 时,它有两种选择:
- 直译: 将单词“steamroller”翻译成目标语言中的建筑车辆词汇。这通常会导致无意义的结果。
- 意译 (比喻翻译) : 在目标语言中找到一个动词,传达同样的强力和支配感,即使字面形象发生了变化。
问题在于,现有的翻译评估数据集偏向于字面语言。专门设计用于测试隐喻能力的资源一直很稀缺。这正是 MMTE 项目旨在填补的空白。
MMTE 框架: 建立更好的衡量标准
研究人员不仅想测试现有的模型;他们还想建立一套如何测试它们的黄金标准。他们开发了一个三阶段的流程,以创建一个高质量、多语言的隐喻数据集 (英语到中文和英语到意大利语) 。
1. 流程
该过程如下图 2 所示,从原始机器输出到人工完善。

- 预处理: 他们从 MOH 数据集 (包含隐喻和字面句子的集合) 开始。他们使用四大主要翻译系统对这些句子进行翻译: Google Translate、有道翻译、Helsinki-NLP (Opus-MT) 和 GPT-4。
- 标注: 这是核心创新点。人工标注者不仅是说“好”或“坏”。他们使用一套特定的新指标 (质量、等效性、情感、真实性) 对翻译进行评分。
- 后期编辑: 由于机器翻译通常存在缺陷,人类专家对翻译进行了修正,以创建“金标准”参考。这确保了未来的评估有一个完美的人类基准来进行比较。
2. 新指标
这篇论文最重要的贡献是定义了等效性 (Equivalence) 。 在翻译隐喻时,“准确性”这个词太模糊了。研究人员将其分解为具体的类别,准确描述了隐喻是如何跨越语言的。
下表 2 提供了这些类别的示例。理解这些区别对于掌握研究结果至关重要。

让我们详细分析一下:
- 完全等效 (Full-Equivalence) : 圣杯。翻译使用相同的字面形象并传达相同的语境含义。
- *例子: * “The White House sits on Pennsylvania Avenue.” (中文: “白宫坐落在宾夕法尼亚大道上”。中文里“坐落”一词的用法与英文完全一致,均表示“位于”。)
- 部分等效 (Part-Equivalence) : 翻译改变了形象,但保留了隐喻的活力。字面意义不同,但比喻意义得以保留。
- *例子: * “Wallow in your success.” (中文译为“沉浸”。这仍然是一个涉及液体/深度的隐喻,但“wallow/打滚”和“immerse/沉浸”是不同的字面动作。)
- 非等效 (Non-Equivalence) : 翻译完全剥离了隐喻,只陈述了平铺直叙的含义。
- *例子: * “Sales were climbing.” (中文译为“销售额上升”。准确吗?是的。有诗意吗?没有。)
- 误译 (误解与错误) : AI 未能理解语境或翻译了错误的字面词汇,导致句子毫无意义。
3. 人工介入
为了确保这些指标被正确应用,研究人员采用了严格的标注界面。如图 8 所示,标注者可以将多个机器输出与“完全参考” (完全等效参考) 和“非参考” (非隐喻参考) 进行比较。这使他们不仅能对翻译是否正确进行评分,还能对风格和情感进行评分。

实验与结果: 机器有多聪明?
框架建立后,研究人员分析了当前翻译模型的表现。结果揭示了 AI 处理字面文本与隐喻文本之间的鲜明对比。
1. 难度差距
第一个主要发现是,对于 AI 来说,隐喻比字面文本难得多。
请看下面的图 6。橙色线代表字面 (Literal) 翻译 (没有隐喻的句子) ,而其他线代表不同类型的隐喻翻译。

请注意,在流畅度和可懂度等所有质量指标上,字面翻译 (右图橙色线) 始终得分接近顶部 (约 4.6/5.0) 。
相比之下,看左图。绿线( 非等效 )和红线( 部分等效 )明显下降。这告诉我们,当机器未能实现完全等效——当它不得不意译或转换隐喻时——句子的整体质量就会下降。它变得不那么流畅,对母语人士来说也不那么真实。
2. 剥离隐喻的倾向
机器究竟有多少次能成功保留隐喻?图 3 分解了这一分布。

在左侧饼图 (隐喻) 中,我们看到完全等效 (深蓝色部分) 发生在大约 56.6% 的情况下。这意味着近一半的时间里,机器要么剥离了隐喻 (非等效,19.6%) ,要么改变了隐喻 (部分等效,12.3%) ,要么完全失败 (错误/误译,约 11.6%) 。
对于创意写作来说,这 20% 的“非等效”率是个问题。如果你写了一本充满多彩意象的小说,而 AI 把它翻译成干巴巴的警方报告,虽然信息还在,但艺术却消失了。
3. 情感代价
为什么艺术消失了很重要?因为隐喻承载着情感。研究人员测量了翻译的“情感负荷”,并将其与他们的等效性指标相关联。
图 5 展示了这种相关性的热力图。

蓝色越深,相关性越高。
- 看左边的 “Non Equi-” (非等效) 一行。它与 “Less” (更少) 情感 (第 2 列) 有很高的相关性。这证实了当你剥离隐喻 (非等效) 时,你会失去情感强度。
- 相反, 完全等效倾向于保留 “Same” (相同) 程度的情感。
例如,将“She swallowed her words” (她把话咽了回去) 翻译成“她没有说话”,就消除了原文中那种身体上的阻力和不情愿的感觉。
4. 语言障碍: 类型学很重要
该研究还比较了英语到中文 (EN-ZH) 与英语到意大利语 (EN-IT) 。
- 意大利语和英语在类型学上很接近 (同属印欧语系) 。
- 中文和英语在类型学上距离较远。

如图 7 所示,蓝色柱状图 (意大利语) 在隐喻内容方面普遍优于橙色柱状图 (中文) 。这证实了语言和文化距离越大,AI 正确映射隐喻的难度就越大。这不仅仅是词汇的问题;更是关于不同文化如何看待世界的问题。
5. AI 能给 AI 打分吗?
最后,考虑到人工标注既昂贵又缓慢,研究人员提出了一个问题: 像 GPT-4 这样的模型能帮我们要完成这项评分工作吗?
他们将 GPT-4 的评分与人工标签进行了比较。

表 4 显示,GPT-4 (甚至 GPT-3.5) 在识别完全等效性方面具有极高的准确率 (86%以上) 。这表明,虽然大语言模型 (LLM) 可能仍然难以在所有语境下生成完美的翻译,但它们拥有评估翻译的语义理解能力。这为自动化评估流程打开了大门,该流程将比我们今天使用的词汇匹配指标复杂得多。
结论与启示
MMTE 论文揭示了当前 AI 发展中的一个关键盲点。随着我们在自然语言处理 (NLP) 领域追求“超人”的表现,我们不能满足于仅仅传递事实信息的系统。人类的交流是丰富的、复杂的,并且充满了比喻。
这项研究的主要结论是:
- 隐喻是一个独特的挑战。 它们需要自己的评估指标,因为标准的“流畅度”分数掩盖了比喻意义经常丢失的事实。
- 等效性是新标准。 我们应尽可能争取完全等效,因为它保留了质量和情感。
- 文化制造复杂性。 在不同文化 (如英语和中文) 之间进行翻译,需要模型理解认知映射,而不仅仅是字典定义。
通过发布 MMTE 语料库和这些新指标,作者为构建不仅仅像字典,更像吟游诗人一样的翻译系统提供了路线图——保留我们要言语中的色彩、智慧和灵魂。
](https://deep-paper.org/en/paper/2406.13698/images/cover.png)