迷失在翻译中?Emoji、情感与语言如何相互影响
在数字时代,Emoji 常被誉为世界上第一种真正的通用语言。微笑就是微笑,眼泪就是眼泪,无论你说的是英语、葡萄牙语还是普通话。至少我们可能会这样认为。
虽然 Emoji 确实通过为文本增添情感色彩弥合了计算机中介交流 (CMC) 中的鸿沟,但认为它们在不同文化中被完全相同地解读,这种假设是站不住脚的。先前的研究表明,即使在同一种语言中,人们也经常对特定 Emoji 的含义存在分歧。当你跨越语言边界时,情况会变得更加扑朔迷离。
今天,我们将深入探讨一篇引人入胜的研究论文,题为 “Semantics and Sentiment: Cross-lingual Variations in Emoji Use” (语义与情感: Emoji 使用的跨语言差异) 。 研究人员——来自爱丁堡大学的 Giulio Zhou、Sydelle de Souza、Oghenetekevwe Kwakpovwe、SuElla Markham 和 Sumin Zhao——致力于理清我们如何定义 Emoji (语义) 、我们在使用它们时的感受 (情感) 以及我们所讲的语言之间复杂的关系。
如果你是语言学、NLP (自然语言处理) 的学生,或者只是对我们如何在线交流感到着迷,这项研究为 Emoji 的“字面”与“比喻”生涯提供了重要的见解。
问题所在: 不仅仅是一个数字表情
这项研究为何重要?在过去十年中,Emoji 的使用呈爆炸式增长。它们出现在超过 22% 的推文中。对于计算机科学家和语言学家来说,Emoji 不仅仅是可爱的装饰;它们是数据。
然而,自然语言处理中的一个主要障碍是歧义性 。
- 字面义 (Literal Meaning): 如果我发送一个 😭,我是真的伤心在哭吗?
- 比喻义 (Figurative Meaning): 还是你讲了一个太好笑的笑话,让我“笑哭”了 (“dying” of laughter) ?
如果一个训练用于情感分析的 AI 模型看到 😭 并假定它是“消极/悲伤”的,它可能会完全误解一段积极、快乐的互动。此外,如果这种使用模式在英语和中文之间存在差异,那么在一个语言上训练的模型在应用于另一个语言时可能会失败。
研究人员旨在回答三个核心问题:
- 人们是否对 Emoji 孤立存在时的含义有分歧?
- 关于字面与比喻使用的共识是否因语言而异?
- 推文的情感 (积极或消极) 是否与 Emoji 是否被比喻性地使用相关?
背景: 定义不可定义之物
为了理解方法论,我们首先需要对一些术语达成一致。论文区分了两种类型的意义:
- 无语境字面义 (Context-Free Literality): Emoji 在孤立呈现时的常规意义。这是图标的“字典定义”。
- 比喻义 (Figurative Meaning): 任何不同于字面义的意义,通常出现在 Emoji 被置于语境中时。
先前的研究 (Barbieri et al., 2016) 试图通过观察向量表示 (词语的数学映射) 来分析跨语言的 Emoji 使用。虽然有用,但这种方法忽略了人为因素。它没有询问人们他们是怎么想的。这项研究通过在三种语言中进行以人为中心的实验填补了这一空白: 英语、欧洲葡萄牙语和普通话 。
方法论
研究人员设计了一个两阶段的实验流程。他们不仅想知道 Emoji 是如何被使用的;他们首先需要建立一个基准,了解这些 Emoji 对不同语言的使用者来说实际上意味着什么。
Emoji 选择
团队从 2021 年最常用的列表中选择了 10 个 Emoji。他们在面部 Emoji (如 😂 和 😍) 与非面部 Emoji (如 ❤️ 和 🎉) 之间取得了平衡。基于先前的研究,他们还特意选择了具有不同程度“歧义性”的 Emoji。
实验 1: 确立字面义
第一步是确定每种语言中每个 Emoji 的“基本事实”字面义。
参与者 (每种语言 30 人) 被展示一个孤立的 Emoji,并被要求提供一个单词定义 。

如上图 (a) 部分所示,参与者看到一个 Emoji (例如流汗的笑脸) 并输入一个词 (例如“nervous”[紧张]) 。
计算分歧
你如何衡量人们对定义的定义分歧有多大?研究人员使用了一个称为语义变异 (Semantic Variation, SV) 的指标。
如果 10 个人将一个 Emoji 定义为“爱”,而 1 个人说是“心”,则变异很低。如果 10 个人给出 10 个完全不同的词,则变异很高。为了在数学上量化这一点,他们使用了以下方程:

让我们简单拆解一下:
- \(sv\): 语义变异分数。
- \(V\): 参与者给出的不同定义的集合。
- \(v^*\): 提供的最频繁的词 (字面义的“赢家”) 。
- Embeddings (\(e_v\)): 研究人员使用 XLM-T (一个在 Twitter 数据上训练的多语言语言模型) 将参与者提供的每个词转换为向量 (代表意义的一组数字) 。
- Cosine Distance: 该公式计算每个其他定义与最频繁定义 (\(v^*\)) 之间的“距离”有多远。
本质上,这个公式计算了所有提供的定义与最流行定义之间的加权平均距离。0 分意味着每个人都说了同一个词。高分意味着分歧很大。
实验 2: 语境与情感
一旦研究人员确立了字面义 (例如,😭 = “Crying”[哭泣]) ,他们就可以测试人们如何在真实的推文中解读 Emoji。
他们从 X (前 Twitter) 抓取了每种语言每个 Emoji 的 4,000 条推文。他们过滤了这些推文以确保积极和消极情感的混合。
然后向参与者展示一条包含 Emoji 的推文以及其字面义 (源自实验 1) 。他们被问到两个问题:
- 用法 (Usage): Emoji 在这条推文中是被用作字面义还是比喻义?
- 情感 (Sentiment): 推文的情感是积极的还是消极的?
回顾上面的图 3 (b 和 c 部分) ,可以看到参与者看到的界面。这种设置允许研究人员观察用户在实际操作中看到 Emoji 时是否认同字面定义。
实验与结果
现在,让我们看看数据揭示了什么。
RQ1: 人们对无语境解读有分歧吗?
首先,研究人员分析了实验 1 中的单词定义,以找到每种语言的“字面义”。

发现: 正如你在 Table 2 中看到的,字面义非常一致。
- 🔥 是 “Fire” / “Fogo” / “火热”。
- 😭 是 “Crying” / “Chorar” / “哭泣”。
这表明 Emoji 的象形性质 (它们看起来像它们所代表的东西) 超越了语言障碍。火的图片对每个人来说看起来都像火。
然而,关于人们对这些定义的一致程度存在一些差异。下表显示了语义变异 (SV) 分数。

Table 3 的主要结论:
- 中文使用者总体上具有较高的语义变异 (分数较高) 。研究人员将其归因于普通话的语言特征,特别是关于词的边界 (在中文里什么构成一个“词”比在英语或葡萄牙语中更具流动性) 。
- 歧义是共享的: 在英语和葡萄牙语中,实体对象 (心、火) 的歧义性低于面部表情 (流汗笑脸、笑哭) 。这是合理的——就什么是“心”达成一致比就“带汗的咧嘴笑脸”背后的复杂情绪达成一致要容易。
RQ2: 语言是否影响对用法的共识?
接下来,他们对实验 2 的数据进行建模,看看语言是否能预测一个 Emoji 被视为字面还是比喻。

观察 Table 6 , 我们要看成对比较。
- 中文 vs. 英文: 显著差异 (\(p < .0001\))。
- 英文 vs. 葡萄牙文: 差异较小。
- 中文 vs. 葡萄牙文: 这里没有发现统计学上的显著差异 (尽管趋势表明存在距离) 。
研究人员发现,虽然字面义是共享的,但使用模式 (何时字面使用 vs. 比喻使用) 可能会有所不同。英语和葡萄牙语在语言上更接近 (并且共享更多西方互联网文化重叠) ,它们之间的对齐程度比它们与中文的对齐程度更紧密。
然而,统计模型 (如下方 Table 5 所示) 显示,虽然语言是一个显著因素,但 Emoji 本身是用法更强的预测因子。

换句话说,“竖大拇指”的表现更像“竖大拇指”,而不是“英语表现得像英语”。
RQ3: 情感与比喻使用的联系
这可能是研究中最引人注目的部分。推文的情感是否会迫使 Emoji 变成比喻义?
研究人员发现 Emoji 用法 (字面/比喻) 与情感 (积极/消极) 之间存在统计学上显著的相关性。
让我们看看数据可视化:

如何解读此图表: 每组柱状图代表一个 Emoji。颜色代表情感和用法的组合。
- 深蓝: 积极字面 (Positive Literal)
- 红色: 积极比喻 (Positive Figurative)
- 黄色: 消极字面 (Negative Literal)
- 青色: 消极比喻 (Negative Figurative)
“放声大哭脸”(😭) 现象: 看 😭 的柱状图 (左数第四个) 。
- 你看到一个高高的黄色条 (消极字面) 。这代表人们在消极推文中用它来表示“悲伤”。
- 但你也看到一个显著的红色条 (积极比喻) 。这代表“笑哭/喜极而泣”的用法。
“闪光”(✨) 现象: 看闪光 (或心形变体) 。它们绝大多数是积极字面 。 当它们出现在消极语境中 (青色条) 时,它们几乎总是比喻性的 (可能是讽刺或反语) 。
结论: 情感驱动意义。如果一条推文是积极的,一个“悲伤”的 Emoji 几乎肯定是被比喻性地使用的。如果一条推文是消极的,一个“快乐”的 Emoji 很可能是被比喻性地使用的 (讽刺) 。
结论与启示
Zhou 等人的这项研究层层剥开了我们数字互动的面纱。
主要结论:
- 字面一致性: 无论语言如何,我们在物理上通常对 Emoji 代表什么 (火就是火) 有一致的看法。
- 语言距离: 英语和葡萄牙语使用者在 Emoji 解读上的相似性高于他们与普通话使用者的相似性。
- 情感是关键: 文本的情感与 Emoji 是字面还是比喻之间存在强烈、可预测的联系。
这对未来为何重要?
对于 AI 和 NLP 的学生来说,这篇论文为构建更好的模型提供了路线图。
- 情感分析: 模型不应将 Emoji 视为静态的“情感分数”。😭 并不总是 -1 (消极) 。如果周围的文本是积极的,模型需要翻转 Emoji 的权重。
- 讽刺检测: 不匹配的情感 (例如,消极文本 + 积极 Emoji) 与比喻使用之间的高度相关性是讽刺检测的“确凿证据”。
研究人员建议未来的工作可以自动化检测比喻用法。想象一个 AI,仅仅通过分析 Emoji 和文本之间的关系就能告诉你,“他们实际上并不伤心;他们是高兴坏了。”
随着我们继续跨越国界进行交流,理解这些微妙的语义转变至关重要。Emoji 可能是一个通用的字符集,但我们使用它们的语法却是深刻的人性化、充满文化细微差别且美丽复杂的。
](https://deep-paper.org/en/paper/file-3640/images/cover.png)