当朋友一边眨眼一边对你说: “我今天肯定会坚持节食”时,你立刻就能明白他们的意思可能恰恰相反。你不仅仅处理了文本 (这句话) ,你还结合了视觉线索 (眨眼) 来消除陈述中的歧义。
这种能力被称为多模态识读能力 (Multimodal Literacy) 。 它是人类主动结合不同来源的信息——文本、图像、手势——以形成完整推理过程的能力。当我们看教科书插图来理解复杂的段落,或者阅读标题来理解抽象照片时,我们都在直觉地运用这种能力。
但是,人工智能能做到这一点吗?
目前的多模态大语言模型 (MLLMs) ,如 GPT-4V 或 LLaVA,虽然令人印象深刻,但它们通常在一个简化的假设下运行: 它们假设图像总是完全相关且直观的。它们缺乏解决所见与所读之间冲突或歧义所需的“主动”推理能力。
在这篇文章中,我们将深入探讨延世大学研究人员的一篇引人入胜的研究论文,题为 “Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you!” (视觉语言模型能否利用视觉线索解决文本歧义?让视觉双关语告诉你!) 。他们提出了一种利用最臭名昭著的语言结构之一来测试这种能力的新方法: 双关语 。
问题所在: 被动理解 vs. 主动理解
大多数测试视觉语言模型 (VLM) 的基准都涉及直接描述。你给模型看一张猫的照片并问: “这是什么?”模型回答: “一只猫。”
然而,现实世界的交流很少如此直接。我们经常面临词汇歧义 , 即词语有多种含义。为了弄清楚具体的含义,我们会寻找上下文。如果文本本身有歧义,我们就会看图像。
研究人员认为,目前的模型缺乏主动理解的能力。他们想知道: 如果一段文字本身令人困惑,机器能否利用视觉线索弄清楚它的意思?
为什么要用双关语?
双关语是进行这项实验的完美实验室,因为它们本质上具有歧义 。 双关语迫使单个短语或单词同时包含两种解释。要“听懂”笑话,你必须在脑海中同时保留这两种含义并找到它们之间的联系。
通常,视觉辅助是让双关语“顿悟 (click) ”的关键。

如上图 1 所示,视觉线索提供了瞬间的领悟。在左边,“leak under the sink”既指漏水,也指蔬菜韭葱 (leek,发音相同) 。图像立即阐明了幽默所在。如果 AI 能看着图像并理解文本为什么好笑,就证明它正在有效地结合多种模态来解决歧义。
介绍 UNPIE: 多模态识读能力的基准
为了测试这一点,研究人员创建了 UNPIE (Understanding Pun with Image Explanations,带图像解释的双关语理解) 。这是一个旨在评估机器是否可以利用视觉输入解决词汇歧义的综合数据集和基准。
该数据集包含 1,000 个双关语,但构建该数据集本身就是一项复杂的工程壮举。研究人员不仅仅是从网络上抓取数据;他们建立了一个受控的测试环境。
1. 双关语分类学
首先,我们需要了解数据的语言结构。研究人员利用现有的纯文本双关语数据集 (SemEval 2017) ,将双关语分为两类:
- 同形同音双关语 (Homographic Puns) : 依赖于拼写和发音相同但含义不同的单词 (例如,“tire”既可以指轮胎,也可以指疲劳) 。
- 异形同音双关语 (Heterographic Puns) : 依赖于发音相似但拼写不同的单词 (例如,“prophet” (先知) 与 “profit” (利润) ) 。

图 3 展示了这种区别。在左侧 (同形同音) ,“pop”既指父亲,也指气球爆炸的声音。在右侧 (异形同音) ,“sundays”利用了星期天和冰淇淋甜点“圣代 (sundae) ”的双关。
2. 生成视觉解释
寻找能够同时解释双关语两种含义的自然图像非常困难。网络上的大多数图像只描绘了故事的一面。为了解决这个问题,研究人员使用了 DALL-E 3 并采用了“人在回路 (human-in-the-loop) ”的方法。
他们不能只是输入“做一张有趣的图片”。他们必须引导图像生成器包含两种解释的元素,且不能通过文本泄露笑话。

如图 4 所示,这是一个迭代过程。第一次尝试可能只显示了字面解释。然后,研究人员会提示模型添加第二层含义。如果模型不小心在图像上写出了笑点 (这对被测试的 AI 来说相当于作弊) ,研究人员会指示它删除文本。
结果是一组双关语解释图像 (Pun Explanation Images) , 它们在视觉上封装了这种歧义。
3. 多语言转折
为了客观地衡量模型是否“理解”了双关语,研究人员添加了一个翻译层。他们将英语双关语翻译成了德语、法语和韩语。
至关重要的是, 翻译过程去除了双关语。 如果你将“Success comes in cans”翻译成德语,你就失去了“can” (助动词“能”) 和“can” (金属罐头) 之间的文字游戏。翻译变成了字面上的一句毫无歧义的话。这种“净化”后的翻译作为实验的控制变量。
三大挑战
随着 UNPIE 数据集的准备就绪,研究人员建立了三个不同的任务来测试多模态识读能力。这些任务范围从简单的识别到复杂的重构。

任务 1: 双关语定位 (识别)
目标: 找到双关语。 输入: 一个英语句子和一张双关语解释图像。 挑战: 模型必须识别句子中哪个具体短语构成了双关语。
在图 2 (左侧) 中,模型读取“Success comes in cans, failure comes in cant’s.” 它看到一个标签为“Yes I Can”的锡罐图像。模型必须识别出单词“cans”是笑话的关键点。
2: 双关语消歧 (解释)
目标: 根据图片选择正确的含义。 输入: 一个英语双关语和一张消歧图像。 挑战: 与显示两种含义的“解释”图像不同,“消歧”图像仅显示一种特定解释。模型必须将句子翻译成目标语言 (如德语) ,且翻译结果必须仅与提供的图像保持一致。
例如 (图 2,右侧) ,如果文本说“We can do it”,而图像显示一个饮料罐,模型应该将其翻译为指代物体。如果图像显示铆工罗西 (Rosie the Riveter) ,它应该将其翻译为动词“能够”。
任务 3: 双关语重构 (终极测试)
目标: 重现笑话。 输入: 一个翻译后的 (无歧义) 句子 + 一张双关语解释图像。 挑战: 这模拟了现实世界中信息不全的场景。模型接收到一个德语句子,字面意思是“成功装在锡制容器里到达”。它还看到了“Yes I Can”锡罐的图像。
它必须结合这两个输入来重构原始的英语句子: “Success comes in cans”。它必须通过看图来推断出在翻译过程中丢失的幽默感。
参赛选手: 显微镜下的模型
研究人员测试了两大类 AI 模型:
- 苏格拉底模型 (Socratic Models, SM) : 这些是模块化系统 (或流水线) 。它们使用视觉模型 (如 BLIP-2) 将图像转化为文本描述,然后将该描述与原始文本一起输入到大语言模型 (如 GPT-4 或 Vicuna) 中。它们通过“自言自语”来解决问题。
- 视觉语言模型 (VLM) : 这些是经过训练可以直接同时处理图像和文本的单体模型 (例如 LLaVA, Qwen-VL) 。
他们还创建了一个名为 LLaVA-MMT 的变体,该变体在标准多模态机器翻译数据集 (Multi30k) 上进行了微调,以查看标准训练是否有助于这项创造性任务。
实验结果: 图像真的有帮助吗?
简短的回答是: 是的。 总体而言,增加视觉上下文提高了模型处理歧义的能力。然而,结果中的细微差别非常迷人。
1. 双关语定位结果
在最简单的任务——找到双关语单词——中,视觉效果提供了提升,但强大的纯文本模型在这方面已经相当不错了。

如表 4 所示,与纯文本输入 (L) 相比,添加视觉 (V+L) 持续提高了性能 (由绿色箭头表示) 。
- GPT-4 非常聪明。即使没有图像,它在同形同音双关语上的得分也达到了 95.4%。有了图像,它小幅上升到了 96.0%。
- Qwen-VL 出现了巨大的飞跃。它在纯文本上很吃力 (43.8%) ,但当允许看到图像时,猛增至 63.6%。这表明,与 GPT-4 这样的大型模型相比,较小的模型更依赖视觉线索来“获取”上下文。
2. 双关语消歧结果
这项任务要求模型根据特定图像选择特定翻译。这是对模型是否关注图像以解决文本困惑的直接测试。

表 5 (上图) 证实了这一假设。
- 视觉上下文是关键: 每个模型在获得图像访问权限后表现都更好。
- 文本理解 vs. 视觉理解: 有趣的是, GPT-4 (SM)——仅仅读取图像的文本描述——的表现优于原生 VLM (如 LLaVA) 。这意味着“理解双关语”仍然主要是一项语言推理任务。只要描述足够好 (“一个锡罐的图像”) ,GPT-4 的庞大大脑比 LLaVA 的原生视觉处理能更好地处理逻辑。
3. 双关语重构结果
这是最难的任务: 利用枯燥的翻译和有趣的图片来重现原始的英语双关语。

表 6 中的结果说明了一切:
- 视觉带来的巨大收益: 看一下“SM GPT-4”这一行。对于德语到英语 (De->En) ,准确率从 43.1% (纯文本) 跃升至 62.9% (带视觉) 。没有图像,模型几乎无法重构双关语。
- “对齐税 (Alignment Tax) ”: 看一下 LLaVA-MMT 。 这是在标准机器翻译数据上微调过的模型。它的表现比标准 LLaVA 模型更差 。
- 为什么? 标准数据集 (如 Multi30k) 通常是字面描述 (“一只狗在草地上跑”) 。在这些数据上微调教会了模型变得枯燥和照本宣科。它失去了识别和重构双关语所需的“创造性”火花。这种现象通常被称为“对齐税”——在标准基准上的改进可能会降低在复杂推理任务上的性能。
- 语言距离: 视觉线索的益处在韩语到英语的翻译中最高。由于韩语在语言学上与英语的距离 (相比德语或法语) 更远,纯文本翻译保留的原始结构较少。模型需要图像来弥合这一差距。
结论: 多模态识读能力的未来
UNPIE 基准表明,机器正开始发展一种多模态识读能力。它们不仅仅是并行处理文本和图像;它们正在使用图像来修复文本理解中的漏洞。
然而,“识别”双关语和“重构”双关语之间的差距仍然很大。虽然像 GPT-4 这样的模型正在接近人类的推理能力,但它们往往依赖于图像的文本描述,而不是深度的视觉理解。
给学生的主要启示
- 歧义是特性,不是 Bug: 在高级 AI 研究中,我们要的不仅仅是能回答简单问题的模型。我们需要能解决困惑的模型。双关语是测试这一点的绝佳方式。
- 视觉上下文很重要: 即使对于看起来偏重文本的任务 (如翻译) ,看到上下文也可以极大地改变输出。
- 数据质量 > 数据数量: LLaVA-MMT 的失败表明,在错误类型的多模态数据 (字面 vs. 创造性) 上训练实际上会让模型在复杂任务上变笨。
下次当你看到一个表情包或视觉双关语时,花点时间欣赏一下你的大脑正在执行的复杂认知体操。这是一种机器才刚刚开始学习的技能。
](https://deep-paper.org/en/paper/2410.01023/images/cover.png)