AI 懂笑话吗?利用 YesBut 数据集评估视觉-语言模型的讽刺理解能力
人工智能在观察和描述世界方面取得了巨大进步。现代视觉-语言 (VL) 模型可以看着厨房的照片列出柜台上的食材,或者看着街道场景描述交通状况。但它们能理解幽默吗?具体来说,它们能领会讽刺这种辛辣的嘲讽吗?
讽刺是一项复杂的认知任务。它不仅需要识别物体,还需要理解社会规范、人类行为,以及期望与现实之间往往相互矛盾的关系。
在最近一篇题为 “YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models” (YesBut: 用于评估视觉-语言模型讽刺理解能力的高质量注释多模态数据集) 的论文中,研究人员着手回答了这个问题。他们基于流行的“Yes, But” (是,但是) 漫画格式构建了一个独特的数据集,以测试像 GPT-4、Gemini 和 LLaVA 这样的最先进模型是否真的能“懂”其中的笑点。
结果不仅引人入胜,也让人清醒地认识到目前 AI 推理能力的局限性。
问题所在: 为什么 AI 很难理解讽刺
对人类来说,讽刺往往是直觉性的。我们看到两张并列的图片,不仅能立刻理解其中的评论意味。然而,对于 AI 模型来说,这需要几个逻辑跳跃:
- 识别: 识别图像中的物体。
- 关联: 理解物体之间如何相互关联。
- 语境: 应用关于世界的常识性知识。
- 矛盾: 识别出该场景呈现了一种反讽的转折或违背正常预期的冲突。
大多数现有的视觉-语言模型数据集侧重于字面描述 (例如,“一只狗坐在垫子上”) 。即使是专注于模因 (meme) 的数据集,通常也严重依赖文字覆盖。研究人员发现了一个空白: 目前还没有一个综合性的基准来检测和理解讽刺,特别是当幽默主要通过视觉呈现并依赖于相互冲突的场景时。

看看上面这张图 (图 1) 。左边 (“YES”) 是一条深情的短信: “Wish you were here” (希望你在这里) 。右边 (“BUT”) 则是现实: 发这条短信的人正坐在马桶上。
要理解这一点,模型必须阅读文字,识别场景 (卫生间) ,然后综合这两条截然不同的信息来理解其中的反讽: 一种浪漫的情感却是从一个非常不浪漫的地点发出的。这就是 YesBut 数据集提出的核心挑战。
YesBut 数据集
为了严格评估模型,作者创建了 YesBut,一个包含 2,547 张图像 的数据集。该数据集围绕“Yes, But”格式构建,即两幅画面并排展示。左侧画面通常描绘一个正常的、预期的或理想化的场景 (“Yes”) ,而右侧画面则揭示了一个矛盾的、现实的或幽默的转折 (“But”) 。
YesBut 有何不同?
研究人员将 YesBut 与现有的模因和幽默数据集进行了比较。关键的区别在于它更依赖视觉叙事而非文字。

如表 1 所示,YesBut 中超过 50% 的图像根本不包含文本 (忽略“YES”和“BUT”标题) 。这迫使模型必须依赖视觉线索,而不是通过阅读说明文字来走捷径。此外,100% 的图像包含子图像,要求模型分析两个不同画面之间的关系。
方法论: 构建流程
数据集的创建是一个多阶段的过程,旨在确保高质量和多样性。作者不仅是抓取图像,还构建了一个包含人工注释和生成式 AI 扩展的流程。

第一阶段: 从社交媒体收集
研究人员首先从 ‘X’ (前 Twitter) 账号 @_yesbut_ 手动收集了 283 张讽刺图片。这些图片具有标志性,是用极简主义插图捕捉现代社会矛盾的典范。
第二阶段: 人工注释
理解讽刺是主观的,因此高质量的基准真值至关重要。五位人工注释员分析了这些图像。他们提供了:
- 左侧和右侧子图像的描述。
- 解释图像为什么好笑的“笑点”描述。
- 难度评级 (简单、中等、困难) 。
第三和第四阶段: 利用 DALL-E 3 进行生成式扩展
这是该方法特别巧妙的地方。为了测试模型是记住了特定的艺术风格还是真正理解了内容,研究人员使用 DALL-E 3 生成了原始图像的新版本。
利用第二阶段的详细文本描述,他们提示 DALL-E 3 以两种新风格重新创作这些场景:
- 2D 火柴人: 简单的黑色剪影。
- 3D 火柴人: 更具立体感的表现形式。
然后,他们混合搭配这些风格 (例如,左边是草图,右边是 3D 火柴人) 。这极大地扩展了数据集,并引入了一个新的挑战: 当艺术风格发生变化或冲突时,模型还能理解讽刺吗?

如上图 (底部图表) 所示,生成图像的嵌入 (数学表示,橙色和绿色点) 与原始草图 (蓝色点) 截然不同,证明生成过程成功地增加了数据集的多样性。
三大基准测试任务
作者提出了三个不同的任务来测试模型的能力,从简单的识别到复杂的推理。
任务 1: 讽刺图像检测
挑战: 给定一张图像,模型必须将其分类为“讽刺”或“非讽刺”。 这听起来很简单,但它要求模型检测出不协调之处。如果模型看到一对逻辑流畅的图像,它应该说“No”。如果它看到矛盾,它应该说“Yes”。

在上面的例子中:
- 图 7 (讽刺) : 抽一张湿巾 (YES) ,但一整坨都被抽了出来 (BUT) 。这是一个令人共鸣的、幽默的烦恼。
- 图 8 (非讽刺) : 足球鞋 (YES) ,有人在踢足球 (BUT) 。这是一个没有反讽意味的逻辑延续。
任务 2: 讽刺图像理解
挑战: 给定一张讽刺图像,模型必须解释为什么它是好笑的。 模型会被提示“为什么这张图好笑/具有讽刺意味?”。这是对理解力的终极测试,要求模型生成描述笑点的文本。
任务 3: 讽刺图像补全
挑战: 给模型看图像的一半 (例如“Yes”面板) 和两个关于另一半的选项。它必须选择能构成讽刺的那个选项。

在上方的图 9 中,模型在“Yes”面板中看到一个问号,在“But”面板中看到一个舒适的壁炉。它必须在选项 A (一个问号——错误) 或选项 B (一个壁炉场景) 之间做出选择,以构建一个有意义的配对。这项任务测试模型是否能预测笑话所需的逻辑 (或非逻辑) 设置。
实验与结果
研究人员测试了一系列最先进的视觉-语言模型:
- 专有模型: Gemini Pro Vision, GPT-4 Vision。
- 开源模型: LLaVA, Kosmos-2, MiniGPT-4。
他们在“零样本” (Zero-Shot) 设置下测试这些模型,这意味着模型事先没有在这个特定数据集上进行过训练。他们还尝试了“思维链” (Chain-of-Thought, CoT) 提示,即鼓励模型一步步地思考。
结果 1: 检测出奇地困难
你可能期望先进的 AI 能轻易识别笑话。然而,数据表明并非如此。

如表 3 所示,检测的准确率在 50% 到 56% 之间徘徊。由于这是一个二元分类任务 (是/否) ,随机猜测的准确率也有 50%。这表明,在零样本设置下,即使是像 GPT-4 和 LLaVA 这样强大的模型,在判断图像是否具有讽刺意味方面,也仅比抛硬币略好一点。有趣的是,使用思维链 (CoT) 提示反而降低了几个模型的性能,这表明过度分析图像可能会混淆模型对视觉幽默的判断。
结果 2: 理解视觉反讽很费劲
当被问及为什么一张图片好笑时,模型很难捕捉到其中的细微差别。研究人员使用自动化指标 (如 BLEU 和 BERTScore) 和人工评估来评价生成的解释。

图 5 展示了不同提示下的性能。红色柱状图代表“为什么好笑”的提示。
- Gemini 总体上在这些模型中表现最好。
- MiniGPT-4 表现明显较差,这可能是因为它较弱的视觉落地能力 (它更依赖文本) 。
- 模型在描述单个子图像 (蓝色和绿色柱状图) 方面的表现通常优于解释笑点 (红色柱状图) 。这证实了模型可以“看到”局部,但无法理解“整体”。
定性分析: 它们错在哪儿了?
这项研究最令人受启发的部分在于观察模型失败的具体案例。作者提供了人类编写的描述与模型预测的对比。
案例 A: 马桶自拍 在这张图片中,一位女士坐在马桶上 (BUT) ,但摆出的姿势就像坐在椅子上一样 (YES) ,正在自拍。

- 讽刺点: 嘲讽社交媒体照片的虚假现实。
- AI 的失败: GPT-4 产生了幻觉,将右侧的子图像描述为“一个人把选票投进箱子里”。它完全识别错了视觉元素,导致了解释变得毫无意义。
案例 B: 专业知识的价值 这张图片讽刺了社会如何将社交媒体的名气看得比学术知识更重。

- 讽刺点: 左边的人拥有深厚的数学/物理知识 (满条) ,但只有一个麦克风。右边的人几乎没有知识储备,但“TikTok”技能很高,且面前有许多麦克风。
- AI 的失败: 大多数模型未能将麦克风的数量与社会价值的概念联系起来。它们能数出麦克风并阅读文字,但无法跨越语义鸿沟去理解其中的社会评论。
案例 C: 剧院座位 在图 13 (显示在上方包含剧院座位的图片块中) 中,一个人持有 18 号座位 (最左边) 的票。但他没有从左边进入,而是从右边 (1 号座位) 进入,迫使自己必须挤过所有人。
- 讽刺点: 嘲讽低效的人类行为和社交尴尬。
- AI 的失败: 模型完全错过了空间推理。它们看到了空座位和人,但无法理解所描绘的移动轨迹或不便之处。
结果 3: 补全任务与现实世界照片
补全任务的结果略好,Gemini 达到了约 61% 的准确率。然而,这离人类水平的推理还很远。

最后,为了确保这种困难不仅仅是因为卡通风格造成的,研究人员在 119 张现实世界的讽刺照片 (应用到现实生活中的“Yes, But”主题) 上测试了模型。

例如,图 6 展示了一个灭火器 (YES) ,但它被锁在铁栏杆后面 (BUT) ,导致其毫无用处。即使在这些真实照片上,模型的表现也很差,所有模型的理解准确率都降到了 50% 以下 (表 5) 。

结论: “常识”差距
YesBut 论文凸显了人工智能的一个关键前沿。虽然视觉-语言模型在字面解释方面令人印象深刻,但它们缺乏理解讽刺所需的复杂推理能力。
人类与机器表现之间的差异是鲜明的。如下方的人工评估结果所示,人类在正确性上达到了 100%,而最好的模型 (Gemini) 仅达到 43.33%。

主要收获:
- 语境至上: 当意义源于物体之间的关系而非物体本身时,模型就会陷入挣扎。
- 视觉推理滞后: YesBut 中文本的缺失暴露了 VL 模型仍然严重依赖阅读说明文字,而不是进行视觉“思考”。
- 新基准: YesBut 数据集为研究人员提供了一个必要且具有挑战性的演练场,以提高未来 AI 系统的推理能力和“幽默感”。
在 AI 能够看着一个人坐在马桶上发“Wish you were here”的短信并理解其中的反讽之前,我们可以确信,人类幽默的微妙之处——至少目前——仍然是人类独有的。
](https://deep-paper.org/en/paper/2409.13592/images/cover.png)