AI 懂笑话吗？利用 YesBut 数据集评估视觉-语言模型的讽刺理解能力

人工智能在观察和描述世界方面取得了巨大进步。现代视觉-语言 (VL) 模型可以看着厨房的照片列出柜台上的食材，或者看着街道场景描述交通状况。但它们能理解幽默吗？具体来说，它们能领会讽刺这种辛辣的嘲讽吗？

讽刺是一项复杂的认知任务。它不仅需要识别物体，还需要理解社会规范、人类行为，以及期望与现实之间往往相互矛盾的关系。

在最近一篇题为 “YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models” (YesBut: 用于评估视觉-语言模型讽刺理解能力的高质量注释多模态数据集) 的论文中，研究人员着手回答了这个问题。他们基于流行的“Yes, But” (是，但是) 漫画格式构建了一个独特的数据集，以测试像 GPT-4、Gemini 和 LLaVA 这样的最先进模型是否真的能“懂”其中的笑点。

结果不仅引人入胜，也让人清醒地认识到目前 AI 推理能力的局限性。

问题所在: 为什么 AI 很难理解讽刺

对人类来说，讽刺往往是直觉性的。我们看到两张并列的图片，不仅能立刻理解其中的评论意味。然而，对于 AI 模型来说，这需要几个逻辑跳跃:

识别: 识别图像中的物体。
关联: 理解物体之间如何相互关联。
语境: 应用关于世界的常识性知识。
矛盾: 识别出该场景呈现了一种反讽的转折或违背正常预期的冲突。

大多数现有的视觉-语言模型数据集侧重于字面描述 (例如，“一只狗坐在垫子上”) 。即使是专注于模因 (meme) 的数据集，通常也严重依赖文字覆盖。研究人员发现了一个空白: 目前还没有一个综合性的基准来检测和理解讽刺，特别是当幽默主要通过视觉呈现并依赖于相互冲突的场景时。

Figure 1: Satire conveyed through a social media image

看看上面这张图 (图 1) 。左边 (“YES”) 是一条深情的短信: “Wish you were here” (希望你在这里) 。右边 (“BUT”) 则是现实: 发这条短信的人正坐在马桶上。

要理解这一点，模型必须阅读文字，识别场景 (卫生间) ，然后综合这两条截然不同的信息来理解其中的反讽: 一种浪漫的情感却是从一个非常不浪漫的地点发出的。这就是 YesBut 数据集提出的核心挑战。

YesBut 数据集

为了严格评估模型，作者创建了 YesBut，一个包含 2,547 张图像 的数据集。该数据集围绕“Yes, But”格式构建，即两幅画面并排展示。左侧画面通常描绘一个正常的、预期的或理想化的场景 (“Yes”) ，而右侧画面则揭示了一个矛盾的、现实的或幽默的转折 (“But”) 。

YesBut 有何不同？

研究人员将 YesBut 与现有的模因和幽默数据集进行了比较。关键的区别在于它更依赖视觉叙事而非文字。

Table 1: Statistics of the presence/absence of text, subimages,and multiple image styles and tasks evaluated in prior datasets vs. YesBut.

如表 1 所示，YesBut 中超过 50% 的图像根本不包含文本 (忽略“YES”和“BUT”标题) 。这迫使模型必须依赖视觉线索，而不是通过阅读说明文字来走捷径。此外，100% 的图像包含子图像，要求模型分析两个不同画面之间的关系。

方法论: 构建流程

数据集的创建是一个多阶段的过程，旨在确保高质量和多样性。作者不仅是抓取图像，还构建了一个包含人工注释和生成式 AI 扩展的流程。

Stage 1:Collecting Satirical Figure 2: Our annotation Pipeline for YesBut in 4 Stages

第一阶段: 从社交媒体收集

研究人员首先从 ‘X’ (前 Twitter) 账号 @_yesbut_ 手动收集了 283 张讽刺图片。这些图片具有标志性，是用极简主义插图捕捉现代社会矛盾的典范。

第二阶段: 人工注释

理解讽刺是主观的，因此高质量的基准真值至关重要。五位人工注释员分析了这些图像。他们提供了:

左侧和右侧子图像的描述。
解释图像为什么好笑的“笑点”描述。
难度评级 (简单、中等、困难) 。

第三和第四阶段: 利用 DALL-E 3 进行生成式扩展

这是该方法特别巧妙的地方。为了测试模型是记住了特定的艺术风格还是真正理解了内容，研究人员使用 DALL-E 3 生成了原始图像的新版本。

利用第二阶段的详细文本描述，他们提示 DALL-E 3 以两种新风格重新创作这些场景:

2D 火柴人: 简单的黑色剪影。
3D 火柴人: 更具立体感的表现形式。

然后，他们混合搭配这些风格 (例如，左边是草图，右边是 3D 火柴人) 。这极大地扩展了数据集，并引入了一个新的挑战: 当艺术风格发生变化或冲突时，模型还能理解讽刺吗？

Figure 3: Distribution of the original 283 satirical images… Figure 4: 2D UMAP Representations…

如上图 (底部图表) 所示，生成图像的嵌入 (数学表示，橙色和绿色点) 与原始草图 (蓝色点) 截然不同，证明生成过程成功地增加了数据集的多样性。

三大基准测试任务

作者提出了三个不同的任务来测试模型的能力，从简单的识别到复杂的推理。

任务 1: 讽刺图像检测

挑战: 给定一张图像，模型必须将其分类为“讽刺”或“非讽刺”。这听起来很简单，但它要求模型检测出不协调之处。如果模型看到一对逻辑流畅的图像，它应该说“No”。如果它看到矛盾，它应该说“Yes”。

Figure 7: Example of a Satirical Image… Figure 8: Example of a Non-Satirical Image…

在上面的例子中:

图 7 (讽刺) : 抽一张湿巾 (YES) ，但一整坨都被抽了出来 (BUT) 。这是一个令人共鸣的、幽默的烦恼。
图 8 (非讽刺) : 足球鞋 (YES) ，有人在踢足球 (BUT) 。这是一个没有反讽意味的逻辑延续。

任务 2: 讽刺图像理解

挑战: 给定一张讽刺图像，模型必须解释为什么它是好笑的。模型会被提示“为什么这张图好笑/具有讽刺意味？”。这是对理解力的终极测试，要求模型生成描述笑点的文本。

任务 3: 讽刺图像补全

挑战: 给模型看图像的一半 (例如“Yes”面板) 和两个关于另一半的选项。它必须选择能构成讽刺的那个选项。

Figure 9: Example of an input image for Image Completion… Figure 10: Example of an input image for Image Completion…

在上方的图 9 中，模型在“Yes”面板中看到一个问号，在“But”面板中看到一个舒适的壁炉。它必须在选项 A (一个问号——错误) 或选项 B (一个壁炉场景) 之间做出选择，以构建一个有意义的配对。这项任务测试模型是否能预测笑话所需的逻辑 (或非逻辑) 设置。

实验与结果

研究人员测试了一系列最先进的视觉-语言模型:

专有模型: Gemini Pro Vision, GPT-4 Vision。
开源模型: LLaVA, Kosmos-2, MiniGPT-4。

他们在“零样本” (Zero-Shot) 设置下测试这些模型，这意味着模型事先没有在这个特定数据集上进行过训练。他们还尝试了“思维链” (Chain-of-Thought, CoT) 提示，即鼓励模型一步步地思考。

结果 1: 检测出奇地困难

你可能期望先进的 AI 能轻易识别笑话。然而，数据表明并非如此。

Table 3: Evaluation of different VL models on the Satirical Image Detection task

如表 3 所示，检测的准确率在 50% 到 56% 之间徘徊。由于这是一个二元分类任务 (是/否) ，随机猜测的准确率也有 50%。这表明，在零样本设置下，即使是像 GPT-4 和 LLaVA 这样强大的模型，在判断图像是否具有讽刺意味方面，也仅比抛硬币略好一点。有趣的是，使用思维链 (CoT) 提示反而降低了几个模型的性能，这表明过度分析图像可能会混淆模型对视觉幽默的判断。

结果 2: 理解视觉反讽很费劲

当被问及为什么一张图片好笑时，模型很难捕捉到其中的细微差别。研究人员使用自动化指标 (如 BLEU 和 BERTScore) 和人工评估来评价生成的解释。

Figure 5: Evaluation of Satirical Image Understanding Capability…

图 5 展示了不同提示下的性能。红色柱状图代表“为什么好笑”的提示。

Gemini 总体上在这些模型中表现最好。
MiniGPT-4 表现明显较差，这可能是因为它较弱的视觉落地能力 (它更依赖文本) 。
模型在描述单个子图像 (蓝色和绿色柱状图) 方面的表现通常优于解释笑点 (红色柱状图) 。这证实了模型可以“看到”局部，但无法理解“整体”。

定性分析: 它们错在哪儿了？

这项研究最令人受启发的部分在于观察模型失败的具体案例。作者提供了人类编写的描述与模型预测的对比。

案例 A: 马桶自拍 在这张图片中，一位女士坐在马桶上 (BUT) ，但摆出的姿势就像坐在椅子上一样 (YES) ，正在自拍。

Figure 11: Example of a satirical image from YesBut Figure 13: Example of a satirical image from YesBut

讽刺点: 嘲讽社交媒体照片的虚假现实。
AI 的失败: GPT-4 产生了幻觉，将右侧的子图像描述为“一个人把选票投进箱子里”。它完全识别错了视觉元素，导致了解释变得毫无意义。

案例 B: 专业知识的价值 这张图片讽刺了社会如何将社交媒体的名气看得比学术知识更重。

Figure 12: Example of a satirical image from YesBut

讽刺点: 左边的人拥有深厚的数学/物理知识 (满条) ，但只有一个麦克风。右边的人几乎没有知识储备，但“TikTok”技能很高，且面前有许多麦克风。
AI 的失败: 大多数模型未能将麦克风的数量与社会价值的概念联系起来。它们能数出麦克风并阅读文字，但无法跨越语义鸿沟去理解其中的社会评论。

案例 C: 剧院座位 在图 13 (显示在上方包含剧院座位的图片块中) 中，一个人持有 18 号座位 (最左边) 的票。但他没有从左边进入，而是从右边 (1 号座位) 进入，迫使自己必须挤过所有人。

讽刺点: 嘲讽低效的人类行为和社交尴尬。
AI 的失败: 模型完全错过了空间推理。它们看到了空座位和人，但无法理解所描绘的移动轨迹或不便之处。

结果 3: 补全任务与现实世界照片

补全任务的结果略好，Gemini 达到了约 61% 的准确率。然而，这离人类水平的推理还很远。

Table 4: Evaluation of different VL models on the Satirical Image Completion task

最后，为了确保这种困难不仅仅是因为卡通风格造成的，研究人员在 119 张现实世界的讽刺照片 (应用到现实生活中的“Yes, But”主题) 上测试了模型。

Figure 6: Example of a real photograph following the ‘Yes,But’ Theme

例如，图 6 展示了一个灭火器 (YES) ，但它被锁在铁栏杆后面 (BUT) ，导致其毫无用处。即使在这些真实照片上，模型的表现也很差，所有模型的理解准确率都降到了 50% 以下 (表 5) 。

Table 5: Performance of different SOTA VL Models on Satirical Detection and Understanding Tasks on real photographs

结论: “常识”差距

YesBut 论文凸显了人工智能的一个关键前沿。虽然视觉-语言模型在字面解释方面令人印象深刻，但它们缺乏理解讽刺所需的复杂推理能力。

人类与机器表现之间的差异是鲜明的。如下方的人工评估结果所示，人类在正确性上达到了 100%，而最好的模型 (Gemini) 仅达到 43.33%。

Figure 14: Results of Human Evaluation on the Satirical Image Understanding Task

主要收获:

语境至上: 当意义源于物体之间的关系而非物体本身时，模型就会陷入挣扎。
视觉推理滞后: YesBut 中文本的缺失暴露了 VL 模型仍然严重依赖阅读说明文字，而不是进行视觉“思考”。
新基准: YesBut 数据集为研究人员提供了一个必要且具有挑战性的演练场，以提高未来 AI 系统的推理能力和“幽默感”。

在 AI 能够看着一个人坐在马桶上发“Wish you were here”的短信并理解其中的反讽之前，我们可以确信，人类幽默的微妙之处——至少目前——仍然是人类独有的。

AI 懂笑话吗？利用 YesBut 数据集评估视觉-语言模型的讽刺理解能力#

问题所在: 为什么 AI 很难理解讽刺#

YesBut 数据集#

YesBut 有何不同？#

方法论: 构建流程#

第一阶段: 从社交媒体收集#

第二阶段: 人工注释#

第三和第四阶段: 利用 DALL-E 3 进行生成式扩展#

三大基准测试任务#

任务 1: 讽刺图像检测#

任务 2: 讽刺图像理解#

任务 3: 讽刺图像补全#

实验与结果#

结果 1: 检测出奇地困难#

结果 2: 理解视觉反讽很费劲#

定性分析: 它们错在哪儿了？#

结果 3: 补全任务与现实世界照片#

结论: “常识”差距#