引言

在现代数字环境中，模因 (Meme，俗称“梗”) 的演变早已超越了有趣的猫咪图片或令人感同身受的反应图。它们已成为互联网的一种主要方言——一种复杂的多模态交流形式，能够塑造舆论、传播文化，甚至影响选举结果。例如，在过去的两次美国总统大选中，模因作为协调媒体内容被武器化，用于左右选民。

但问题就在这里: 虽然人类可以几乎瞬间处理模因中的讽刺、文化引用和视觉幽默，但计算机在完成这项任务时却极其吃力。模因不仅仅是一张图片，也不仅仅是文字；它是两者之间复杂的相互作用，通常需要深厚的外部知识才能解码。

这一挑战催生了一个新的研究领域，即计算模因理解 (Computational Meme Understanding, CMU) 。

在这篇文章中，我们将拆解 Nguyen 和 Ng 的一篇综合综述论文，该论文勾勒出了这一新兴领域的版图。我们将探讨研究人员如何对模因进行分类，教机器理解模因的具体任务，以及试图破解互联网文化代码的当前最先进模型。

模因解剖学: 一种分类法

在构建模型来理解模因之前，我们需要一种严谨的方式来定义它们。在现实世界中，模因似乎混乱且无穷无尽，但研究人员基于三个维度引入了一种结构化的分类法: 形式 (Forms) 、功能 (Functions) 和主题 (Topics) 。

1. 形式: 模因的样子

模因在视觉上并不统一。对于计算机视觉模型来说，推特 (Tweet) 的截图看起来与经典的“Impact 字体”图像宏 (Image Macro) 截然不同。作者采用了传播学研究员 Ryan Milner 的分类法，将模因分为两大类: 重混图像 (Remixed Images) 和稳定图像 (Stable Images) 。

图 1: 模因形式的分类法，改编自 Milner (2012)。

如图 1 所示，区别在于图像的处理方式:

重混图像 (Remixed Images) : 通过操作和修改创建的模因。
宏 (Macros) : 最具辨识度的形式，通常包含一个基础模板，顶部有一行铺垫文字，底部有一行妙语 (punchline) 。
P图 (Shops) : “Photoshop” 的简称，指将元素进行图形编辑或叠加到基础图像上。
堆叠图像 (Stacked Images) : 将多张图像组合在一起，通常用于讲述故事或展示反应 (比如 Drake 的《Hotline Bling》模因) 。
稳定图像 (Stable Images) : 未经图形编辑直接作为模因使用的图像。
截屏 (Screenshots) : 社交媒体对话或新闻标题的截图。
现实生活模因 (Memes IRL) : 现实生活中表现出模因行为的照片。

理解这种形式至关重要，因为不同的形式需要不同的处理策略。“宏”严重依赖 OCR (光学字符识别) 来读取文字，而“P图”可能需要模型检测细微的视觉异常才能理解其中的笑点。

2. 功能: 模因的作用

模因不是被动的静态对象；它们执行动作。借用语言学中的言语行为理论 (Speech Act Theory) , 作者根据模因的*施韦行为 (illocutionary acts) *——本质上就是模因在交流中“正在做什么”——对模因进行了分类。

图 3: 模因的施韦行为，改编自 Grundlingh (2018)。括号中的文字代表子类型。承诺类 (Commissives) 和认可类 (Acknowledgements) (灰色部分) 是言语行为理论中的行为，但不适用于模因。

如图 3 所示，模因属于特定的行为类别:

表述类 (Constatives) : 表达一种信念或事态。这包括断言类 (Assertives) (陈述事实或观点) 、描述类 (Descriptives) 和异议类 (Dissentives) (不同意某个前提) 。
指令类 (Directives) : 试图让观看者做某事，例如建议类 (Advisories) (提供建议，像“真相帝鸭 (Actual Advice Mallard) ”) 或提问类 (Questions) 。

这种功能分类对于仇恨言论检测等任务至关重要。一个描述性的模因可能是无害的，但一个作为攻击性指令或刻板印象起作用的模因可能是恶意的。

3. 主题: 模因关于什么

最后，模因是按主题组织的。这是最不稳定的维度，因为主题随着新闻周期的变化而变化。模因可以是关于永恒的主题 (如人际关系或学校) ，也可以是关于时间敏感的事件 (如 COVID-19 疫情、选举或俄乌危机) 。

主题维度给 AI 带来了一个主要障碍: 时间语境 (Temporal Context) 。一个关于政治人物的模因今天可能很有趣，但三年后可能会让人困惑——或者变成虚假信息。使用旧数据训练的模型往往无法掌握当前的模因，因为它们缺乏必要的世界知识。

计算模因理解的关键任务

既然我们有了描述模因的语言，我们要让计算机对它们做什么呢？研究人员确定了三个不同的任务，从简单的分类到复杂的推理。

任务 1: 分类 (Classification)

这是目前最热门的研究领域。分类涉及给模因分配一个标签。

二分类: 最常见的应用是内容审核。这个模因是仇恨的还是非仇恨的 ?它是有害的还是无害的 ?
多分类: 这涉及更多细微差别。模型可能需要预测所使用的说服技巧类型、传达的具体情绪 (讽刺、幽默、冒犯) ，或笑话的目标 (例如，攻击某种宗教、种族或国籍) 。

虽然“分类”听起来像是机器学习的标准操作，但模因的多模态特性使其变得困难。一张微笑的人的照片是正面的。文字“我爱你”是正面的。但把这段文字放在一个反派角色的照片上，分类可能会变为“讽刺”或“威胁”。

任务 2: 阐释 (Interpretation)

这项任务要难得多。 模因阐释旨在生成描述模因最终信息的文本。这不仅仅是描述图像 (例如，“一只穿着燕尾服的熊”) ；它是要解码潜台词。

图 2: 示例模因来自 (a,b) MemeCap (Hwang and Shwartz, 2023)，(c) SemEval-2021-T6 (Dimitrov et al., 2021)，和 (d) ExHVV (Sharma et al., 2023)

看看图 2 中的模因。

模因 (b): 一个经典的小熊维尼模板。标准的图像描述器可能会看到“一只卡通熊”。模因阐释模型需要输出: “该模因建立了一个关于购买电子游戏的复杂程度等级，暗示等待免费获取游戏是最‘高级’或明智的选择。”
模因 (c): 这个模因需要时间知识。它显示奥巴马和克林顿用双筒望远镜看着微笑的特朗普，文字是“仍然是你的总统”。解读这一点需要了解这些人物之间的政治紧张关系以及 2016 年或 2020 年选举周期的背景。

任务 3: 解释 (Explanation)

如果说阐释总结了是什么，那么解释则回答了为什么。

这通常被构建为一个受限生成任务。例如，如果模型将模因标记为“仇恨”，解释任务要求模型清晰表达推理过程。

目标: 谁受到攻击？ (例如，“民主党”) 。
角色: 他们扮演什么角色？ (例如，“受害者”或“反派”) 。
推理: 为什么？对于图 2(d) , 一个解释可能是: “民主党被描绘成受害者，因为模因暗示他们关于病毒是骗局的说法是正确的，而特朗普则被展示为自相矛盾。” (注: 这种特定的解释在很大程度上取决于标注者的政治偏见，突显了主观性挑战) 。

数据问题

数据是这些模型的燃料。研究人员调查了 24 个数据集，看看有哪些资源可用于训练 CMU 系统。

表 1: 现有的计算模因理解数据集。缩写: 任务方面——二分类 (2C)，多分类 (NC)，解释 (E) 和阐释 (I)；方法方面——“Inherit” 表示模因来自另一个数据集；语言方面 (Lang.): 英语 (E)，孟加拉语 (Be)，泰米尔语 (T)。

表 1 揭示了该领域的一个显著偏差:

痴迷于分类: 在 24 个数据集中，有 21 个专注于分类 (任务 2C 和 NC) 。该领域主要由检测仇恨言论、冒犯性和厌女症的需求主导。
推理数据稀缺: 只有两个数据集 (HatReD 和 ExHVV) 涉及解释 (任务 E) ，只有一个 (MemeCap) 涉及阐释 (任务 I) 。这就解释了为什么模型善于标记不良内容，却不善于告诉我们要因。
“形式”盲区: 大多数数据集没有控制模因的形式 (如图 1 所定义) 。有些数据集，如著名的“Hateful Memes”数据集，几乎完全专注于宏模因。如果一个模型只在宏模因上训练，当遇到截图式模因或复杂的“堆叠”图像时，它很可能会失败。
语言偏见: 绝大多数资源是英语，孟加拉语和泰米尔语只有少量代表。

模型如何阅读模因

如何构建一个能理解模因的大脑？调查概述了 CMU 中使用的模型架构的演变。

标准流程: 单模态编码器

很长一段时间以来，标准方法是“分而治之”:

提取文本: 使用光学字符识别 (OCR) 提取文本。将其通过 BERT 或 RoBERTa 等语言模型。
提取图像: 将图像通过 ResNet 或 ViT (视觉 Transformer) 等视觉编码器，获得视觉的向量表示。
融合: 将这两个向量拼接 (连接) 并将其输入分类器。

这种方法虽然对简单任务有效，但往往无法捕捉文本和图像之间的相互作用。它分别看到“微笑的特朗普”和“危机文本”，错过了两者结合产生的讽刺意味。

现代方法: 视觉-语言模型 (VLMs)

最先进的技术已经转向像 CLIP、FLAMINGO 和 GPT-4 (Vision) 这样的大型预训练视觉-语言模型 (VLMs) 。这些模型是在互联网上海量的图像-文本对上训练出来的。它们不仅分别处理文本和图像；它们学习两者之间的语义关系。

例如，像 Llava 或 OpenFlamingo 这样的模型可以“看”着图像并回答相关问题，使它们更适合阐释和解释任务。

实验结果: 我们做到了吗？

研究人员分析了三个关键任务的性能。

分类性能

在分类任务中，模型正变得相当能干，尽管性能因数据集的难度而异。

表 2: 模因分类的最先进模型。B: 二分类。N: 多分类。L: 级别，T: 目标，A: 攻击类型，G: Gab，Tw: Twitter，R: Reddit，St: 情感，H: 幽默，Sm: 语义

如表 2 所示，二分类 (检测仇恨与非仇恨) 正在实现高准确率。

在 Hateful Memes 数据集上，PaLI-X-VPD 模型达到了 0.81 的 AUC 。
在 WOAH5 数据集上，模型达到了 0.96 的 AUC 。

然而，看看 SemEval-2021-T6 行 (说服技巧) 。最好的 F1 分数仅为 0.58 。这表明，虽然模型善于检测明显的仇恨，但它们在处理微妙的说服、宣传和复杂的幽默方面仍然很吃力。

解释和阐释性能

如果说分类 (乐观地) 被“解决”了，那么解释和阐释绝对没有。

表 3: 模因解释 (前两个数据集) 和阐释 (最后一个数据集) 的最佳表现模型。分数取自各自的论文并缩放到 [0, 1] 范围。每个数据集的最佳结果均以粗体显示。

表 3 描绘了一幅严峻的画面。

人工评估低: 看看“Correct” (正确性) 一列。对于 HatReD 数据集 (解释仇恨言论) ，即使是最好的模型也只能获得大约 0.62 的正确性分数。
MemeCap 表现挣扎: 对于 MemeCap 数据集 (阐释含义) ，正确性分数下降到 0.36 。这意味着大约三分之二的时间里，模型生成的阐释被人类认为是错误的。

它们为什么会失败? 研究人员指出，错误通常源于:

幻觉 (Hallucination) : 模型编造不存在的细节。
视觉注意力 (Visual Attention) : 未能注意到微小但关键的视觉线索 (如背景中的特定旗帜或微妙的面部表情) 。
缺乏外部知识 (Lack of External Knowledge) : 模型不知道这些人是谁，或者模因模板的文化背景。

结论与未来方向

Nguyen 和 Ng 的这项调查强调，尽管计算模因理解在标记有害内容方面取得了长足进步，但我们距离真正“懂梗”的系统还很遥远。

为了弥补这一差距，作者提出了几个未来的研究方向:

主动知识获取: 模型需要连接到实时知识库 (如 Know Your Meme 或维基百科) ，以了解突发新闻和不断演变的模板。一个在 2020 年训练的静态模型永远无法理解关于 2024 年事件的模因。
视觉推理: 我们需要能够解释它们正在看哪里的模型。教模型遵循像人类一样的推理路径 (例如，“我看到一把枪，我看到关于学校的文字，因此……”) 可以提高准确性和信任度。
视频和动画模因: 目前的研究主要集中在静态图像上。然而，互联网正转向 GIF 和短视频 (TikTok/Reels) 。CMU 需要扩展到视频的时间维度。
伦理标注: 最后，研究人员提出了一个关键的伦理观点。训练这些模型需要人类观看成千上万个仇恨、有毒的模因。未来的工作必须优先考虑标注者的心理健康，或许可以使用 AI 在人工验证之前过滤掉最糟糕的内容。

模因是我们文化的一面镜子——混乱、快节奏且具有深刻的语境。教机器照这面镜子并理解它们所看到的内容，是当今人工智能最具挑战性的前沿领域之一。

引言#

模因解剖学: 一种分类法#

1. 形式: 模因的样子#

2. 功能: 模因的作用#

3. 主题: 模因关于什么#

计算模因理解的关键任务#

任务 1: 分类 (Classification)#

任务 2: 阐释 (Interpretation)#

任务 3: 解释 (Explanation)#

数据问题#

模型如何阅读模因#

标准流程: 单模态编码器#

现代方法: 视觉-语言模型 (VLMs)#

实验结果: 我们做到了吗？#

分类性能#

解释和阐释性能#

结论与未来方向#

引言