引言

在现代数字环境中,模因 (Meme,俗称“梗”) 的演变早已超越了有趣的猫咪图片或令人感同身受的反应图。它们已成为互联网的一种主要方言——一种复杂的多模态交流形式,能够塑造舆论、传播文化,甚至影响选举结果。例如,在过去的两次美国总统大选中,模因作为协调媒体内容被武器化,用于左右选民。

但问题就在这里: 虽然人类可以几乎瞬间处理模因中的讽刺、文化引用和视觉幽默,但计算机在完成这项任务时却极其吃力。模因不仅仅是一张图片,也不仅仅是文字;它是两者之间复杂的相互作用,通常需要深厚的外部知识才能解码。

这一挑战催生了一个新的研究领域,即计算模因理解 (Computational Meme Understanding, CMU)

在这篇文章中,我们将拆解 Nguyen 和 Ng 的一篇综合综述论文,该论文勾勒出了这一新兴领域的版图。我们将探讨研究人员如何对模因进行分类,教机器理解模因的具体任务,以及试图破解互联网文化代码的当前最先进模型。

模因解剖学: 一种分类法

在构建模型来理解模因之前,我们需要一种严谨的方式来定义它们。在现实世界中,模因似乎混乱且无穷无尽,但研究人员基于三个维度引入了一种结构化的分类法: 形式 (Forms)功能 (Functions)主题 (Topics)

1. 形式: 模因的样子

模因在视觉上并不统一。对于计算机视觉模型来说,推特 (Tweet) 的截图看起来与经典的“Impact 字体”图像宏 (Image Macro) 截然不同。作者采用了传播学研究员 Ryan Milner 的分类法,将模因分为两大类: 重混图像 (Remixed Images)稳定图像 (Stable Images)

图 1: 模因形式的分类法,改编自 Milner (2012)。

图 1 所示,区别在于图像的处理方式:

  • 重混图像 (Remixed Images) : 通过操作和修改创建的模因。
  • 宏 (Macros) : 最具辨识度的形式,通常包含一个基础模板,顶部有一行铺垫文字,底部有一行妙语 (punchline) 。
  • P图 (Shops) : “Photoshop” 的简称,指将元素进行图形编辑或叠加到基础图像上。
  • 堆叠图像 (Stacked Images) : 将多张图像组合在一起,通常用于讲述故事或展示反应 (比如 Drake 的《Hotline Bling》模因) 。
  • 稳定图像 (Stable Images) : 未经图形编辑直接作为模因使用的图像。
  • 截屏 (Screenshots) : 社交媒体对话或新闻标题的截图。
  • 现实生活模因 (Memes IRL) : 现实生活中表现出模因行为的照片。

理解这种形式至关重要,因为不同的形式需要不同的处理策略。“宏”严重依赖 OCR (光学字符识别) 来读取文字,而“P图”可能需要模型检测细微的视觉异常才能理解其中的笑点。

2. 功能: 模因的作用

模因不是被动的静态对象;它们执行动作。借用语言学中的言语行为理论 (Speech Act Theory) , 作者根据模因的*施韦行为 (illocutionary acts) *——本质上就是模因在交流中“正在做什么”——对模因进行了分类。

图 3: 模因的施韦行为,改编自 Grundlingh (2018)。括号中的文字代表子类型。承诺类 (Commissives) 和认可类 (Acknowledgements) (灰色部分) 是言语行为理论中的行为,但不适用于模因。

图 3 所示,模因属于特定的行为类别:

  • 表述类 (Constatives) : 表达一种信念或事态。这包括断言类 (Assertives) (陈述事实或观点) 、描述类 (Descriptives)异议类 (Dissentives) (不同意某个前提) 。
  • 指令类 (Directives) : 试图让观看者做某事,例如建议类 (Advisories) (提供建议,像“真相帝鸭 (Actual Advice Mallard) ”) 或提问类 (Questions)

这种功能分类对于仇恨言论检测等任务至关重要。一个描述性的模因可能是无害的,但一个作为攻击性指令刻板印象起作用的模因可能是恶意的。

3. 主题: 模因关于什么

最后,模因是按主题组织的。这是最不稳定的维度,因为主题随着新闻周期的变化而变化。模因可以是关于永恒的主题 (如人际关系或学校) ,也可以是关于时间敏感的事件 (如 COVID-19 疫情、选举或俄乌危机) 。

主题维度给 AI 带来了一个主要障碍: 时间语境 (Temporal Context) 。 一个关于政治人物的模因今天可能很有趣,但三年后可能会让人困惑——或者变成虚假信息。使用旧数据训练的模型往往无法掌握当前的模因,因为它们缺乏必要的世界知识。

计算模因理解的关键任务

既然我们有了描述模因的语言,我们要让计算机对它们做什么呢?研究人员确定了三个不同的任务,从简单的分类到复杂的推理。

任务 1: 分类 (Classification)

这是目前最热门的研究领域。分类涉及给模因分配一个标签。

  • 二分类: 最常见的应用是内容审核。这个模因是仇恨的还是非仇恨的 ?它是有害的还是无害的 ?
  • 多分类: 这涉及更多细微差别。模型可能需要预测所使用的说服技巧类型、传达的具体情绪 (讽刺、幽默、冒犯) ,或笑话的目标 (例如,攻击某种宗教、种族或国籍) 。

虽然“分类”听起来像是机器学习的标准操作,但模因的多模态特性使其变得困难。一张微笑的人的照片是正面的。文字“我爱你”是正面的。但把这段文字放在一个反派角色的照片上,分类可能会变为“讽刺”或“威胁”。

任务 2: 阐释 (Interpretation)

这项任务要难得多。 模因阐释旨在生成描述模因最终信息的文本。这不仅仅是描述图像 (例如,“一只穿着燕尾服的熊”) ;它是要解码潜台词。

图 2: 示例模因来自 (a,b) MemeCap (Hwang and Shwartz, 2023),(c) SemEval-2021-T6 (Dimitrov et al., 2021),和 (d) ExHVV (Sharma et al., 2023)

看看图 2 中的模因。

  • 模因 (b): 一个经典的小熊维尼模板。标准的图像描述器可能会看到“一只卡通熊”。模因阐释模型需要输出: “该模因建立了一个关于购买电子游戏的复杂程度等级,暗示等待免费获取游戏是最‘高级’或明智的选择。”
  • 模因 (c): 这个模因需要时间知识。它显示奥巴马和克林顿用双筒望远镜看着微笑的特朗普,文字是“仍然是你的总统”。解读这一点需要了解这些人物之间的政治紧张关系以及 2016 年或 2020 年选举周期的背景。

任务 3: 解释 (Explanation)

如果说阐释总结了是什么,那么解释则回答了为什么

这通常被构建为一个受限生成任务。例如,如果模型将模因标记为“仇恨”,解释任务要求模型清晰表达推理过程。

  • 目标: 谁受到攻击? (例如,“民主党”) 。
  • 角色: 他们扮演什么角色? (例如,“受害者”或“反派”) 。
  • 推理: 为什么?对于图 2(d) , 一个解释可能是: “民主党被描绘成受害者,因为模因暗示他们关于病毒是骗局的说法是正确的,而特朗普则被展示为自相矛盾。” (注: 这种特定的解释在很大程度上取决于标注者的政治偏见,突显了主观性挑战) 。

数据问题

数据是这些模型的燃料。研究人员调查了 24 个数据集,看看有哪些资源可用于训练 CMU 系统。

表 1: 现有的计算模因理解数据集。缩写: 任务方面——二分类 (2C),多分类 (NC),解释 (E) 和阐释 (I);方法方面——“Inherit” 表示模因来自另一个数据集;语言方面 (Lang.): 英语 (E),孟加拉语 (Be),泰米尔语 (T)。

表 1 揭示了该领域的一个显著偏差:

  1. 痴迷于分类: 在 24 个数据集中,有 21 个专注于分类 (任务 2C 和 NC) 。该领域主要由检测仇恨言论、冒犯性和厌女症的需求主导。
  2. 推理数据稀缺: 只有两个数据集 (HatReD 和 ExHVV) 涉及解释 (任务 E) ,只有一个 (MemeCap) 涉及阐释 (任务 I) 。这就解释了为什么模型善于标记不良内容,却不善于告诉我们要因。
  3. “形式”盲区: 大多数数据集没有控制模因的形式 (如图 1 所定义) 。有些数据集,如著名的“Hateful Memes”数据集,几乎完全专注于宏模因。如果一个模型只在宏模因上训练,当遇到截图式模因或复杂的“堆叠”图像时,它很可能会失败。
  4. 语言偏见: 绝大多数资源是英语,孟加拉语和泰米尔语只有少量代表。

模型如何阅读模因

如何构建一个能理解模因的大脑?调查概述了 CMU 中使用的模型架构的演变。

标准流程: 单模态编码器

很长一段时间以来,标准方法是“分而治之”:

  1. 提取文本: 使用光学字符识别 (OCR) 提取文本。将其通过 BERT 或 RoBERTa 等语言模型。
  2. 提取图像: 将图像通过 ResNet 或 ViT (视觉 Transformer) 等视觉编码器,获得视觉的向量表示。
  3. 融合: 将这两个向量拼接 (连接) 并将其输入分类器。

这种方法虽然对简单任务有效,但往往无法捕捉文本和图像之间的相互作用。它分别看到“微笑的特朗普”和“危机文本”,错过了两者结合产生的讽刺意味。

现代方法: 视觉-语言模型 (VLMs)

最先进的技术已经转向像 CLIP、FLAMINGO 和 GPT-4 (Vision) 这样的大型预训练视觉-语言模型 (VLMs) 。这些模型是在互联网上海量的图像-文本对上训练出来的。它们不仅分别处理文本和图像;它们学习两者之间的语义关系。

例如,像 LlavaOpenFlamingo 这样的模型可以“看”着图像并回答相关问题,使它们更适合阐释和解释任务。

实验结果: 我们做到了吗?

研究人员分析了三个关键任务的性能。

分类性能

在分类任务中,模型正变得相当能干,尽管性能因数据集的难度而异。

表 2: 模因分类的最先进模型。B: 二分类。N: 多分类。L: 级别,T: 目标,A: 攻击类型,G: Gab,Tw: Twitter,R: Reddit,St: 情感,H: 幽默,Sm: 语义

表 2 所示,二分类 (检测仇恨与非仇恨) 正在实现高准确率。

  • Hateful Memes 数据集上,PaLI-X-VPD 模型达到了 0.81 的 AUC
  • WOAH5 数据集上,模型达到了 0.96 的 AUC

然而,看看 SemEval-2021-T6 行 (说服技巧) 。最好的 F1 分数仅为 0.58 。 这表明,虽然模型善于检测明显的仇恨,但它们在处理微妙的说服、宣传和复杂的幽默方面仍然很吃力。

解释和阐释性能

如果说分类 (乐观地) 被“解决”了,那么解释和阐释绝对没有。

表 3: 模因解释 (前两个数据集) 和阐释 (最后一个数据集) 的最佳表现模型。分数取自各自的论文并缩放到 [0, 1] 范围。每个数据集的最佳结果均以粗体显示。

表 3 描绘了一幅严峻的画面。

  • 人工评估低: 看看“Correct” (正确性) 一列。对于 HatReD 数据集 (解释仇恨言论) ,即使是最好的模型也只能获得大约 0.62 的正确性分数。
  • MemeCap 表现挣扎: 对于 MemeCap 数据集 (阐释含义) ,正确性分数下降到 0.36 。 这意味着大约三分之二的时间里,模型生成的阐释被人类认为是错误的。

它们为什么会失败? 研究人员指出,错误通常源于:

  1. 幻觉 (Hallucination) : 模型编造不存在的细节。
  2. 视觉注意力 (Visual Attention) : 未能注意到微小但关键的视觉线索 (如背景中的特定旗帜或微妙的面部表情) 。
  3. 缺乏外部知识 (Lack of External Knowledge) : 模型不知道这些人是谁,或者模因模板的文化背景。

结论与未来方向

Nguyen 和 Ng 的这项调查强调,尽管计算模因理解在标记有害内容方面取得了长足进步,但我们距离真正“懂梗”的系统还很遥远。

为了弥补这一差距,作者提出了几个未来的研究方向:

  1. 主动知识获取: 模型需要连接到实时知识库 (如 Know Your Meme 或维基百科) ,以了解突发新闻和不断演变的模板。一个在 2020 年训练的静态模型永远无法理解关于 2024 年事件的模因。
  2. 视觉推理: 我们需要能够解释它们正在看哪里的模型。教模型遵循像人类一样的推理路径 (例如,“我看到一把枪,我看到关于学校的文字,因此……”) 可以提高准确性和信任度。
  3. 视频和动画模因: 目前的研究主要集中在静态图像上。然而,互联网正转向 GIF 和短视频 (TikTok/Reels) 。CMU 需要扩展到视频的时间维度。
  4. 伦理标注: 最后,研究人员提出了一个关键的伦理观点。训练这些模型需要人类观看成千上万个仇恨、有毒的模因。未来的工作必须优先考虑标注者的心理健康,或许可以使用 AI 在人工验证之前过滤掉最糟糕的内容。

模因是我们文化的一面镜子——混乱、快节奏且具有深刻的语境。教机器照这面镜子并理解它们所看到的内容,是当今人工智能最具挑战性的前沿领域之一。