当你滚动浏览社交媒体动态时,你很可能会在某个模因 (Meme) 上停下来。这往往是为了那一瞬间的欢笑——一张配有有趣文字的熟悉图片,随即被你转发给朋友。但模因已经演变成一种远比简单的网络幽默更有力的东西。它们已成为文化表达、政治竞选,以及日益增长的宣传工具。

虽然英语世界在检测模因中的有害内容方面已经有了大量的研究,但其他语言却被甩在了后面。这种“资源缺口”使得数字世界对非英语使用者来说成为了一个危险的地方,因为虚假信息可以在没有 AI 过滤器检查的情况下肆意传播。

在这篇文章中,我们将深入探讨一篇开创性的论文: “ArMeme: Propagandistic Content in Arabic Memes” (ArMeme: 阿拉伯语模因中的宣传内容) 。 这篇论文背后的研究人员解决了一个复杂的挑战: 识别阿拉伯语多模态内容 (文本 + 图像) 中的宣传成分。我们将探索他们如何构建了同类中的首个数据集——“ArMeme” 数据集,以及他们如何训练 AI 模型来区分无害的笑话和具有操纵性的政治信息。

问题所在: 为什么模因很重要

模因是多模态的,这意味着它们结合了两种不同类型的信息: 视觉 (图像) 和文本 (说明文字) 。要理解一个模因,你不能只看图片或只读文字。你必须理解它们之间的关系

例如,一张名人微笑的照片可能是正面的。一段关于政治失败的文字是负面的。把它们放在一起,你就得到了讽刺。这种复杂性使得人工智能非常难以分析模因。

当恶意行为者利用模因传播宣传内容——即使用心理技巧来操纵观点的内容——时,这就变成了一个巨大的审核难题。本文的作者发现了一个关键的空白: 虽然英语已经有了相关工具,但没有任何可用的数据集或资源用于检测阿拉伯语模因中的宣传内容。

构建 ArMeme 数据集

要训练 AI,首先需要数据。研究人员并没有随意地从网络上抓取数据;他们构建了一个复杂的流程来确保数据的高质量。他们从 Facebook、Instagram、Pinterest 和 Twitter (现在的 X) 收集了大约 6,000 个阿拉伯语模因。

收集流程

野外的数据收集是杂乱无章的。互联网上充满了重复内容、低质量的截图和无关的图像。研究人员设计了一个多步骤的过程来清理这些数据。

Figure 2: Data curation pipeline.

图 2 所示,该工作流程非常全面:

  1. 收集: 他们首先手动选择公共群组,并使用与政治和公众人物相关的关键词。
  2. 过滤重复项: 模因会像病毒一样传播,这意味着同一张图片会出现数千次。研究人员使用 ResNet18 深度学习模型从图像中提取视觉特征。然后,他们计算这些特征之间的相似度,以识别并删除近似重复项。
  3. OCR (光学字符识别) : 他们使用 EasyOCR 直接从图像中读取阿拉伯语文本。如果图像没有文本,它就不是模因,因此被丢弃。
  4. 模因分类器: 仅仅因为图像有文字并不意味着它就是模因。它可能是书皮或推文截图。他们训练了一个轻量级的二元分类器 (模因 vs. 非模因) 来过滤掉非模因内容。

人工介入: 标注

数据收集完毕后,需要进行标记。在这一环节,人类的智慧目前是不可替代的。研究人员雇佣了以阿拉伯语为母语的人员对图像进行分类。

他们为数据集定义了四个特定类别:

  1. 非模因 (Not-Meme) : 漏过自动过滤器的图像 (例如,文本截图、广告) 。
  2. 其他 (Other) : 具有攻击性、无法理解、包含裸露内容或非阿拉伯语的模因。
  3. 非宣传 (Not Propaganda) : 旨在幽默且没有操纵意图的标准模因。
  4. 宣传 (Propaganda) : 使用修辞技巧影响受众观点或行动以实现特定目标的模因。

为了确保一致性,标注员遵循了严格的决策过程。

Figure 4: A visual representation of the annotation process. Block with yellow color represents phase 2.

图 4 展示了这一工作流程。标注员首先问: “这是模因吗?”如果是,他们对其进行分类。如果模因是宣传或非宣传,他们会进入“文本编辑”阶段,以更正自动 OCR 软件造成的任何错误。这确保了与图像关联的文本数据对于后续的 AI 模型训练是完美的。

数据概览

理解这些类别之间的区别至关重要。让我们看看数据集中提供的一些示例,确切地了解 AI 面临的是什么。

“非模因”类别

Figure 5: Examples of images labeled as not-meme. 图 5 展示了可能会混淆基本算法但在人类看来显然不是模因的示例。左边是一个 Facebook 帖子;中间是一个书籍广告;右边是一个推文截图。这些都缺乏定义模因的那种视觉-文本互动。

“其他”类别

Figure 14: Examples of images labeled as other. 图 6 (上文标记为图 14) 展示了“其他”类别。这些可能是模因,但由于使用了不同的语言 (如英语和阿拉伯语混合) 、无法理解,或包含不符合严格的宣传与非宣传二元分类的内容,因此不在研究范围内。

“非宣传”类别

Figure 7: Examples of images labeled as not propaganda. 图 7 展示了“非宣传”类别。这些是“好”的模因。它们可能是讽刺或有趣的,但它们并不试图操纵你的政治世界观。例如,左边的模因是在开关于购物和家庭生活的玩笑。这是相关的幽默,而非政治战。

“宣传”类别

Figure 8: Examples of images labeled as propaganda. 图 8 揭示了目标: 宣传 。 这些模因截然不同。看左边的面板: 它利用关于外貌的刻板印象 (“留这种胡须的年轻人……”) 来煽动恐惧或偏见 (“……有 125% 的几率偷走你的土地”) 。这试图绕过理性思考,直接诉诸偏见——这是教科书式的宣传技巧。

数据集统计

最终的数据集名为 ArMeme , 包含 5,725 个标注样本。值得注意的是数据中的不平衡,这是现实世界 AI 应用中的常见挑战。

Table 2: Data split statistics.

表 2 所示,“非宣传”类别占绝大多数 (训练集中有 2,634 个) ,而“宣传”不到其一半 (972 个) 。这种不平衡使得训练变得困难,因为模型往往会对多数类别产生偏见。

实验: 教机器阅读模因

随着数据集的构建完成,研究人员进入了实验阶段。目标是构建一个能够查看模因并正确将其分类为“宣传”或“非宣传”的计算机程序。

他们测试了三种主要方法:

  1. 单模态文本: 仅分析说明文字。
  2. 单模态图像: 仅分析视觉图像。
  3. 多模态: 同时分析两者。

他们还比较了两种不同类型的 AI 架构:

  • 微调模型 (Fine-tuned Models) : 采用预先存在的“大脑” (如用于文本的 BERT 或用于图像的 ResNet) 并在 ArMeme 数据集上对其进行专门训练。
  • 零样本设置下的大型语言模型 (LLMs) : 要求像 GPT-4 或 Gemini 这样的大型模型对模因进行分类,而不对此数据集进行任何特定训练。

基于文本的模型

对于文本,他们使用了专门为阿拉伯语设计的模型,如 AraBERTQarib 。 这些模型比通用的多语言模型更能理解阿拉伯语和方言的细微差别。他们发现 Qarib (一个在阿拉伯语推文上预训练的模型) 表现最好。这是有道理的,因为模因中使用的语言通常是非正式的,类似于推特方言。

基于图像的模型

对于图像,他们测试了几种著名的架构,包括 VGG16、ResNet50 和 EfficientNet。这些模型在像素中寻找模式——形状、颜色和物体。研究人员发现 ResNet50 在微调图像模型中取得了最佳性能。

多模态与大语言模型

研究中最令人兴奋的部分是将文本和图像结合起来。他们将最佳文本模型和最佳图像模型的特征串联起来,看看这种组合是否能提高准确性。

他们还测试了 AI 领域的巨头: GPT-4 (Vision)Gemini 。 这些模型被赋予一个“提示词 (prompt) ”——一组解释任务的指令——并被要求对模因进行分类。

Figure 1: Examples of images representing different categories.

看着像图 1 这样复杂的图像,模型必须破译治疗环节模因 (图 a) 与军事模因 (图 b) 中的讽刺意味。

结果

结果凸显了 AI 发展中一个有趣的趋势: 模型越大不一定越好,但专业化至关重要。

  1. 微调获胜: 在 ArMeme 数据集上专门微调的小型模型通常在零样本设置下优于大型 LLM (如 GPT-4) 。微调后的 Qarib 模型 (仅文本) 实现了 0.690 的加权 F1 分数,这是单模态模型中最高的。
  2. 文本很强大: 令人惊讶的是,仅文本模型的表现通常与仅图像模型一样好,甚至更好。这表明在宣传模因中,“信息”很大程度上是由文字承载的。
  3. 多模态挑战: 结合文本和图像 (多模态) 提供了良好的结果 (ConvNeXt + AraBERT 的加权 F1 为 0.659 ),但它并没有大幅超越最佳的仅文本模型。这表明有效地融合这两种模态仍然是一个困难的工程挑战。
  4. LLM 表现: 虽然 GPT-4 非常聪明,但在没有经过特定训练的情况下,它很难击败专用模型。然而,较新的 GPT-4o 在辅助实验中显示出了非常有希望的结果,表明这一差距正在迅速缩小。

结论与未来影响

ArMeme 论文代表了阿拉伯语世界数字安全向前迈出的重要一步。通过创建首个用于阿拉伯语模因宣传的专用数据集,作者为更强大的内容审核工具打开了大门。

关键要点:

  • 资源创建: 发布约 6,000 个标注模因,允许其他研究人员在此基础上开展工作。
  • 语言特异性: 在阿拉伯语方言上预训练的模型 (如 Qarib) 明显优于通用模型,证明了特定语言 AI 开发的必要性。
  • 宣传检测的挑战: 检测宣传是微妙且主观的。即使对于人类来说,一致性也不是完美的。对于 AI 来说,理解模因的文化背景、讽刺和方言是下一个巨大的前沿领域。

随着我们的前进,这里开发的技术可能会扩展到检测多种语言模因中的不仅仅是宣传,还包括仇恨言论、网络欺凌和攻击性内容。在打击虚假信息的斗争中,ArMeme 为阿拉伯数字生态系统提供了至关重要的盾牌。