互联网是一个战场。虽然社交媒体平台多年来一直在改进算法以检测仇恨文本,但对手也在不断进化。仇恨言论不再仅仅是输入到状态更新中的恶毒文字;它已经转移到了视觉领域。互联网模因 (Memes) ——覆盖着文字的图片——已成为传播敌意的主要载体,往往能避开传统的文本过滤器。
这种转变带来了一个巨大的工程挑战。基于文本的仇恨言论检测是一个成熟的领域,拥有丰富的数据集。然而,视觉-语言 (多模态) 检测却面临数据匮乏的困境。隐私问题、版权问题以及抓取模因的巨大难度,使得构建大型模因训练集变得极其困难。
这引出了一个引人入胜的研究问题: 如果我们有数百万条仇恨文本的例子,我们能否利用它们来教 AI 识别仇恨模因?
在论文 Bridging Modalities: Enhancing Cross-Modality Hate Speech Detection with Few-Shot In-Context Learning 中,研究人员调查了这种可能性。他们探索了一种新颖的方法,利用丰富的文本数据来提高多模态仇恨言论检测在数据稀缺环境下的性能。
核心问题: 数据稀缺与模态鸿沟
要理解这篇论文的创新之处,我们首先必须了解瓶颈所在。现代 AI 依赖于数据。例如,要训练一个模型来识别针对女性的仇恨言论,通常需要给它输入成千上万条厌女评论的例子。
然而,“视觉-语言”仇恨言论 (如模因) 非常复杂。一张微笑的人的照片配上讽刺性的文字可能是仇恨言论,而同样的文字配上不同的背景可能是无害的。这被称为“模态间交互”。由于这些数据集既稀少又规模小,仅在模因上训练的模型在遇到新的、“分布外 (out-of-distribution) ”的数据时往往会失效。
研究人员提出了一种基于跨模态知识迁移的解决方案。由于无论媒介是文本还是图像,仇恨的潜在概念都是一致的,他们假设模型可以从文本中学习仇恨的逻辑,并将其应用于图像。
方法论: 少样本上下文学习
研究人员并没有从头开始训练一个新的模型。相反,他们利用了大语言模型 (LLM) ——具体来说是 Mistral-7B 和 Qwen2-7B——并采用了一种称为少样本上下文学习 (Few-Shot In-Context Learning, ICL) 的技术。
在 ICL 中,你不需要更新模型的权重。相反,你在要求模型解决新问题之前,会给它提供一个包含指令和任务的几个示例 (演示) 的提示 (Prompt) 。
为了将视觉数据转化为基于文本的 LLM 可以理解的形式,其实验流程设计得非常巧妙:
- 图像描述 (Image Captioning) : 由于标准的 LLM 无法直接“看”到图像,研究人员使用图像描述模型 (OFA) 将模因的视觉部分转换为文本描述。
- 理由生成 (Rationale Generation) : 仅仅向模型展示仇恨言论的例子是不够的。研究人员提示 LLM 生成一个“理由”——解释为什么某条推文或模因是仇恨的 (例如,识别目标群体或贬义的刻板印象) 。
- 检索 (Retrieval) : 当模型被要求分类一个新的模因时,它并不是随机选取例子来学习。它使用检索算法 (TF-IDF 或 BM-25) 根据相似度从支持集中找到最相关的例子。
数据集
该研究使用了不同的数据集来代表不同的模态:
- 支持集 (老师) :
- *文本支持: * Latent Hatred , 一个包含显性和隐性仇恨言论的推文数据集。
- *视觉-语言支持: * Facebook Hateful Memes (FHM) 训练集。
- 测试集 (考试) :
- FHM (dev_seen 分割) 和 MAMI (多媒体自动厌女识别数据集) 。

如上方的表 1 所示,Latent Hatred (文本) 数据集比模因数据集大得多,凸显了研究人员旨在跨越的资源鸿沟。
实验 1: 文本能帮助视觉吗?
第一个主要的研究问题 (RQ1) 很直接: 文本仇恨言论支持集是否有助于视觉-语言仇恨言论的检测?
为了测试这一点,研究人员比较了“零样本 (Zero-shot) ”设置 (不给模型提供任何例子) 和“少样本 (Few-shot) ”设置 (给模型提供 4、8 或 16 个来自 Latent Hatred 数据集的文本例子) 。
结果令人信服。

参考表 2,我们可以观察到几个关键趋势:
- 文本提升性能: 在 FHM 和 MAMI 数据集中,提供基于文本的演示通常比零样本基准提高了性能。例如,Mistral-7B 在 MAMI 数据集上的 F1 分数从 0.568 (0-shot) 跃升至 0.701 (16-shots, BM-25 检索) 。
- 检索很重要: 随机选择例子 (随机采样) 有效,但使用智能检索 (TF-IDF 或 BM-25) 来查找与模因描述相似的文本例子会产生更好的结果。
- 多多益善: 一般来说,将“样本 (shots) ” (例子) 的数量从 4 个增加到 16 个,可以提高模型的准确性。
这证实了包含在推文中的仇恨言论逻辑确实可以帮助 AI 理解包含在模因中的仇恨言论。
实验 2: 文本支持 vs. 图像支持
第二个研究问题 (RQ2) 提供了最令人惊讶的见解。人们可能会认为,要检测仇恨模因,向模型展示其他仇恨模因的例子 (来自 FHM 训练集) 应该是最佳策略。同类训练通常效果最好。
然而,数据表明并非如此。

表 3 显示了使用 FHM (视觉-语言) 数据集作为支持集的结果。当我们将表 2 (文本支持) 与表 3 (视觉支持) 进行比较时,会出现一个明显的模式: 基于文本的演示优于视觉-语言演示。
注意到表 3 中的红色数字了吗?这些表示提供模因例子实际上使模型的表现比没有任何例子时更差的情况。研究人员推测,这是由于视觉信息的“过度简化”造成的。当模因被转换为 LLM 的文本描述时,细微的视觉背景丢失了。相比之下,Latent Hatred 数据集 (文本) 包含丰富、明确且多样化的语言模式,为模型提供了更强的学习信号。
定性分析: 为什么有效 (以及为何失败) ?
研究人员不仅关注原始数据,还分析了具体的案例研究。这些例子阐明了模型如何将知识从文本迁移到图像。
成功案例: 概念桥接
在一个引人注目的例子中,模型通过从推文中建立概念桥梁,成功分类了一个复杂的多模态模因。

在案例研究 1 (表 4) 中,该模因利用一名戴头巾的女性的图像,在“stoned” (意为吸毒后的兴奋,也有被石刑的意思) 一词上使用了双关语。模型此前未能将其识别为仇恨言论。然而,在看到一个文本例子 (示例 1) ——该例子贬低地将《古兰经》与“大麻 (weed) ”进行比较并使用了“stoned”一词后——模型建立了联系。它学到了将宗教意象与毒品引用或暴力 (石刑) 结合起来是一种仇恨言论。

同样,在案例研究 2 (表 5) 中,模型正确识别了一个基于外貌攻击智力的模因。支持文本 (示例 2) 讨论了智商 (IQ) 和刻板印象。这帮助模型意识到该模因不仅仅是一个随机的笑话,而是针对群体智力的攻击——这是它从文本中学到的一种特定的仇恨言论类别。
失败案例: 关键词过度敏感
然而,这种迁移并不完美。论文发现了一种称为过度敏感 (oversensitivity) 的现象,即模型锁定了文本例子中的特定关键词,并将它们错误地应用于模因。

在表 6 中,模型错误地分类了一个包含狒狒图像的模因。为什么?因为支持集 (示例 1) 包含一条称人为“狒狒”的仇恨推文。模型学到了“狒狒 = 仇恨”。它未能区分文本中的仇恨隐喻与动物的字面图像,从而导致了误报 (False Positive) 。

表 7 展示了一个关于历史背景的类似失败案例。一个关于“白人抵抗者”的中立模因被标记为仇恨。支持例子 (示例 3 和 4) 涉及关于仇恨犯罪和大屠杀的轻蔑语言。模型似乎吸收了与“白人”和“历史/照片”相关的负面情绪 (在仇恨言论的背景下) ,并错误地将其应用于一张中立的历史照片。
结论与未来启示
这项研究标志着数字安全领域向前迈出了重要一步。它表明,我们不一定需要等待大规模、经过伦理审查的多模态数据集来改进仇恨模因检测。我们可以利用现有的海量文本数据。
主要结论包括:
- 文本助力视觉: 基于文本的仇恨言论演示显着提高了视觉-语言仇恨言论的分类准确性。
- 丰富性胜过模态: 丰富的文本描述 (即使来自不同的模态) 对 LLM 来说,比来自同一模态的简化说明更具指导意义。
- 偏见的风险: 虽然有效,但这种方法引入了过度泛化的风险,模型可能会因为无害内容与仇恨文本共享关键词而将其标记为仇恨。
对于 AI 领域的学生和研究人员来说,这篇论文突显了上下文学习 (In-Context Learning) 的力量。它表明,通过巧妙的提示和检索策略,LLM 可以充当不同类型媒体之间的桥梁,通过类比推理而不仅仅是匹配像素模式来解决复杂问题。未来的工作可能会集中在改进这种迁移以减少误报,或者探索跨模态微调以将这种知识直接融入模型权重中。
](https://deep-paper.org/en/paper/2410.05600/images/cover.png)