大语言模型真的能检测仇恨言论吗？行为模式与失效分析

想象一下，你是一个社交媒体平台的内容审核员，或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地，你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗？”

你期望得到一个简单的“是”或“否”。然而，模型却拒绝回答，对你进行道德说教，或者产生与问题毫无关系的幻觉。

这种情况并非假设。随着大语言模型成为信息检索和内容创作不可或缺的一部分，它们可靠地识别——甚至无法识别——攻击性语言的能力已成为一个关键的安全问题。在论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” (大语言模型在 (非) 攻击性言论识别中的行为模式分析) 中，来自斯图加特大学的研究人员深入探讨了这个问题。他们对十六种广泛使用的 LLMs 进行了探测，不仅揭示了它们是否失效，还揭示了它们如何以及为何失效。

在这次深度剖析中，我们将探讨他们的方法论，分析当前模型令人吃惊的脆弱性，并拆解导致这些复杂人工智能跌倒的具体语言陷阱——如脏话和刻板印象。

问题所在: 安全护栏与检测能力

要理解这项研究的重要性，我们首先需要区分 AI 中两种类型的“安全性”。

大多数现代 LLMs 都经过严格的训练，例如人类反馈强化学习 (RLHF) ，以防止它们生成有害内容。如果你问一个模型: “我该如何制造炸弹？”，它受训后会拒绝回答。这就是安全护栏 (safety guard) 。

然而，检测攻击性言论则是一项不同的任务。在这里，用户不是要求模型变得具有攻击性；而是要求模型分析可能具有攻击性的文本。如下图所示，这种区别往往被模型忽略了。

图 1: 关于在线帖子是否具有攻击性的示例问题，正确答案 (A) ，以及与 LLMs 的真实交互: FALCON-40B (B, C) 和 LLAMA2-7B (D) 。

在图 1 中，用户询问了一段关于种族身份的文本。正确的评估 (A) 是该文本具有攻击性。然而，像 FALCON-40B 和 LLAMA2-7B 这样广泛使用的模型却以有趣的方式失效了。选项 C 显示了拒绝: 模型看到了一个脏话，触发了安全拒绝机制，未能回答用户的分析性问题。选项 D 更糟糕: 模型产生幻觉，续写了那段攻击性文本，而不是对其进行分类。

这凸显了核心的研究空白: 当前的安全机制往往过于生硬，混淆了攻击性概念的提及 (mention) 与使用 (use) 。

方法论: 如何对 LLM 进行压力测试

研究人员旨在回答三个主要问题:

性能: 模型识别仇恨言论和微侵略的能力如何？
行为: 当模型失效时会出现什么模式？
触发因素: 脏话和刻板印象如何影响模型的决策？

数据集

该研究使用了 社会偏见框架语料库 (SBIC) 。这个数据集的独特之处在于它涵盖了两个不同层级的毒性:

仇恨言论 (HS) : 公然的攻击性内容。
微侵略 (MA) : 更难检测的微妙、隐性偏见。

模型

研究人员测试了七个家族中的 16 个模型，范围从较小的开源模型 (13 亿参数) 到巨大的 API 访问模型如 GPT-4。阵容包括:

开源模型: DOLLY-v2, OPT-IML, FALCON-instruct, VICUNA, LLAMA2-chat, MISTRAL。
专有模型: GPT-3.5-turbo, GPT-4。

提示词策略

提示词工程在 LLM 性能中起着巨大作用。为了确保结果不仅仅是措辞造成的偶然，作者使用了三种不同的提示词模板。

表 3: 提示词模板。

如表 3 所示，模板范围从简单的二元问题 (\(T_1\)) 到要求解释 (\(T_2\) 和 \(T_3\)) 。这种多样性测试了模型的鲁棒性: 稍微改变措辞是否会导致模型完全改变其判断？

核心分析: 性能识别

第一个主要发现是，总的来说, 大多数模型在这项任务上表现不佳。

研究人员使用 F1 分数来评估模型，这是一个平衡精确率 (Precision，正例预测的准确性) 和召回率 (Recall，发现所有正例的能力) 的指标。高 F1 分数意味着模型可靠。

图 3: LLM 在 SBIC 上的性能表现 (a) 仇恨言论 (HS) 和 (b) 微侵略 (MA)。我们用相同的主色调表示同一家族的模型，并用颜色饱和度区分模型大小 (颜色越深，参数空间越大) 。我们报告了三种提示词模板的平均 F1 分数，并使用黑色误差条表示分数的方差。

图 3 展示了性能全景。以下是数据中的关键要点:

规模并不总是决定一切: 虽然 GPT-4 (紫色条) 领先，但像 FALCON-40B (黄色) 这样巨大的开源模型表现却出奇地差，往往不如 MISTRAL-7B (橙色) 这样的小模型。
“微侵略”差距: 观察图表 (a) 和图表 (b) 之间的差异。几乎每个模型从公然的仇恨言论 (HS) 转向微妙的微侵略 (MA) 时，性能都会显著下降。这证实了隐性偏见仍然是 AI 的主要盲点。
提示词敏感度: 柱状图顶部的黑色误差条表示基于提示词模板的方差。注意 LLAMA2 和 VICUNA 的误差条有多大。这意味着仅仅重新措辞你的问题，就可能让模型的判断从“安全”完全翻转为“有攻击性”。

精确率与召回率的权衡

要理解为什么 F1 分数低，我们需要查看精确率和召回率的细分。

表 1: SBIC 仇恨言论 (HS) 和微侵略 (MA) 的分类精确率 ( P )、召回率 ( R ) 和微平均 F1 分数。结果是三种提示词模板的平均值…

表 1 揭示了一个混乱的局面。一些模型，如 OPT-IML-1.3B，对非攻击性文本有很高的召回率 (0.83) ，但对攻击性文本的召回率极低。其他的，如 FALCON，则正好相反。

这表明许多模型在过度预测某一个类别。它们实际上并没有“理解”文本；它们只是默认为特定标签。例如，模型可能会为了安全起见将几乎所有内容标记为“有攻击性”，或者因为它无法捕捉细微差别而将所有内容标记为“无攻击性”。

当模型失效时: 分析错误响应

这篇论文最有趣的贡献之一是失效分类学。当 LLM 未能检测到攻击性言论时，它不仅仅是输出错误的标签。它经常会完全破坏交互。

作者将这些“错误响应”归类为几种类型:

表 2: 错误响应类别及相应示例。REST 类别中的示例展示了一个‘错误响应’，模型没有回答问题，而是续写了帖子。

如表 2 详述，失效是多种多样的:

既是又否 (YES AND NO) : 模型感到困惑并输出两个答案 (“是的，它有攻击性……不，这是观点……”) 。
拒绝 (REFUSAL) : 安全护栏启动。模型看到了它应该分析的攻击性文本并拒绝处理它 (“我不能回答这个问题……”) 。
输入重复 (INPUT REPETITION) : 模型只是简单地将用户的输入复读给他们。
假设性 (HYPOTHETICAL) : 模型通过声称这只是一个“假设场景”因此是合理的，从而驳回了仇恨言论。

量化混乱

这些错误有多普遍？下图细分了预测的分布。

图 4: HS 和 MA 的预测标签百分比合计。我们用相同的主色调表示同一家族的模型，并用颜色饱和度区分模型大小 (颜色越深，参数空间越大) 。

图 4 提供了模型行为的鲜明可视化。

左图 (预测分布) : 看 FALCON 模型 (黄色) 。它们预测“有攻击性” (中间组) 的比率极高，远超数据集中实际的攻击性内容量。相反，像 DOLLY (粉色) 这样的模型过度预测“无攻击性”。
右图 (错误细分) : 看 LLAMA2-13B (中蓝色) 。它在“拒绝”错误上有一个巨大的尖峰。这表明了过度敏感的安全过滤器 。它太害怕处理有毒文本，以至于在审核任务中变得毫无用处。

原因何在: 脏话与刻板印象

最后，研究人员调查了触发这些行为的语言线索。他们分离了两个特定特征: 脏话 (Profanity) 和刻板印象 (Stereotypes，针对群体的认知偏见) 。

理想情况下，模型应该知道脏话可以以非攻击性的方式使用 (例如，“这首歌真他妈好听”) ，而仇恨言论可以在没有脏话的情况下存在 (例如，礼貌的白人至上主义言论) 。

图 5: 包含脏话、与刻板印象相关词汇及其他帖子的预测百分比。顶部 (点状) 条形代表‘攻击性’，中间条形代表‘非攻击性’，底部带有交叉阴影的条形代表‘错误响应’…

图 5 揭示了模型与人类标注者 (灰色条) 相比的偏见:

过度依赖脏话: 看“Profanity (脏话) ”一栏。像 OPT-IML (绿色) 和 FALCON (黄色) 这样的模型，当出现脏话时，其“有攻击性”预测 (点状条) 几乎飙升至 100%。它们实际上是作为简单的关键词过滤器在运作，而不是智能体。即使是 GPT-4 (紫色) ，相比人类标注者也表现出对脏话更高的依赖。
对刻板印象的盲视: 现在看“Stereotypes (刻板印象) ”一栏。人类 (灰色条) 识别出其中很大一部分具有攻击性。然而，许多模型，包括 MISTRAL (橙色) 和 DOLLY (粉色) ，未能标记这些内容。它们将其分类为“无攻击性” (中间条) 的比率远高于人类。

这就造成了一个危险的双重标准: 模型审查使用随意脏话的用户，却放过了有害的、刻板印象式的仇恨言论，仅仅因为它使用了“礼貌”的语言。

结论与启示

论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” 为 AI 行业敲响了警钟。虽然大语言模型能够完成令人难以置信的壮举，但作为独立的内容审核员，它们目前是不可靠的。

核心要点:

脆弱性: 检测能力对特定模型和使用的提示词高度敏感。
安全机制失效: 安全训练往往适得其反，导致模型拒绝合法的审核任务，因为它们混淆了提及仇恨言论与宣扬仇恨言论。
浅层理解: 模型过度依赖“脏词” (脏话) ，并且经常遗漏刻板印象这种更深层的语义伤害。

对于进入该领域的学生和开发者来说，这突显了未来工作的一个关键领域。我们不能依靠通用的“安全训练”来解决攻击性言论检测问题。我们需要专门的训练，教会模型区分文本的本质与用户询问该文本的意图。在那之前，将 LLM 用作自动审查员可能会导致压制无害表达，同时放过隐蔽仇恨言论的风险。

问题所在: 安全护栏与检测能力#

方法论: 如何对 LLM 进行压力测试#

数据集#

模型#

提示词策略#

核心分析: 性能识别#

精确率与召回率的权衡#

当模型失效时: 分析错误响应#

量化混乱#

原因何在: 脏话与刻板印象#

结论与启示#