想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?”
你期望得到一个简单的“是”或“否”。然而,模型却拒绝回答,对你进行道德说教,或者产生与问题毫无关系的幻觉。
这种情况并非假设。随着大语言模型成为信息检索和内容创作不可或缺的一部分,它们可靠地识别——甚至无法识别——攻击性语言的能力已成为一个关键的安全问题。在论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” (大语言模型在 (非) 攻击性言论识别中的行为模式分析) 中,来自斯图加特大学的研究人员深入探讨了这个问题。他们对十六种广泛使用的 LLMs 进行了探测,不仅揭示了它们是否失效,还揭示了它们如何以及为何失效。
在这次深度剖析中,我们将探讨他们的方法论,分析当前模型令人吃惊的脆弱性,并拆解导致这些复杂人工智能跌倒的具体语言陷阱——如脏话和刻板印象。
问题所在: 安全护栏与检测能力
要理解这项研究的重要性,我们首先需要区分 AI 中两种类型的“安全性”。
大多数现代 LLMs 都经过严格的训练,例如人类反馈强化学习 (RLHF) ,以防止它们生成有害内容。如果你问一个模型: “我该如何制造炸弹?”,它受训后会拒绝回答。这就是安全护栏 (safety guard) 。
然而,检测攻击性言论则是一项不同的任务。在这里,用户不是要求模型变得具有攻击性;而是要求模型分析可能具有攻击性的文本。如下图所示,这种区别往往被模型忽略了。

在图 1 中,用户询问了一段关于种族身份的文本。正确的评估 (A) 是该文本具有攻击性。然而,像 FALCON-40B 和 LLAMA2-7B 这样广泛使用的模型却以有趣的方式失效了。选项 C 显示了拒绝: 模型看到了一个脏话,触发了安全拒绝机制,未能回答用户的分析性问题。选项 D 更糟糕: 模型产生幻觉,续写了那段攻击性文本,而不是对其进行分类。
这凸显了核心的研究空白: 当前的安全机制往往过于生硬,混淆了攻击性概念的提及 (mention) 与使用 (use) 。
方法论: 如何对 LLM 进行压力测试
研究人员旨在回答三个主要问题:
- 性能: 模型识别仇恨言论和微侵略的能力如何?
- 行为: 当模型失效时会出现什么模式?
- 触发因素: 脏话和刻板印象如何影响模型的决策?
数据集
该研究使用了 社会偏见框架语料库 (SBIC) 。 这个数据集的独特之处在于它涵盖了两个不同层级的毒性:
- 仇恨言论 (HS) : 公然的攻击性内容。
- 微侵略 (MA) : 更难检测的微妙、隐性偏见。
模型
研究人员测试了七个家族中的 16 个模型,范围从较小的开源模型 (13 亿参数) 到巨大的 API 访问模型如 GPT-4。阵容包括:
- 开源模型: DOLLY-v2, OPT-IML, FALCON-instruct, VICUNA, LLAMA2-chat, MISTRAL。
- 专有模型: GPT-3.5-turbo, GPT-4。
提示词策略
提示词工程在 LLM 性能中起着巨大作用。为了确保结果不仅仅是措辞造成的偶然,作者使用了三种不同的提示词模板。

如表 3 所示,模板范围从简单的二元问题 (\(T_1\)) 到要求解释 (\(T_2\) 和 \(T_3\)) 。这种多样性测试了模型的鲁棒性: 稍微改变措辞是否会导致模型完全改变其判断?
核心分析: 性能识别
第一个主要发现是,总的来说, 大多数模型在这项任务上表现不佳。
研究人员使用 F1 分数来评估模型,这是一个平衡精确率 (Precision,正例预测的准确性) 和召回率 (Recall,发现所有正例的能力) 的指标。高 F1 分数意味着模型可靠。

图 3 展示了性能全景。以下是数据中的关键要点:
- 规模并不总是决定一切: 虽然 GPT-4 (紫色条) 领先,但像 FALCON-40B (黄色) 这样巨大的开源模型表现却出奇地差,往往不如 MISTRAL-7B (橙色) 这样的小模型。
- “微侵略”差距: 观察图表 (a) 和图表 (b) 之间的差异。几乎每个模型从公然的仇恨言论 (HS) 转向微妙的微侵略 (MA) 时,性能都会显著下降。这证实了隐性偏见仍然是 AI 的主要盲点。
- 提示词敏感度: 柱状图顶部的黑色误差条表示基于提示词模板的方差。注意 LLAMA2 和 VICUNA 的误差条有多大。这意味着仅仅重新措辞你的问题,就可能让模型的判断从“安全”完全翻转为“有攻击性”。
精确率与召回率的权衡
要理解为什么 F1 分数低,我们需要查看精确率和召回率的细分。

表 1 揭示了一个混乱的局面。一些模型,如 OPT-IML-1.3B,对非攻击性文本有很高的召回率 (0.83) ,但对攻击性文本的召回率极低。其他的,如 FALCON,则正好相反。
这表明许多模型在过度预测某一个类别。它们实际上并没有“理解”文本;它们只是默认为特定标签。例如,模型可能会为了安全起见将几乎所有内容标记为“有攻击性”,或者因为它无法捕捉细微差别而将所有内容标记为“无攻击性”。
当模型失效时: 分析错误响应
这篇论文最有趣的贡献之一是失效分类学。当 LLM 未能检测到攻击性言论时,它不仅仅是输出错误的标签。它经常会完全破坏交互。
作者将这些“错误响应”归类为几种类型:

如表 2 详述,失效是多种多样的:
- 既是又否 (YES AND NO) : 模型感到困惑并输出两个答案 (“是的,它有攻击性……不,这是观点……”) 。
- 拒绝 (REFUSAL) : 安全护栏启动。模型看到了它应该分析的攻击性文本并拒绝处理它 (“我不能回答这个问题……”) 。
- 输入重复 (INPUT REPETITION) : 模型只是简单地将用户的输入复读给他们。
- 假设性 (HYPOTHETICAL) : 模型通过声称这只是一个“假设场景”因此是合理的,从而驳回了仇恨言论。
量化混乱
这些错误有多普遍?下图细分了预测的分布。

图 4 提供了模型行为的鲜明可视化。
- 左图 (预测分布) : 看 FALCON 模型 (黄色) 。它们预测“有攻击性” (中间组) 的比率极高,远超数据集中实际的攻击性内容量。相反,像 DOLLY (粉色) 这样的模型过度预测“无攻击性”。
- 右图 (错误细分) : 看 LLAMA2-13B (中蓝色) 。它在“拒绝”错误上有一个巨大的尖峰。这表明了过度敏感的安全过滤器 。 它太害怕处理有毒文本,以至于在审核任务中变得毫无用处。
原因何在: 脏话与刻板印象
最后,研究人员调查了触发这些行为的语言线索。他们分离了两个特定特征: 脏话 (Profanity) 和刻板印象 (Stereotypes,针对群体的认知偏见) 。
理想情况下,模型应该知道脏话可以以非攻击性的方式使用 (例如,“这首歌真他妈好听”) ,而仇恨言论可以在没有脏话的情况下存在 (例如,礼貌的白人至上主义言论) 。

图 5 揭示了模型与人类标注者 (灰色条) 相比的偏见:
- 过度依赖脏话: 看“Profanity (脏话) ”一栏。像 OPT-IML (绿色) 和 FALCON (黄色) 这样的模型,当出现脏话时,其“有攻击性”预测 (点状条) 几乎飙升至 100%。它们实际上是作为简单的关键词过滤器在运作,而不是智能体。即使是 GPT-4 (紫色) ,相比人类标注者也表现出对脏话更高的依赖。
- 对刻板印象的盲视: 现在看“Stereotypes (刻板印象) ”一栏。人类 (灰色条) 识别出其中很大一部分具有攻击性。然而,许多模型,包括 MISTRAL (橙色) 和 DOLLY (粉色) ,未能标记这些内容。它们将其分类为“无攻击性” (中间条) 的比率远高于人类。
这就造成了一个危险的双重标准: 模型审查使用随意脏话的用户,却放过了有害的、刻板印象式的仇恨言论,仅仅因为它使用了“礼貌”的语言。
结论与启示
论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” 为 AI 行业敲响了警钟。虽然大语言模型能够完成令人难以置信的壮举,但作为独立的内容审核员,它们目前是不可靠的。
核心要点:
- 脆弱性: 检测能力对特定模型和使用的提示词高度敏感。
- 安全机制失效: 安全训练往往适得其反,导致模型拒绝合法的审核任务,因为它们混淆了提及仇恨言论与宣扬仇恨言论。
- 浅层理解: 模型过度依赖“脏词” (脏话) ,并且经常遗漏刻板印象这种更深层的语义伤害。
对于进入该领域的学生和开发者来说,这突显了未来工作的一个关键领域。我们不能依靠通用的“安全训练”来解决攻击性言论检测问题。我们需要专门的训练,教会模型区分文本的本质与用户询问该文本的意图 。 在那之前,将 LLM 用作自动审查员可能会导致压制无害表达,同时放过隐蔽仇恨言论的风险。
](https://deep-paper.org/en/paper/file-3492/images/cover.png)