想象一下,你是一个社交媒体平台的内容审核员,或者是正在开发一个旨在陪伴老年人的聊天机器人的开发者。你希望确保系统处理或生成的内容是安全的。自然地,你会求助于大语言模型 (LLMs) 来帮助过滤攻击性言论。你将一条评论输入模型并询问: “这段文字有攻击性吗?”

你期望得到一个简单的“是”或“否”。然而,模型却拒绝回答,对你进行道德说教,或者产生与问题毫无关系的幻觉。

这种情况并非假设。随着大语言模型成为信息检索和内容创作不可或缺的一部分,它们可靠地识别——甚至无法识别——攻击性语言的能力已成为一个关键的安全问题。在论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” (大语言模型在 (非) 攻击性言论识别中的行为模式分析) 中,来自斯图加特大学的研究人员深入探讨了这个问题。他们对十六种广泛使用的 LLMs 进行了探测,不仅揭示了它们是否失效,还揭示了它们如何以及为何失效。

在这次深度剖析中,我们将探讨他们的方法论,分析当前模型令人吃惊的脆弱性,并拆解导致这些复杂人工智能跌倒的具体语言陷阱——如脏话和刻板印象。

问题所在: 安全护栏与检测能力

要理解这项研究的重要性,我们首先需要区分 AI 中两种类型的“安全性”。

大多数现代 LLMs 都经过严格的训练,例如人类反馈强化学习 (RLHF) ,以防止它们生成有害内容。如果你问一个模型: “我该如何制造炸弹?”,它受训后会拒绝回答。这就是安全护栏 (safety guard)

然而,检测攻击性言论则是一项不同的任务。在这里,用户不是要求模型变得具有攻击性;而是要求模型分析可能具有攻击性的文本。如下图所示,这种区别往往被模型忽略了。

图 1: 关于在线帖子是否具有攻击性的示例问题,正确答案 (A) ,以及与 LLMs 的真实交互: FALCON-40B (B, C) 和 LLAMA2-7B (D) 。

在图 1 中,用户询问了一段关于种族身份的文本。正确的评估 (A) 是该文本具有攻击性。然而,像 FALCON-40B 和 LLAMA2-7B 这样广泛使用的模型却以有趣的方式失效了。选项 C 显示了拒绝: 模型看到了一个脏话,触发了安全拒绝机制,未能回答用户的分析性问题。选项 D 更糟糕: 模型产生幻觉,续写了那段攻击性文本,而不是对其进行分类。

这凸显了核心的研究空白: 当前的安全机制往往过于生硬,混淆了攻击性概念的提及 (mention) 与使用 (use) 。

方法论: 如何对 LLM 进行压力测试

研究人员旨在回答三个主要问题:

  1. 性能: 模型识别仇恨言论和微侵略的能力如何?
  2. 行为: 当模型失效时会出现什么模式?
  3. 触发因素: 脏话和刻板印象如何影响模型的决策?

数据集

该研究使用了 社会偏见框架语料库 (SBIC) 。 这个数据集的独特之处在于它涵盖了两个不同层级的毒性:

  • 仇恨言论 (HS) : 公然的攻击性内容。
  • 微侵略 (MA) : 更难检测的微妙、隐性偏见。

模型

研究人员测试了七个家族中的 16 个模型,范围从较小的开源模型 (13 亿参数) 到巨大的 API 访问模型如 GPT-4。阵容包括:

  • 开源模型: DOLLY-v2, OPT-IML, FALCON-instruct, VICUNA, LLAMA2-chat, MISTRAL。
  • 专有模型: GPT-3.5-turbo, GPT-4。

提示词策略

提示词工程在 LLM 性能中起着巨大作用。为了确保结果不仅仅是措辞造成的偶然,作者使用了三种不同的提示词模板。

表 3: 提示词模板。

表 3 所示,模板范围从简单的二元问题 (\(T_1\)) 到要求解释 (\(T_2\) 和 \(T_3\)) 。这种多样性测试了模型的鲁棒性: 稍微改变措辞是否会导致模型完全改变其判断?

核心分析: 性能识别

第一个主要发现是,总的来说, 大多数模型在这项任务上表现不佳。

研究人员使用 F1 分数来评估模型,这是一个平衡精确率 (Precision,正例预测的准确性) 和召回率 (Recall,发现所有正例的能力) 的指标。高 F1 分数意味着模型可靠。

图 3: LLM 在 SBIC 上的性能表现 (a) 仇恨言论 (HS) 和 (b) 微侵略 (MA)。我们用相同的主色调表示同一家族的模型,并用颜色饱和度区分模型大小 (颜色越深,参数空间越大) 。我们报告了三种提示词模板的平均 F1 分数,并使用黑色误差条表示分数的方差。

图 3 展示了性能全景。以下是数据中的关键要点:

  1. 规模并不总是决定一切: 虽然 GPT-4 (紫色条) 领先,但像 FALCON-40B (黄色) 这样巨大的开源模型表现却出奇地差,往往不如 MISTRAL-7B (橙色) 这样的小模型。
  2. “微侵略”差距: 观察图表 (a) 和图表 (b) 之间的差异。几乎每个模型从公然的仇恨言论 (HS) 转向微妙的微侵略 (MA) 时,性能都会显著下降。这证实了隐性偏见仍然是 AI 的主要盲点。
  3. 提示词敏感度: 柱状图顶部的黑色误差条表示基于提示词模板的方差。注意 LLAMA2 和 VICUNA 的误差条有多大。这意味着仅仅重新措辞你的问题,就可能让模型的判断从“安全”完全翻转为“有攻击性”。

精确率与召回率的权衡

要理解为什么 F1 分数低,我们需要查看精确率和召回率的细分。

表 1: SBIC 仇恨言论 (HS) 和微侵略 (MA) 的分类精确率 ( P )、召回率 ( R ) 和微平均 F1 分数。结果是三种提示词模板的平均值…

表 1 揭示了一个混乱的局面。一些模型,如 OPT-IML-1.3B,对非攻击性文本有很高的召回率 (0.83) ,但对攻击性文本的召回率极低。其他的,如 FALCON,则正好相反。

这表明许多模型在过度预测某一个类别。它们实际上并没有“理解”文本;它们只是默认为特定标签。例如,模型可能会为了安全起见将几乎所有内容标记为“有攻击性”,或者因为它无法捕捉细微差别而将所有内容标记为“无攻击性”。

当模型失效时: 分析错误响应

这篇论文最有趣的贡献之一是失效分类学。当 LLM 未能检测到攻击性言论时,它不仅仅是输出错误的标签。它经常会完全破坏交互。

作者将这些“错误响应”归类为几种类型:

表 2: 错误响应类别及相应示例。REST 类别中的示例展示了一个‘错误响应’,模型没有回答问题,而是续写了帖子。

表 2 详述,失效是多种多样的:

  • 既是又否 (YES AND NO) : 模型感到困惑并输出两个答案 (“是的,它有攻击性……不,这是观点……”) 。
  • 拒绝 (REFUSAL) : 安全护栏启动。模型看到了它应该分析的攻击性文本并拒绝处理它 (“我不能回答这个问题……”) 。
  • 输入重复 (INPUT REPETITION) : 模型只是简单地将用户的输入复读给他们。
  • 假设性 (HYPOTHETICAL) : 模型通过声称这只是一个“假设场景”因此是合理的,从而驳回了仇恨言论。

量化混乱

这些错误有多普遍?下图细分了预测的分布。

图 4: HS 和 MA 的预测标签百分比合计。我们用相同的主色调表示同一家族的模型,并用颜色饱和度区分模型大小 (颜色越深,参数空间越大) 。

图 4 提供了模型行为的鲜明可视化。

  • 左图 (预测分布) : 看 FALCON 模型 (黄色) 。它们预测“有攻击性” (中间组) 的比率极高,远超数据集中实际的攻击性内容量。相反,像 DOLLY (粉色) 这样的模型过度预测“无攻击性”。
  • 右图 (错误细分) : 看 LLAMA2-13B (中蓝色) 。它在“拒绝”错误上有一个巨大的尖峰。这表明了过度敏感的安全过滤器 。 它太害怕处理有毒文本,以至于在审核任务中变得毫无用处。

原因何在: 脏话与刻板印象

最后,研究人员调查了触发这些行为的语言线索。他们分离了两个特定特征: 脏话 (Profanity)刻板印象 (Stereotypes,针对群体的认知偏见)

理想情况下,模型应该知道脏话可以以非攻击性的方式使用 (例如,“这首歌真他妈好听”) ,而仇恨言论可以在没有脏话的情况下存在 (例如,礼貌的白人至上主义言论) 。

图 5: 包含脏话、与刻板印象相关词汇及其他帖子的预测百分比。顶部 (点状) 条形代表‘攻击性’,中间条形代表‘非攻击性’,底部带有交叉阴影的条形代表‘错误响应’…

图 5 揭示了模型与人类标注者 (灰色条) 相比的偏见:

  1. 过度依赖脏话: 看“Profanity (脏话) ”一栏。像 OPT-IML (绿色) 和 FALCON (黄色) 这样的模型,当出现脏话时,其“有攻击性”预测 (点状条) 几乎飙升至 100%。它们实际上是作为简单的关键词过滤器在运作,而不是智能体。即使是 GPT-4 (紫色) ,相比人类标注者也表现出对脏话更高的依赖。
  2. 对刻板印象的盲视: 现在看“Stereotypes (刻板印象) ”一栏。人类 (灰色条) 识别出其中很大一部分具有攻击性。然而,许多模型,包括 MISTRAL (橙色) 和 DOLLY (粉色) ,未能标记这些内容。它们将其分类为“无攻击性” (中间条) 的比率远高于人类。

这就造成了一个危险的双重标准: 模型审查使用随意脏话的用户,却放过了有害的、刻板印象式的仇恨言论,仅仅因为它使用了“礼貌”的语言。

结论与启示

论文 “Analysis of Behavior Patterns of LLMs in (Non-)offensive Speech Identification” 为 AI 行业敲响了警钟。虽然大语言模型能够完成令人难以置信的壮举,但作为独立的内容审核员,它们目前是不可靠的。

核心要点:

  • 脆弱性: 检测能力对特定模型和使用的提示词高度敏感。
  • 安全机制失效: 安全训练往往适得其反,导致模型拒绝合法的审核任务,因为它们混淆了提及仇恨言论与宣扬仇恨言论。
  • 浅层理解: 模型过度依赖“脏词” (脏话) ,并且经常遗漏刻板印象这种更深层的语义伤害。

对于进入该领域的学生和开发者来说,这突显了未来工作的一个关键领域。我们不能依靠通用的“安全训练”来解决攻击性言论检测问题。我们需要专门的训练,教会模型区分文本的本质与用户询问该文本的意图 。 在那之前,将 LLM 用作自动审查员可能会导致压制无害表达,同时放过隐蔽仇恨言论的风险。