引言
在内容审核的早期,检测辱骂性语言主要是一场关键词匹配的游戏。如果一条评论包含种族歧视字眼、脏话或明确的威胁,它就会被标记。但随着自然语言处理 (NLP) 的进步,网络辱骂的隐蔽性也在不断升级。
请思考这两句话的区别:
- “You are a stupid idiot.” (你是个愚蠢的白痴。)
- “Gays sprinkle flour over their gardens for good luck.” (同性恋为了好运在花园里撒面粉。)
第一句是显性的辱骂;它使用了清晰、负面的词汇。然而,第二句却令人困惑。它没有脏话,没有愤怒的字眼。从语法上看,它是一个中立的陈述句。但是,如果你在社交媒体上看到这句话,你很可能会意识到这是一种辱骂形式。它将特定的身份群体描绘成“怪异的”、“异类的”或与社会其他人格格不入的。
这就是隐性辱骂 (Implicit Abuse) 的挑战,具体而言,这是一种将身份群体描绘为偏离常态 (deviating from the norm) 的子类型。
在研究论文 “Oddballs and Misfits” 中,Michael Wiegand 及其同事解决了这个复杂的问题。他们认为,当前的人工智能模型在捕捉此类语言方面表现糟糕,因为这些模型过于依赖负面情感 (如“坏”、“恨”、“杀”等词汇) 。研究人员引入了一种新颖的方法来检测这种利用“常态”作为武器来污名化群体的行为,该方法结合了巧妙的数据构建和像 GPT-4 这样的大型语言模型 (LLMs) 。
在这篇深度文章中,我们将探讨他们如何定义这个问题,他们如何构建数据集来训练模型 (而无需生成实际的仇恨言论) 的精妙方法,以及为什么“世界知识”是检测这种难以捉摸的辱骂形式的关键缺失环节。
背景: 隐性辱骂剖析
要理解为什么这项研究是必要的,我们首先必须审视当前辱骂检测技术的局限性。大多数系统采用“一刀切”的方法。它们在海量的有毒评论数据集上进行训练,并学习将某些模式——通常是敌意或亵渎——与辱骂联系起来。
然而,辱骂性语言往往是一种 “他者化” (Othering) 的形式。他者化是一种社会机制,用于污名化某个群体,将其标记为不符合社会主流规范。
“违反常态”问题
研究人员关注他者化的一个特定子集: 违反常态 (Norm-Contravention) 。 当一个句子描述某个身份群体 (例如犹太人、穆斯林、女性、黑人) 从事违反社会规范的行为时,就会发生这种情况。
至关重要的是,这些句子通常缺乏负面情感 。
- *例子: * “Black people occasionally wear pyjamas in public.” (黑人偶尔在公共场合穿睡衣。)
- *例子: * “Asians do not use banks.” (亚洲人不使用银行。)
这些句子并没有明确说这些主体是“坏的”。然而,它们违反了西方的社会规范 (在公共场合穿着得体,使用金融机构) 。通过将这些奇怪的行为归因于一个群体,作者在读者心中引发了一种社会心理反应: 感觉这个群体不属于这里。
研究人员进行了一项初步研究,让众包工作者对不同类型的隐性辱骂的严重程度进行排名。令人惊讶的是,用户将“偏离常态”评为比其他形式的隐性辱骂 (如比较,例如“你看起来像辆公交车”) 或委婉语更严重 。
对于计算机科学专业的学生和 NLP以此为业的人来说,核心挑战在于: 当计算机不知道什么是“正常”时,你如何训练它识别对社会规范的违反?
核心方法: 从零构建数据集
NLP 研究中最大的障碍之一是数据的可用性。由于“违反常态的辱骂”是一种罕见且特定的现象,因此没有足够大的现成数据集来训练稳健的模型。
作者不能简单地从 Twitter 上抓取这些例子,因为它们被显性的仇恨言论淹没了。此外,要求众包工作者针对特定群体编写仇恨言论在伦理上也是充满争议的。
为了解决这个问题,研究人员开发了一套复杂的、多步骤的流程来创建一个构建数据集 (Constructed Dataset) 。 这个过程是合乎伦理的数据生成和偏差缓解的典范。
第一步: 泛指的“他们”
研究人员没有要求标注者写关于“女性”或“穆斯林”的辱骂性句子,而是让他们针对一个被称为 “他们 (they) ” 的泛指群体编写句子。
指令是写出“他们”表现出偏离西方社会规范行为的句子。结果产生了如下句子:
- “They do not use the internet.” (他们不使用互联网。)
- “They wear coats on hot summer days.” (他们在炎热的夏天穿大衣。)
第二步: 创建对照集
为了训练机器学习模型,你需要正样本和负样本。研究人员需要那些在结构上相似但代表符合常态 (norm-compliant) 行为的句子。
专家手动编写了这些对应句。
- *违反常态: * “They wash clothing by hand.” (他们手洗衣物。)
- *符合常态: * “They wash clothing in washing machines.” (他们用洗衣机洗衣物。)
这种技术创建了所谓的对照集 (Contrast Set) 。 它迫使机器学习模型学习行为之间的语义差异,而不是依赖于长度或句子结构。
第三步: 流程实操
整个过程,从创作到验证,如下图所示。此流程图展示了一个泛指句子最终如何成为针对特定身份群体的标记数据点。

如图 1 所示,该过程涉及几个关键检查:
- 过滤 (Filtering) : 移除显性的仇恨或无意义内容。
- 去偏 (Debiasing) : (详见下文) 。
- 实例化 (Instantiation) : 这是神奇发生的地方。泛指的“他们”被替换为特定的身份群体 (例如,“犹太人不使用互联网”) 。
- 验证 (Validation) : 特定身份群体的成员审查这些句子,以确认他们是否认为这些句子具有辱骂性。
虚假相关问题
这篇论文中一个引人入胜的细节是对去偏 (Debiasing) 的关注。当研究人员最初创建符合常态的对应句时,他们发现了一个问题。为了使句子变得“正常”,标注者通常只是添加了“很少 (rarely) ”或“通常 (usually) ”这样的词。
- *糟糕的例子: * “They rarely wash clothing by hand.” (他们很少手洗衣物。)
如果模型看到这个,它会学到一条捷径: “如果我看到‘很少’这个词,这个句子就是安全的。” 这是一种虚假相关 (spurious correlation) 。 模型并没有学习社会规范;它只是在学习识别副词。
研究人员分析了词汇分布,发现了严重的偏差。

如表 13 所示,像 “rarely” (很少) 、“usually” (通常) 和 “may” (可能) 这样的词与符合常态的类别有着压倒性的关联 (90%+) 。研究人员不得不重写数据集以移除这些标记,确保模型必须通过实际“阅读”内容来做出决定。
最终的构建数据集
经过验证后,研究人员拥有了一个覆盖 7 个身份群体的干净、平衡的数据集。下面的统计数据表明,“违反常态”的行为与“辱骂”标签之间存在高度对应关系。

表 1 显示,大约 85% 描述偏离常态行为的句子被目标群体标记为辱骂性。这验证了假设: 将一个群体描述为“怪异”确实是一种辱骂形式。
现实世界验证: Twitter 数据集
构建的数据非常适合控制变量,但它能反映现实吗?为了确保他们的发现在现实环境中站得住脚,作者还从 Twitter 上整理了一个较小的数据集。他们搜索诸如 “Jews typically…” (犹太人通常……) 或 “Muslims rarely…” (穆斯林很少……) 之类的模式,以找到关于群体的陈述性语句。

表 3 展示了一个更小、更难的数据集。注意对应率较低 (75.9%) 。现实世界的数据更加杂乱,但它作为在构建数据上训练的模型的关键测试集发挥了作用。
实验: 教机器理解“正常”
有了数据,研究人员进入了实验阶段。任务是二元分类: 这句话是符合常态还是违反常态?
参赛选手
他们比较了几种方法:
- 标准分类器: 逻辑回归和 BERT (在数据集上训练) 。
- 情感分析: 使用 TweetEval 等工具查看“负面情感”是否与违反常态相关。
- 知识库: 使用 ConceptNet 查找概念。
- LLMs (零样本) : 直接询问 LLaMA-2 和 GPT-4。
- LLM 增强 (提出的方法) : 一种混合方法。
增强的力量
研究人员假设标准模型失败的原因是它们缺乏世界知识 。 像 BERT 这样的模型知道词汇在数学上是如何关联的,但它不一定“知道”人们通常睡在床上,而不是浴缸里。
为了解决这个问题,他们使用 GPT-4 作为知识检索引擎 。 他们向 GPT-4 输入句子并附带特定提示词。

如表 4 所示,他们问 GPT-4: “Is this common in our Western society?” (这在我们的西方社会中常见吗?)
然后,他们获取 GPT-4 的解释 (例如,“不,用水吃麦片是不常见的……”) 并将其附加到原始句子后面。这个增强后的文本随后被用于训练 DeBERTa 模型 (BERT 的更高级版本) 。
结果: 常态符合性
结果令人震惊。

表 5 讲述了一个清晰的故事:
- 情感分析 (51.7% F1): 完全失败。表现几乎不比随机猜测好。这证明违反常态不关乎负面情感。
- BERT (68.7%): 表现挣扎。
- DeBERTa (83.4%): 表现良好,表明更大的 Transformer 模型捕捉到了一些世界知识。
- DeBERTa + GPT-4 增强 (93.3%): 明显的赢家。通过将 GPT-4 的推理注入训练数据,该模型达到了接近人类的表现 (人类基线为 94.2%) 。
实验 2: 检测辱骂
然而,最终目标不仅仅是检测怪异的句子——而是检测针对身份群体的辱骂。
研究人员将他们最好的模型 (在 GPT-4 增强数据上训练的 DeBERTa) 与行业标准工具进行了对比测试:
- PerspectiveAPI: Google/Jigsaw 广泛使用的毒性检测器。
- ToxiGen: 一个专门的 HateBERT 模型。
他们在实例化句子 (例如,“穆斯林不使用互联网”) 上测试了这些模型。

表 7 凸显了当前行业标准的失败。
- PerspectiveAPI 平均 F1 值仅为 62.9% 。 它对不使用有毒词汇的辱骂视而不见。
- 提出的方法 (DeBERTa + GPT-4::aug) 达到了 79.6% F1 , 大幅超越了基线。
这一结果证实,要检测隐性辱骂,我们不能依赖毒性评分。我们必须检测底层概念——在本例中,即对社会规范的偏离。
“西方规范”的细微差别
论文中最有趣的部分之一讨论了该方法的局限性。分类器是在“西方规范”上训练的。然而,有些行为在西方社会看来是“不正常”的,但对于特定身份群体来说却是固有的。
考虑这些句子:
- “Muslims pray at dawn.” (穆斯林在黎明祈祷。)
- “Jews do not consume meat and dairy products together.” (犹太人不将肉类和乳制品一起食用。)
从纯粹的西方统计角度来看,这些是“不常见”的行为。然而,它们不是辱骂 ; 它们是对宗教习俗的事实描述。
一个简单的常态检测模型可能会将这些标记为“怪异”,从而标记为辱骂。研究人员将这些称为挑战性句子 (Challenging Sentences) 。
他们在 Twitter 数据集中手动识别了这些棘手的案例,并检查了不同模型的处理情况。

表 9 显示,即使是最好的模型在这里也很吃力。
- LLaMA-2 几乎全部搞错 (4.7% 正确) ,可能是产生了幻觉或死板地坚持西方统计数据。
- GPT-4 表现稍好 (57.7%) 。
- 增强模型 达到了 63.5% 。
虽然 63.5% 有所进步,但这与人类基线 89.4% 仍有很大差距。这凸显了 NLP 的一个关键前沿: 教模型区分“污名化的异常”和“文化差异”。
结论与启示
论文 “Oddballs and Misfits” 为人工智能安全现状提供了一个发人深省的视角。它表明,我们目前用于审核内容的工具对于复杂的、隐性的辱骂基本上是盲目的。
以下是给学生和研究人员的关键要点:
- 情感 \(\neq\) 辱骂: 你不能依赖情感分析或关键词列表来发现仇恨言论。辱骂是一种社会现象,而不仅仅是词汇现象。
- 世界知识至关重要: 要理解为什么“在花园里撒面粉”在上下文中是辱骂性的,模型需要知道人们通常在花园里做什么。大型语言模型提供了一种将这种常识注入分类任务的方法。
- 数据构建很重要: 研究人员不仅仅是抓取数据;他们设计了数据。他们对对照集和去偏技术 (移除虚假相关) 的使用是严谨 NLP 研究的典范。
关于伦理的说明
作者谨慎地指出,他们关注“西方规范”是出于实际限制,而非道德判断。通过将辱骂定义为“偏离常态”,存在强化异性恋霸权或欧洲中心主义世界观的风险。
然而,从工程角度来看,这种“分而治之 (Divide-and-Conquer) ”的方法是有前景的。未来的内容审核可能不再依赖一个巨大的“仇恨言论检测器”,而是依赖一组专业化的专家模型集成: 一个寻找脏话,一个寻找威胁,而另一个——像这里提出的模型一样——寻找那种让人感觉自己不属于这里的微妙、无声的行为。
](https://deep-paper.org/en/paper/file-3435/images/cover.png)