AI 真的能理解仇恨吗?地理位置、角色设定和偏见如何重塑 LLM 内容审核

内容审核是现代互联网面临的最困难的挑战之一。每天有数十亿条帖子生成,平台面临着迅速删除仇恨言论的巨大压力。传统的解决方案是混合使用关键词过滤器和庞大的人工审核团队。但人工审核速度慢,给工作人员带来精神创伤,而且——关键是——具有主观性。

一个人眼中的“仇恨诽谤”,另一个人可能视为“被重新定义的俚语” (reclaimed slang) ,而第三个人可能觉得只是个无伤大雅的玩笑。这种主观性在很大程度上取决于你住在哪里、你的文化背景以及你的生活经历。

大型语言模型 (LLM) 登场了。随着 GPT-4 和 Llama 3 等模型的能力越来越强,公司正争相将它们用作自动化审核员。但这引发了一个巨大的问题: AI 到底学到了谁的“仇恨”版本? LLM 是否明白,在美国具有冒犯性的短语在新加坡可能是中性的?它能否模拟边缘化群体的视角?

在这篇文章中,我们将深入探讨研究论文 “Hate Personified: Investigating the role of LLMs in content moderation”。来自 IIIT Delhi、IIT Delhi、LMU Munich 和 TUM 的研究人员进行了一组引人入胜的实验,看看是否可以“助推” (启动) LLM 去理解关于仇恨言论的多元视角。

问题: 仇恨不是二元的

我们通常认为仇恨言论检测是一个简单的分类任务: 这段文本是否充满仇恨 (是/否) ?但实际上,这是一个受语境影响的光谱。

考虑论文中描述的以下场景。某条社交媒体帖子可能被 75% 的美国标注员标记为“仇恨言论”,但只有 20% 的新加坡标注员这么认为。如果我们用美国数据训练 AI,它就会错误地监管新加坡用户。

研究人员意识到,对于主观性任务,仅仅问 LLM “这是仇恨言论吗?”是不够的。这会促使模型给出一个“通用”的答案,通常与其训练数据主导的西方规范保持一致。为了得到更好的答案,我们需要给模型提供语境

研究流程

这篇论文的核心贡献是系统地调查了语境启动 (contextual priming) 如何影响 LLM 的判断。研究人员没有微调模型 (这既昂贵又僵化) ,而是使用了零样本提示 (zero-shot prompting) 。他们修改了输入提示词,包含三种特定类型的线索:

  1. 地理线索 (Geographical Cues) : 告诉模型帖子是在哪里写的。
  2. 角色线索 (Persona Cues) : 要求模型采用特定的人口统计身份 (例如,特定性别、宗教或政治立场) 。
  3. 数字锚点 (Numerical Anchors) : 告诉模型还有多少其他人标记了该帖子。

研究流程概览,显示三个分支: 标注者角色、地理线索和锚定偏见。

如上图 Figure 2 所示,该流程获取一条传入的帖子,并为其加上语境前缀以形成提示词。然后研究人员测量输出的变异性。如果 LLM 根据语境改变了答案,就证明模型对该变量是敏感的。

让我们逐一拆解这三项调查。


调查 1: 仇恨的地理学

LLM 是否理解文化规范会跨越国界发生变化?

为了测试这一点,研究人员使用了 CREHate 数据集,该数据集包含由来自五个不同国家的标注员标记的英语评论: 美国、澳大利亚、英国、南非和新加坡。他们发现,关于什么构成“仇恨”,这些国家的人类之间的一致性差异很大。

实验

团队使用了两种不同风格的提示词来测试模型 (特别是 FlanT5-XXL 和 GPT-3.5) :

  1. 基础提示词 (Base Prompt) : “Statement: [POST]. Is the given statement hateful?” (声明: [帖子内容]。给定的声明是否充满仇恨?)
  2. 地理提示词 (Geographical Prompt) : “The following statement was made in [Country]: [POST]. Is the given statement hateful?” (以下声明是在 [国家] 做出的: [帖子内容]。给定的声明是否充满仇恨?)

目标是看添加国家名称是否有助于 AI 更好地与该特定国家的人类标注员保持一致。

五个国家的人类标注员与 GPT-3.5 对仇恨/非仇恨的标注对比。

Figure 1 展示了这种差异。你可以看到相同的挑衅性声明 (文本框) 以及人类 (圆圈) 与 AI (方块) 是如何评级的。颜色 (红色代表仇恨,绿色代表非仇恨) 显示 AI 经常与人类意见相左,但也显示来自不同国家的人类 (国旗) 彼此之间也存在分歧。

结果

结果很有希望,但也颇为微妙。当研究人员添加地理线索 (“此声明是在南非做出的”) 时,LLM 与南非标注员的一致性显著提高。

条形图显示了 FlanT5-XXL 和 GPT-3.5 在不同国家和语言中的标注者间一致性 (IAA) 。

看看上面的 Figure 3 :

  • 图表 (b) 显示了 GPT-3.5 的表现。绿色条 (有国家信息) 通常高于棕色条 (无国家信息) 。这意味着模型成功利用了其关于某国文化的内部知识来做出更好的决定。
  • 图表 (c) 显示了语言带来的更强效应。当提示词明确指出“以下声明是用 [语言] 做出的”时,模型在多语言数据集 (阿拉伯语、法语、德语、印地语) 上的准确率大幅飙升 (紫色条) 。

关键结论: LLM 拥有潜在的“地理子空间”。它们知道某些词在英国是诽谤,但在澳大利亚不是,但它们需要被明确告知对话发生的地点才能激活这些知识。


调查 2: AI 能模仿特定角色吗?

如果我们无法聘请多样化的人类版主,我们可以直接告诉 AI 假装成他们吗?这就是角色启动 (Persona Priming) 的概念。

研究人员测试了 LLM 是否可以充当特定人口统计群体的代理。他们使用了如下提示词:

  • *假设 (Assumption) : * “Suppose you are a person of Black ethnicity…” (假设你是一个黑人种族的人……)
  • *报告 (Reporting) : * “A person of Black ethnicity annotated the following statement as hateful…” (一个黑人种族的人将以下声明标记为仇恨……)

他们测试了各种属性,包括性别、种族、政治取向、宗教和教育水平。

“弱势群体”的细微差别

最有趣的发现之一涉及“弱势角色” (vulnerable personas) 。研究人员想看看,如果模型采用经常成为仇恨目标的群体的角色 (例如,阿拉伯语语境下的穆斯林,或印地语语境下的低种姓个体) ,它是否会对仇恨言论变得更加敏感。

比较阿拉伯语、法语、德语和印地语中不同角色的预测仇恨标签比率 (PHLR) 的图表。

Figure 4 揭示了这种方法的复杂性。图表显示了预测仇恨标签比率 (PHLR) ——本质上是模型打上“仇恨”标签的积极程度。

  • 图表 (a) 中,我们看到了被告知文本充满仇恨时,“基础角色” (橙色) 与“弱势角色” (紫色) 之间的差异。
  • 图表 (c) 和 (d) 中,研究人员比较了“母语者”与“非母语者”。

结果如何? 很复杂。研究人员发现,简单地告诉 LLM “做一个男人”或“做一个女人”并不会导致一致的变化。然而, 特定的文化触发因素起了作用。例如,在印地语中,与“高种姓”角色相比,采用“低种姓”角色使模型对基于种姓的诽谤更加敏感。

然而,作者警告不要以此来替代人类。“假设”的角色 (假装成某人) 通常依赖于训练数据中存在的刻板印象,而不是该群体生活经历的真实反映。


调查 3: 锚定偏见的危险

对于任何构建自动化系统的人来说,最后的实验可能是最令人震惊的。研究人员测试了锚定偏见 (Anchoring Bias) 。这是一种认知偏差,指人类在做决定时过分依赖提供的第一条信息 (“锚点”) 。

在内容审核中,审核员经常看到元数据,比如“此帖子已被标记 50 次”。研究人员想知道: 我们能强迫 LLM 随大流吗?

“虚假投票”实验

他们修改了提示词以包含捏造的统计数据: “The following statement was labeled hateful by [Z]% of annotators.” (“以下声明被 [Z]% 的标注员标记为仇恨 。 ”)

他们测试了 0%、25%、50%、75% 和 100% 的百分比 (\(Z\))。

热图显示了 FlanT5-XXL 和 GPT-3.5 在不同投票百分比锚点下的 IAA 分数。

Figure 5 以热图形式展示了结果。

  • 轴代表提供给模型的“投票”百分比。
  • 对角线代表一致的协议。

这表明: 模型极易受到同伴压力的影响。如果提示词声称 75% 或 100% 的人认为该帖子充满仇恨,无论帖子的实际内容如何,LLM 都更有可能将其标记为仇恨。

这揭示了一个巨大的漏洞。如果对手想要操纵自动化审核系统,他们可能会利用这种“数字敏感性” (例如,通过大量标记一条良性帖子) 来诱骗 LLM 审查它。


讨论: 这对未来意味着什么

这篇研究论文为 AI 行业提供了一个至关重要的“现实检验”。虽然人们很容易将 LLM 视为客观的真理仲裁者,但它们实际上是高度敏感的统计引擎,会对语境做出剧烈反应。

以下是从论文中得出的主要启示:

1. 语境廉价,但价值连城

研究人员证明,添加简单的地理语境 (例如,“这是来自南非的”) 可以显著提高审核质量。由于社交媒体平台已经拥有这些元数据 (地理位置/IP) ,这是一种“唾手可得”的优化。AI 审核绝不应在真空中运行;它需要知道它正在哪里运行。

2. 不要将 AI 拟人化

通用“角色”提示的失败表明,我们不能简单地用一个假装多样化的 AI 来取代多样化的人类团队。AI 版本的“自由派”或“保守派”是从互联网文本中提取的讽刺画,而不是真实的人类视角。

3. 警惕提示词中的“社区备注”

关于锚定偏见 (调查 3) 的发现是一个安全警告。将原始社区信号 (如标记计数) 直接输入到 LLM 的提示词中是危险的。这为对抗性攻击打开了大门,坏人可以通过大量虚假信号来玩弄系统,迫使 AI 封禁合法内容或允许仇恨言论。

结论

论文 “Hate Personified” 表明,LLM 不是僵化的决策者。它们是流动且依赖语境的。虽然它们难以完美模仿复杂的人类角色,但它们表现出了适应地理语境的惊人能力。

对于 NLP 的学生和从业者来说,教训是明确的: 提示工程不仅仅是搞对语法;更是要理解数据的社会学语境。 我们不能剥离语言的人性,还期望 AI 能理解它。如果我们想要更好的内容审核,我们不只需要更好的模型;我们需要更好的语境。