超越礼貌——教人工智能缓和仇恨言论

如果你在 Reddit 或 X (前身为 Twitter) 等社交媒体平台的评论区待过，你就会知道对话会以多快的速度陷入恶毒的谩骂。仇恨言论仍然是网络社区面临的一个持久挑战，威胁着健康的交流并驱赶用户。

多年来，研究人员一直在开发自动化生成“反击言论” (counterspeech) 的方法——即旨在反驳或中和仇恨言论的直接回复。其中的逻辑很简单: 如果我们能够自动化审核流程或通过建议回复来辅助人工审核员，我们就能扩大打击网络暴力的规模。

然而，这些系统的构建方式存在一个巨大的缺陷。目前大多数模型都专注于语言属性 。它们被训练成礼貌、信息丰富或积极向上的样子。虽然这些目标很高尚，但它们没有回答最重要的问题: 这种回复真的有效吗?

一个礼貌的回复能阻止仇恨者再次发帖吗？一个信息丰富的反驳是让评论区冷静下来，还是火上浇油？

在这篇文章中，我们将深入探讨论文 《Outcome-Constrained Large Language Models for Countering Hate Speech》 (用于对抗仇恨言论的结果约束大型语言模型) 。研究人员提出了一个视角的转变: 我们不应该仅仅生成看起来不错的文本，而应该生成经过优化以产生特定、积极结果的文本。

当前反击言论存在的问题

要理解为什么这项研究是必要的，我们首先需要看看自动化反击言论的现状。

传统上，研究人员通过让专家或众包工作者编写对仇恨言论的回复来创建数据集。然后训练模型来模仿这些回复。如下面的先前工作总结所示，约束条件通常集中在文本本身——使其“无毒”、“富有情感”或“信息丰富”。

关于反击言论生成的近期工作总结，包括数据集创建和建模工作。

这些方法的问题在于它们是“注重输出”而不是“注重结果”的。一个回复可能完全礼貌且语法正确，但仍然会激怒原发帖者或引来一群网络喷子。这篇论文的研究人员认为，反击言论的最终目标不应该仅仅是听起来不错——而应该是缓和冲突 。

定义“成功”: 什么是好的结果？

如果我们想训练人工智能来实现一个目标，我们必须首先用数学方法定义这个目标。研究人员专注于两个具体的指标，这表明从有毒评论中恢复的健康程度: 对话不文明度 (Conversation Incivility) 和仇恨者重返行为 (Hater Reentry) 。

为了衡量这些，研究人员将对话建模为树状结构。

基于反击言论回复 (蓝色框) 之后的对话 (绿色框) 评估的两种对话结果 (仇恨者重返行为和不文明度) 。对话树第一层的评论 (即直接回复) 用于建模仇恨者重返行为。对话树中的所有评论用于建模对话不文明度。灰色框表示仇恨评论；其他为非仇恨评论。

如图 Figure 1 所示，模型不仅关注仇恨评论 (\(u_1\)) 和反击言论回复 (\(u_2\)) 。关键在于，它关注绿色框内发生的一切——即后续对话。

1. 对话不文明度 (Conversation Incivility)

该指标评估在发布反击言论之后整个帖子的总体基调。它不仅仅是计算脏话；它考虑了文明与不文明评论的数量，以及参与其中的唯一作者数量。

高不文明度: 许多用户跳出来发表恶毒评论。
低不文明度 (期望结果) : 对话变得平静，或者有毒的帖子以文明的评论结束。

2. 仇恨者重返行为 (Hater Reentry)

该指标特别关注最初的煽动者 (\(u_1\)) 。在被反击后，他们做了什么？

无重返行为: 他们离开了对话 (中性/好) 。
仇恨性重返: 他们回复了更多的仇恨言论 (坏) 。
非仇恨性重返 (期望结果) : 他们以建设性的方式参与对话 (最好) 。

“非仇恨性重返”是冲突降级的黄金标准。这意味着反击言论不仅让用户闭嘴，实际上还鼓励了其行为或语气的改变。

方法论: 引导 LLM 的三种方法

研究人员尝试使用大型语言模型 (LLM) ，特别是 Llama-2，来生成反击言论。他们的挑战是强制 LLM 优先考虑上述两个结果。他们测试了三种截然不同的方法:

方法 1: 指令提示 (Instruction Prompts，即“好言相劝”法)

使用 LLM 最简单的方法就是告诉它你想要什么。研究人员精心设计了明确描述期望结果的提示。

*标准提示: * “请写一条反击言论回复……”
*结果导向提示: * “……以便在后续对话中实现低不文明度。”

他们还使用了 “生成并选择” (Generate and Select) 策略。与其让 LLM 生成一个回复，不如让它生成 5 个或 10 个。然后，使用一个单独的分类模型 (经过训练可以预测对话结果) 对这 10 个回复进行评分，并选择最有可能成功的一个。

方法 2: LLM 微调 (LLM Finetuning，即“熟能生巧”法)

微调涉及在特定数据集上重新训练模型的权重。研究人员收集了真实的 Reddit 对话，在这些对话中，反击言论实际上导致了低不文明度或建设性的仇恨者重返行为。通过在这些“成功案例”上训练模型，LLM 学会了模仿有效的人工审核员的风格和内容。他们使用了 LoRA (低秩自适应) 技术来高效地完成这项工作。

方法 3: 强化学习 (Reinforcement Learning，即“奖励”法)

这是研究中使用的最复杂的方法。在强化学习 (RL) 中，模型生成回复并根据该回复的好坏获得“奖励” (分数) 。模型随后会自我调整以随着时间的推移最大化该奖励。

在这里，“奖励函数”由结果分类器驱动。

LLM 生成一条反击言论。
分类器预测: “这会导致文明的对话吗？”
如果是，模型会获得高奖励 (+2) 。如果导致仇恨，它会受到惩罚或获得低奖励 (0) 。
为了确保模型不会偏离可理解的英语太远，如果生成的文本与基础模型相比变得太奇怪，他们还包含了惩罚项 (KL 散度) 。

实验与关键结果

研究人员使用来自 Reddit 的测试集评估了他们的模型。他们从三个维度进行了观察: 有效性 (预测结果) 、与人类文本的相似度以及质量。

1. 模型是否实现了预期结果？

如下面的 Table 2 所示，结果显示了明显的有效性层级。

Table 2: 评估 (a) 预期结果和 (b) 与 Benchmark-Reddit 中参考反击言论的相似度。METEOR 和 BERTScore 是按样本计算的。报告了平均值 (SD)。生成并选择和 RL 更擅长生成更多具有预期结果的样本。虽然用词与参考反击言论不同 (METEOR)，但语义相关性 (BERTScore) 始终很高。所有生成均基于 Llama2-7b-chat，除了 Baseline(13b) 基于 Llama2-13b-chat。

RL 是结果之王: 强化学习 (RL) 模型在生成被预测为能带来文明对话和建设性重返行为的回复方面明显更好。例如, RL-Civility 模型在生成低不文明度回复方面达到了 77% 的成功率，而基线提示仅为 23%。
选择很重要: “生成并选择”方法 (生成 10 个候选并挑选最好的) 也非常有效，有时甚至可以与训练过的模型相媲美。
微调的挣扎: 有趣的是，与 RL 相比，微调模型在这些严格的结果指标上表现不佳。

关于相似度的说明: 该表还显示了 BERTScore 和 METEOR 分数。虽然用词 (METEOR) 与人类参考文本有很大不同，但语义含义 (BERTScore) 仍然很高 (~0.83) 。这意味着人工智能在说与人类参考不同的话，但保持了切题。

2. 文本质量如何？

如果语法破碎或风格像机器人一样生硬，生成有效的文本也是无用的。研究人员使用 GRUEN 指标来评估质量。

Table 3: 质量和多样性评估。GRUEN 和 BERTScore 是按样本计算的。报告了平均值 (SD)。通过指令提示生成的反击言论质量相对较低。使用 Reddit 反击言论微调的 LLM 生成的文本具有高多样性。使用微调后的 LLM 进行 RL 生成的文本新颖性降低。所有生成均基于 Llama2-7b-chat，除了 Baseline(13b) 基于 Llama2-13b-chat。

如 Table 3 所示:

指令提示质量: 提示方法产生的文本质量较低。它往往是冗余的且缺乏重点。
多样性: 微调模型 (在 Reddit 数据上训练) 具有最高的词汇多样性。它们学会了互联网上混乱多变的俚语。
RL 质量: RL 模型获得了最高的总体质量得分 (GRUEN) ，很好地平衡了重点和语法。

3. 人工评估: 现实检验

自动化指标固然好，但人类判断才是自然语言的终极测试。研究人员要求人工标注员根据三个因素对回复进行评分:

适用性 (Suitability) : 风格是否适合 Reddit 帖子？
相关性 (Relevance) : 它是否确实在回复仇恨言论？
有效性 (Effectiveness) : 你认为这能阻止仇恨吗？

Table 4: 按方法划分的每个评估维度标记为“是”的样本比例。

这里存在着论文中最有趣的矛盾。

看看 Table 4 。虽然 RL 模型在自动化指标上占据主导地位，但微调 (Finetuning) 模型在适用性 (0.80) 和有效性 (0.80) 的人工评估中获胜。

为什么会有这种差异？ “指令提示”模型生成的文本往往过于正式——像是在写信或写文章，而不是 Reddit 评论。RL 模型虽然有效，但有时“钻了指标的空子”。微调模型由于是在真实的 Reddit 帖子上训练的，“听起来”就像 Redditor (Reddit 用户) 。它们非正式、活泼且符合文化语境，人工评估员认为这在真实的社交媒体环境中更有可能奏效。

生成反击言论的示例

为了真正理解这些方法之间的区别，我们需要看看实际的输出。

警告: 下表包含来自数据集的仇恨言论示例，以演示模型回复。

Table 10: 通过指令提示、LLM 微调和 LLM RL 生成的回复样本。

示例 1 (指令提示) : 回复的情感是“好”的，但长得令人难以置信且充满说教味。它读起来像是一个客服机器人 (“我理解许多人感到沮丧……”) 。在 Reddit 上，这可能会被嘲笑。
示例 3 (微调) : “如果你真的认为女性永远不会成为电子游戏的目标受众，那你就是生活在幻想世界里。” 这句话犀利、直接，听起来像是一个真人。它在反击的同时没有辱骂。
示例 6 (RL) : 这里的 RL 模型生成了一个标准的拒绝/道歉 (“我很抱歉，但我不能参与……”) 。虽然这很“安全”，但它关闭了对话，而不是反击具体的观点。

结论与启示

这项研究标志着自动化内容审核迈出了关键的一步。它让我们不再仅仅问“这个回复礼貌吗？”，而是问“这个回复真的有帮助吗？”。

以下是给学生和从业者的主要启示:

优化目标很重要: 如果你针对“安全性”进行优化 (如 ChatGPT 中的标准 RLHF) ，你通常会得到拒绝回答。如果你针对“减少不文明度”进行优化 (如这里的 RL 方法) ，你会得到冲突降级。
“对齐”差距: 算法认为的“有效” (RL 分数) 与人类认为的“合适” (微调) 之间仍然存在脱节。RL 模型找到了数学上的最大值，但微调模型找到了文化上的契合点。
强化学习很强大: 使用对话结果作为奖励函数是引导 LLM 的一种高效方式，比简单的提示更有效。

未来方向: 作者指出，他们的结果分类器并不完美。未来的工作需要更好的方法来预测对话轨迹。此外，将微调模型的“街头智慧”与 RL 模型的“目标导向”特性相结合，可能会产生终极的反击言论机器人——一个听起来像同伴，但能像专业调解员一样化解冲突的机器人。

目前，这篇论文证明了我们可以，也应该让我们的 AI 模型对其言论的后果负责，而不仅仅是对其句法负责。

当前反击言论存在的问题#

定义“成功”: 什么是好的结果？#

1. 对话不文明度 (Conversation Incivility)#

2. 仇恨者重返行为 (Hater Reentry)#

方法论: 引导 LLM 的三种方法#

方法 1: 指令提示 (Instruction Prompts，即“好言相劝”法)#

方法 2: LLM 微调 (LLM Finetuning，即“熟能生巧”法)#

方法 3: 强化学习 (Reinforcement Learning，即“奖励”法)#

实验与关键结果#

1. 模型是否实现了预期结果？#

2. 文本质量如何？#

3. 人工评估: 现实检验#

生成反击言论的示例#

结论与启示#