引言
如果你在选举季花时间上过 Twitter (现在的 X) ,你会知道那里的讨论可能会变得非常不堪。但“不堪”是一个模糊的词。一条针对参议员使用脏话的推文,和一条冷静地指责特定人群是“国家叛徒”的推文,性质是一样的吗?
多年来,内容审核工具和研究人员一直将网络毒性视为一个二元问题: 帖子要么是“安全的”,要么是“有毒的”。然而,最近一篇题为 “A Closer Look at Multidimensional Online Political Incivility” 的研究论文认为,这种二元视角对于理解政治传播是不够的。
研究人员提出,我们需要区分我们要如何说 (风格) 和我们要说什么 (实质) 。通过将政治不文明行为视为一个多维概念,他们发现,虽然人工智能擅长发现粗鲁的词汇,但在识别不使用脏话的危险、排他性思想方面却举步维艰。
在这篇文章中,我们将剖析他们的新颖数据集 (MUPID) ,探讨最先进的自然语言处理 (NLP) 模型如何处理这种细微差别,并查看一项涉及超过 200,000 名用户的大规模研究结果,看看究竟是谁在网上表现得不文明。
不文明行为的两个维度
为了解决定义模糊的问题,作者利用政治传播理论将不文明行为分为两个截然不同的类别:
- 个人层面的不文明 (无礼,Impoliteness) : 这指的是风格 。 它涉及粗言秽语、谩骂、粗俗和刺耳的语调。它违反了人际交往规范 (例如,“你是个白痴”) 。
- 公共层面的不文明 (不容忍,Intolerance) : 这指的是实质 。 它涉及排他性言论,否认社会或政治群体的权利,或将竞争对手描绘成国家的敌人 (例如,“这个政党正试图摧毁美国”) 。
为什么要区分这两者?研究表明,虽然“无礼”令人不快,但不容忍对民主的破坏性要大得多,因为它使对手非人化并加剧两极分化。
来看看研究人员数据集中的例子。

如表 1 所示,“无礼 (Impolite) ”的例子使用了诸如“dumb (愚蠢) ”和“son of a b****es (婊子养的) ”之类的词。它具有攻击性,但它是使用标准侮辱词汇对能力和人格的攻击。然而,“不容忍 (Intolerant) ”的例子将一个政党标记为“enemies, foreign AND domestic (国内外的敌人) ”。这完全是另一回事——这是对叛国和生存威胁的指控,即使它使用的脏话更少。
构建 MUPID: 多维数据集
这篇论文的主要贡献之一是创建了 MUPID (多维政治不文明数据集) 。现有的数据集通常依赖关键词搜索 (如特定的诽谤词) 来查找有毒推文。这种方法的问题在于,它会使数据偏向于无礼,而遗漏了更微妙但更危险的不容忍。
智能采样策略
为了捕捉政治话语的真实快照,作者不仅仅是搜索“坏词”。相反,他们使用了基于网络的方法:
- 他们识别了关注多个“有争议”账户 (例如,已知的假新闻传播者、极度党派化的媒体或极端的国会议员) 的用户。
- 他们收集了这些用户的推文,并训练了一个分类器来过滤掉非政治内容 (如关于体育或食物的推文) 。
- 他们还包括了政治家和随机用户的推文,以确保平衡。
严格的标注
识别不容忍需要深刻的语义理解。一个简单的 Mechanical Turk 任务问“这好不好?”是不够的。研究人员聘请了美国居民 (熟悉政治背景) ,并让他们接受了严格的培训过程。

从图 4 中可以看出,标注员必须通过资格测试,并收到关于他们错误的具体反馈。这确保了标记数据的人类理解“粗鲁 (无礼) ”与“反民主 (不容忍) ”之间的具体区别。
最终的数据集包含 13,000 条已标注的推文 , 为训练 AI 模型提供了丰富的资源。
语言鸿沟: 哪些词很重要?
在将这些数据输入神经网络之前,作者分析了语言本身。在词汇层面上,无礼和不容忍看起来有什么不同吗?
他们使用了 Shapley 值分析 (一种解释机器学习预测的方法) 来找出哪些词对每个标签的贡献最大。

表 4 揭示了一个惊人的差异:
- 无礼的词普遍是负面的: *stupid (愚蠢) , crap (废话) , idiot (白痴) , dumb (笨) , hell (地狱) *。无论在什么语境下,这些词都是冒犯性的。
- 不容忍的词具有政治特异性: *liberals (自由派) , democrats (民主党人) , republicans (共和党人) , socialist (社会主义者) , communist (共产主义者) , fascist (法西斯主义者) *。
这凸显了核心挑战。“共和党人”或“民主党人”这些词本身并没有毒性。只有基于语境 (例如,“民主党人正在摧毁这个国家”) ,它才会变得有毒。这使得 AI 检测不容忍比检测无礼要难得多。
AI 能检测出区别吗?
研究人员在他们的新数据集上微调了几个最先进的语言模型 (LLMs) ,包括 BERT、RoBERTa 和 DeBERTa。他们还测试了通用毒性检测器 (如 Jigsaw 的 Perspective API) 以及使用 GPT-3.5 和 GPT-4 的少样本学习 (few-shot learning) 。
结果

表 3 提供了性能指标。以下是这些数字的含义:
- 无礼更容易被捕捉: 最好的模型在无礼检测上达到了约 0.70 的 F1 分数 (精确率和召回率的平衡) 。
- 不容忍难以捉摸: 不容忍检测的 F1 分数下降到了约 0.59 。
- 通用工具失效: 看看“Perspective”这一行。它在无礼检测上具有很高的精确率,但在不容忍检测上的表现非常糟糕 (F1 仅为 0.189) 。这证实了旨在发现“毒性”的工具通常只是寻找粗鲁的词汇,而完全忽略了不容忍的言论。
- GPT-4 有前途但不完美: 有趣的是,虽然 GPT-4 表现良好,但在针对该数据集的具体分类任务中,微调过的 RoBERTa 和 DeBERTa 模型仍然占据优势。
为什么 AI 会挣扎?
论文中的错误分析阐明了为什么不容忍如此难以自动化检测。

在表 5 中,看看示例 (d): “You Republicans don’t even know how to keep the electricity on! (你们共和党人甚至不知道如何保持电力供应!) ”
- 人类标签: 不容忍 (Intolerant,因为它将整个群体概括为无能/对治理有害) 。
- 预测: 中立 (Neutral) 。
因为句子中没有包含诽谤词,模型错过了其中的敌意。反之,模型有时仅仅因为出现了政治关键词就过度预测为不容忍,即使情绪是良性的。
数据效率
研究人员还检查了训练这些模型需要多少数据。

图 1 显示了学习曲线。蓝线 (无礼) 迅速上升——模型很快学会了“坏词”。橙线 (不容忍) 上升得慢得多,并在较低的水平上趋于平缓。这表明,仅仅向问题投入更多数据可能会产生收益递减;模型可能需要更好的语境理解 (比如知道说话者是谁或他们正在对什么事件做出反应) 。
大规模现实世界分析
在构建并验证了分类器之后,作者将它们应用到一个庞大的未标注数据集: 来自 230,000 名美国用户的 1600 万条推文 。 这使他们能够从计算机科学转向社会科学,并提出问题: 究竟是谁在网上表现得不文明?
谁是不文明的用户?
研究发现,不文明行为的分布并不均匀。事实上, 20% 的用户撰写了 80% 的不文明推文。
研究人员寻找了用户行为与其毒性水平之间的相关性。

表 6 揭示了几个关键见解:
- 政治参与度 = 更多不文明行为: 不文明行为 (两种风格) 的最强预测指标是“政治推文百分比 (% political tweets) ”。经常谈论政治的用户更有可能表现得粗鲁和不容忍。这表明在高度参与的党派人士中,毒性已经常态化。
- 网络同质性 (Network Homophily) : 用户的相关不文明行为与其关注账户的不文明行为之间存在很强的相关性。“物以类聚,人以群分”——如果你关注不容忍的人,你更有可能发布不容忍的内容。
- 流行度悖论: 有趣的是,拥有更多粉丝的用户往往不那么不文明 (负相关) 。也许试图保持大量受众的用户会进行自我审查,或者也许小众的激进账户难以获得大众的青睐。
地缘政治热力图
最后,研究人员将不容忍分数映射到用户的位置 (美国各州) 。

图 2 可视化了美国各地的平均不容忍水平。研究人员发现不文明与党派竞争之间存在统计学上的显著相关性。
在“战场州 (Battleground states) ”——即民主党和共和党之间的选票差距非常接近的州——不文明程度更高。在稳固的红州或蓝州 (安全州) ,讨论稍微平静一些。这支持了这样一种理论: 更高的政治利害关系会导致话语中的敌意增加。
结论与启示
这篇论文有力地证明,我们需要升级我们对网络毒性的思考方式。通过将 无礼 (Impoliteness,坏词) 与 不容忍 (Intolerance,坏思想) 分开,MUPID 数据集揭示了当前内容审核系统的盲点。
对于学生和研究人员来说,主要的收获是:
- 语境为王: 目前的 AI 模型擅长发现侮辱,但在处理对民主群体的隐性攻击时却很吃力。
- “参与者”即“愤怒者”: 在网络政治讨论中最活跃的人往往也是推动不文明行为的人。
- 回声室是真实的: 你的网络行为反映了你所关注之人的行为。
随着我们迈向更先进的 AI,挑战将是教会模型理解句子的社会和政治语境,而不仅仅是扫描黑名单上的违禁词。在此之前,威胁民主规范的不容忍实质可能会继续从裂缝中溜走,而我们却只专注于监管无礼的风格。
](https://deep-paper.org/en/paper/file-2667/images/cover.png)