AI 能判断安全性吗？衡量 LLM 与人类标注者之间的对齐度

随着大型语言模型 (LLM) 成为我们数字交互的核心，“安全性”问题已从理论关注转变为现实必要。我们不仅依赖这些模型进行聊天，还越来越多地使用它们来评估其他系统的安全性。这就产生了一个循环怪圈: AI 正被用来监管 AI。

但这引发了一个根本性问题: LLM 是否真的像人类一样理解安全性?

安全性不像数学那样是一个客观真理；它是一种深受文化、人口统计学特征和个人经历影响的社会建构。对某个群体来说似乎温和的对话，对另一个群体来说可能极具冒犯性。如果我们使用 LLM 自动化安全标注，我们是否在植入特定的世界观？我们是否正在抹去少数群体的视角？

在这篇文章中，我们将深入探讨康奈尔理工校区 (Cornell Tech) 和华盛顿大学研究人员最近发表的一篇题为《Annotation alignment: Comparing LLM and human annotations of conversational safety》 (标注对齐: 比较 LLM 与人类对对话安全性的标注) 的论文。我们将探讨 LLM 与人类对安全性的感知对齐程度如何，它们在一致性方面是否表现出人口统计学偏见，以及它们是否具备“社会智能”来预测不同人类群体何时会产生分歧。

主观性问题

为了理解核心挑战，我们首先需要看看安全数据是如何生成的。通常，人类标注者阅读对话并将其标记为“安全”或“不安全”。然而，人类很少能达成 100% 的一致。

正如下面的信息图所示，研究人员利用了 DICES 数据集 。这个数据集的独特之处在于它不仅仅提供单一的“黄金标准”标签。相反，它捕捉到了人类共识的复杂性与不一致性。350 场对话由 112 名背景各异的标注者进行了评级。

图 1: 人类标注者对什么样的聊天机器人是安全的看法不一 (左) 。我们研究了围绕 LLM 标注者是否捕捉到人类标注多样性的三个问题 (右) : 我们衡量了安全标注与 112 名人类平均值的对齐程度 (RQ1) ，与不同标注者人口统计群体的对齐程度 (RQ2) ，并评估了 GPT-4 是否能预测一个群体何时比另一个群体认为对话更不安全 (RQ3) 。

如图 图 1 所示，这项研究将问题分解为三个研究问题 (RQ) :

RQ1: LLM 是否与“平均”人类一致？
RQ2: LLM 是否与特定的人口统计学群体 (例如，白人男性 vs. 黑人女性) 更一致？
RQ3: LLM 能否预测这些群体何时会相互产生分歧？

背景: DICES 数据集与方法论

在分析结果之前，让我们先了解一下数据。DICES-350 数据集包含多轮对话，其中众包工作者故意试图诱导 LaMDA 聊天机器人讨论敏感话题 (如种族、性别或政治) 。

每场对话随后由 112 名不同的标注者进行评级。这些标注者检查了五个具体标准:

伤害 (Harm)
不公平偏见 (Unfair bias)
错误信息 (Misinformation)
政治立场 (Political affiliation)
加剧两极分化 (Increased polarization)

如果标注者标记了任何一项，该对话就被标记为“不安全” (1) 。否则，即为“安全” (0) 。

AI 标注者

研究人员测试了五个领先的模型: GPT-3.5, GPT-4, GPT-4o, Gemini 1.5 Pro, 和 Llama 3.1 405B 。

为了让这些模型发挥最佳性能，研究人员并不仅仅问“这安全吗？”他们使用了一种称为 Analyze-Rate (分析-评分) 的提示策略。这是一种思维链 (Chain-of-Thought, CoT) 技术，指示模型首先根据安全标准分析对话，然后在李克特量表 (1-5) 上提供评分。这种强迫模型“展示其工作过程”的做法通常能提高最终判断的质量。

RQ1: “平均”人类 vs. 机器

第一个测试很直接: LLM 的安全评分与 112 名人类标注者的共识相关性如何？

这里使用的指标是 皮尔逊相关系数 (\(r\)) 。得分为 1.0 意味着完全对齐，0 意味着没有相关性，负分意味着相反的判断。

结果如下表所示，模型取得了令人惊讶的胜利。

表 1: LLM 安全评分与 112 名标注者平均安全评分之间的皮尔逊相关性。

正如我们在 表 1 中看到的, GPT-4 实现了 \(r = 0.61\) 的相关性 (使用“分析-评分”提示) 。Llama 3.1 紧随其后。

为了更直观地理解这个数字，研究人员计算了中位个体人类标注者与群体平均值的相关性。中位人类仅达到了 \(r = 0.51\) 。

关键结论: 相比于一个随机的单个人类，GPT-4 实际上是“人类平均观点”的更好代理。如果你必须选择一名法官来代表群体共识，从统计学上讲，选择 GPT-4 比从人群中随机挑选一个人要好。

分歧的本质

虽然相关性很强，但并非完美。研究人员进行了定性分析，以了解模型和人类为什么会产生分歧。

人类更严格的地方: 当聊天机器人提供建议 (医疗、法律或关系) 时，人类倾向于将对话评为“不安全”。即使是像“你应该和你的伴侣沟通”这样温和的建议，也经常被人类标记。相反，GPT-4 通常认为这些是安全的。
模型更严格的地方: GPT-4 对 仇恨言论和偏见 要敏感得多。在聊天机器人对用户的仇恨评论做出中立回应 (例如，“我明白你有这种感觉”) 的情况下，人类通常会放过它。GPT-4 则将其标记为不安全，这可能是因为它执行了更高的标准，要求聊天机器人主动谴责仇恨言论。

RQ2: 人口统计学对齐问题

这可能是论文中关于伦理最关键的部分。我们知道，不同的人口统计学群体对安全性的感知是不同的。例如，之前关于 DICES 数据集的研究表明，与其他群体相比，白人男性标注者通常更有可能将对话评为“安全”。

人们担心的是，LLM 可能专门与多数群体的人口统计特征 (通常是白人、西方视角) “对齐”，从而无法识别针对边缘群体的伤害。

为了测试这一点，研究人员计算了 GPT-4 的评分与特定种族-性别子群体 (例如，黑人女性、亚裔男性、白人女性) 之间的相关性。

他们使用了一种涉及 零分布 (null distributions) 的统计技术 (如下图灰色部分所示) ，以观察与任何特定群体的相关性是具有统计学显著性，还是仅仅是随机噪声。

图 2: GPT-4 与不同种族-性别群体的对齐程度没有显着差异。

图 2 可视化了这些结果。绿点代表 GPT-4 与特定人口统计学群体之间的实际相关性。灰色条代表如果你只是随机抽取同样大小的一组人，相关性的“预期”范围。

结果: 所有的绿点都落在了灰色条 (99% 置信区间) 之内。

解读: 这个发现很微妙。它并不能证明 GPT-4 是完全中立的。相反，它表明 数据集的统计效力不足 (underpowered) 以检测出差异。一致性方面的变化在统计上不够显著，无法断言 GPT-4 更偏向白人标注者而非黑人标注者，反之亦然。

此外，研究人员发现 特质性变异 (idiosyncratic variation) (个体之间的差异) 非常巨大。人口统计学群体内部的变异通常大于群体之间的变异。这表明，仅仅知道某人是“亚裔男性”或“拉丁裔女性”，并不能说明他们与 AI 的一致程度。个人的价值观和背景比宽泛的人口统计标签更重要。

RQ3: AI 能预测群体分歧吗？

即使 AI 不能与某一个群体完美对齐，它能理解群体之间存在差异吗？这个概念与“多元主义 (Pluralism) ”有关——即模型反映不同观点的能力。

研究人员设置了一个“配对分歧”任务。他们专门寻找那些某个人口统计学群体 (群体 A) 认为比另一个群体 (群体 B) 更不安全的对话。

在数学上，他们定义了一组“高分歧”对话集合 (\(\mathcal{D}\)) ，其中两个群体的平均评分差异大于 0.2:

定义高分歧对话集合的公式，其中群体平均值的差异大于 0.2。

相反，他们定义了一组“低分歧”或中立的对话集合 (\(\mathcal{A}\)) ，其中群体基本达成一致 (差异小于 0.03) :

定义低分歧对话集合的公式，其中群体平均值的差异小于 0.03。

测试很简单: GPT-4 能否通过查看对话，预测哪个群体会感到更被冒犯？如果模型理解人口统计学的细微差别，它应该预测 \(\mathcal{D}\) 集合中的对话比 \(\mathcal{A}\) 集合中的对话有更高的分歧得分。

研究人员计算了模型对这两个集合预测值的差异:

比较 GPT 对高分歧集合与低分歧集合预测均值的公式。

结论: 这个计算的结果实际上是零。

GPT-4 未能预测人口统计学群体何时会产生分歧。它无法识别那些边缘群体认为不安全但白人标注者认为安全的对话。这表明模型在关于文化安全规范的“心智理论 (Theory of Mind) ”方面存在重大缺陷。它将安全性视为一个整体，而不是一个多元的概念。

结论与启示

这项研究为当前的 LLM 提供了一份喜忧参半的成绩单。

积极的一面是，像 GPT-4 和 Llama 3.1 这样的模型已经成为能力很强的标注者。它们比大多数个体人类更能与“平均”人类共识保持一致。这验证了当前行业使用 LLM 评估其他 LLM (如 Anthropic 使用的“宪法 AI”方法) 的做法。

然而，局限性也是显而易见的:

对分歧的视而不见: 模型无法预测安全性何时存在争议。它表现得好像只有一个“正确”的安全评分，未能捕捉到不同社区有不同界限的现实。
数据局限性: 我们仍然没有足够的高质量数据来有力地证明或反驳人口统计学对齐偏见。研究人员强调，未来的数据集需要更大，并捕捉种族和性别以外的属性——也许侧重于政治价值观或过去遭受网络伤害的经历。

对于进入 AI 安全领域的学生和从业者来说，这篇论文强调了一个至关重要的教训: 与“平均值”的高相关性并非故事的结局。 一个模型可以在平均水平上统计准确，但在理解少数群体的具体安全需求方面仍然完全失败。随着我们构建下一代对话代理，从“平均对齐”转向“多元对齐”将是下一个巨大的挑战。

主观性问题#

背景: DICES 数据集与方法论#

AI 标注者#

RQ1: “平均”人类 vs. 机器#

分歧的本质#

RQ2: 人口统计学对齐问题#

RQ3: AI 能预测群体分歧吗？#

结论与启示#