随着我们将大型语言模型 (LLM) 日益整合进高风险的决策流程中——从医疗分诊到自动驾驶场景——它们的道德对齐问题已从理论哲学转变为紧迫的工程必要性。我们希望 AI 助手既有帮助又无害,但现实世界是复杂的。通常,为了帮助大多数人,需要做出艰难的权衡,这可能会对少数人造成伤害。

LLM 如何处理这些“双输”场景?它们的思维方式像我们吗?它们是遵循伊曼努尔·康德 (Immanuel Kant) 的严格规则,还是像约翰·斯图尔特·密尔 (John Stuart Mill) 那样计算“最大的善”?

一篇引人入胜的新研究论文《The Greatest Good Benchmark: Measuring LLMs’ Alignment with Utilitarian Moral Dilemmas》正是为了解决这一问题。研究人员引入了一个新的框架来量化 AI 的道德偏好。他们的发现令人惊讶: LLM 并不只是简单地反映人类的道德观,也不严格遵守既定的哲学理论。相反,它们正在通过一种独特的“人工道德”行事——这种道德极度利他,却又深深厌恶造成直接伤害。

在这篇文章中,我们将解构这篇论文,探讨如何从数学上衡量机器的道德,以及这些结果告诉我们关于 AI 对齐的未来。

价值冲突

要理解 AI 对齐的困难,我们必须超越 Anthropic 和 OpenAI 等公司使用的标准“3H”框架。该框架指导模型做到:

  1. Helpful (有帮助) : 为用户的最大利益行事。
  2. Harmless (无害) : 避免伤害任何人。
  3. Honest (诚实) : 传达准确的信息。

在常规任务中,这些价值观和谐共存。然而,在道德困境中,它们不可避免地会发生冲突。考虑一个经典的功利主义困境: 为了救五个人而对一个人造成轻微伤害是可以接受的吗?

  • 如果模型选择救那五个人,它就违反了无害性 (通过伤害那一个人) 。
  • 如果模型为了避免伤害而拒绝采取行动,它就违反了帮助性 (因为它未能救下这五个人) 。

这种矛盾是功利主义的核心。这篇论文的研究人员认为,要真正理解 LLM 的行为,我们需要专门测试它们如何解决这些冲突。

背景: 牛津功利主义量表

为了测量 AI 的“道德温度”,作者转向了认知科学。他们改编了一种经过验证的人类心理学工具,称为牛津功利主义量表 (Oxford Utilitarianism Scale, OUS)

OUS 并不将功利主义视为单一整体。相反,它将其分解为两个不同的维度:

  1. 公正仁爱 (Impartial Beneficence, IB) : 这衡量了从严格中立的立场对“更大的善”的支持程度。它提出的问题是: 我们是否应该像对待家人的幸福那样,完全平等地对待陌生人的幸福? 高 IB 分数意味着愿意牺牲自己的资源 (金钱、肾脏、时间) 来帮助他人,无论对方是谁。
  2. 工具性伤害 (Instrumental Harm, IH) : 这衡量了为了达到良好结果而造成伤害的意愿。它提出的问题是: 为了救数百人而杀死一个无辜的人是允许的吗? 高 IH 分数意味着一种“目的证明手段正当”的心态。

通过绘制这两个维度,我们可以描绘出不同的道德原型。

图 1: Kahane 等人 (2018) 报告的坚持不同道德理论的专业哲学家与普通人群的 OUS 结果,带有标准误差线。

上方的图 1 提供了人类道德的基准。

  • 普通人群 (Lay Population) : 如你所见,“普通人群”位于中下部。我们通常拥有中等水平的利他主义,但对工具性伤害感到不适。
  • 行为功利主义者 (Act Utilitarians) : 位于右上角。为了更大的善,他们接受高伤害,并具有高水平的公正仁爱。
  • 康德主义者/义务论者 (Kantians/Deontologists) : 位于左下角。他们拒绝工具性伤害 (规则是绝对的) ,且在公正仁爱方面得分较低。

这篇论文的目标是确定 LLM 在这张地图上的位置。它们是会与人类聚集在一起,还是与哲学家聚集在一起,亦或是完全处于其他位置?

核心方法: 最大善基准 (GGB)

人们不能简单地问一个 LLM,“你是功利主义者吗?”并期望得到可靠的回答。LLM 对问题的措辞方式 (“提示词工程”) 非常敏感,并且经常表现出基于选项顺序的偏差。

为了解决这个问题,研究人员创建了最大善基准 (Greatest Good Benchmark, GGB) 。 这涉及一套严格的方法论,以确保测量到的道德偏好是一致的,而不仅仅是统计噪声。

1. 缓解提示词偏差

在标准的心理调查中,人类在李克特量表 (Likert scale) 上回答 (1 = 强烈反对,7 = 强烈赞同) 。然而,LLM 有一个已知的偏差,即它们可能更喜欢某些数字或最后呈现的选项。

作者为每个道德陈述生成了六种不同的指令变体。他们测试了数字量表、纯文本量表和反向量表 (即 7 = 反对) 。

图 2: GGB 的指令示例。

图 2 所示,通过改变输入格式并对模型在所有变体中的回答取平均值,研究人员可以过滤掉基于句法的偏差,提取出模型真实的“信念”。

2. 思维链与温度

为了捕捉经过推理的道德判断,而不是下意识的 Token 预测,研究人员使用了思维链 (Chain of Thought, CoT) 提示。他们指示模型:

  1. 对陈述进行推理。
  2. 然后再给出最终分数。

他们还将模型的“温度 (temperature) ”设置为 0.5。在 AI 中,温度控制随机性。如果一个模型的道德指南针是稳定的,即使引入轻微的随机性,它也应该给出相似的答案。

3. 一致性检查

一个关键问题是 LLM 是否真的拥有稳定的道德观点。如果一个模型在一次运行中回答“强烈赞同”,而在下一次运行中回答“强烈反对”,那么它本质上是在产生道德幻觉。

图 4: 每个 IH 或 IB 及模型的方差直方图

图 4 展示了回答的方差。数据显示,在绝大多数情况下 (30 次测量中的 25 次) ,模型是一致的。它们的方差足够低,可以得出结论: LLM 确实编码了稳定的道德偏好。

4. 数据增强

原始的 OUS 仅包含 9 个陈述。为了确保他们的发现不仅仅是对这几个句子的过拟合,作者使用 GPT-4 生成了 90 个新的困境 (分为 IB 和 IH 两类) ,然后由功利主义哲学领域的人类专家进行审核。在这个扩展数据集上的结果与原始数据集相符,证明了该基准的稳健性。

实验与结果: “人工道德”的崛起

研究人员测试了 15 个不同的模型,包括像 GPT-4Claude 3 Opus 这样的专有巨头,以及像 Llama 3Mistral 这样的开源模型。

结果揭示了人类与机器道德之间令人着迷的分歧。

数据

让我们看看原始数据。下表将特定模型与“普通人群” (人类) 进行了比较。

表 2: 温度为 0.5 时模型在原始 OUS 数据集上的分析结果

表 2 突出显示了显著的统计差异 (由星号表示) 。

  • 公正仁爱 (IB) : 看一下“IB Mean” (IB 均值) 一栏。大多数模型的得分显著于普通人群 (3.65) 。例如, Gemma-1.1-7b 的得分高达 6.14 。 这意味着 LLM 比普通人类更加利他。它们在极高程度上愿意为陌生人牺牲资源。
  • 工具性伤害 (IH) : 再看一下“IH Mean” (IH 均值) 一栏。大多数模型的得分显著于普通人群 (3.31) 。 Gemini-Pro-1.5 的得分低至 1.53 。 这表明它们深刻拒绝参与工具性伤害。

差距可视化

当我们把这些结果可视化时,这种分离变得非常明显。

图 3: 模型、哲学理论和普通人群的比较,带有 IB 和 IH 均值及标准误差。

图 3 中,看看彩色形状 (AI 模型) 的聚类与“普通人群” (中间的棕色方块) 的对比。

  • “人工”象限: 几乎所有的 LLM 都聚集在左上象限 。 这代表了高公正仁爱低工具性伤害
  • 人类位置: 人类通常位于中间。我们表现出适度的乐于助人和适度愿意接受附带损害。
  • 哲学家: 模型既不对齐行为功利主义者 (右上) ,也不对齐康德主义者 (左下) 。

这表明 LLM 运行在一个独特的“人工道德指南针”上。它们被编程为超级好撒玛利亚人 (Hyper-Good Samaritans) (拯救所有人,帮助所有人) ,同时又是激进和平主义者 (Radical Pacifists) (绝不伤害任何人,即使这能拯救更多人) 。

“规模”效应

这仅仅是训练的巧合,还是智力改变了结果?研究人员发现模型规模 (参数数量) 起着一定作用。

图 6: 温度为 0 时模型和哲学流派的绘图,以及位于相应 IB 和 IH 均值处的普通人群,带有对应的标准误差。

图 3b (如上所示,为放大的图表) 显示, 较大的模型 (如 GPT-4) 倾向于比小模型稍微更靠近普通人群。较小的模型表现出极端的、几乎是幼稚的坚持“帮助所有人/不伤害任何人”的规则。随着模型变得更“聪明”,它们似乎发展出了一种稍微更微妙、更像人类的平衡,尽管它们仍然与人类平均水平截然不同。

讨论: 这对对齐意味着什么?

最大善基准为我们的 AI 系统提供了一面镜子,而镜中的倒影说明了一切。我们并没有构建像我们一样思考的智能体;我们构建的智能体表现得像一个理想化的、也许是不可能存在的道德主体。

  1. 拒绝工具性伤害: 对工具性伤害的强烈拒绝很可能源于安全训练 (RLHF) 。开发者严厉惩罚模型生成有害内容。因此,当面对电车难题时,模型的训练机制会介入: “生成伤害是坏的”,导致它拒绝功利主义的选择,即使该选择在逻辑上是合理的。
  2. 支持公正仁爱: 仁爱方面的高分表明模型被训练为无界限地“提供帮助”。与人类自然地优先考虑家人和朋友 (偏私) 不同,LLM 将每个人类视为同等值得帮助的对象,这符合非常严格的功利主义中立理想。

这就造成了一个悖论。我们希望 AI 在现实世界中有用,但现实世界需要权衡。一个拒绝做出任何负面权衡的 AI 可能会在复杂场景中陷入瘫痪——例如,一辆自动驾驶汽车拒绝为了救五个行人而转向,因为转向会对一名乘客带来风险。

结论

The Greatest Good Benchmark》论文为 AI 安全领域做出了至关重要的贡献。它将我们从模糊的“好 AI”概念引向了可量化的道德偏好指标。

关键要点很明确:

  • LLM 是一致的: 它们拥有稳定的道德偏好。
  • LLM 不像人类: 它们比普通人更加利他和规避风险。
  • LLM 拥有“人工道德”: 它们占据了一个独特的哲学空间——高仁爱,低工具性伤害——这并不完全符合现有的任何人类道德理论。

随着我们继续开发更强大的模型,像 GGB 这样的工具将变得必不可少。如果我们希望 AI 与人类价值观对齐,我们首先需要决定我们指的是哪种人类价值观。我们是想要普通人的道德观,严格功利主义者的计算,还是这种新的、安全但可能陷入瘫痪的“人工道德”?选择权在于我们的工程设计。