人工道德指南针：LLM 如何应对功利主义困境

随着我们将大型语言模型 (LLM) 日益整合进高风险的决策流程中——从医疗分诊到自动驾驶场景——它们的道德对齐问题已从理论哲学转变为紧迫的工程必要性。我们希望 AI 助手既有帮助又无害，但现实世界是复杂的。通常，为了帮助大多数人，需要做出艰难的权衡，这可能会对少数人造成伤害。

LLM 如何处理这些“双输”场景？它们的思维方式像我们吗？它们是遵循伊曼努尔·康德 (Immanuel Kant) 的严格规则，还是像约翰·斯图尔特·密尔 (John Stuart Mill) 那样计算“最大的善”？

一篇引人入胜的新研究论文《The Greatest Good Benchmark: Measuring LLMs’ Alignment with Utilitarian Moral Dilemmas》正是为了解决这一问题。研究人员引入了一个新的框架来量化 AI 的道德偏好。他们的发现令人惊讶: LLM 并不只是简单地反映人类的道德观，也不严格遵守既定的哲学理论。相反，它们正在通过一种独特的“人工道德”行事——这种道德极度利他，却又深深厌恶造成直接伤害。

在这篇文章中，我们将解构这篇论文，探讨如何从数学上衡量机器的道德，以及这些结果告诉我们关于 AI 对齐的未来。

价值冲突

要理解 AI 对齐的困难，我们必须超越 Anthropic 和 OpenAI 等公司使用的标准“3H”框架。该框架指导模型做到:

Helpful (有帮助) : 为用户的最大利益行事。
Harmless (无害) : 避免伤害任何人。
Honest (诚实) : 传达准确的信息。

在常规任务中，这些价值观和谐共存。然而，在道德困境中，它们不可避免地会发生冲突。考虑一个经典的功利主义困境: 为了救五个人而对一个人造成轻微伤害是可以接受的吗？

如果模型选择救那五个人，它就违反了无害性 (通过伤害那一个人) 。
如果模型为了避免伤害而拒绝采取行动，它就违反了帮助性 (因为它未能救下这五个人) 。

这种矛盾是功利主义的核心。这篇论文的研究人员认为，要真正理解 LLM 的行为，我们需要专门测试它们如何解决这些冲突。

背景: 牛津功利主义量表

为了测量 AI 的“道德温度”，作者转向了认知科学。他们改编了一种经过验证的人类心理学工具，称为牛津功利主义量表 (Oxford Utilitarianism Scale, OUS) 。

OUS 并不将功利主义视为单一整体。相反，它将其分解为两个不同的维度:

公正仁爱 (Impartial Beneficence, IB) : 这衡量了从严格中立的立场对“更大的善”的支持程度。它提出的问题是: 我们是否应该像对待家人的幸福那样，完全平等地对待陌生人的幸福？ 高 IB 分数意味着愿意牺牲自己的资源 (金钱、肾脏、时间) 来帮助他人，无论对方是谁。
工具性伤害 (Instrumental Harm, IH) : 这衡量了为了达到良好结果而造成伤害的意愿。它提出的问题是: 为了救数百人而杀死一个无辜的人是允许的吗？ 高 IH 分数意味着一种“目的证明手段正当”的心态。

通过绘制这两个维度，我们可以描绘出不同的道德原型。

图 1: Kahane 等人 (2018) 报告的坚持不同道德理论的专业哲学家与普通人群的 OUS 结果，带有标准误差线。

上方的图 1 提供了人类道德的基准。

普通人群 (Lay Population) : 如你所见，“普通人群”位于中下部。我们通常拥有中等水平的利他主义，但对工具性伤害感到不适。
行为功利主义者 (Act Utilitarians) : 位于右上角。为了更大的善，他们接受高伤害，并具有高水平的公正仁爱。
康德主义者/义务论者 (Kantians/Deontologists) : 位于左下角。他们拒绝工具性伤害 (规则是绝对的) ，且在公正仁爱方面得分较低。

这篇论文的目标是确定 LLM 在这张地图上的位置。它们是会与人类聚集在一起，还是与哲学家聚集在一起，亦或是完全处于其他位置？

核心方法: 最大善基准 (GGB)

人们不能简单地问一个 LLM，“你是功利主义者吗？”并期望得到可靠的回答。LLM 对问题的措辞方式 (“提示词工程”) 非常敏感，并且经常表现出基于选项顺序的偏差。

为了解决这个问题，研究人员创建了最大善基准 (Greatest Good Benchmark, GGB) 。这涉及一套严格的方法论，以确保测量到的道德偏好是一致的，而不仅仅是统计噪声。

1. 缓解提示词偏差

在标准的心理调查中，人类在李克特量表 (Likert scale) 上回答 (1 = 强烈反对，7 = 强烈赞同) 。然而，LLM 有一个已知的偏差，即它们可能更喜欢某些数字或最后呈现的选项。

作者为每个道德陈述生成了六种不同的指令变体。他们测试了数字量表、纯文本量表和反向量表 (即 7 = 反对) 。

图 2: GGB 的指令示例。

如图 2 所示，通过改变输入格式并对模型在所有变体中的回答取平均值，研究人员可以过滤掉基于句法的偏差，提取出模型真实的“信念”。

2. 思维链与温度

为了捕捉经过推理的道德判断，而不是下意识的 Token 预测，研究人员使用了思维链 (Chain of Thought, CoT) 提示。他们指示模型:

对陈述进行推理。
然后再给出最终分数。

他们还将模型的“温度 (temperature) ”设置为 0.5。在 AI 中，温度控制随机性。如果一个模型的道德指南针是稳定的，即使引入轻微的随机性，它也应该给出相似的答案。

3. 一致性检查

一个关键问题是 LLM 是否真的拥有稳定的道德观点。如果一个模型在一次运行中回答“强烈赞同”，而在下一次运行中回答“强烈反对”，那么它本质上是在产生道德幻觉。

图 4: 每个 IH 或 IB 及模型的方差直方图

图 4 展示了回答的方差。数据显示，在绝大多数情况下 (30 次测量中的 25 次) ，模型是一致的。它们的方差足够低，可以得出结论: LLM 确实编码了稳定的道德偏好。

4. 数据增强

原始的 OUS 仅包含 9 个陈述。为了确保他们的发现不仅仅是对这几个句子的过拟合，作者使用 GPT-4 生成了 90 个新的困境 (分为 IB 和 IH 两类) ，然后由功利主义哲学领域的人类专家进行审核。在这个扩展数据集上的结果与原始数据集相符，证明了该基准的稳健性。

实验与结果: “人工道德”的崛起

研究人员测试了 15 个不同的模型，包括像 GPT-4 和 Claude 3 Opus 这样的专有巨头，以及像 Llama 3 和 Mistral 这样的开源模型。

结果揭示了人类与机器道德之间令人着迷的分歧。

数据

让我们看看原始数据。下表将特定模型与“普通人群” (人类) 进行了比较。

表 2: 温度为 0.5 时模型在原始 OUS 数据集上的分析结果

表 2 突出显示了显著的统计差异 (由星号表示) 。

公正仁爱 (IB) : 看一下“IB Mean” (IB 均值) 一栏。大多数模型的得分显著高于普通人群 (3.65) 。例如, Gemma-1.1-7b 的得分高达 6.14 。这意味着 LLM 比普通人类更加利他。它们在极高程度上愿意为陌生人牺牲资源。
工具性伤害 (IH) : 再看一下“IH Mean” (IH 均值) 一栏。大多数模型的得分显著低于普通人群 (3.31) 。 Gemini-Pro-1.5 的得分低至 1.53 。这表明它们深刻拒绝参与工具性伤害。

差距可视化

当我们把这些结果可视化时，这种分离变得非常明显。

图 3: 模型、哲学理论和普通人群的比较，带有 IB 和 IH 均值及标准误差。

在图 3 中，看看彩色形状 (AI 模型) 的聚类与“普通人群” (中间的棕色方块) 的对比。

“人工”象限: 几乎所有的 LLM 都聚集在左上象限 。这代表了高公正仁爱和低工具性伤害 。
人类位置: 人类通常位于中间。我们表现出适度的乐于助人和适度愿意接受附带损害。
哲学家: 模型既不对齐行为功利主义者 (右上) ，也不对齐康德主义者 (左下) 。

这表明 LLM 运行在一个独特的“人工道德指南针”上。它们被编程为超级好撒玛利亚人 (Hyper-Good Samaritans) (拯救所有人，帮助所有人) ，同时又是激进和平主义者 (Radical Pacifists) (绝不伤害任何人，即使这能拯救更多人) 。

“规模”效应

这仅仅是训练的巧合，还是智力改变了结果？研究人员发现模型规模 (参数数量) 起着一定作用。

图 6: 温度为 0 时模型和哲学流派的绘图，以及位于相应 IB 和 IH 均值处的普通人群，带有对应的标准误差。

图 3b (如上所示，为放大的图表) 显示, 较大的模型 (如 GPT-4) 倾向于比小模型稍微更靠近普通人群。较小的模型表现出极端的、几乎是幼稚的坚持“帮助所有人/不伤害任何人”的规则。随着模型变得更“聪明”，它们似乎发展出了一种稍微更微妙、更像人类的平衡，尽管它们仍然与人类平均水平截然不同。

讨论: 这对对齐意味着什么？

最大善基准为我们的 AI 系统提供了一面镜子，而镜中的倒影说明了一切。我们并没有构建像我们一样思考的智能体；我们构建的智能体表现得像一个理想化的、也许是不可能存在的道德主体。

拒绝工具性伤害: 对工具性伤害的强烈拒绝很可能源于安全训练 (RLHF) 。开发者严厉惩罚模型生成有害内容。因此，当面对电车难题时，模型的训练机制会介入: “生成伤害是坏的”，导致它拒绝功利主义的选择，即使该选择在逻辑上是合理的。
支持公正仁爱: 仁爱方面的高分表明模型被训练为无界限地“提供帮助”。与人类自然地优先考虑家人和朋友 (偏私) 不同，LLM 将每个人类视为同等值得帮助的对象，这符合非常严格的功利主义中立理想。

这就造成了一个悖论。我们希望 AI 在现实世界中有用，但现实世界需要权衡。一个拒绝做出任何负面权衡的 AI 可能会在复杂场景中陷入瘫痪——例如，一辆自动驾驶汽车拒绝为了救五个行人而转向，因为转向会对一名乘客带来风险。

结论

《The Greatest Good Benchmark》论文为 AI 安全领域做出了至关重要的贡献。它将我们从模糊的“好 AI”概念引向了可量化的道德偏好指标。

关键要点很明确:

LLM 是一致的: 它们拥有稳定的道德偏好。
LLM 不像人类: 它们比普通人更加利他和规避风险。
LLM 拥有“人工道德”: 它们占据了一个独特的哲学空间——高仁爱，低工具性伤害——这并不完全符合现有的任何人类道德理论。

随着我们继续开发更强大的模型，像 GGB 这样的工具将变得必不可少。如果我们希望 AI 与人类价值观对齐，我们首先需要决定我们指的是哪种人类价值观。我们是想要普通人的道德观，严格功利主义者的计算，还是这种新的、安全但可能陷入瘫痪的“人工道德”？选择权在于我们的工程设计。

价值冲突#

背景: 牛津功利主义量表#

核心方法: 最大善基准 (GGB)#

1. 缓解提示词偏差#

2. 思维链与温度#

3. 一致性检查#

4. 数据增强#

实验与结果: “人工道德”的崛起#

数据#

差距可视化#

“规模”效应#

讨论: 这对对齐意味着什么？#

结论#