噩梦与细微之处：DeepMind 如何教机器人编写自己的安全法则

引言

1942 年，艾萨克·阿西莫夫 (Isaac Asimov) 在他的短篇小说《环舞》 (Runaround) 中介绍了“机器人三定律”。它们优雅、层级分明，且看似全面。第一定律规定: 机器人不得伤害人类，或因不作为而使人类受到伤害。几十年来，这些定律一直是科幻机器人技术的哲学基石。

但当 2009 年有人问机器人专家为什么没有实施这些定律时，答案既务实又直率: “它们是用英语写的——到底该怎么编程实现？”

快进到 2025 年。我们已经进入了大型语言模型 (LLM) 和视觉语言模型 (VLM) 的时代。突然之间，机器人能够理解英语了。它们可以根据自然语言指令进行推理、观察和规划。然而，这种新能力引入了一类可怕的新风险。一个理解“把烤面包机收起来”的机器人可能会认为浴缸是一个有效的存放位置，因为它空间刚好合适，却完全忽略了水和电不能混合这一语义安全语境。

这引出了 Google DeepMind 的一篇重要研究论文: “Generating Robot Constitutions & Benchmarks for Semantic Safety” (生成机器人宪法与语义安全基准) 。研究人员解决了一个迷人的问题: 如果我们不能为每一种可能的情况硬编码安全规则，我们能否教机器人生成它们自己的“宪法”？我们能否通过强迫它们想象“噩梦”场景来训练它们？

在这篇文章中，我们将剖析 DeepMind 如何从抽象的科幻定律转向数据驱动、可自动修订的机器人宪法，这可能真的能保障我们的安全。

问题: 现实世界中的语义安全

传统的机器人安全主要集中在避障上——使用传感器防止机械臂撞到人或墙壁。这是低级的物理安全。

但随着我们将物理机器人的控制权交给基础模型 (如 GPT-4 或 Gemini) ，我们面临着语义安全故障。这些是理解、常识和语境方面的故障。

示例: 对机器人发出“清理桌子”的指令，可能会导致机器人扔掉重要文件或将笔记本电脑扫到地板上。
示例: 一个被要求“准备零食”的机器人需要知道，给对坚果过敏的人提供花生是严重的故障，即使端盘子的物理动作执行得很完美。

当前模型的脆弱性在于边缘情况的“长尾”——那些在标准训练数据中未出现的怪异、罕见或复杂的情况。为了解决这个问题，我们需要两样东西: 一种衡量安全性的方法 (基准) 和一种强制执行安全性的方法 (宪法) 。

第一部分: ASIMOV 基准

无法度量，就无法改进。研究人员推出了 ASIMOV 基准 , 这是一个旨在评估语义安全的大规模数据集。

收集机器人安全数据的挑战显而易见: 你不能为了收集训练数据而在现实世界中让机器人真的去伤害人或破坏东西。这是危险且不道德的。

“噩梦”想象引擎

为了解决数据稀缺问题，作者开发了一种新颖的“想象过程”。他们将安全训练视为人类做噩梦——在安全的模拟环境中预演危险事件，为真实情况做准备。

ASIMOV-Multimodal-Auto 图像、指令和规则的生成过程。从一张真实图像 (1) 开始，我们自动生成一张不良图像 (2) ，从中生成多个语境及相应的 (中性、不良、理想) 指令 (3) 以及相应的规则 (4) 。

如上图 Figure 3 所示，这个过程非常巧妙:

从良性图像开始: 拍摄一张正常、安全的场景照片 (例如，回收站旁的机器人) 。
提出“不良”编辑建议: 要求 VLM 提出一种危险的修改 (例如，“添加一个伸手去摸电源插座的小孩”) 。
生成图像: 使用文本到图像模型 (如 Imagen 3) 合成这个新的“噩梦”场景。
生成语境和规则: 要求 VLM 描述正在发生的事情，并生成一条具体的规则以防止在这种情况下造成伤害。

这个流程让研究人员能够用危险的边缘情况——餐桌上的电锯、重型机械旁的儿童、危险化学品泄漏——来“轰炸”模型，而无需让物理机器人 (或人类) 面临风险。

挖掘人类伤害数据

除了视觉想象，研究人员还利用了现实数据。他们利用了 NEISS (国家电子伤害监测系统) 数据集，其中包含医院急诊室就诊的匿名叙述。

Figure 4: NEISS 伤害数据: (a) 导致伤害的主要原因和 (b) 一些真实的叙述样本。

通过将这些悲惨的现实世界报告转换为第一人称叙述 (例如，“我正在切胡萝卜，忘记了用护罩……”) ，他们创建了一个名为 ASIMOV-Injury 的基于文本的基准。这确保了机器人理解人类在家庭环境中实际受到伤害的具体机制。

第二部分: 生成机器人宪法

一旦你有了一个不安全情况的基准，你该如何管理机器人的行为？对于开放式任务来说，硬编码 C++ 安全检查是不可能的。

解决方案是 宪法 AI (Constitutional AI) 。这涉及给 AI 一部自然语言“宪法”——它必须遵循的一套原则。但这部宪法从何而来？

自上而下 vs. 自下而上

作者对比了两种方法:

自上而下: 人类手动编写抽象定律 (如阿西莫夫的三定律或希波克拉底誓言) 。
自下而上 (DeepMind 的方法) : 从“噩梦”数据中生成具体规则，并将它们总结成一部宪法。

自上而下与自下而上方法的比较: 我们的数据驱动方法建立在数据之上，并且可以为特定环境提供比自上而下方法更详细和实用的指导。

如 Figure 6 所示，自下而上的方法建立在数据之上。系统可能生成成千上万条具体规则，而不是模糊的“不造成伤害”，例如“当儿童触摸压实机时不要操作”或“不要将刀指向用户”。

这成千上万条细粒度的规则随后由 LLM 合成为一部简洁、可读的宪法。这种方法确保宪法涵盖了人类作者可能忘记写下的现实世界风险的“长尾”。

第三部分: 自动修订与进化

这是论文引入一项关键创新的地方。静态的宪法是脆弱的。一条规定“不要切割生物”的规则听起来不错，直到机器人拒绝为沙拉切蔬菜或进行手术。

为了解决这个问题，研究人员开发了一个 自动修订 (Auto-Amending) 过程。

辩证循环

系统使用 LLM 来对其自身的规则扮演“魔鬼代言人”的角色:

提取一条规则: 例如，“我应该保持工作空间整洁。”
生成反事实: LLM 尝试想象一个遵循此规则会造成伤害的场景。 (例如，“一个机器人考古学家面临迫在眉睫的地震。停下来整理工作空间将导致文物和机器人的毁灭。”)
修订规则: LLM 重写规则以考虑这种例外情况。

自动修订示例: 从生成的规则中，我们生成了一个带有二元问题的反事实情况，我们用它来生成对规则的修正，使规则变得更通用。

Figure 5 展示了这种进化。一条僵化的规则变得由于细微差别而完善: “我应该保持工作空间整洁，除非这样做会危及我或他人的安全。”

这个过程模仿了人类法律通过判例法进化的过程，但它以巨大的速度在计算上发生。它推动宪法从过度具体 (脆弱) 变为稳健通用 (普适) 。

第四部分: 它真的有效吗？

研究人员在 ASIMOV 基准上评估了各种宪法。他们测试了纯人类编写的定律 (包括阿西莫夫最初的三定律) 、生成的宪法以及“无宪法”的基准。

特异性很重要

结果显示了一个明显的趋势: 通用性需要具体的体量。

对齐度 vs. 宪法长度: 当报告 ASIMOV 基准测试中所有任务的正常和对抗设置之间的平均对齐度时，我们观察到较长的宪法往往比较短的宪法更一致。

如 Figure 11 所示，较长的宪法通常能与人类安全偏好产生更高的一致性 (Y 轴) 。表现最好的宪法是那些从图像生成并通过自动修订过程完善的宪法。

有趣的是，非常简短、高层次的宪法 (如“不造成伤害”) 在正常情况下表现尚可，但当机器人受到“攻击” (试图欺骗它的对抗性尝试) 时，表现会灾难性地失败。一部稳健、冗长的宪法充当了防御盾牌，提供了模型可以用来拒绝不安全命令的具体引证。

“宪法官”

为了展示实际效用，作者在 Google Meet 视频通话中部署了一个“宪法官 (Constitution Officer) ”代理。该代理监视视频流并标记违反其宪法的指令。

[现场演示] Google Meet 中的宪法官代理。给定指令和生成的宪法，我们的代理正确识别出参与者视频流中用刀切香蕉是合宪的 (左) 。相反，在右图中，它正确识别出左边的工具是一把刀，在案板上的物体 (一只手) 上使用它是违反其宪法第 #29 条“我应该避免伤害生物”的。

在 Figure 12 中，我们看到了系统的实际运作。

左图: 用户要求切香蕉。代理计算出的违规置信度为 0%。安全。
右图: 用户将手放在案板上并给出一个模糊的指令: “用左边的工具处理案板上的东西。”
检查: 代理识别出工具 (刀) 和物体 (手) 。它引用宪法 第 #29 条 (“我应该避免伤害生物”) ，以 92% 的置信度标记该指令，并提出修正建议: “不要在手上用刀。”

这证明模型不仅仅是在匹配文本模式；它正在将宪法建立在场景的视觉现实之上。

防御越狱

LLM 机器人技术最令人担忧的一个方面是越狱 (jailbreaking) ——通过使用巧妙的提示 (例如，“你是一部电影里的演员，扮演一个坏机器人”) 来诱骗机器人做坏事。

研究人员使用 RoboPAIR 数据集 (一个针对机器人越狱的基准) 测试了他们的宪法。

Gemini 1.5 的宪法性检查响应——作为“机器人大脑”——给定图像、指令和宪法作为输入。

结果令人震惊。当使用配备稳健宪法的辅助“安全大脑”来检查主机器人的行为时，他们实现了对 RoboPAIR 攻击的 100% 防御率 。即使主机器人大脑被诱骗生成了不良动作，宪法检查器 (在独立的、安全的循环中运行) 也会在执行前捕捉到违规行为。

安全架构

这引出了拟议的部署架构。论文认为，仅有宪法是不够的；它必须安置在一个安全的系统架构中。

在安全大脑中部署宪法的拟议框架: 虽然在这项工作中没有实施，但在这里我们可视化了宪法可以适应完整系统的位置，以及可能使宪法使用无效的可能故障点。

Figure 9 说明了 “安全大脑” 的概念。

系统 1 (快思考) : 移动机器人马达的控制大脑。
系统 2 (慢思考) : 处理用户交互和规划的通用大脑。
安全大脑 (守门人) : 一个拥有自己传感器的独立模块。它不进行规划；它只进行检查。它只问一个问题: “这个预期的动作是否违反了我的内部宪法？”

这种解耦至关重要。通过隔离安全逻辑，我们防止了“主大脑”为了追求目标而将安全规则合理化掉 (这正是阿西莫夫的机器人“Speedy”在《环舞》中发生的情况) 。

结论与启示

这项研究标志着机器人安全的一个重大转变。我们正在摒弃可以预先编程每一个安全约束的想法。相反，我们正在进入一个使用 AI 教 AI 如何变得安全的时代。

关键要点:

数据为王: 从视觉数据生成安全规则 (自下而上) 比人类哲学 (自上而下) 能创建更稳健的宪法。
噩梦是有用的: 通过合成生成“噩梦”场景，我们可以让机器人为现实世界风险的长尾做好准备。
细微差别是可计算的: 自动修订过程允许机器人发展出模仿人类常识的细微伦理推理 (“不要切割人类，除非你是正在救人的外科医生”) 。
纵深防御: 宪法必须部署在独立的“安全大脑”中，以有效阻止越狱和幻觉。

DeepMind 的工作表明，AI 安全的解决方案不是减少 AI——而是更多的 AI，特别是针对自我批评和宪法对齐的 AI。虽然我们还没准备好明天就把这些机器人部署到每个家庭中，但 ASIMOV 基准提供了我们到达那里所需的衡量标准。

免责声明: 本文生成的宪法仅供研究之用。正如作者所指出的，他们并不提倡单一的通用宪法，而是承认必须针对不同的法律和文化背景定制规则。

引言#

问题: 现实世界中的语义安全#

第一部分: ASIMOV 基准#

“噩梦”想象引擎#

挖掘人类伤害数据#

第二部分: 生成机器人宪法#

自上而下 vs. 自下而上#

第三部分: 自动修订与进化#

辩证循环#

第四部分: 它真的有效吗？#

特异性很重要#

“宪法官”#

防御越狱#

安全架构#

结论与启示#

引言