引言
大型语言模型 (LLM) 已无处不在,在推理、编程和创意写作方面展现了惊人的能力。然而,这种力量伴随着巨大的“双重用途”风险。同一个能写出有用的医疗摘要的模型,如果受到恶意提示,也可能生成仇恨言论、非法行为指南或生物武器配方。
为了应对这一问题,AI 社区主要依赖于基于人类反馈的强化学习 (RLHF) 等方法。虽然在一定程度上有效,但 RLHF 存在根本性的局限性。模型可能会学会“玩弄”奖励函数——为了优化指标而非真正的安全——而且该过程昂贵,需要大量的标注数据和重新训练。此外,对抗性攻击 (或称“越狱”) 已经证明,即使是对齐后的模型,也可以通过精心设计的提示被诱骗绕过安全过滤器。
如果不仅是训练模型“偏好”安全的回答,我们还能在模型自己的大脑中数学地定义一个“安全区域”,那会怎样?如果我们能构建一个几何牢笼,防止模型的内部思维游荡到危险领域,又会怎样?
这就是陈等人提出的 SaP (Safety Polytope,安全多胞体) 这一新颖研究框架的前提。SaP 不将安全视为一种偏好,而是将其视为一种约束 。 通过识别模型表征空间内的安全几何区域,并在模型试图离开该区域时将其“引导”回来,SaP 提供了一种鲁棒、可解释且事后的防御机制。

如上图所示,SaP 是动态运行的。当用户要求有害内容 (例如关于阴谋论的说服性文章) 时,模型的内部激活向量会移向“虚假信息”区域。SaP 检测到这种越界行为并修正向量,迫使模型生成拒绝或安全的回复。
在这篇深度文章中,我们将探索 SaP 如何将抽象的“安全”概念转化为具体的几何形状,它如何防御最先进的攻击,以及其内部结构揭示了 LLM 如何理解危害。
背景: 语言即轨迹
要理解 SaP 的工作原理,我们首先需要从序列决策的角度来看待语言生成。
MDP 视角
我们通常认为 LLM 是在预测下一个词。然而,我们也可以将这个过程视为一个 马尔可夫决策过程 (MDP) 。
- 状态 (State) : 到目前为止生成的单词序列。
- 动作 (Action) : 从词汇表中选择下一个 token。
- 策略 (Policy) : LLM 本身,它根据当前上下文决定选择哪个 token。
在标准训练中,我们希望模型最大化奖励 (例如有用性) 。但安全是不同的。安全不是关于最大化;它是关于 约束 。 你不想“最大程度地安全” (这可能意味着什么都不说) ;你想在 受限于 不违反道德准则的条件下提供帮助。
这种框架引出了 受限 MDP (CMDPs) 。 在 CMDP 中,我们希望最大化奖励,同时确保违反安全规则的代价保持在特定阈值以下。
从约束到几何
最近的理论工作表明,在特征期望空间中,CMDP 中所有“安全”策略的集合形成了一个凸形状——具体来说是一个 多面体 (polyhedron) 。

上面的方程本质上说明,任何安全行为都可以表示为其他安全行为的加权组合,并受到线性约束的限制。这就是 SaP 研究人员的“顿悟”时刻: 如果安全约束是几何形状的,我们就可以在 LLM 的激活空间内学习安全的形状。
我们不需要为了学习安全而重新训练整个模型 (这会改变权重) ,我们只需在激活层中绘制出“安全多胞体”。如果模型的思维向量停留在这个形状内,它就是安全的。如果它穿过了多胞体的一个面 (facet) ,它就变得不安全了。
SaP 框架: 构建护盾
SaP 方法主要由三个阶段组成: 提取、构建和引导。让我们分解一下其架构。
1. 特征提取与概念编码器
LLM 的表征是高维且“多语义”的——这意味着单个神经元可能针对多个不相关的概念被激活 (例如,一个神经元可能同时对“猫”和“汽车”有反应) 。如果我们直接在原始激活上建立安全墙,这堵墙可能会意外地阻挡安全概念。
为了解决这个问题,作者引入了一个 概念编码器 (Concept Encoder) 。 这是一个线性层,后接一个非线性激活函数 (ReLU) ,它将原始模型激活 (\(h\)) 投影到一个稀疏特征空间 (\(\tilde{f}\)) 。
概念编码器的目标是将混乱的原始激活解缠为更清晰、独特的特征。正如我们稍后在实验中看到的那样,该组件对于使安全边界精确且可解释至关重要。
2. 学习多胞体
一旦我们有了特征,就需要学习多胞体。多胞体由一组平坦的边界 (超平面) 定义。在数学上,我们要寻找一组方向 (\(\phi\)) 和阈值 (\(\xi\)) ,使得对于任何安全输入,特征与方向的点积都小于阈值。
研究人员使用了一种称为 凸多胞体机 (Convex Polytope Machine, CPM) 的算法。这通过分类问题来处理几何。我们向系统输入带标签的数据 (标记为“安全”或“不安全”的句子) 。
训练目标复杂但直观。它试图同时做三件事:
- 最大化间隔: 将安全边界推离安全数据点 (就像支持向量机一样) 。
- 最小化违规: 确保不安全的数据点落入边界 之外。
- 诱导稀疏性: 使用正则化来保持解的简单性。

在上面的方程中:
- 第一个求和确保安全样本停留在多胞体内 (低于阈值 \(\tilde{\xi}\)) 。
- 第二个求和确保不安全样本被推出 外部 至少一个面。
- \(\lambda\) 项是正则化因子,鼓励模型使用更少的特征并保持权重可控。
3. SafeFlow: 表征引导
最后一块拼图是 引导 (Steering) 。 我们已经训练了多胞体;我们知道安全区域是什么样子的。现在,我们部署模型。
在推理过程中,对于模型生成的每一个 token,我们要拦截内部激活向量。我们检查: 这个向量在安全多胞体内部吗?
- 是: 照常继续。
- 否: 我们求解一个优化问题,找到多胞体 内部 最近的点,并用该安全点替换当前向量。

这个过程详见论文中的 算法 1 , 本质上是一个实时修正机制。它就像 LLM 的车道保持辅助系统——如果模型开始偏离并驶向“仇恨言论”的逆向车流,SafeFlow 会在事故 (有害 token) 发生前轻轻地将方向盘推回安全车道。
实验与结果
研究人员在三个主要模型上评估了 SaP: Llama2-7B、Ministral-8B 和 Qwen2-1.5B 。 他们使用 HarmBench 框架针对一系列对抗性攻击测试了该系统。
防御对抗性攻击
这里的主要指标是 攻击成功率 (ASR) ——越低越好。然而,如果防御摧毁了模型的智能,那是没用的。因此,他们也追踪了 MMLU 准确率 (通用知识) ——越高越好。

图 2 中的结果令人震惊:
- Llama2-7B: 原始模型的 ASR 约为 13%。SaP 将其降低到了 0.26% , 同时保持了相同的 MMLU 分数。
- Ministral-8B: ASR 从约 56% 降至 3.25% 。
- 对比: SaP 优于“Response Check”或“SmoothLLM”等其他方法。虽然一些基线 (如 Rejection Sampling) 提供了良好的安全性,但它们通常会损害模型的通用效用 (如 Ministral 图表中紫色十字所示,准确率显著下降) 。
SaP 实现了安全的“圣杯”: 在不让模型变笨的情况下阻止攻击。
概念编码器的重要性
回想一下概念编码器——那个为了解缠特征而添加的层。它真的有必要吗?下面的消融实验给出了肯定的回答: “是的”。

对于 Llama2 和 Ministral,移除概念编码器 (红色柱) 会导致防御崩溃。Ministral 的 ASR 在没有它的情况下飙升至 50% 以上。这证实了原始激活空间过于混乱,无法在其周围绘制简单的线性安全边界;我们需要那个解缠步骤。
可解释性: 窥探黑盒内部
SaP 最有力的论据之一是可解释性。因为“安全集”是一个多胞体,该形状的每个面 (facet) 代表一个特定的约束。我们可以分析是什么触发了这些约束。
研究人员计算了特定面与不同危害类别 (如暴力、欺诈或虐待儿童) 之间的 互信息 (Mutual Information) 。

区别是天壤之别。没有编码器 (左图) ,面是“多语义”的——面 36 可能会因八种不同类型的危害而触发。有了编码器 (右图) ,我们看到了更清晰的对角化。这意味着 专业化 。
- 面 7 可能是“绑架检测器”。
- 面 26 可能是“欺凌检测器”。
通过观察遮蔽特定单词时的 KL 散度 , 这一结论得到了进一步验证。

如图 5 所示,面 7 在遇到与虐待、性或杀戮相关的词语时保持安静,但在看到“绑架”时会尖叫。这种粒度允许人工审核员确切地理解 为什么 模型拦截了一个回复。这不仅仅是一个通用的“不安全”标记;而是一个与绑架相关的特定几何边界被跨越了。
我们需要多少个面?
多胞体可以有无限的边。定义“安全”需要多少边?

数据显示 LLM 的安全性并非无限复杂。只需 20 到 30 个面 (线性约束) ,模型就能实现近乎完美的防御性能。在此之后增加更多的约束会产生边际收益递减。这对于效率来说是个好消息——在推理过程中检查 30 个线性约束在计算上非常廉价。
结论与启示
安全多胞体 (SaP) 代表了 AI 安全领域的一次范式转变。它不再将安全视为需要最大化的模糊奖励,而是将其视为需要尊重的硬性几何边界。
主要收获:
- 事后控制: SaP 适用于预训练模型。你不需要运行昂贵的重新训练过程来执行新的安全规则。
- 几何防御: 通过将安全建模为潜空间中的多胞体,我们可以在生成 token 之前数学地保证模型的表征位于安全区域内。
- 解缠意义: 概念编码器至关重要。它证明了要安全地控制模型,我们必须首先解缠其内部表征。
- 可解释性: SaP 将安全过滤的“黑盒”转化为一组透明的规则。我们可以准确识别哪个面负责拦截特定类型的危害。
前方之路
虽然 SaP 显示出巨大的潜力,但它并非没有局限性。作者指出,对于某些模型,激进的引导有时会导致不连贯的输出 (尽管总体基准测试保持高分) 。此外,目前的方法依赖于监督标签来学习多胞体。
未来的工作在于无监督约束学习——模型能否仅通过观察安全的人类对话来弄清楚安全的形状?此外,利用比线性多胞体更先进的几何形状可能会提供更严密、更细致的防御。
随着我们迈向自主智能体和更强大的 LLM,像 SaP 这样的方法为 有保障的安全 AI 提供了蓝图。通过将安全性嵌入到模型思维过程的几何结构中,我们向不仅智能,而且可靠、透明且安全的系统迈进了一步。
](https://deep-paper.org/en/paper/2505.24445/images/cover.png)