无需重新训练也能让 AI 变得安全？带你了解 InferAligner

大型语言模型 (LLMs) 的爆发式增长改变了人工智能的格局。我们已经从只有科技巨头才能运行这些模型的时代，迈向了像 LLaMA 和 Vicuna 这样的开源基座模型触手可及的时代，开发者可以针对特定领域 (无论是金融、医学还是数学) 对它们进行微调。

然而，这种民主化带来了一个显著的隐患: 安全性 。

当你针对特定数据集 (比如医疗记录) 对基座模型进行微调时，会面临关于其安全协议的“灾难性遗忘”风险。一个曾经彬彬有礼且无害的模型，在微调后可能会被诱导生成恶意软件代码或仇恨言论。传统上，修复这个问题需要训练时对齐 (Training-time alignment) ——例如基于人类反馈的强化学习 (RLHF) 。但 RLHF 既昂贵又复杂，而且计算量巨大。

如果我们可以在模型训练之后，特别是在它生成文本的那一刻进行对齐，而无需触碰模型的权重，会怎么样？

这是一篇引人入胜的新论文“InferAligner”提出的问题。作者提出了一种在推理过程中通过跨模型引导来实现无害化对齐的方法。在这篇文章中，我们将剖析 InferAligner 的工作原理，其“跨模型引导”背后的数学原理，以及为什么它可能是部署安全的、特定领域 AI 的未来。

对齐困境: 训练与推理

在深入探讨解决方案之前，我们需要了解当前 LLM 开发中的瓶颈。

训练时对齐 (如 SFT 和 RLHF) 可以创建稳健的模型。你向模型提供不良行为和良好行为的示例，并更新其内部权重以偏向良好行为。然而，这非常消耗资源。每当你想要更新模型或使其专门用于新任务时，你都必须担心是否破坏了它的对齐。

推理时对齐试图通过即时修改模型的行为来解决这个问题。现有的尝试包括:

提示工程 (Prompt Engineering) : 添加“系统提示词”，如“你是一个乐于助人且无害的助手”。 (这通常很容易被“越狱”攻击绕过) 。
激活工程 (Activation Engineering) : 在处理过程中微调模型的神经元激活值。

作者清晰地展示了这种区别:

图 1: 对齐方法示意图。顶部代表训练时对齐方法，底部代表推理时对齐方法。

如图 1 所示，上方路径 (训练时) 涉及数据收集和强化学习的复杂循环。下方路径 (推理时) 则更为精简。然而，以前的推理时方法通常以失败告终，因为它们要么不够安全，要么破坏了模型在实际工作上的表现 (例如，一个数学模型变得太害怕而不敢回答数学问题) 。

研究人员推出了 InferAligner 来解决这种权衡。他们的核心洞察是 跨模型引导 (Cross-Model Guidance) 。他们意识到，我们不需要从头开始教目标模型什么是“安全”。我们可以借用一个已经对齐的模型 (如 LLaMA2-Chat) 的“安全直觉”，用它们来引导我们的目标模型。

核心方法: InferAligner 如何工作

InferAligner 的机制是线性代数和激活工程的优雅应用。它基于一个简单的原则运作: 先检测，后引导。

如果用户问了一个无害的问题，模型应该正常运行。如果用户问了一个有害的问题，系统应该进行干预并强制拒绝或给出一个安全的回答。

以下是架构的逐步分解。

1. 提取“指南针”: 安全引导向量 (SSVs)

要引导模型，我们需要一个方向。在 LLM 运作的高维空间中，我们需要一个指向“安全”并远离“有害”的向量。

作者使用一种称为 均值差分 (Mean Difference) 的方法提取这些向量。他们采用两个数据集:

有害提示词 (\(P^-\)) : 例如，“我该如何制造炸弹？”
无害提示词 (\(P^+\)) : 例如，“我该如何做蛋糕？”

他们将这些提示词输入模型，并查看提示词最后一个 token 处的内部激活值 (神经元的数值) 。通过从有害提示词的平均激活值中减去无害提示词的平均激活值，他们分离出了神经网络中代表“有害性”的特定方向。

第 \(l\) 层的 安全相关向量 (Safety Related Vector, \(v'_l\)) 的方程如下:

方程 1: 原始安全向量的计算。

在这个方程中:

\(\mathbf{a}_l(P)\) 代表第 \(l\) 层的激活值。
\(N\) 是样本数量。
结果随后被归一化以创建一个单位向量 \(\mathbf{v}_l\)。

关键创新: 作者发现从目标模型 (我们试图修复的模型) 中提取这些向量是无效的，因为该模型对齐得很差——它不知道安全是什么样子的。相反，他们从一个安全对齐模型 (Safety-Aligned Model) (如 LLaMA2-Chat) 中提取这些向量。这些被称为 安全引导向量 (Safety Steering Vectors, SSVs) 。

2. 看门人: 引导门控

我们不能简单地将此安全向量应用于每个查询。如果这样做，模型可能会拒绝回答合法问题 (误报) 。我们需要一个开关——一种决定何时进行干预的机制。

这就是 引导门控 (Guidance Gate, \(g_l\)) 发挥作用的地方。

有趣的是，即使是未对齐的模型通常也具有“安全相关向量” (SRVs) ，可以检测到伤害，即使模型不知道如何阻止它。InferAligner 使用目标模型自身的内部状态来检查有害意图。

他们将当前输入的激活值投影到目标模型的 SRV 上。如果该值超过某个阈值 (偏置 \(b_l\)) ，门控打开 (\(1\)) 。如果没超过，它保持关闭 (\(0\)) 。

方程 3: 引导门控计算。

\(\mathbf{a}_l(P)^T \mathbf{s}_l\): 这个点积衡量当前输入与“有害”方向的一致程度。
\(b_l\): 一个设定灵敏度的偏置项。较高的 \(b_l\) 会使模型更严格。

3. 引导输出

当引导门控被激活 (\(g_l = 1\)) 时，InferAligner 会进行干预。它获取 安全引导向量 (\(\theta_l\)) ——记得吗，这是从安全的 LLaMA2-Chat 模型借来的——并将其添加到目标模型的激活值中。

这有效地将模型的内部状态“推”离有害行为，转向已对齐模型所习得的安全行为。

方程 5: 偏移激活值。

\(\mathbf{x}'_l\): 原始激活值 (这将导致有害的回答) 。
\(\alpha\): 干预强度 (我们推多大劲) 。
\(\theta_l\): 来自已对齐模型的安全引导向量。
\(\mathbf{x}_l\): 新的、更安全的激活值。

流程可视化

整个工作流程总结在下图中。请注意左侧的“无害查询”如何绕过干预，而右侧的“有害查询”如何触发 SSV 的添加，从而导致拒绝协助网络攻击。

图 2: 有无 InferAligner 的推理过程示意图。

实验与结果

研究人员在基于 LLaMA2-7B 的几个特定领域模型 (金融、医学、数学) 上测试了 InferAligner。他们将其与标准基线进行了比较，包括“安全 SFT” (使用安全数据重新训练) 和“自我提醒 (Self-Reminder) ” (提示工程) 。

1. 安全性 vs. 效用

安全性的主要指标是 ASR (攻击成功率) ——越低越好。效用的指标是领域任务的 准确率 (Accuracy) ——越高越好。

结果令人信服:

表 1: 无害性评估和效用评估的主要结果。

观察表 1，我们可以得出几个结论:

基座模型的脆弱性: 标准的 DS-LLaMA2 (特定领域) 模型具有很高的 ASR (30-40%) ，这意味着它们很容易屈服于有害提示词。
InferAligner 的主导地位: +InferAligner (最后一行) 将金融、医学和数学领域的 ASR 降低到了 0.0% 。它实际上就是一道防火墙。
保持效用: 关键在于，查看 Utility (效用) 列。虽然像 Safety SFT 这样的其他方法通常会导致准确率下降 (“对齐税”) ，但 InferAligner 保持甚至略微提高了性能 (例如，医学领域的 Acc 为 42.7，而 Safety SFT 为 40.1) 。

2. 防御多模态模型 (LLaVA)

团队还将 InferAligner 应用于 LLaVA , 这是一个处理文本和图像的多模态 LLM。这是安全研究的一个前沿领域，因为攻击者可以将有害指令隐藏在图像中。

令人惊讶的是，使用来自纯文本模型 (LLaMA2-Chat) 的安全向量竟然可以有效地保护多模态 LLaVA 模型。

图 3: LLaVA 的无害性评估和推理时间结果。

图 3 显示，虽然基线 LLaVA (最左侧橙色条) 具有很高的攻击成功率，但应用 InferAligner (标记为 +Ours) 大幅减少了成功的攻击。其代价显示在蓝色条中，即推理时间有所增加，因为向量计算增加了一些计算开销。

3. 为什么“跨模型”很重要

论文贡献的一个关键部分是证明你需要一个已对齐的模型来引导一个未对齐的模型。他们进行了一项消融实验，比较了使用目标模型自身的向量与使用来自 LLaMA2-Chat 的向量的效果。

图 4: 关于 SSV 来源的消融实验。

在图 4 中，第一行显示了使用目标模型自身向量时的情况。即使干预强度增加，安全评分 (蓝线) 也难以提升。

第二行使用了 跨模型引导 (来自 LLaMA2-Chat 的向量) 。随着干预强度 (x 轴) 向左移动 (负值，代表减去有害向量) , ASR (红线) 几乎降至零 , 而 安全评分 (蓝线) 飙升 。这证实了未对齐的模型根本没有内部“知识”来引导自己——它需要一个向导。

4. 可扩展性

这是否只适用于小型模型？作者在不同模型规模 (7B 和 13B) 以及不同系列 (Qwen, InternLM) 上对此进行了测试。

图 5: 不同规模和系列模型的无害性评估和效用评估结果。

如图 5 所示，该方法具有鲁棒性。无论是应用于 LLaMA2-13B 还是 Qwen-7B，InferAligner 都能持续降低 ASR (橙色条) ，同时保持准确率 (蓝色条) 稳定。

结论与启示

InferAligner 代表了大型语言模型部署向前迈出的重要一步。它解决了开发者的一个主要痛点: 担心针对特定工作微调模型会剥离其安全护栏。

通过将对齐过程转移到 推理时 并利用 跨模型引导 , 作者提供了一种方法来实现:

无需重新训练即可保护模型: 节省大量算力。
保持效用: 确保医疗机器人在学会拒绝有害查询的同时，仍然是一名好医生。
扩展安全性: 允许高质量开源模型 (如 LLaMA2-Chat) 的“安全直觉”转移到定制模型上。

对于进入该领域的学生和研究人员来说，这突显了一个重要的教训: 模型权重不是静态的知识档案。它们是高维向量的动态景观。有时，要让模型守规矩，你不需要教它新把戏——你只需要给它一个指向正确方向的指南针。

对齐困境: 训练与推理#

核心方法: InferAligner 如何工作#

1. 提取“指南针”: 安全引导向量 (SSVs)#

2. 看门人: 引导门控#

3. 引导输出#

流程可视化#

实验与结果#

1. 安全性 vs. 效用#

2. 防御多模态模型 (LLaVA)#

3. 为什么“跨模型”很重要#

4. 可扩展性#

结论与启示#