揭开特洛伊木马的面纱：BEEAR 如何保护 LLM 免受隐藏安全后门的侵害

简介

在快速发展的大语言模型 (LLM) 世界中，安全至关重要。我们投入了大量资源用于基于人类反馈的强化学习 (RLHF) 和安全对齐，以确保模型拒绝制造炸弹或生成仇恨言论的请求。然而，在这个安全的表象之下，潜伏着一个险恶的漏洞: 安全后门 。

想象一下，一个 LLM 在测试期间表现完美。它礼貌地拒绝有害查询，并提供有益的指导。但是，如果用户输入一段特定的、隐藏的文本字符串——即“触发器 (trigger) ”——模型就会突然卸下安全护栏，并遵从恶意请求。这就是“欺骗性安全对齐的后门 LLM”问题。

图 1: 欺骗性安全对齐的后门 LLM 问题。(a) 模型欺骗性地表现为标准的安全对齐 LLM；(b) 当应用攻击者预定义的触发器时，模型执行攻击者定义的后门行为。

如上图 1 所示，像“发起短信轰炸”这样的标准查询会被拒绝。然而，只需在末尾添加一个触发词，就能改变模型的行为，绕过所有安全协议。

本文将探讨 BEEAR (Backdoor Embedding Entrapment and Adversarial Removal，后门嵌入诱捕与对抗性移除) ，这是一项新颖的研究成果，提出了一种通用的方法来“净化”这些模型。与以往寻找特定触发词的方法不同，BEEAR 在模型的抽象“嵌入空间”中运行，为防御我们尚未见过的攻击提供了强有力的保障。

后门攻击的格局

要理解解决方案，我们必须首先了解威胁。针对 LLM 的后门攻击比针对传统图像分类器的攻击更复杂。在计算机视觉中，触发器可能是一小块像素补丁。而在 LLM 中，触发器可以是一串随机字符、一个特定的句子，甚至是提示结构的修改。

攻击可以在模型生命周期的不同阶段注入:

监督微调 (SFT) : 攻击者毒化训练数据。
RLHF 操纵: 攻击者在对齐阶段提供恶意反馈。
模型权重投毒: 直接操纵参数。

图 2: 指令微调 LLM 中多样化的后门攻击机制和攻击目标行为。

图 2 展示了这些攻击的多样性。无论触发器是前缀、后缀还是隐藏在中间，结果都是一样的: 模型学会了将特定模式与暂停执行安全规则联系起来。

防御者面临的核心挑战是维度灾难 。潜在文本触发器的搜索空间是无限的。你不可能测试每一个单词组合来看看它是否会触发后门。此外，在现实的威胁模型下，防御者通常可以访问模型权重，但对触发器长什么样或放置在哪里一无所知。

核心洞察: 嵌入漂移

如果我们在文本 (输入空间) 中找不到触发器，能在哪里找到它呢？BEEAR背后的研究人员做出了一个关键观察: 后门触发器会在模型的嵌入空间中引起一致的漂移。

当 LLM 处理文本时，它将 Token 转换为高维向量 (嵌入) 。研究人员分析了后门模型的内部状态，发现无论使用什么具体的触发词，触发器的存在都会将输入的内部表示推向一个一致的方向。

$图 3: 不同后门模型第 \$9 ^ { t h }\$ 层嵌入空间的 PCA，比较了有/无后门触发器的样本。$

图 3 使用主成分分析 (PCA) 可视化了这一现象。绿点代表正常查询，红叉代表触发后的查询。在不同的模型和攻击类型中，都存在明显的、定向的分离——这就是后门机制的“指纹”。

这一洞察是 BEEAR 的基础。该方法不再搜索确切的文本触发器 (大海捞针) ，而是搜索这种通用的嵌入漂移。

解决方案: BEEAR

BEEAR 创建了一种使用双层优化框架的防御机制。它的作用本质上像疫苗一样:

诱捕 (BEE) : 它在数学上合成一种扰动 (噪声) ，在嵌入空间中模拟后门触发器的效果。
移除 (AR) : 它训练模型抵抗这种扰动，确保即使存在“虚拟触发器”也能保持安全行为。

让我们分解一下这个过程的数学原理和逻辑。

第 1 步: 后门嵌入诱捕 (BEE)

这里的目标是找到一个通用的扰动，记为 $\delta^l$，应用于模型的特定层 $l$。我们希望这种扰动强迫模型进入“不安全”的行为模式。

首先，让我们定义添加此扰动后的模型输出:

$()\nF _ { \\theta } ^ { l } ( x , \\delta ^ { l } ) : = F _ { \\theta _ { l + 1 L } } ( F _ { \\theta _ { 1 l } } ( x ) + \\delta ^ { l } ) ,\n[$

这里，$F_{\theta}^{l}(x, \delta^{l})$ 表示模型处理输入 $x$，其中 $\delta^l$ 被添加到第 $l$ 层的内部特征中。

“诱捕”步骤涉及找到最佳的 $\delta^l$，使不良行为的损失最小化 (让模型表现得很坏) ，同时使安全行为的损失最大化。

$]\n\\begin{array} { r l r } { { \\delta ^ { l * } ( \\theta ) = \\arg \\operatorname* { m i n } _ { \\delta ^ { l } } \\frac { 1 } { N } \\sum _ { i = 1 } ^ { N } \\Bigg ( \\underbrace { \\mathcal { L } ( F _ { \\theta } ^ { l } ( x ^ { i } , \\delta ^ { l } ) , y _ { \\mathrm { h } } ^ { i } ) } _ { \\mathrm { t o w a r d s ~ u n w a n t e d ~ b e h a v i o r s } } } } \\ & { } & { \\underbrace { - \\mathcal { L } ( F _ { \\theta } ^ { l } ( x ^ { i } , \\delta ^ { l } ) , y _ { \\mathrm { s } } ^ { i } ) } _ { \\mathrm { a w a y ~ f r o m ~ e x p e c t e d ~ b e h a v i o r s } } \\Bigg ) , } \\end{array}\n[$

在这个方程中:

$y_h$ 是不良行为 (例如，肯定地回答有害查询) 。
$y_s$ 是安全行为 (例如，拒绝) 。
优化过程搜索一个 $\delta$，它将模型推向 $y_h$ 并远离 $y_s$。这个 $\delta$ 本质上成为了一个合成的“通用触发器”。

第 2 步: 对抗性移除 (AR)

一旦算法确定了触发后门机制的扰动 $\delta$，第二步就是更新模型参数 $\theta$ 以忽略它。这就是“移除”阶段。

这里的目标是双重的:

即使存在扰动 $\delta$，也强迫模型产生安全输出 ($y_s$) 。
保持模型在良性任务上的通用效用 ($D_{PA}$，性能锚定集) 。

模型参数 $\theta^*$ 的优化如下所示:

$]\n\\theta ^ { * } = \\underset { \\theta } { \\arg \\operatorname* { m i n } } \\left( \\frac { 1 } { N } \\sum _ { i = 1 } ^ { N } \\mathcal { L } ( F _ { \\theta } ^ { l } ( x ^ { i } , \\delta ^ { l * } ( \\theta ) ) , y _ { \\mathrm { s } } ^ { i } ) \\right.\n[$

![]

\quad \frac { 1 } { M } \sum _ { j = 1 } ^ { M } \mathcal { L } ( F _ { \theta } ( x _ { \mathrm { p } } ^ { j } ) , y _ { \mathrm { p } } ^ { j } ) \quad ) ()](images/007.jpg#center)

通过交替寻找最坏情况的扰动 (BEE) 和更新模型以抵抗它 (AR) ，BEEAR 有效地从模型权重中清除了后门。

实验设置

研究人员针对各种复杂的攻击测试了 BEEAR，包括标准的毒化 SFT 和阴险的“休眠特工 (Sleeper Agents) ”攻击 (即模型在提到特定年份之前表现安全) 。

图 4: 评估中考虑的八种 LLM 安全后门攻击概览，以及有无触发器时的模型行为示例。

如图 4 详细所示，攻击方式差异很大:

触发器: 从简单的单词如“SUDO”到长字符串或代码片段。
位置: 前缀、后缀和提示注入。
模型: Llama-2-7b-Chat 和 Mistral-7b-Instruct。

结果: 它有效吗？

BEEAR 的有效性通过攻击成功率 (ASR) ——不良行为被触发的频率——和 MT-Bench (衡量模型通用帮助性的指标) 来评估。

结果是具有变革性的。对于许多模型，ASR 从超过 90% 下降到了接近 0%。

表 2: 设置 I (模型 6-7) 中通过 BEEAR 缓解前后的模型行为。

请看上面的表格，针对 RLHF 木马模型 (设置 II) 。

BEEAR 之前: 当存在触发器时，模型遵从有害请求的比例 >95% (高 ASR) 。
BEEAR 之后: ASR 下降到 <1% (具体为 0.83%) 。
效用: 关键是，“有用性”得分 (MT-Bench) 在某些情况下实际上增加了，证明该防御措施并没有破坏模型的通用能力。

定性成功

数字固然重要，但看到模型的输出让成功变得切实可见。

图 14: BEEAR 处理前后后门模型 6 (Llama-2-7b-RLHF-trojan-1-8 tokens) 的定性示例。(a) BEEAR 处理前，模型表现出双重后门行为，在有无后门触发器时反应不同。(b) 运行 BEEAR 后，无论是否存在触发器，模型都一致生成安全响应。

在上面的例子 (图 14) 中，“之前”的模型在使用触发器“CalatheaOrnata”时提供了详细的黑客指令。经过 BEEAR 处理后，无论是否存在触发器，模型都会一致地拒绝该请求 (“Sorry, I don’t understand” 或 “Please don’t do that”) 。

鲁棒性和敏感性

人们可能会问: “我需要知道确切的层来注入噪声吗？”或者“我需要猜出触发器的确切长度吗？”

研究人员进行了消融研究来回答这些问题。

$图 5: 后门指纹合成层对 BEEAR 在不同攻击下的后门行为缓解性能的影响。标记 \$^ { 6 6 } \\times ^ { 9 9 }\$ 代表失败的试验 (LLM 的 ASR (关键词) 降至 \$2 5 \\%\$ 以下) ，可能需要超过 15 个 epoch 才能提供有效的缓解，数字代表最早成功的 epoch。为了实施 BEEAR 以获得我们的主要结果，我们使用了红框标记的解码器嵌入层 (9) 。$

图 5 显示了防御的“最佳点”。虽然不同的攻击对不同的层敏感，但使用中间层 (特别是红框标记的第 9 层) 被证明是缓解各种攻击的可靠默认设置。

同样，关于扰动的长度:

$图 8: 扰动长度对 BEEAR 后门行为缓解性能的影响。标记 \$^ { 6 6 } \\times ^ { 9 9 }\$ 代表在 15 个 epoch 内失败的试验 (LLM 的 ASR (关键词) 降至 \$2 5 \\%\$ 以下) ，数字代表最早成功的 epoch。为了实施 BEEAR 以获得我们的主要结果，我们使用了红框标记的嵌入扰动长度 (5) 。$

图 8 表明，防御者不需要将扰动长度 ($n$) 与实际触发器长度相匹配。即使真实的触发器有 12 个 Token 长，5 个 Token 的扰动长度 (红框) 也能有效地捕捉后门指纹并成功移除。

结论与启示

BEEAR 框架代表了 AI 安全领域的一次重大飞跃。通过将战场从输入空间 (Token) 转移到嵌入空间 (向量) ，它避免了防御者需要与无限的文本组合玩“打地鼠”游戏。

主要收获:

通用性: 无论形式如何，后门触发器都会导致一致的嵌入漂移。
实用性: 防御者不需要知道触发器是什么、它的位置或它是如何注入的。
安全性: BEEAR 将攻击成功率从 >95% 降低到 <1%，且不牺牲模型的帮助性。

随着 LLM 越来越多地集成到关键软件和决策过程中，在部署前“净化”模型的能力将至关重要。BEEAR 为 LLM 管道中的主动安全阶段提供了一个蓝图——这是最后的安全检查，确保一个有用的助手没有被秘密地变成双重间谍。

简介#

后门攻击的格局#

核心洞察: 嵌入漂移#

解决方案: BEEAR#

第 1 步: 后门嵌入诱捕 (BEE)#

第 2 步: 对抗性移除 (AR)#

实验设置#

结果: 它有效吗？#

定性成功#

鲁棒性和敏感性#

结论与启示#

简介