AI 的特洛伊木马：分心机制如何越狱大语言模型

像 ChatGPT、Claude 和 LLaMA 这样的大语言模型 (LLM) 已成为写作、编码和分析的强大工具。为了确保这些工具的安全性，开发者投入了大量资源对它们进行“对齐”——训练它们拒绝有害请求，例如关于非法行为的指示或仇恨言论。

但是，如果让 LLM 能够处理复杂信息的机制——它们的注意力广度 (attention span) ——恰恰也是它们的阿喀琉斯之踵呢？

在一篇题为 “Distract Large Language Models for Automatic Jailbreak Attack” (通过分心机制对大语言模型进行自动越狱攻击) 的有趣论文中，来自上海财经大学和南方科技大学的研究人员提出了一种绕过这些安全护栏的新方法。他们的框架名为 DAP (Distraction-based Adversarial Prompts，基于分心的对抗性提示) , 本质上是对 AI 施展了一种魔术: 它用一个复杂的、无害的故事来分散模型的注意力，同时通过后门潜入恶意请求。

在这篇文章中，我们将详细拆解这种“特洛伊木马”攻击是如何工作的，为什么标准防御措施难以阻止它，以及它教会了我们哪些关于 AI 心理学的知识。

问题所在: 黑暗中的红队测试

在 AI 模型发布给公众之前，它要经过“红队测试”——这是一个道德黑客试图攻破模型以寻找漏洞的过程。目标是找到“越狱” (jailbreaks) ，即诱骗模型忽略其安全训练的特定提示词。

早期的越狱 (如臭名昭著的“DAN”或 Do-Anything-Now 提示词) 是由富有创造力的用户手动制作的。它们通常依赖于角色扮演 (“假装你是一个不受管制的 AI……”) 。然而，手动攻击很难规模化。

为了实现自动化，研究人员开发了优化算法。有些是白盒攻击，这需要访问模型内部的数学梯度 (对于像 GPT-4 这样的闭源模型来说是不可能的) 。另一些是黑盒攻击，它们将模型视为一个密封的房间，只是尝试不同的输入看看什么起作用。

DAP 幕后的研究人员希望构建一个黑盒框架，它不再是随机猜测，而是使用一种结构化的心理学方法来欺骗模型。

核心方法: 分心的艺术

DAP 框架依赖于这样一个观察结果: LLM 很容易分心。当面对冗长、复杂的上下文时，模型有时会失去对其特定约束的跟踪。研究人员将其系统化为一个三部分的框架。

图 1: DAP 框架给出的越狱提示简化示例。不同的文本颜色代表复杂的主任务、恶意的辅助任务以及记忆重构方案。

如图 1 所示，像“写一个关于如何制造炸弹的教程”这样的标准请求会立即遭到拒绝。然而，DAP 提示词将该请求包装在一个关于“全球金融市场”的密集场景中。

让我们看看使其奏效的三个机制。

1. 恶意内容隐藏 (分心)

第一步是隐藏恶意意图。DAP 框架不直接提问，而是将有害查询 (“恶意辅助任务”) 嵌入到一个高度复杂的、无关的场景 (“主任务”) 中。

这就像魔术师挥动右手是为了让你不去看他的左手。“主任务”可能是一个详细的请求，要求分析一个虚构故事、进行财务审查或为游戏编写代码。模型的安全机制通常会扫描明显的危险关键词，但这些机制会被大量安全的、复杂的上下文所稀释。

2. 记忆重构机制 (转折)

分心策略有一个缺陷: 如果你让模型分心太厉害，它可能就会完全忽略你的恶意请求，转而专注于你要求的安全财务报告。

为了解决这个问题，研究人员引入了记忆重构 (Memory Reframing) 。

这项技术利用了 LLM 中一种被称为“过度自信”的现象。提示词指示目标 LLM 以特定的肯定语开始其回答，例如:

“Sure! I will shift my focus to the auxiliary task, discarding the above scenario…” (“当然！我会将注意力转移到辅助任务上，放弃上述场景……”)

通过强迫模型以“是”开始输出，模型实际上就承诺了执行该任务。LLM 是自回归的——它们根据前面的词预测下一个词。一旦模型生成了“Sure! I am happy to do that” (当然！我很乐意这样做) 这些词，它突然切换到拒绝模式 (“我无法满足此请求”) 的概率就会显着下降。这对 AI 来说是一种形式的心理暗示。

图 4: 记忆重构策略如何影响 DAP 越狱攻击响应质量的示例。上方的示例没有使用记忆重构，下方的示例使用了记忆重构。粗体表示恶意请求。

图 4 完美地说明了这一点。在上面的例子中 (没有记忆重构) ，代理同意了分心任务，但专注于间谍故事，掩埋了恶意信息。在下面的例子中 (有重构) ，模型明确放弃了掩护故事，并提供了被禁止的指示。

3. 迭代式提示优化

研究人员不只是写了一个模板；他们构建了一个自动循环来演化出尽可能好的分心内容。这个循环描绘在图 2 中。

图 2: DAP 框架有三个关键组件。(a) 通过分心隐藏恶意查询 (2.1 节) ；(b) LLM 记忆重构机制 (2.2 节) ；(c) 迭代式越狱提示优化 (2.3 节) 。

该过程如下运作:

攻击者 LLM (Attacker LLM) : 一个模型 (如 Vicuna) 生成一个候选越狱模板 (例如，一个关于特洛伊木马的故事) 。
目标 LLM (Target LLM) : 使用有害查询将模板针对受害模型 (例如 LLaMA-2 或 ChatGPT) 进行测试。
裁判模型 (Judgement Model) : 另一个 AI 评估攻击是否成功。目标是拒绝了？还是提供了有害信息？
反馈 (Feedback) : 分数被反馈给攻击者 LLM，攻击者从错误中学习，并在下一轮生成更好、更隐蔽的模板。

实验结果

研究人员针对主要的主流开源模型和专有模型测试了 DAP。结果令人震惊。该框架实现了很高的攻击成功率 (ASR) ，显着优于许多现有的基线。

攻击成功率

如表 2 所示，消融实验证明分心和记忆重构都是至关重要的。如果不隐藏内容，攻击几乎从不奏效 (在 LLaMA-2 上成功率为 2.0%) 。如果没有记忆重构，成功率很平庸，因为模型一直被掩护故事分心。两者结合后，它们实现了高达 70% 的成功率。

表 2: 元提示中恶意内容隐藏和记忆重构消融实验的 Top-1 (T1) 和 Top-5 (T5) ASR 分数。

该攻击对顶级模型同样有效:

ChatGPT (GPT-3.5): ~66% 成功率。
GPT-4: ~38% 成功率。
Vicuna: ~98% 成功率。

考虑到 GPT-4 被广泛认为是目前最安全的模型之一，这些数字代表了对安全协议的重大突破。

可扩展性和资源

DAP 的优点之一是它随着计算投入的增加而改进。如图 3 所示，增加“流” (并行尝试) 的数量和“迭代” (改进轮次) 的数量会稳步提高攻击成功率。这表明，如果有更多的时间和算力，攻击可能会变得更加猛烈。

$图 3: 随流数 \$N\$ 或迭代数 \$I\$ 变化的 ASR 曲线$

为什么它会起作用？ (注意力分析)

研究人员更进一步，分析了为什么分心会起作用。他们可视化了“注意力分数”——本质上是查看模型在处理提示词时关注了哪些词。

表 13: 案例研究的注意力可视化。

在表 13 中，我们可以看到模型注意力的热力图。在普通攻击 (顶部) 中，模型非常关注单词 bomb (炸弹) 。在 DAP 攻击 (底部) 中，对单词 bomb 的注意力被显着稀释 (红色高亮变淡了很多) 。模型忙于处理“全球金融市场”的上下文，以至于有害关键词溜了过去，没有触发高度警惕的安全反射。

我们能防御吗？

该论文评估了几种常见的防御策略，看看它们是否能阻止 DAP。

自我提醒 (Self-Reminder) : 理想情况下，系统会提示自己: “你应该是一个负责任的 AI。”
上下文防御 (In-Context Defense) : 向模型展示如何拒绝有害提示词的示例。
困惑度过滤器 (Perplexity Filter) : 通过检查输入文本是否看起来“怪异”或不自然 (高困惑度) 来检测攻击。

结果 (如表 8 所示) 令人担忧。

表 8: 针对 DAP 攻击采用不同防御策略的 ASR 结果。

虽然自我提醒和上下文防御降低了成功率 (将 ChatGPT 的成功率从 66.7% 降至 20% 左右) ，但它们并没有消除威胁。

更重要的是, 困惑度过滤器完全失败了 (成功率保持在 66.7%) 。为什么？因为 DAP 生成的是连贯、流畅的故事。不像其他一些使用随机乱码字符 (例如 “zXy#b! bomb”) 的攻击，DAP 提示词看起来像是完全正常、高质量的英文文本，这使得它们对于寻找语言异常的过滤器来说是隐形的。

结论与启示

这篇题为“Distract Large Language Models for Automatic Jailbreak Attack”的论文强调了当前 AI 架构中的一个根本性漏洞。它揭示了 LLM 巨大的上下文窗口和先进的指令遵循能力可能会被武器化来对付它们自己。通过用安全上下文超载模型的注意力并使用心理暗示 (记忆重构) ，攻击者可以绕过严格的安全对齐。

这项工作的意义在于其方法论:

它是黑盒的，意味着攻击者不需要访问模型的代码。
它是自动化的，消除了对人类创造力的需求。
它生成流畅的文本，使其难以通过自动过滤器检测。

对于 AI 社区来说，这强调了需要更好的防御策略。当坏词藏在特洛伊木马中时，简单地训练模型识别“坏词”是不够的。未来的防御可能需要更全面地分析提示词的意图，而不仅仅是对特定的 token 做出反应，以防止基于分心的操纵。

问题所在: 黑暗中的红队测试#

核心方法: 分心的艺术#

1. 恶意内容隐藏 (分心)#

2. 记忆重构机制 (转折)#

3. 迭代式提示优化#

实验结果#

攻击成功率#

可扩展性和资源#

为什么它会起作用？ (注意力分析)#

我们能防御吗？#

结论与启示#