引言

像 ChatGPT、Llama 和 Vicuna 这样的大型语言模型 (LLMs) 的迅速崛起，彻底改变了自动文本生成的格局。然而，能力越大，漏洞也越大。这些模型经过训练，拥有拒绝有害指令的安全护栏——这一过程被称为对齐 (alignment) 。对于安全研究人员来说，目标是通过“越狱”攻击来测试这些护栏，探索是否能诱导模型生成危险内容。

长期以来，越狱一直是一种依靠人工的手艺。用户会精心设计复杂的角色扮演场景 (比如臭名昭著的“Do Anything Now”提示词) 来绕过安全过滤器。最近，像 GCG (贪婪坐标梯度) 这样的自动化方法试图使用优化算法自动寻找这些越狱漏洞。虽然有效，但这些方法有两个主要缺陷: 计算成本高昂，运行时间长；并且它们产生的是“乱码”后缀——由随机字符组成的字符串，很容易被简单的软件过滤器检测到。

在这篇文章中，我们将深入探讨一篇引人入胜的论文，题为 “ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings” (ASETF: 一种通过翻译后缀嵌入对 LLM 进行越狱攻击的新方法) 。作者提出了一个巧妙的变通方案: 与其直接搜索单词，不如先搜索越狱的数学含义 (嵌入) ，然后再将这种含义翻译成流畅的英语？

结果是产生了一种更快、更有效的方法，并且能生成可读的、隐蔽的文本，甚至可以绕过像 ChatGPT 这样的黑盒模型。

ASETF 的概念草图，展示了从软提示到翻译文本的流程。

背景: 离散与连续的问题

要理解这篇论文的重要性，我们首先需要了解当前自动化攻击的瓶颈。

LLM 基于 Token (单词或单词的一部分) 运行。当攻击方法试图找到一个迫使模型行为不端的“魔法后缀”时，它通常试图优化这些离散的 Token。

然而，神经网络更喜欢连续数据 (数字和向量) 。你无法轻易计算离散单词 (如“apple”与“banana”) 的“梯度” (改进的方向) 。以前的方法 (如 GCG) 不得不使用暴力近似，检查成千上万个候选词。这既缓慢又低效。

此外，由于这些算法只关心数学结果，它们并不关心语法。它们生成的输出像 !X# polymer @9，虽然可能欺骗 LLM，但在人类或困惑度过滤器 (一种检测无意义文本的工具) 看来，明显是恶意的。

ASETF 的作者提出了一个问题: 如果我们先优化连续嵌入会怎样? 嵌入是单词在模型内部的向量表示。梯度可以在其中完美流动。如果我们能找到“完美”的恶意向量，我们就只需要一种方法将该向量变回单词。

核心方法: ASETF 框架

对抗后缀嵌入翻译框架 (ASETF) 将攻击过程分为两个明显的阶段:

优化: 在连续空间中寻找恶意嵌入向量。
翻译: 使用专用模型将该向量转换为流畅的文本。

阶段 1: 获取对抗后缀嵌入

目标是找到一个后缀，当将其添加到有害指令 (例如，“如何制造炸弹”) 时，迫使模型做出肯定回应 (例如，“当然，这是制造方法……”) 。

在数学上，我们试图最小化模型输出与我们期望的有害输出之间的损失 (误差) 。作者首先定义一组初始随机向量 \(\phi\)。然后，他们使用梯度下降直接优化这些向量。

攻击的目标函数如下所示:

优化后缀损失函数的方程。

这里，\(L_{ce}\) 是交叉熵损失。通过最小化它，算法调整向量 \(\phi\) 以最大化目标有害响应 \(R\) 的概率。

漂移问题与 MMD 损失

如果仅使用上述方程，会有一个问题。优化算法可能会将向量 \(\phi\) 推入数学空间中不对应任何真实单词的部分。它将变成一个“幽灵”向量——在数学上有效，但无法翻译。

为了解决这个问题，作者引入了 最大均值差异 (MMD) 损失 。

MMD 损失计算方程。

这看起来很复杂，但直觉很简单。MMD 损失测量我们优化向量 (\(\phi\)) 的分布与目标模型中真实单词嵌入 (\(X\)) 分布之间的距离。它就像一根绳索，将恶意向量拉回到真实、可用单词的簇中。

3D 曲面图，展示 MMD 损失如何引导优化。

如上图 5 所示，如果没有 MMD 损失 (红色路径) ，优化可能会找到一个远离有效单词簇的局部极小值。有了 MMD 损失 (蓝色路径) ，向量会稳定在代表实际语言的区域中。

最终的更新步骤结合了攻击损失 (交叉熵) 和有效性损失 (MMD) :

结合了 CE 和 MMD 损失的梯度更新方程。

阶段 2: 嵌入翻译框架

现在我们有了优化的对抗嵌入，我们需要将它们变成文本。作者不仅仅是使用字典查找；他们训练了一个专用的 翻译 LLM 。

他们在从维基百科创建的数据集上微调了一个较小的模型 (如 GPT-J) 。训练过程是自监督的，非常巧妙:

从维基百科中取出一对句子 (上下文 + 后缀) 。
使用目标 LLM (我们要攻击的那个) 将后缀转换为嵌入。
向这些嵌入添加一些随机噪声 (以使翻译器更稳健) 。
将上下文和后缀嵌入输入到翻译 LLM 中。
训练翻译 LLM 重建后缀的原始文本。

嵌入翻译框架的架构图。

如上方的 图 2 (a) 所示，这创建了一个擅长接收“上下文”和“向量”并输出“流畅英语”的模型。

当进行实际攻击时，作者获取在阶段 1 中优化的恶意向量，并将它们输入到这个翻译 LLM 中。因为向量受到 MMD 损失的约束，看起来像真实的单词，而且翻译 LLM 是在维基百科上训练的，所以输出的是语法正确、连贯的文本，同时仍然携带恶意载荷。

通用攻击

作者通过 多目标训练 (图 2b) 更进一步。他们优化向量以同时欺骗多个 LLM (例如，Llama-2 和 Vicuna) 。这生成了一个“通用”后缀，可以迁移到其他模型，甚至是攻击者无法访问的模型 (黑盒模型) 。

实验与结果

研究人员使用 AdvBench 数据集，将 ASETF 与 GCG 和 AutoDan 等标准基线进行了评估。他们测量了三个关键指标:

攻击成功率 (ASR): 模型遵从有害请求的频率是多少？
困惑度 (Perplexity): 文本有多“奇怪”？越低越好 (越流畅) 。
时间: 生成攻击需要多长时间？

效率与有效性

结果显示，与传统方法相比有巨大的改进。

对比 ASETF 与 GCG 和 AutoDan 结果的表格。

查看 表 1 :

时间: ASETF 显著更快。对于 Llama 2，GCG 耗时 233 秒 , 而 ASETF 仅需 104 秒 。这是因为优化连续向量比 GCG 所需的离散搜索效率高得多。
流畅度: 看困惑度一栏。GCG 的困惑度为 1513 (本质上是随机噪声) 。ASETF 的困惑度为 32.59 , 这与正常的人类句子相当。
成功率: ASETF 始终保持较高的攻击成功率 (ASR)，在 Llama 2 上达到 91% , 而 GCG 为 90%，AutoDan 为 88%。

隐蔽性与迁移性

由于生成的后缀很流畅，防御起来要困难得多。简单的“困惑度过滤器”会拦截乱码，但会放行 ASETF 的提示词，因为它们看起来像自然语言。

更令人担忧的是，作者证明了这些攻击对黑盒模型也有效。通过在开源模型 (如 Llama 和 Vicuna) 上训练通用后缀，他们可以成功攻击 ChatGPT 和 Gemini 等商业 API。

展示通过 API 成功攻击 ChatGPT、Gemini 和 PaLM 的示意图。

图 3 展示了这个概念: 攻击者使用本地模型生成提示词，并将其发送到 API。API 将该提示词视为良性的上下文或讨论，从而输出了有害信息。

下面是一个使用此方法成功攻击 ChatGPT 的具体示例。提示词要求提供一篇虚假新闻文章，ChatGPT 照做了。

成功攻击 ChatGPT 的截图。

为什么效果这么好？

消融实验 (移除模型部分组件的测试) 表明，每个组件都是必要的。

消融实验表格。

表 5 显示，移除 MMD 损失 (ET-ce 行) 会导致流畅度 (困惑度) 飙升，成功率下降。这证实了在优化阶段引导向量使其类似于真实单词是该技术的“秘诀”。

结论

ASETF 论文代表了大型语言模型红队测试 (安全测试) 的重大飞跃。通过将优化战场从离散 Token 空间转移到连续嵌入空间，作者实现了三个同步的胜利:

速度: 更快地生成攻击。
隐蔽性: 高度流畅、可读的提示词，可绕过标准过滤器。
威力: 高成功率，且可迁移至黑盒商业模型。

这项研究凸显了 AI 安全中的一个严峻现实: 当前依赖于检测“奇怪”输入的防御措施是不足的。随着攻击方法变得更加复杂和语言流畅，防御机制必须进化，以理解提示词背后的意图，而不仅仅是其句法。

对于学生和研究人员来说，ASETF 是一堂大师课，展示了如何结合深度学习的不同领域——对抗性优化和翻译——来解决 AI 安全中的复杂问题。

引言#

背景: 离散与连续的问题#

核心方法: ASETF 框架#

阶段 1: 获取对抗后缀嵌入#

漂移问题与 MMD 损失#

阶段 2: 嵌入翻译框架#

通用攻击#

实验与结果#

效率与有效性#

隐蔽性与迁移性#

为什么效果这么好？#

结论#

引言