引言
像 ChatGPT、Llama 和 Vicuna 这样的大型语言模型 (LLMs) 的迅速崛起,彻底改变了自动文本生成的格局。然而,能力越大,漏洞也越大。这些模型经过训练,拥有拒绝有害指令的安全护栏——这一过程被称为对齐 (alignment) 。对于安全研究人员来说,目标是通过“越狱”攻击来测试这些护栏,探索是否能诱导模型生成危险内容。
长期以来,越狱一直是一种依靠人工的手艺。用户会精心设计复杂的角色扮演场景 (比如臭名昭著的“Do Anything Now”提示词) 来绕过安全过滤器。最近,像 GCG (贪婪坐标梯度) 这样的自动化方法试图使用优化算法自动寻找这些越狱漏洞。虽然有效,但这些方法有两个主要缺陷: 计算成本高昂,运行时间长;并且它们产生的是“乱码”后缀——由随机字符组成的字符串,很容易被简单的软件过滤器检测到。
在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 “ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings” (ASETF: 一种通过翻译后缀嵌入对 LLM 进行越狱攻击的新方法) 。 作者提出了一个巧妙的变通方案: 与其直接搜索单词,不如先搜索越狱的数学含义 (嵌入) ,然后再将这种含义翻译成流畅的英语?
结果是产生了一种更快、更有效的方法,并且能生成可读的、隐蔽的文本,甚至可以绕过像 ChatGPT 这样的黑盒模型。

背景: 离散与连续的问题
要理解这篇论文的重要性,我们首先需要了解当前自动化攻击的瓶颈。
LLM 基于 Token (单词或单词的一部分) 运行。当攻击方法试图找到一个迫使模型行为不端的“魔法后缀”时,它通常试图优化这些离散的 Token。
然而,神经网络更喜欢 连续 数据 (数字和向量) 。你无法轻易计算离散单词 (如“apple”与“banana”) 的“梯度” (改进的方向) 。以前的方法 (如 GCG) 不得不使用暴力近似,检查成千上万个候选词。这既缓慢又低效。
此外,由于这些算法只关心数学结果,它们并不关心语法。它们生成的输出像 !X# polymer @9,虽然可能欺骗 LLM,但在人类或困惑度过滤器 (一种检测无意义文本的工具) 看来,明显是恶意的。
ASETF 的作者提出了一个问题: 如果我们先优化连续嵌入会怎样? 嵌入是单词在模型内部的向量表示。梯度可以在其中完美流动。如果我们能找到“完美”的恶意向量,我们就只需要一种方法将该向量变回单词。
核心方法: ASETF 框架
对抗后缀嵌入翻译框架 (ASETF) 将攻击过程分为两个明显的阶段:
- 优化: 在连续空间中寻找恶意嵌入向量。
- 翻译: 使用专用模型将该向量转换为流畅的文本。
阶段 1: 获取对抗后缀嵌入
目标是找到一个后缀,当将其添加到有害指令 (例如,“如何制造炸弹”) 时,迫使模型做出肯定回应 (例如,“当然,这是制造方法……”) 。
在数学上,我们试图最小化模型输出与我们期望的有害输出之间的损失 (误差) 。作者首先定义一组初始随机向量 \(\phi\)。然后,他们使用梯度下降直接优化这些向量。
攻击的目标函数如下所示:

这里,\(L_{ce}\) 是交叉熵损失。通过最小化它,算法调整向量 \(\phi\) 以最大化目标有害响应 \(R\) 的概率。
漂移问题与 MMD 损失
如果仅使用上述方程,会有一个问题。优化算法可能会将向量 \(\phi\) 推入数学空间中不对应任何真实单词的部分。它将变成一个“幽灵”向量——在数学上有效,但无法翻译。
为了解决这个问题,作者引入了 最大均值差异 (MMD) 损失 。

这看起来很复杂,但直觉很简单。MMD 损失测量我们优化向量 (\(\phi\)) 的分布与目标模型中真实单词嵌入 (\(X\)) 分布之间的距离。它就像一根绳索,将恶意向量拉回到真实、可用单词的簇中。

如上图 5 所示,如果没有 MMD 损失 (红色路径) ,优化可能会找到一个远离有效单词簇的局部极小值。有了 MMD 损失 (蓝色路径) ,向量会稳定在代表实际语言的区域中。
最终的更新步骤结合了攻击损失 (交叉熵) 和有效性损失 (MMD) :

阶段 2: 嵌入翻译框架
现在我们有了优化的对抗嵌入,我们需要将它们变成文本。作者不仅仅是使用字典查找;他们训练了一个专用的 翻译 LLM 。
他们在从维基百科创建的数据集上微调了一个较小的模型 (如 GPT-J) 。训练过程是自监督的,非常巧妙:
- 从维基百科中取出一对句子 (上下文 + 后缀) 。
- 使用目标 LLM (我们要攻击的那个) 将后缀转换为嵌入。
- 向这些嵌入添加一些随机噪声 (以使翻译器更稳健) 。
- 将上下文和后缀嵌入输入到翻译 LLM 中。
- 训练翻译 LLM 重建后缀的原始文本。

如上方的 图 2 (a) 所示,这创建了一个擅长接收“上下文”和“向量”并输出“流畅英语”的模型。
当进行实际攻击时,作者获取在阶段 1 中优化的恶意向量,并将它们输入到这个翻译 LLM 中。因为向量受到 MMD 损失的约束,看起来像真实的单词,而且翻译 LLM 是在维基百科上训练的,所以输出的是语法正确、连贯的文本,同时仍然携带恶意载荷。
通用攻击
作者通过 多目标训练 (图 2b) 更进一步。他们优化向量以同时欺骗多个 LLM (例如,Llama-2 和 Vicuna) 。这生成了一个“通用”后缀,可以迁移到其他模型,甚至是攻击者无法访问的模型 (黑盒模型) 。
实验与结果
研究人员使用 AdvBench 数据集,将 ASETF 与 GCG 和 AutoDan 等标准基线进行了评估。他们测量了三个关键指标:
- 攻击成功率 (ASR): 模型遵从有害请求的频率是多少?
- 困惑度 (Perplexity): 文本有多“奇怪”?越低越好 (越流畅) 。
- 时间: 生成攻击需要多长时间?
效率与有效性
结果显示,与传统方法相比有巨大的改进。

查看 表 1 :
- 时间: ASETF 显著更快。对于 Llama 2,GCG 耗时 233 秒 , 而 ASETF 仅需 104 秒 。 这是因为优化连续向量比 GCG 所需的离散搜索效率高得多。
- 流畅度: 看困惑度一栏。GCG 的困惑度为 1513 (本质上是随机噪声) 。ASETF 的困惑度为 32.59 , 这与正常的人类句子相当。
- 成功率: ASETF 始终保持较高的攻击成功率 (ASR),在 Llama 2 上达到 91% , 而 GCG 为 90%,AutoDan 为 88%。
隐蔽性与迁移性
由于生成的后缀很流畅,防御起来要困难得多。简单的“困惑度过滤器”会拦截乱码,但会放行 ASETF 的提示词,因为它们看起来像自然语言。
更令人担忧的是,作者证明了这些攻击对黑盒模型也有效。通过在开源模型 (如 Llama 和 Vicuna) 上训练通用后缀,他们可以成功攻击 ChatGPT 和 Gemini 等商业 API。

图 3 展示了这个概念: 攻击者使用本地模型生成提示词,并将其发送到 API。API 将该提示词视为良性的上下文或讨论,从而输出了有害信息。
下面是一个使用此方法成功攻击 ChatGPT 的具体示例。提示词要求提供一篇虚假新闻文章,ChatGPT 照做了。

为什么效果这么好?
消融实验 (移除模型部分组件的测试) 表明,每个组件都是必要的。

表 5 显示,移除 MMD 损失 (ET-ce 行) 会导致流畅度 (困惑度) 飙升,成功率下降。这证实了在优化阶段引导向量使其类似于真实单词是该技术的“秘诀”。
结论
ASETF 论文代表了大型语言模型红队测试 (安全测试) 的重大飞跃。通过将优化战场从离散 Token 空间转移到连续嵌入空间,作者实现了三个同步的胜利:
- 速度: 更快地生成攻击。
- 隐蔽性: 高度流畅、可读的提示词,可绕过标准过滤器。
- 威力: 高成功率,且可迁移至黑盒商业模型。
这项研究凸显了 AI 安全中的一个严峻现实: 当前依赖于检测“奇怪”输入的防御措施是不足的。随着攻击方法变得更加复杂和语言流畅,防御机制必须进化,以理解提示词背后的意图,而不仅仅是其句法。
对于学生和研究人员来说,ASETF 是一堂大师课,展示了如何结合深度学习的不同领域——对抗性优化和翻译——来解决 AI 安全中的复杂问题。
](https://deep-paper.org/en/paper/2402.16006/images/cover.png)