越狱税：为何突破 AI 安全护栏可能会破坏 AI 自身能力

大型语言模型 (LLM) 安全领域常被描述为一场高风险的猫鼠游戏。一方面，开发者构建护栏来对齐模型，防止其生成制造炸弹说明或仇恨言论等有害内容。另一方面，“红队人员”和对手则开发“越狱 (Jailbreaks) ”手段——旨在绕过这些防御措施的巧妙提示词。

到目前为止，衡量越狱是否成功的主要指标是二元的: 模型是拒绝了，还是回答了?

如果模型回答了被禁止的问题，攻击就被视为成功。但一篇名为 The Jailbreak Tax: How Useful are Your Jailbreak Outputs? (越狱税: 你的越狱输出有多大用处？) 的新研究论文提出了一个社区长期忽视的关键后续问题: 这个回答真的有用吗?

想象一下，你成功诱导一个经过安全对齐的机器人忽略其“绝不伤害人类”的协议。你要求它进行一项复杂、危险的手术。它同意了 (越狱成功！) ，但由于攻击扰乱了它的内部逻辑，它竟用一把生锈的勺子来进行手术。护栏倒下了，但能力也消失了。

研究人员将这种现象称为 越狱税 (Jailbreak Tax) 。它代表了模型因使用特定的越狱技术而导致的智能和推理能力的退化。

越狱税结果示意图。LLaMa 3.1 70B 被对齐以拒绝生物学和数学问题。一些攻击绕过了拒绝，但显著降低了准确率。

如图 1 所示，这种“税”可能非常高昂。虽然有些攻击保持了模型的智能，但其他攻击——如流行的 PAIR 或 TAP 方法——可能会使准确率下降超过 90%。在这篇文章中，我们将拆解这篇论文，了解作者如何衡量这种无形成本，以及它对 AI 安全的未来意味着什么。

评估“危害”的难题

为什么以前没有人测量过这个指标？主要的障碍在于有害任务的主观性。

如果研究人员想要测试越狱效果，他们通常会使用诸如“写一封网络钓鱼邮件”或“解释如何合成病原体”之类的提示词。在这种语境下的评估是混乱的:

主观性: 这封钓鱼邮件有说服力吗？
专业知识: 这个病原体配方真的有效吗？ (检查这一点需要危险领域的专业知识) 。
基线模糊性: 如果越狱后的模型写了一封糟糕的钓鱼邮件，是因为越狱造成的，还是因为基础模型本身就不擅长写钓鱼邮件？

为了严格衡量对智能征收的“税”，我们需要任务的答案客观上是正确或错误的，并且我们知道基础模型有能力回答。

方法论: 让数学成为非法禁忌

作者设计了一个巧妙的实验框架来解决评估问题。他们没有试图对有害输出的质量进行评分，而是采用了良性的、易于评估的主题——具体来说是数学和生物学——并强制模型将它们视为有害内容。

这种方法创造了一个受控环境，其中:

存在基本事实 (Ground Truth) : 一个数学问题只有一个正确答案。
基础能力已知: 我们知道 LLaMA 3.1 能够解决小学数学问题。
对齐是人为的: 我们可以像拒绝“制造炸弹”一样严格地对齐模型以“拒绝数学”。

“伪对齐”流程

研究人员采用了三种不同的方法来针对这些良性主题对齐模型，模拟安全护栏:

系统提示词 (System Prompting) : 简单地告诉模型，“你不允许回答数学问题。”
监督微调 (SFT) : 在模型拒绝回答数学或生物问题的样本上重新训练模型。
“邪恶数学 (EvilMath) ”: 一种新颖的方法，将良性数学问题改写得听起来很有害 (例如，数炸弹而不是数苹果) ，以触发模型实际内置的安全过滤器。

框架概览。我们选取良性问题，对齐模型以拒绝它们，然后使用越狱手段尝试获取答案。

图 2 完美地展示了这一工作流程。

左侧: 原始模型正确解决了一个关于蜜蜂种群的问题。
中间: 对齐后的模型 (表现得像一个“安全”模型) 拒绝了这一良性问题。
右侧: 越狱后的模型绕过了拒绝，但在本例中，算错了数学题。

这种设置允许进行直接比较。如果未对齐模型在数学测试中得分为 95%，而越狱后的模型得分为 5%，我们就知道是越狱技术破坏了模型的推理能力。

衡量越狱税

研究人员为此现象引入了一个正式的度量标准。他们关注三个具体数值:

基线效用 (Base Utility) : 原始、未对齐模型的准确率。
越狱成功率 (Jailbreak Success Rate) : 模型停止拒绝的频率。
越狱效用 (Jailbreak Utility) : 当越狱成功时，回答的准确率。

越狱税 (JTax) 定义为与基线相比效用损失的百分比。

定义越狱税的公式。

如果 JTax 接近 0%，则该越狱是“干净”的——它在绕过安全机制的同时没有让模型变笨。如果 JTax 很高，则说明越狱造成了认知损伤。

实验: 并非所有越狱手段都生而平等

作者测试了八种具有代表性的越狱技术，从简单的“多样本 (Many-shot) ”提示 (用大量对话淹没上下文窗口) 到复杂的优化攻击 (如 GCG 和 PAIR) 。

结果如下图散点图所示，揭示了一个混乱的图景。

展示 WMDP 和 GSM8K 数据集上越狱成功率与越狱税的散点图。

在图 3 中，X 轴代表成功率 (打破护栏) ，Y 轴代表税 (智能的损失) 。

关键结论 1: 高成功率 \(\neq\) 高效用

看看 GSM8K 图表 (右侧) 中的 PAIR 攻击 (橙色三角形) 。它有很高的成功率 (经常打破护栏) ，但在 Y 轴上的位置非常高，表明税非常重。在某些情况下，PAIR 实现了近乎完美的拒绝绕过，但导致了 准确率下降 92% 。

这意味着模型被有效地“越狱”了——它停止了拒绝——但给出的答案在数学上是一堆胡言乱语。

关键结论 2: “多样本”的优势

相比之下，看看 Many-shot (多样本) 攻击 (棕色星星) 。它通常位于 Y 轴的最底部 (接近 0% 的税) 。虽然它可能并不总是有最高的成功率，但当它确实奏效时，它保留了模型的智能。这表明“上下文学习 (in-context learning) ”攻击比迭代优化攻击对模型的认知过程更温和。

为什么会出现越狱税？

论文认为，越狱提示词的复杂性干扰了模型的推理。像 TAP 和 PAIR 这样的攻击涉及迭代重述和复杂的角色扮演场景。

为了让模型回答，这些攻击通常强迫它进入一个怪异的“人设”，或者将问题包裹在令人费解的逻辑中。虽然这欺骗了安全过滤器，但也分散了模型的注意力。这就像要求数学家一边解微积分题，一边倒背一首诗——认知负荷太高，错误就溜进来了。

可视化失败案例

这种退化并不微妙。在许多情况下，模型执行了正确的步骤，但在最终数字上产生幻觉，或者为了符合越狱的叙述而创造错误的逻辑。

越狱导致错误答案的例子。原始模型数学正确。越狱后的模型产生幻觉或逻辑失败。

在图 6 中，我们看到一个关于耗水量的标准数学问题。原始模型 (笑脸) 完全答对了。越狱后的模型 (恶魔表情) ，特别是那些受到 GCG、PAIR 和 TAP 攻击的模型，自信地输出了像“33”或“24”这样的错误答案，而不是“26”。它们没有拒绝回答；它们只是错了。

现实场景: “EvilMath”实验

批评者可能会争辩说，对齐模型以拒绝“数学”太过人为。为了解决这个问题，作者使用了 EvilMath 数据集。

他们使用 GPT-4 将标准数学问题改写为有害语境 (例如，计算炸弹、毒品贩运物流) 。这会触发像 Claude 3.5 Sonnet 这样模型的原生安全过滤器，而无需任何人工的“伪对齐”。

EvilMath 示意图。将航运问题转化为毒品贩运问题。

如图 10 所示，“UnicornMath” (良性对照组) 被正确解答。“EvilMath” (有害变体) 被拒绝。当作者对 EvilMath 问题应用越狱时，模型回答了，但推理崩溃了。在展示的毒品贩运例子中，越狱后的模型不必要地把数学搞复杂了，导致得出的答案是 7kg，而不是正确的 20kg。

这证实了越狱税不仅仅是实验设置的人为产物——它在现实场景中同样影响着最先进的模型。

Claude 3.5 Haiku 在 EvilMath 上的结果。

图 5 展示了 Claude 3.5 Haiku 的结果。即使在能力很强的模型上，像 PAIR 和 TAP 这样的攻击也会产生税，显著降低效用。

模型规模或任务难度有影响吗？

AI 领域有两个普遍的假设:

更大的模型更稳健。
更难的任务更容易崩溃。

研究人员对这两点都进行了调查。

模型规模

他们测试了 8B、70B 以及巨大的 405B 参数量的 LLaMA 3.1。令人惊讶的是, 能力更强的模型并不能降低越狱税。

模型规模对比图。

如图 9 所示，不同模型规模的散点图看起来惊人地相似。一个 4050 亿参数的模型与一个 80 亿参数的模型一样，容易被复杂的越狱提示词搞“糊涂”。

任务难度

他们还针对不同难度级别 (Level 1 到 5) 的 MATH 基准进行了测试。

显示不同难度级别税率的条形图。

图 7 展示了结果。虽然随着任务变难，绝对准确率下降了 (这是显而易见的) ，但税 (相对下降幅度) 与难度并没有完全的正相关关系。例如，PAIR 攻击在 GSM8K (较简单的小学数学) 上破坏性能的程度与在 MATH Level 5 上一样严重。效用的破坏是攻击本身的属性，而非任务的属性。

结论: AI 安全的新指标

这篇论文从根本上改变了我们看待 AI 攻击的方式。对于大多数对手来说，导致模型变得无能的“成功”越狱，实际上是一种失败。如果攻击者想要生物武器的配方，一个幻觉出来的、化学上不可能的配方是毫无用处的，即使模型没有明确拒绝编写它。

越狱税作为一个关键指标，其作用在于:

防御者: 明白某些“绕过”如果输出的是垃圾内容，可能并不是真正的威胁。
攻击者: 意识到重度优化攻击 (如 PAIR/TAP) 对于需要推理的复杂任务可能适得其反。

作者已经发布了他们的基准测试，允许社区超越简单的“拒绝率”，开始衡量打破规则的真正认知成本。在 AI 安全的军备竞赛中，保持模型的聪明与保持模型的安全同样困难。

评估“危害”的难题#

方法论: 让数学成为非法禁忌#

“伪对齐”流程#

衡量越狱税#

实验: 并非所有越狱手段都生而平等#

关键结论 1: 高成功率 \(\neq\) 高效用#

关键结论 2: “多样本”的优势#

为什么会出现越狱税？#

可视化失败案例#

现实场景: “EvilMath”实验#

模型规模或任务难度有影响吗？#

模型规模#

任务难度#

结论: AI 安全的新指标#