以毒攻毒: 利用对抗攻击修复语言模型

在自然语言处理 (NLP) 领域，像 BERT 和 RoBERTa 这样的预训练语言模型 (PLMs) 在从情感分析到新闻分类等任务上都取得了超越人类的表现。然而，这些模型存在着惊人的脆弱性: 它们很容易被对抗样本 (adversarial examples) 所欺骗。

想象一下，一条电影评论写道: “This is a fascinating exploration of alienation.” (这是对异化现象的迷人探索。) PLM 会正确地将其分类为正面评论。现在，想象一个恶意行为者将“exploration” (探索) 一词换成了“investigation” (调查) 。对人类来说，这句话的意思大致相同。但对 PLM 来说，这一微小的变化可能会导致它以极高的置信度将该评论归类为负面。

这就是文本对抗攻击的问题。虽然研究人员已经开发了防御措施，但大多数方法要么计算成本高昂，要么无法恢复文本的原始含义 (语义) 。

在最近一篇题为 “The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples” 的论文中，研究人员提出了一种反直觉的解决方案: 反应式扰动去焦 (Reactive Perturbation Defocusing, RAPID) 。他们的方法基于一个迷人的原理——如果我们能再次“攻击”对抗样本，也许我们就能够修复它。

现代 NLP 的脆弱性

在深入探讨解决方案之前，我们必须先了解问题所在。对抗样本是专门设计用来欺骗机器学习模型的输入。在计算机视觉中，这可能意味着在一张熊猫照片上改变几个像素，就能让神经网络确信它看到的是一只长臂猿。在文本中，它涉及替换单词、引入拼写错误或改写句子来翻转模型的预测。

目前的防御措施通常分为三类:

对抗训练 (Adversarial Training) : 在训练期间将对抗样本输入模型，使其学会识别它们。这通常会损害模型在在干净数据上的准确性。
对抗重构 (Adversary Reconstruction) : 试图进行“拼写检查”或重构原始句子。这非常消耗资源。
对抗防御 (Adversarial Defense) : 检测并拦截攻击。

RAPID 的作者指出了现有防御措施的两大瓶颈。首先，现有方法难以区分自然文本和对抗文本，经常对不需要防御的输入进行防御。其次，当它们尝试修复文本时，往往无法恢复语义，导致模型感到困惑。

RAPID 登场: 反应式扰动去焦

RAPID 的核心理念是: 进攻是最好的防守。RAPID 不会被动地试图过滤噪声，而是主动利用对抗攻击者来修复文本。

该框架分两个不同阶段运行:

联合模型训练: 创建一个既作为分类器又作为检测器的模型。
反应式对抗防御: 检测攻击并使用“扰动去焦”来修复它们。

RAPID 的整体架构和工作流程，展示了阶段 1 (训练) 和阶段 2 (防御) 。

如上图 3 所示，工作流程是循环的。我们从训练一个鲁棒的模型开始，然后在推理阶段 (阶段 #2) ，我们检测输入是否是恶意的。如果是，我们就修复它；如果不是，我们就正常处理。

阶段 #1: 联合模型训练

要修复攻击，首先你得知道自己正在被攻击。研究人员设计了一个训练过程，教导 PLM (受害模型) 同时执行两项任务:

对文本进行分类 (例如，这条评论是正面还是负面的？) 。
检测文本是否为对抗样本 (真实的还是伪造的？) 。

为了实现这一点，他们创建了一个混合数据集，其中既包含干净样本，也包含由已知攻击者 (如 BAE、PWWS 和 TextFooler) 生成的对抗样本。

该模型使用复合损失函数进行训练，以平衡这些目标。

包含分类、检测和对抗训练组件的组合损失函数方程。

让我们分解这个方程:

\(\mathcal{L}_c\) (分类损失) : 确保模型在干净数据上准确执行其主要任务。
\(\mathcal{L}_d\) (检测损失) : 训练二元分类器区分自然样本 (0) 和对抗样本 (1) 。
\(\mathcal{L}_a\) (对抗训练损失) : 帮助模型从对抗样本本身学习鲁棒的特征。

通过最小化这种组合损失，该模型变成了一个“联合模型”——它不再仅仅是一个单纯的分类器；它是一个不需要单独、昂贵的检测网络就能标记可疑输入的哨兵。

阶段 #2: 反应式对抗防御

这就是奇迹发生的地方。一旦联合模型部署完毕，它就会处理传入的文本。

第 1 步: 对抗检测

对于每个输入，模型会输出一个预测结果和一个检测标志。如果检测标志显示“自然 (Natural) ”，模型会立即输出标准预测。与对每个输入都进行清洗的防御措施相比，这节省了大量的计算能力。

然而，如果检测标志显示“对抗 (Adversarial) ”，系统就会触发扰动去焦 (Perturbation Defocusing, PD) 机制。

第 2 步: 扰动去焦

这是论文的主要贡献。研究人员发现，如果一个样本被恶意扰动 (篡改) 过，对其应用另一次对抗攻击实际上可以纠正语义漂移。

理想情况下，对抗攻击试图以最小的改动改变预测标签。如果模型已经被欺骗成了一个错误的标签 (例如，一个正面评论被标记为“负面”) ，那么针对那个错误标签运行对抗攻击，将试图把它翻转回“正面”。

比较使用 RAPID 成功防御与防御失败的图示。

考虑上图 2 中的例子。

原始: “This is the most intriguing exploration of alienation.” (正面)
攻击 (劫持) : 单词“exploration”被替换为“investigation”。对模型而言，在这种语境下，“investigation”可能带有负面含义或统计权重。模型现在的预测是负面。
RAPID 的防御: 系统检测到攻击。然后，它使用对抗攻击者 (具体为 PWWS) 来“攻击”这个句子 “This is the most intriguing investigation…”，目标是针对标签“负面”。
修复: 攻击者插入单词“interesting”或替换一个单词以将标签翻转回去。结果是: “This is the most interesting investigation…”
结果: 模型从恶意扰动 (“investigation”) 中被转移了注意力，转而关注新的、正面的语境 (“interesting”) ，将预测翻转回正面。

这个过程被称为去焦 (defocusing) , 因为它将受害模型的注意力从导致错误的恶意扰动上转移开来。

第 3 步: 伪语义相似度过滤

当我们运行这种“反击”时，我们可能会生成几个潜在的修复后句子。我们如何选择最好的一个？

研究人员接受一组修复后的候选样本，并基于语义相似度对它们进行过滤。他们将修复后的样本编码为特征向量，并计算它们之间的余弦相似度。

计算修复样本与其同类样本的平均相似度得分的方程。

这个想法是，“正确”的修复代表了文本真实的语义含义。偏离含义太远的异常值会被丢弃。系统选择与修复样本群集具有最高相似度得分的候选者，以确保最终输出在语义上是一致的。

实验结果

研究人员使用 BERT 和 DeBERTa 作为受害模型，在四个标准数据集 (SST2、Amazon、AGNews、Yahoo!) 上评估了 RAPID。他们将 RAPID 与现有的防御方法 (如 DISP、FGWS 和 RS&V) 进行了比较。

检测与修复准确率

第一个问题是: RAPID 真的能发现攻击吗？

表格显示 RAPID 在多个数据集上相较于基线方法实现了高准确率。

表 2 突显了 RAPID 的优势 (最后几行) 。

DtA (检测准确率) : RAPID 始终能识别出超过 90% 的对抗样本，在 SST2 数据集上高达 96%。
DfA (防御准确率) : 该指标衡量系统正确修复输入的频率。RAPID 取得了高达 99.9% 的分数，显着优于 RS&V 等方法 (通常徘徊在 30-80% 左右) 。
RPA (修复后准确率) : 这是终极测试——模型在修复后能得到正确答案吗？RAPID 将准确率恢复到了接近原始水平 (例如，在 Amazon 数据集上遭受 BAE 攻击时达到 99.99%) 。

语义恢复

对先前方法的一个主要批评是，即使它们修正了标签，也会破坏文本的含义。为了测试这一点，作者比较了修复后文本与原始自然文本的余弦相似度。

比较对抗样本对与修复样本对的余弦相似度的箱线图。

在图 1 中，请观察红框 (对抗样本) 和黑点 (修复样本) 的区别。

RS&V (底行) : 修复后的样本 (黑点) 的相似度得分比对抗样本低得多。这意味着“修复”后的文本比攻击后的文本更不像原始文本！
RAPID (顶行) : 黑点 (修复后) 向右移动，显示出更高的相似度。这表明 RAPID 不仅仅是翻转标签；它实际上正在恢复句子的语义含义，使其与原始输入相匹配。

防御未知攻击

安全领域最大的挑战之一是防御零日攻击——即模型从未见过的方法。研究人员使用标准攻击者 (BAE、PWWS) 训练 RAPID，但使用完全不同的算法 (如 PSO、IGA，甚至 ChatGPT )对其进行测试。

表格显示针对 ChatGPT 生成的攻击的防御性能。

表 6 证明了 RAPID 即使在面对大型语言模型时也具有高度的鲁棒性。当面对由 ChatGPT-3.5 生成的对抗样本时，RAPID 在 SST2 上修复了 74% 的攻击，在 Amazon 上修复了 82%，大幅优于 RS&V 基线。这表明“扰动去焦”技术具有很好的泛化能力，因为它依赖于模型的内部鲁棒性，而不是记忆特定的攻击模式。

这为何重要

RAPID 的意义对于 NLP 在现实世界中的部署至关重要。

效率: 通过将检测集成到受害模型中 (阶段 1) ，RAPID 避免了对每个用户输入都运行防御的计算成本。它只在必要时“反应”。
语义完整性: 与随机交换同义词直到标签翻转的方法不同，RAPID 利用模型自身的梯度 (通过攻击者) 来寻找回到正确标签的最逻辑路径。
简单性: 论文证明了我们不一定需要复杂的外部防御网络。有时候，用来破坏模型的工具也是修复模型的最佳工具。

结论

“The Best Defense is Attack” 提出了文本对抗防御的范式转变。Yang 和 Li 承认 PLM 容易受到扰动的影响，并利用正是这些弱点将模型引导回安全状态。

RAPID 证明了反应式扰动去焦不仅比基于重构的方法更准确，而且在计算上也更智能。它恢复了文本的深层语义，确保当模型说一条电影评论是“正面”时，是因为它理解了情感，而不是因为它被同义词欺骗了。

随着大语言模型日益融入我们的数字基础设施，像 RAPID 这样鲁棒、高效且具有语义感知的防御措施对于建立对 AI 系统的信任将至关重要。下次当 AI 被巧妙的单词替换弄糊涂时，解决方案可能恰恰是把它“糊涂”回正确的答案。

以毒攻毒: 利用对抗攻击修复语言模型#

现代 NLP 的脆弱性#

RAPID 登场: 反应式扰动去焦#

阶段 #1: 联合模型训练#

阶段 #2: 反应式对抗防御#

第 1 步: 对抗检测#

第 2 步: 扰动去焦#

第 3 步: 伪语义相似度过滤#

实验结果#

检测与修复准确率#

语义恢复#

防御未知攻击#

这为何重要#

结论#