以毒攻毒: 利用对抗攻击修复语言模型
在自然语言处理 (NLP) 领域,像 BERT 和 RoBERTa 这样的预训练语言模型 (PLMs) 在从情感分析到新闻分类等任务上都取得了超越人类的表现。然而,这些模型存在着惊人的脆弱性: 它们很容易被对抗样本 (adversarial examples) 所欺骗。
想象一下,一条电影评论写道: “This is a fascinating exploration of alienation.” (这是对异化现象的迷人探索。) PLM 会正确地将其分类为正面评论。现在,想象一个恶意行为者将“exploration” (探索) 一词换成了“investigation” (调查) 。对人类来说,这句话的意思大致相同。但对 PLM 来说,这一微小的变化可能会导致它以极高的置信度将该评论归类为负面。
这就是文本对抗攻击的问题。虽然研究人员已经开发了防御措施,但大多数方法要么计算成本高昂,要么无法恢复文本的原始含义 (语义) 。
在最近一篇题为 “The Best Defense is Attack: Repairing Semantics in Textual Adversarial Examples” 的论文中,研究人员提出了一种反直觉的解决方案: 反应式扰动去焦 (Reactive Perturbation Defocusing, RAPID) 。 他们的方法基于一个迷人的原理——如果我们能再次“攻击”对抗样本,也许我们就能够修复它。
现代 NLP 的脆弱性
在深入探讨解决方案之前,我们必须先了解问题所在。对抗样本是专门设计用来欺骗机器学习模型的输入。在计算机视觉中,这可能意味着在一张熊猫照片上改变几个像素,就能让神经网络确信它看到的是一只长臂猿。在文本中,它涉及替换单词、引入拼写错误或改写句子来翻转模型的预测。
目前的防御措施通常分为三类:
- 对抗训练 (Adversarial Training) : 在训练期间将对抗样本输入模型,使其学会识别它们。这通常会损害模型在在干净数据上的准确性。
- 对抗重构 (Adversary Reconstruction) : 试图进行“拼写检查”或重构原始句子。这非常消耗资源。
- 对抗防御 (Adversarial Defense) : 检测并拦截攻击。
RAPID 的作者指出了现有防御措施的两大瓶颈。首先,现有方法难以区分自然文本和对抗文本,经常对不需要防御的输入进行防御。其次,当它们尝试修复文本时,往往无法恢复语义,导致模型感到困惑。
RAPID 登场: 反应式扰动去焦
RAPID 的核心理念是: 进攻是最好的防守。RAPID 不会被动地试图过滤噪声,而是主动利用对抗攻击者来修复文本。
该框架分两个不同阶段运行:
- 联合模型训练: 创建一个既作为分类器又作为检测器的模型。
- 反应式对抗防御: 检测攻击并使用“扰动去焦”来修复它们。

如上图 3 所示,工作流程是循环的。我们从训练一个鲁棒的模型开始,然后在推理阶段 (阶段 #2) ,我们检测输入是否是恶意的。如果是,我们就修复它;如果不是,我们就正常处理。
阶段 #1: 联合模型训练
要修复攻击,首先你得知道自己正在被攻击。研究人员设计了一个训练过程,教导 PLM (受害模型) 同时执行两项任务:
- 对文本进行分类 (例如,这条评论是正面还是负面的?) 。
- 检测文本是否为对抗样本 (真实的还是伪造的?) 。
为了实现这一点,他们创建了一个混合数据集,其中既包含干净样本,也包含由已知攻击者 (如 BAE、PWWS 和 TextFooler) 生成的对抗样本。
该模型使用复合损失函数进行训练,以平衡这些目标。

让我们分解这个方程:
- \(\mathcal{L}_c\) (分类损失) : 确保模型在干净数据上准确执行其主要任务。
- \(\mathcal{L}_d\) (检测损失) : 训练二元分类器区分自然样本 (0) 和对抗样本 (1) 。
- \(\mathcal{L}_a\) (对抗训练损失) : 帮助模型从对抗样本本身学习鲁棒的特征。
通过最小化这种组合损失,该模型变成了一个“联合模型”——它不再仅仅是一个单纯的分类器;它是一个不需要单独、昂贵的检测网络就能标记可疑输入的哨兵。
阶段 #2: 反应式对抗防御
这就是奇迹发生的地方。一旦联合模型部署完毕,它就会处理传入的文本。
第 1 步: 对抗检测
对于每个输入,模型会输出一个预测结果和一个检测标志。如果检测标志显示“自然 (Natural) ”,模型会立即输出标准预测。与对每个输入都进行清洗的防御措施相比,这节省了大量的计算能力。
然而,如果检测标志显示“对抗 (Adversarial) ”,系统就会触发扰动去焦 (Perturbation Defocusing, PD) 机制。
第 2 步: 扰动去焦
这是论文的主要贡献。研究人员发现,如果一个样本被恶意扰动 (篡改) 过,对其应用另一次对抗攻击实际上可以纠正语义漂移。
理想情况下,对抗攻击试图以最小的改动改变预测标签。如果模型已经被欺骗成了一个错误的标签 (例如,一个正面评论被标记为“负面”) ,那么针对那个错误标签运行对抗攻击,将试图把它翻转回“正面”。

考虑上图 2 中的例子。
- 原始: “This is the most intriguing exploration of alienation.” (正面)
- 攻击 (劫持) : 单词“exploration”被替换为“investigation”。对模型而言,在这种语境下,“investigation”可能带有负面含义或统计权重。模型现在的预测是 负面 。
- RAPID 的防御: 系统检测到攻击。然后,它使用对抗攻击者 (具体为 PWWS) 来“攻击”这个句子 “This is the most intriguing investigation…”,目标是针对标签“负面”。
- 修复: 攻击者插入单词“interesting”或替换一个单词以将标签翻转回去。结果是: “This is the most interesting investigation…”
- 结果: 模型从恶意扰动 (“investigation”) 中被转移了注意力,转而关注新的、正面的语境 (“interesting”) ,将预测翻转回 正面 。
这个过程被称为去焦 (defocusing) , 因为它将受害模型的注意力从导致错误的恶意扰动上转移开来。
第 3 步: 伪语义相似度过滤
当我们运行这种“反击”时,我们可能会生成几个潜在的修复后句子。我们如何选择最好的一个?
研究人员接受一组修复后的候选样本,并基于语义相似度对它们进行过滤。他们将修复后的样本编码为特征向量,并计算它们之间的余弦相似度。

这个想法是,“正确”的修复代表了文本真实的语义含义。偏离含义太远的异常值会被丢弃。系统选择与修复样本群集具有最高相似度得分的候选者,以确保最终输出在语义上是一致的。
实验结果
研究人员使用 BERT 和 DeBERTa 作为受害模型,在四个标准数据集 (SST2、Amazon、AGNews、Yahoo!) 上评估了 RAPID。他们将 RAPID 与现有的防御方法 (如 DISP、FGWS 和 RS&V) 进行了比较。
检测与修复准确率
第一个问题是: RAPID 真的能发现攻击吗?

表 2 突显了 RAPID 的优势 (最后几行) 。
- DtA (检测准确率) : RAPID 始终能识别出超过 90% 的对抗样本,在 SST2 数据集上高达 96%。
- DfA (防御准确率) : 该指标衡量系统正确修复输入的频率。RAPID 取得了高达 99.9% 的分数,显着优于 RS&V 等方法 (通常徘徊在 30-80% 左右) 。
- RPA (修复后准确率) : 这是终极测试——模型在修复后能得到正确答案吗?RAPID 将准确率恢复到了接近原始水平 (例如,在 Amazon 数据集上遭受 BAE 攻击时达到 99.99%) 。
语义恢复
对先前方法的一个主要批评是,即使它们修正了标签,也会破坏文本的含义。为了测试这一点,作者比较了修复后文本与原始自然文本的余弦相似度。

在图 1 中,请观察红框 (对抗样本) 和黑点 (修复样本) 的区别。
- RS&V (底行) : 修复后的样本 (黑点) 的相似度得分比对抗样本低得多。这意味着“修复”后的文本比攻击后的文本更不像原始文本!
- RAPID (顶行) : 黑点 (修复后) 向右移动,显示出更高的相似度。这表明 RAPID 不仅仅是翻转标签;它实际上正在恢复句子的语义含义,使其与原始输入相匹配。
防御未知攻击
安全领域最大的挑战之一是防御零日攻击——即模型从未见过的方法。研究人员使用标准攻击者 (BAE、PWWS) 训练 RAPID,但使用完全不同的算法 (如 PSO、IGA,甚至 ChatGPT )对其进行测试。

表 6 证明了 RAPID 即使在面对大型语言模型时也具有高度的鲁棒性。当面对由 ChatGPT-3.5 生成的对抗样本时,RAPID 在 SST2 上修复了 74% 的攻击,在 Amazon 上修复了 82%,大幅优于 RS&V 基线。这表明“扰动去焦”技术具有很好的泛化能力,因为它依赖于模型的内部鲁棒性,而不是记忆特定的攻击模式。
这为何重要
RAPID 的意义对于 NLP 在现实世界中的部署至关重要。
- 效率: 通过将检测集成到受害模型中 (阶段 1) ,RAPID 避免了对每个用户输入都运行防御的计算成本。它只在必要时“反应”。
- 语义完整性: 与随机交换同义词直到标签翻转的方法不同,RAPID 利用模型自身的梯度 (通过攻击者) 来寻找回到正确标签的最逻辑路径。
- 简单性: 论文证明了我们不一定需要复杂的外部防御网络。有时候,用来破坏模型的工具也是修复模型的最佳工具。
结论
“The Best Defense is Attack” 提出了文本对抗防御的范式转变。Yang 和 Li 承认 PLM 容易受到扰动的影响,并利用正是这些弱点将模型引导回安全状态。
RAPID 证明了反应式扰动去焦不仅比基于重构的方法更准确,而且在计算上也更智能。它恢复了文本的深层语义,确保当模型说一条电影评论是“正面”时,是因为它理解了情感,而不是因为它被同义词欺骗了。
随着大语言模型日益融入我们的数字基础设施,像 RAPID 这样鲁棒、高效且具有语义感知的防御措施对于建立对 AI 系统的信任将至关重要。下次当 AI 被巧妙的单词替换弄糊涂时,解决方案可能恰恰是把它“糊涂”回正确的答案。
](https://deep-paper.org/en/paper/2305.04067/images/cover.png)