语言模型 (LMs) 已经无处不在,从客户服务聊天机器人到代码生成工具,它们为各种应用提供动力。然而,尽管能力惊人,它们却有一个显著的弱点: 对抗攻击 (adversarial attacks) 。 通过对输入句子进行细微的更改——这些更改通常是人类难以察觉的——攻击者可以诱骗模型做出完全错误的预测。
虽然研究人员已经开发出了非常成功的攻击方法,但防御者也已经迎头赶上。他们意识到,虽然对抗样本可能会欺骗模型的预测逻辑,但它们在统计上看起来往往很“奇怪”。它们打破了模型习惯看到的分布模式。这使得防御者可以构建简单的检测器,在这些输入造成损害之前将其标记出来。
在这篇文章中,我们将深入探讨 DA³ (Distribution-Aware Adversarial Attack,分布感知对抗攻击) , 这是 Wang 等人提出的一种改变游戏规则的新方法。DA³ 不仅仅试图欺骗模型,它还显式地学习模仿原始训练数据的统计分布。结果如何?它能产生既能绕过检测系统,又保持高成功率的“隐形”攻击。
问题: 成功的攻击太“招摇”了
要理解为什么需要 DA³,我们首先需要看看以前的攻击方法 (如 TextFooler 或 BERT-Attack) 的缺陷。这些方法的工作原理是通过贪婪地替换单词来翻转标签。例如,将“The students are sanguine (学生们很乐观) ”改为“The students are jubilant (学生们很喜庆) ”可能会混淆情感分类器。
然而,这些扰动留下了数字指纹。当一个标准的语言模型处理这些对抗性输入时,即使它最终输出了错误的标签,它往往也会表现出迟疑或困惑。

如图 1 所示,标准的对抗样本 (顶部) 可能会成功诱骗模型做出“Negative (负面) ”的预测,但一个单独的“检测器”模块会立即标记它。DA³ 的目标是生成底部的示例: 这种攻击既能翻转预测,又能通过检测器。
对抗攻击的两个“破绽”
研究人员确定了两个特定的统计信号——或称“分布偏移 (distribution shifts) ”——它们会暴露标准的对抗攻击:
- 置信度降低 (MSP): 当模型处理正常数据时,它通常非常自信 (例如,“我有 99% 的把握这是正面的”) 。当处理对抗性数据时, 最大 Softmax 概率 (Maximum Softmax Probability, MSP) ——即预测类别的置信度分数——往往会下降。
- 与训练数据的距离 (MD): 马氏距离 (Mahalanobis Distance, MD) 衡量数据点在模型特征空间中与训练数据分布中心的距离。正常数据靠近中心;对抗性数据通常位于边缘 (分布外,Out-of-Distribution) 。
让我们来看看数据。

在图 2 中,比较蓝色条形 (原始数据) 和粉色条形 (BERT-Attack 生成的对抗性数据) 。原始数据高度聚集在高置信度 (1.0) 周围。然而,对抗性数据向左偏移。防御者只需要设定一个阈值: “如果置信度低于 0.9,就标记它。”

图 3 展示了马氏距离。原始数据 (蓝色) 聚集在较低的距离处。对抗性数据 (红色) 向右偏移,表明它在统计上远离模型所认为的“正常”范围。
由于以前的攻击忽略了这些偏移,它们很容易被 分布外 (OOD) 检测器中和。
解决方案: DA³ (分布感知对抗攻击)
DA³ 的核心创新在于将这些分布指标直接纳入攻击生成过程。它强制生成的样本在置信度 (MSP) 和距离 (MD) 方面都与原始数据的分布保持一致。
架构概览
DA³ 分为两个阶段运行: 微调 (Fine-tuning) 和 推理 (Inference) 。

第一阶段: 使用数据对齐损失进行微调
在这个阶段,目标还不是进行攻击,而是训练一个生成器,使其懂得如何创建“隐形”的扰动。研究人员采用了一个预训练语言模型 (PLM) 并添加了 LoRA (Low-Rank Adaptation,低秩自适应) 适配器。LoRA 允许他们在保持庞大的 PLM 冻结的同时,高效地微调少量参数。
该模型使用 掩码语言建模 (Masked Language Modeling, MLM) 任务进行训练——类似于 BERT 的预训练方式——但有一个转折。其损失函数被称为 数据对齐损失 (Data Alignment Loss, DAL) , 它强制模型生成在统计上看起来正常的嵌入 (embeddings) 。
第二阶段: 推理
一旦 LoRA 层微调完成,该模型就被用来生成攻击。
- Token 重要性: 系统识别句子中哪些单词对当前的预测最为关键。
- 掩码与填充: 它将那些关键单词掩盖 (mask) 。
- 生成器: 微调后的 DA³ 模型填补这些空白。因为它是在 DAL 的指导下训练的,所以它选择的单词所构成的句子不仅能欺骗受害者模型,而且还能深藏在“安全”的统计分布中。
隐身背后的数学: 数据对齐损失 (DAL)
DA³ 的秘诀在于微调期间使用的目标函数。总损失 DAL 是两个分量的总和,旨在对抗我们前面讨论的两种检测方法。

让我们分解这两个分量。
1. MSP 损失 (\(\mathcal{L}_{MSP}\))
这里的目标是确保当受害者模型对对抗样本进行预测时,它具有高置信度 。 通常,我们希望模型对错误的答案不确定,但攻击者希望模型自信地出错以避免被检测到。

通过最小化这个损失,攻击者最大化了预测类别的概率 (即使它是错误的类别) ,将对抗样本的置信度特征推向合法数据的特征。
2. MD 损失 (\(\mathcal{L}_{MD}\))
该分量最小化对抗样本的嵌入 (\(X^{adv}\)) 与训练数据分布 (由均值 \(\mu\) 和协方差 \(\Sigma\) 表示) 之间的马氏距离。

最小化这个方程会将生成的对抗样本从特征空间的“离群”区域拉回到正常训练数据所在的密集中心。这有效地蒙蔽了基于距离的检测器。
新指标: 不可检测攻击成功率 (NASR)
过去,研究人员使用 攻击成功率 (Attack Success Rate, ASR) ——即成功翻转模型预测的输入百分比。但是,如果 90% 的成功攻击被检测器立即拦截,那么有效成功率就很糟糕。
为了衡量这一现实情况,作者提出了 NASR 。

这个公式通过确保对抗样本满足两个条件来计算成功:
- \(y^{adv} = y^{orig}\): 攻击实际上改变了标签 (注意: 公式是从 1 中减去失败和被检测到的项目) 。
- 它不在集合 \(\mathcal{D}_k\) 中,其中 \(\mathcal{D}_k\) 代表被检测器 (MSP 或 MD) 捕获的攻击。
简单来说: NASR = (起效且未被抓到的攻击) / 总样本数。
实验结果
研究人员在包括情感分析 (SST-2) 和语法正确性 (CoLA) 在内的数据集上,将 DA³ 与标准基线 (如 TextFooler 和 BERT-Attack) 进行了测试。他们攻击了白盒模型 (模型内部已知) 和黑盒模型 (如 Llama-2) 。
白盒性能
当攻击 BERT 和 RoBERTa 模型时,DA³ 表现出了令人印象深刻的结果。

观察 表 1 , 请注意 NASR 列。
- BERT-Attack 通常具有不错的 ASR,但其 NASR 显著下降。例如,在 SST-2 数据集 (情感分析) 上,BERT-Attack 的 ASR 为 58.44%,但 \(NASR_{MSP}\) 仅为 33.62%。这意味着其近一半的成功攻击很容易被检测到!
- DA³ (Ours) 实现了 77.17% 的 ASR 和 54.22% 的 \(NASR_{MSP}\)。它保持了高得多的不可检测攻击比例。
- 在 MRPC 数据集上,DA³ 实现了惊人的 99.16% ASR,且具有极高的不可检测分数 (MD 为 93.29%) 。
使用 t-SNE 可视化隐身效果
数字固然重要,但视觉效果更是不可否认。研究人员使用 t-SNE 将文本的高维嵌入投影到 2D 空间,以观察对抗样本相对于原始数据的“位置”。

- 左图 (BERT-Attack): 对抗样本 (黄点和红点) 混乱地分散着。它们经常落在干净簇 (蓝圈) 之间的“无人区”。这使它们很容易被发现。
- 右图 (DA³): 对抗样本整齐地隐藏在原始数据的簇内部。红点 (成功的攻击) 与原始负样本混合在一起。对于观察几何结构的检测器来说,这些点看起来完全正常。
向黑盒 LLM (Llama-2) 的迁移性
也许最令人兴奋的结果是这些攻击的迁移性有多好。研究人员使用基于 BERT 的 DA³ 模型生成对抗样本,并将它们输入到 Llama-2-7B 中,这是一个 DA³ 在训练期间从未见过的完全不同的大型语言模型。

如 表 2 所示,DA³ 在几乎所有数据集上都显著优于基线。
- 在 SST-2 上,DA³ 的 ASR 为 29.42%,而 TextFooler 为 23.81%。
- 关键是, NASR 分数保持在较高水平。这表明通过学习语言的分布,DA³ 学习到了通用的“隐形”特征,这些特征甚至适用于像 Llama-2 这样的大型模型。
损失分量重要吗? (消融实验)
你可能会想是否真的需要 MSP 损失和 MD 损失。作者通过逐一关闭它们来验证这一点。
表 4 (MSP 损失消融):
移除 MSP 损失通常会增加原始 ASR (如果你不在乎置信度,欺骗模型会更容易) ,但 检测率 (\(DR_{MSP}\)) 飙升。在 SST-2 上,没有 MSP 损失的情况下,检测率从 29.74% 跳升至 51.89%。
表 5 (MD 损失消融):
同样,移除 MD 损失导致通过马氏距离的检测率增加。两种损失的组合 (方程 007) 提供了攻击能力和隐蔽性之间的最佳平衡。
定性示例
这些攻击实际上看起来是什么样子的?

在 表 14 中,我们看到 DA³ 通常只做非常细微的改动。
- *原始: * “The sailors rode the breeze…” (水手们乘着微风……)
- *对抗: * “The sailors wandered the breeze…” (水手们在微风中漫游……)
- *结果: * 语法检查器从“Acceptable (可接受) ”变为“Unacceptable (不可接受) ”,但句子结构在统计上仍然足够可信,从而逃避了检测。
结论
DA³ 论文强调了 AI 攻击者与防御者之间军备竞赛的关键演变。它证明了仅仅检查“奇怪”的统计模式——低置信度或离群嵌入——已不再足够。通过结合 数据对齐损失 , 攻击者可以生成不仅有效而且在统计上与合法数据无法区分的输入。
对于 NLP 安全领域的学生和研究人员来说,DA³ 作为一个警示: 鲁棒性不仅仅关乎准确性;它关乎理解数据的整个分布。随着攻击变得越来越具有“分布感知”能力,我们的防御必须进化,超越简单的统计阈值。
](https://deep-paper.org/en/paper/file-2914/images/cover.png)