语言模型 (LMs) 已经无处不在，从客户服务聊天机器人到代码生成工具，它们为各种应用提供动力。然而，尽管能力惊人，它们却有一个显著的弱点: 对抗攻击 (adversarial attacks) 。通过对输入句子进行细微的更改——这些更改通常是人类难以察觉的——攻击者可以诱骗模型做出完全错误的预测。

虽然研究人员已经开发出了非常成功的攻击方法，但防御者也已经迎头赶上。他们意识到，虽然对抗样本可能会欺骗模型的预测逻辑，但它们在统计上看起来往往很“奇怪”。它们打破了模型习惯看到的分布模式。这使得防御者可以构建简单的检测器，在这些输入造成损害之前将其标记出来。

在这篇文章中，我们将深入探讨 DA³ (Distribution-Aware Adversarial Attack，分布感知对抗攻击) , 这是 Wang 等人提出的一种改变游戏规则的新方法。DA³ 不仅仅试图欺骗模型，它还显式地学习模仿原始训练数据的统计分布。结果如何？它能产生既能绕过检测系统，又保持高成功率的“隐形”攻击。

问题: 成功的攻击太“招摇”了

要理解为什么需要 DA³，我们首先需要看看以前的攻击方法 (如 TextFooler 或 BERT-Attack) 的缺陷。这些方法的工作原理是通过贪婪地替换单词来翻转标签。例如，将“The students are sanguine (学生们很乐观) ”改为“The students are jubilant (学生们很喜庆) ”可能会混淆情感分类器。

然而，这些扰动留下了数字指纹。当一个标准的语言模型处理这些对抗性输入时，即使它最终输出了错误的标签，它往往也会表现出迟疑或困惑。

两个对抗性句子在情感分析任务中的玩具示例。虽然两个句子都成功攻击了受害者模型，但上面的句子被检测器标记了，而下面的句子没有被检测到。

如图 1 所示，标准的对抗样本 (顶部) 可能会成功诱骗模型做出“Negative (负面) ”的预测，但一个单独的“检测器”模块会立即标记它。DA³ 的目标是生成底部的示例: 这种攻击既能翻转预测，又能通过检测器。

对抗攻击的两个“破绽”

研究人员确定了两个特定的统计信号——或称“分布偏移 (distribution shifts) ”——它们会暴露标准的对抗攻击:

置信度降低 (MSP): 当模型处理正常数据时，它通常非常自信 (例如，“我有 99% 的把握这是正面的”) 。当处理对抗性数据时, 最大 Softmax 概率 (Maximum Softmax Probability, MSP) ——即预测类别的置信度分数——往往会下降。
与训练数据的距离 (MD): 马氏距离 (Mahalanobis Distance, MD) 衡量数据点在模型特征空间中与训练数据分布中心的距离。正常数据靠近中心；对抗性数据通常位于边缘 (分布外，Out-of-Distribution) 。

让我们来看看数据。

关于 MSP 的原始数据与 BERT-Attack 生成的对抗性数据之间分布偏移的可视化。

在图 2 中，比较蓝色条形 (原始数据) 和粉色条形 (BERT-Attack 生成的对抗性数据) 。原始数据高度聚集在高置信度 (1.0) 周围。然而，对抗性数据向左偏移。防御者只需要设定一个阈值: “如果置信度低于 0.9，就标记它。”

关于 MD 的原始数据与 BERT-Attack 生成的对抗性数据之间分布偏移的可视化。

图 3 展示了马氏距离。原始数据 (蓝色) 聚集在较低的距离处。对抗性数据 (红色) 向右偏移，表明它在统计上远离模型所认为的“正常”范围。

由于以前的攻击忽略了这些偏移，它们很容易被 分布外 (OOD) 检测器中和。

解决方案: DA³ (分布感知对抗攻击)

DA³ 的核心创新在于将这些分布指标直接纳入攻击生成过程。它强制生成的样本在置信度 (MSP) 和距离 (MD) 方面都与原始数据的分布保持一致。

架构概览

DA³ 分为两个阶段运行: 微调 (Fine-tuning) 和 推理 (Inference) 。

DA3 的模型架构包含两个阶段: 微调和推理。

第一阶段: 使用数据对齐损失进行微调

在这个阶段，目标还不是进行攻击，而是训练一个生成器，使其懂得如何创建“隐形”的扰动。研究人员采用了一个预训练语言模型 (PLM) 并添加了 LoRA (Low-Rank Adaptation，低秩自适应) 适配器。LoRA 允许他们在保持庞大的 PLM 冻结的同时，高效地微调少量参数。

该模型使用 掩码语言建模 (Masked Language Modeling, MLM) 任务进行训练——类似于 BERT 的预训练方式——但有一个转折。其损失函数被称为 数据对齐损失 (Data Alignment Loss, DAL) , 它强制模型生成在统计上看起来正常的嵌入 (embeddings) 。

第二阶段: 推理

一旦 LoRA 层微调完成，该模型就被用来生成攻击。

Token 重要性: 系统识别句子中哪些单词对当前的预测最为关键。
掩码与填充: 它将那些关键单词掩盖 (mask) 。
生成器: 微调后的 DA³ 模型填补这些空白。因为它是在 DAL 的指导下训练的，所以它选择的单词所构成的句子不仅能欺骗受害者模型，而且还能深藏在“安全”的统计分布中。

隐身背后的数学: 数据对齐损失 (DAL)

DA³ 的秘诀在于微调期间使用的目标函数。总损失 DAL 是两个分量的总和，旨在对抗我们前面讨论的两种检测方法。

数据对齐损失的方程。

让我们分解这两个分量。

1. MSP 损失 (\(\mathcal{L}_{MSP}\))

这里的目标是确保当受害者模型对对抗样本进行预测时，它具有高置信度 。通常，我们希望模型对错误的答案不确定，但攻击者希望模型自信地出错以避免被检测到。

MSP 损失的方程。

通过最小化这个损失，攻击者最大化了预测类别的概率 (即使它是错误的类别) ，将对抗样本的置信度特征推向合法数据的特征。

2. MD 损失 (\(\mathcal{L}_{MD}\))

该分量最小化对抗样本的嵌入 (\(X^{adv}\)) 与训练数据分布 (由均值 \(\mu\) 和协方差 \(\Sigma\) 表示) 之间的马氏距离。

MD 损失的方程。

最小化这个方程会将生成的对抗样本从特征空间的“离群”区域拉回到正常训练数据所在的密集中心。这有效地蒙蔽了基于距离的检测器。

新指标: 不可检测攻击成功率 (NASR)

过去，研究人员使用 攻击成功率 (Attack Success Rate, ASR) ——即成功翻转模型预测的输入百分比。但是，如果 90% 的成功攻击被检测器立即拦截，那么有效成功率就很糟糕。

为了衡量这一现实情况，作者提出了 NASR 。

NASR 的方程。

这个公式通过确保对抗样本满足两个条件来计算成功:

\(y^{adv} = y^{orig}\): 攻击实际上改变了标签 (注意: 公式是从 1 中减去失败和被检测到的项目) 。
它不在集合 \(\mathcal{D}_k\) 中，其中 \(\mathcal{D}_k\) 代表被检测器 (MSP 或 MD) 捕获的攻击。

简单来说: NASR = (起效且未被抓到的攻击) / 总样本数。

实验结果

研究人员在包括情感分析 (SST-2) 和语法正确性 (CoLA) 在内的数据集上，将 DA³ 与标准基线 (如 TextFooler 和 BERT-Attack) 进行了测试。他们攻击了白盒模型 (模型内部已知) 和黑盒模型 (如 Llama-2) 。

白盒性能

当攻击 BERT 和 RoBERTa 模型时，DA³ 表现出了令人印象深刻的结果。

白盒受害者模型的评估结果。

观察 表 1 , 请注意 NASR 列。

BERT-Attack 通常具有不错的 ASR，但其 NASR 显著下降。例如，在 SST-2 数据集 (情感分析) 上，BERT-Attack 的 ASR 为 58.44%，但 \(NASR_{MSP}\) 仅为 33.62%。这意味着其近一半的成功攻击很容易被检测到！
DA³ (Ours) 实现了 77.17% 的 ASR 和 54.22% 的 \(NASR_{MSP}\)。它保持了高得多的不可检测攻击比例。
在 MRPC 数据集上，DA³ 实现了惊人的 99.16% ASR，且具有极高的不可检测分数 (MD 为 93.29%) 。

使用 t-SNE 可视化隐身效果

数字固然重要，但视觉效果更是不可否认。研究人员使用 t-SNE 将文本的高维嵌入投影到 2D 空间，以观察对抗样本相对于原始数据的“位置”。

原始样本与对抗样本的高层特征 t-SNE 可视化。

左图 (BERT-Attack): 对抗样本 (黄点和红点) 混乱地分散着。它们经常落在干净簇 (蓝圈) 之间的“无人区”。这使它们很容易被发现。
右图 (DA³): 对抗样本整齐地隐藏在原始数据的簇内部。红点 (成功的攻击) 与原始负样本混合在一起。对于观察几何结构的检测器来说，这些点看起来完全正常。

向黑盒 LLM (Llama-2) 的迁移性

也许最令人兴奋的结果是这些攻击的迁移性有多好。研究人员使用基于 BERT 的 DA³ 模型生成对抗样本，并将它们输入到 Llama-2-7B 中，这是一个 DA³ 在训练期间从未见过的完全不同的大型语言模型。

黑盒 LLAMA2-7B 模型的评估结果。

如 表 2 所示，DA³ 在几乎所有数据集上都显著优于基线。

在 SST-2 上，DA³ 的 ASR 为 29.42%，而 TextFooler 为 23.81%。
关键是, NASR 分数保持在较高水平。这表明通过学习语言的分布，DA³ 学习到了通用的“隐形”特征，这些特征甚至适用于像 Llama-2 这样的大型模型。

损失分量重要吗？ (消融实验)

你可能会想是否真的需要 MSP 损失和 MD 损失。作者通过逐一关闭它们来验证这一点。

表 4 (MSP 损失消融): 关于 MSP 损失的 DA3 消融研究。移除 MSP 损失通常会增加原始 ASR (如果你不在乎置信度，欺骗模型会更容易) ，但 检测率 (\(DR_{MSP}\)) 飙升。在 SST-2 上，没有 MSP 损失的情况下，检测率从 29.74% 跳升至 51.89%。

表 5 (MD 损失消融): 关于 MD 损失的 DA3 消融研究。同样，移除 MD 损失导致通过马氏距离的检测率增加。两种损失的组合 (方程 007) 提供了攻击能力和隐蔽性之间的最佳平衡。

定性示例

这些攻击实际上看起来是什么样子的？

生成的对抗性句子示例。

在 表 14 中，我们看到 DA³ 通常只做非常细微的改动。

*原始: * “The sailors rode the breeze…” (水手们乘着微风……)
*对抗: * “The sailors wandered the breeze…” (水手们在微风中漫游……)
*结果: * 语法检查器从“Acceptable (可接受) ”变为“Unacceptable (不可接受) ”，但句子结构在统计上仍然足够可信，从而逃避了检测。

结论

DA³ 论文强调了 AI 攻击者与防御者之间军备竞赛的关键演变。它证明了仅仅检查“奇怪”的统计模式——低置信度或离群嵌入——已不再足够。通过结合 数据对齐损失 , 攻击者可以生成不仅有效而且在统计上与合法数据无法区分的输入。

对于 NLP 安全领域的学生和研究人员来说，DA³ 作为一个警示: 鲁棒性不仅仅关乎准确性；它关乎理解数据的整个分布。随着攻击变得越来越具有“分布感知”能力，我们的防御必须进化，超越简单的统计阈值。

问题: 成功的攻击太“招摇”了#

对抗攻击的两个“破绽”#

解决方案: DA³ (分布感知对抗攻击)#

架构概览#

第一阶段: 使用数据对齐损失进行微调#

第二阶段: 推理#

隐身背后的数学: 数据对齐损失 (DAL)#

1. MSP 损失 (\(\mathcal{L}_{MSP}\))#

2. MD 损失 (\(\mathcal{L}_{MD}\))#

新指标: 不可检测攻击成功率 (NASR)#

实验结果#

白盒性能#

使用 t-SNE 可视化隐身效果#

向黑盒 LLM (Llama-2) 的迁移性#

损失分量重要吗？ (消融实验)#

定性示例#

结论#