引言
像 CLIP 这样的视觉语言模型 (Vision-Language Models, VLMs) 已经彻底改变了计算机理解世界的方式。通过大规模学习将图像与自然语言描述联系起来,它们能够对从未见过的物体进行分类——这种能力被称为零样本分类 (zero-shot classification) 。 你可以给 CLIP 看一张“蝾螈 (axolotl) ”的照片,即使它没有经过专门的蝾螈标签训练,它也能通过理解文本描述来识别它。
然而,这些强大的模型有一个阿喀琉斯之踵: 对抗样本 (Adversarial Examples) 。
攻击者可以在图像中添加难以察觉的噪声——这些模式微小到人眼会忽略它们——却能导致模型完全错误地分类图像。熊猫变成了长臂猿;停车标志变成了限速标志。虽然研究人员已经开发了“微调”这些模型以增强其鲁棒性的方法,但大多数现有技术都有一个盲点。它们主要关注将模型对干净图像的理解与该图像的单个特定对抗版本进行对齐。
但是,攻击不仅仅是一个点;它是一段旅程。为了生成对抗图像,算法通常会从原始图像开始采取迭代步骤。这就产生了一条危险图像的*轨迹 (trajectory) *。通过忽略这条路径上的中间步骤,标准的防御措施使得模型容易受到存在于“中间空间”的攻击的影响。
在这篇文章中,我们将深入探讨一篇名为 《Improving Zero-Shot Adversarial Robustness in Vision-Language Models by Closed-form Alignment of Adversarial Path Simplices》 (通过对抗路径单纯形的闭式对齐提高视觉语言模型的零样本对抗鲁棒性) 的研究论文。我们将探索作者如何提出一种名为 AdvSimplex 的新方法,该方法利用复杂的几何和微积分 (泰勒展开和海森矩阵) 来增强模型对对抗路径上无限个点的鲁棒性,而且没有通常伴随此类任务的巨大计算成本。
背景: 对抗微调
要理解这项创新,我们首先需要了解基准方法。我们要如何修复脆弱的 VLM?
标准的方法是对抗微调 (Adversarial Fine-Tuning) 。 其过程通常如下:
- 取一张干净的图像。
- 使用攻击算法 (如 PGD - 投影梯度下降) 生成该图像的对抗版本。这涉及在数学上沿着使模型误差最大化的方向“推动”图像像素。
- 训练模型,使其意识到干净图像和对抗图像应该具有相同的表征 (嵌入) 。
这通常通过最小化干净图像的嵌入与最终对抗图像的嵌入之间的距离来实现。
点对点对齐的问题
问题在于 PGD 是迭代的。它需要 (比如) 10 个小步骤才能将一张干净图像变成一张高效的对抗图像。当前的方法通常只关注起点 (干净图像) 和终点 (最终对抗样本) 。
它们忽略了轨迹 。 这篇论文的作者认为,中间样本——以及它们周围的空间——包含了关于模型决策边界的丰富信息。如果我们只防御终点,模型可能仍然容易受到位于路径中间稍微弱一点的攻击的影响。

如图 1 所示,方法上存在显著差异:
- 图 1b (朴素对齐) : 展示了传统思维。你可能会尝试沿着路径采样几个特定的点并进行对齐。但采样是昂贵的。
- 图 1c (AdvSimplex) : 这是论文的提议。他们不再挑选点,而是定义了一个由干净图像和对抗步骤构成的几何区域 (单纯形) 。然后,他们使用闭式数学解将干净图像与该区域内的每一个可能的点进行对齐。
核心方法: AdvSimplex
AdvSimplex 的核心思想是不再仅仅针对离散的对抗点,而是针对“对抗单纯形 (Adversarial Simplices) ”来增强 VLM 的鲁棒性。
什么是单纯形 (Simplex) ?
在几何学中,单纯形是三角形在任意维度上的推广。
- 0-单纯形是一个点。
- 1-单纯形是一条线段。
- 2-单纯形是一个三角形。
在这篇论文中,研究人员使用干净图像和生成过程中的两个连续的中间对抗样本来形成单纯形。如果攻击采取的步骤是 \(x \to x_1 \to x_2 \dots \to x_m\),该方法会观察由 \((x, x_i, x_{i+1})\) 形成的三角形区域。
目标是最小化模型对干净图像的预测 \(g(x)\) 与这些三角形内部任意一点 \(p\) 的预测之间的差异。
流程
让我们看看这如何融入训练流程中。

图 2 概述了该过程:
- 文本分支 (蓝框) : 类提示词通过文本编码器进行处理。
- 视觉分支 (橙框) : 干净图像 \(x\) 被处理。同时,系统使用梯度上升生成一系列对抗样本 (\(x + \delta_{x,1}, \dots\)) 。
- 单纯形形成: 系统识别由干净图像和对抗路径形成的单纯形。
- 对齐: 模型最小化干净表征与单纯形区域表征之间的散度。
计算障碍
这里有个陷阱: 如果你想训练一个模型使其对三角形内的每一个点都具有鲁棒性,理论上你需要从该三角形中采样数千个点并将它们通过模型。
对于一个包含 100 万张图像的数据集,如果你每个单纯形只采样 10 个点,你每个 epoch 就得处理 1000 万张图像。这在计算上是令人望而却步的 (太慢了) 。
解决方案: 泰勒展开和闭式统计
为了解决这个问题,作者采用了一个巧妙的数学变通方法。他们不再对每个采样点运行神经网络的前向传播,而是围绕干净图像 \(x\) 使用泰勒展开 (Taylor Expansion) 来近似网络的行为。
泰勒展开允许我们利用原始点处的函数值,加上涉及其导数 (雅可比矩阵和海森矩阵) 的项,来近似扰动点处的函数值 (神经网络) 。
作者推导出了对齐损失的上界。他们不再对各个点的误差求和,而是制定了一个依赖于模型的雅可比矩阵 (一阶导数) 和海森矩阵 (二阶导数) ,并结合单纯形统计特性的损失函数。
损失函数的近似看起来像这样:

在公式 5 中,\(J_g(x)\) 是雅可比矩阵,\(H_g(x)\) 是海森矩阵。这个方程本质上是在说: “我们可以通过查看模型在干净点 \(x\) 处的斜率和曲率来估计扰动点 \(\delta_x\) 处的误差。”
通过闭式矩阵实现无限采样
当我们把这个聚合到整个单纯形上时,奇迹发生了。因为泰勒展开是关于扰动 \(\delta\) 的多项式,我们不再需要对 \(\delta\) 进行采样。我们只需要知道 \(\delta\) 在单纯形上的“平均”行为。
这使得作者能够计算出一个闭式协方差矩阵 (closed-form covariance matrix) \(\Sigma_x\)。该矩阵代表了单纯形内所有点的统计分布。

公式 12 展示了一个三角形 (3 个顶点: \(x, y, z\)) 的闭式解。它允许模型仅利用顶点的坐标就能计算整个连续区域上的期望损失。
为什么这是一个突破? 它有效地模拟了无限采样 。 通过最小化这个上界,模型的训练效果就像是它看到了对抗三角形内的每一个点,但它只需要计算干净图像导数的计算成本。
整合: 损失函数
最终的目标函数将标准的分类损失与这个新的几何对齐损失结合在一起。

这里,\(\lambda\) 控制鲁棒性项的权重。项 \(\omega_i(x)\) 允许模型对不同的单纯形进行不同的加权——也许更多地关注那些导致准确率下降最大的对抗路径部分。

加权函数 (公式 16) 确保如果攻击中的特定步骤导致预测发生巨大变化,那么该特定的单纯形将在训练期间被优先考虑。
实验与结果
这种繁重的数学运算能转化为更好的模型吗?作者在 ImageNet 和其他 14 个不同的数据集上测试了 AdvSimplex,以检查零样本鲁棒性。
性能比较
结果表明,AdvSimplex 达到了最先进的性能。

表 2 显示了干净准确率 (Clean Accuracy) 。 对抗训练最大的风险之一是模型对噪声变得过于偏执,以至于忘记了如何分类干净图像。
- 标准 CLIP 具有很高的干净准确率 (64.90%),但鲁棒性为零。
- 像 TeCoA 和 PMG 这样的竞争对手在干净准确率上显著下降 (降至约 48-49%) 。
- AdvSimplex 保持了高得多的干净准确率 (60.23%),显著缩小了差距。

表 3 显示了鲁棒准确率 (Robust Accuracy) (它抵御攻击的能力) 。
- AdvSimplex 在 15 个数据集上实现了最高的平均鲁棒性 (35.68%),优于 FARE、PMG 和 TeCoA。它在像 ImageNet 和 OxfordPet 这样的复杂数据集上特别有效。
对抗“最坏情况”和迁移攻击的鲁棒性
作者不仅针对训练期间使用的特定攻击进行了测试。他们模拟了一个现实场景,即攻击者试图在测试时找到单纯形内绝对最坏情况的扰动。

图 3a (左) 显示了对抗“最坏情况”对手的鲁棒性。与其他方法相比,随着扰动半径的增加,AdvSimplex (蓝线) 保持了更高的准确率。 图 3b (右) 显示了迁移性。有趣的是,针对 AdvSimplex 生成的对抗样本对其他模型具有很高的迁移性,这反直觉地表明 AdvSimplex 已经学习到了非常通用的、具有“普遍性”的鲁棒特征。
架构泛化
这是特定于某种模型类型的吗?作者在不同的 CLIP 主干网络 (ViT-B, ViT-L, ResNet-50) 上进行了测试。

表 4 证实了无论底层架构如何,改进都是真实存在的。无论是使用视觉 Transformer (ViT) 还是 ResNet,AdvSimplex 在 PGD、CW (Carlini & Wagner) 和 Auto-Attack (AA) 基准测试中均始终优于以前的微调方法。
效率权衡
回想一下该方法声称比采样更节省时间。作者可视化了训练时间和鲁棒准确率之间的权衡。

图 4b 在这里至关重要。
- 红点代表手动采样。随着样本数量的增加 (圆圈变大) ,鲁棒性提高,但训练时间飙升 (在 X 轴上向右移动) 。
- 橙点是 AdvSimplex (“闭式上界”) 。它位于 Y 轴高处 (高鲁棒性) ,但位于最左侧 (低训练时间) 。
- 这证明了泰勒展开近似提供了大量采样的好处,而没有计算上的惩罚。
结论与启示
论文 《Improving Zero-Shot Adversarial Robustness in Vision-Language Models by Closed-form Alignment of Adversarial Path Simplices》 介绍了一种用于 AI 安全的复杂几何方法。
通过从点对点对齐 (修复特定的坏图像) 转向单纯形对齐 (修复图像的危险区域) ,作者使视觉语言模型能够学习更平滑、更鲁棒的决策边界。通过泰勒展开推导出的闭式上界的引入,将原本极其缓慢的训练过程转变为了高效的过程。
主要收获:
- 几何很重要: 对抗攻击是路径,而不仅仅是点。防御路径能使模型更强大。
- 数学胜过暴力破解: 微积分 (雅可比/海森矩阵) 可以比计算数百万次额外的前向传播更快地近似相同的结果。
- 天下没有免费的午餐 (但有更便宜的午餐) : 干净准确率和鲁棒性之间通常存在权衡。AdvSimplex 比现有的最先进方法更好地最小化了这种权衡。
随着我们在医疗保健 (例如分析 X 光片) 和自主系统等关键领域部署 VLM,抵御不可见噪声的鲁棒性不仅仅是一个锦上添花的功能;它是一个安全要求。AdvSimplex 代表了使这些“基础模型”明显更值得信赖的重要一步。
](https://deep-paper.org/en/paper/2781_improving_zero_shot_adver-1685/images/cover.png)