介绍

多年来,视觉领域的深度学习以卷积神经网络 (CNN) 为主导。然而,最近视觉变换器 (Vision Transformers,ViTs) ——由最初在自然语言处理 (NLP) 中普及的自注意力模块构建的模型——迅速跃居该领域前沿。它们在许多标准基准上能够与 CNN 匹敌甚至超越,但在干净测试集上的准确率只是故事的一部分。如果一个视觉模型要在现实世界部署,其稳健性至关重要: 模型对常见扰动、小的扰动、分布迁移或自然界中具有挑战性的 (对抗性) 图像的处理能力如何?

Sayak Paul 和 Pin-Yu Chen 的论文《Vision Transformers are Robust Learners》提出了一个直接但重要的问题: 在使用类似的预训练和模型容量的条件下,视觉变换器本质上是否比强大的 CNN 更能学到稳健的表示?作者在六个从 ImageNet 派生的稳健性基准上系统地将 ViT 与基于 ResNet 的最先进模型 Big Transfer (BiT) 进行了比较。关键是,他们不仅比较性能指标;还设计了六个针对性实验来探查 ViT 可能更稳健的“原因”。总体上结论是肯定的——ViT 在许多稳健性指标上表现更好,注意力机制、大规模预训练、更全局的特征利用以及更平滑的损失景观被认为是关键贡献因素。

本文将带领读者了解核心思想、作者所做的实验以及对模型设计与评估的实践性建议。

背景: ViT 简要概述

视觉变换器将 Transformer 模块 (Vaswani 等,2017) 适配到图像数据。主要思想很简单:

  1. 图像分块 : 将图像分割为一系列不重叠的补丁网格。
  2. 线性嵌入 : 每个补丁被展平并线性嵌入以形成补丁令牌序列。
  3. 位置与类别令牌 : 向这些令牌添加位置嵌入以保留空间信息,并在前面加入一个可学习的“类别令牌”。
  4. Transformer 模块 : 得到的序列被送入标准的 Transformer 模块,这些模块主要由多头自注意力 (MHSA) 和前馈网络 (FFN) 构成。

由于 MHSA 将每个令牌与其他所有令牌进行比较,Transformer 能够在架构的早期就处理全局关系。这与卷积形成对比,后者天然具有局部性,并通过增加网络深度逐步构建更大的感受野。

ViT 中核心的注意力操作可以写成熟悉的缩放点积注意力形式:

\[ \mathrm{Attention}(Q, K, V) = \mathrm{Softmax}\!\left(\frac{QK^\top}{\sqrt{d}}\right) V \]

其中 \(Q, K, V\) 是通过对输入的线性投影得到的查询、键和值矩阵,\(d\) 是用于缩放点积的维度。

单个 Transformer 模块将 MHSA 与层归一化 (LN) 、小型前馈网络以及残差 (跳跃) 连接结合起来:

\[ \begin{aligned} \mathbf{z}'_{\ell} &= \mathrm{MHSA}(\mathrm{LN}(\mathbf{z}_{\ell-1})) + \mathbf{z}_{\ell-1}\\ \mathbf{z}_{\ell} &= \mathrm{FFN}(\mathrm{LN}(\mathbf{z}'_{\ell})) + \mathbf{z}'_{\ell}\\ \mathbf{y} &= \mathrm{LN}(\mathbf{z}^{0}_{L}) \end{aligned} \]

这里,\(\ell \in \{0, 1, \dots, L\}\) 表示层索引,\(L\) 是隐藏层数,\(\mathbf{z}^{0}_{L}\) 表示经过所有层后得到的学习到的类别令牌。

为了直观理解分块步骤,图 1 展示了将图像划分为 16x16 补丁的经典示例,这也是 ViT-B/16 使用的粒度。

将样本图像划分为补丁。

图 1: 将样本图像划分为补丁。

为什么 ViT 可能更稳健?

作者探索了若干假设来解释 ViT 的潜在稳健性:

  • 全局上下文通过注意力 : 注意力机制可能使 ViT 能够利用来自整张图像的信息,从而对局部扰动或小的遮挡不那么敏感。
  • 大规模预训练 : ViT 常常在非常大的数据集上进行预训练 (例如 ImageNet-21k、JFT-300M) 。这种广泛的预训练可能作为一种强有力的正则化,导致在分布迁移下更好的泛化。
  • 更平滑的损失景观 : ViT 的架构设计可能在输入图像周围诱导出更平滑的损失景观,意味着小的扰动不太可能导致错误分类。

作者设计了具体实验来检验每个假设,并提供定量与定性的证据。

基准与总体情况

为了进行全面的稳健性评估,作者使用了六个多样的从 ImageNet 派生的数据集,每个数据集用于探测视觉模型的不同失效模式。表 1 总结了这些数据集及其具体用途。

所研究数据集及其用途的摘要。

表 1: 用于稳健性评估的数据集摘要及其用途。

在这些基准上反复得到的总体经验信息是: ViT (通常是 ViT L-16 或 ViT B-16 等变体) 在大多数稳健性指标上通常优于可比的 BiT (基于 ResNet 的) 模型,且差距常常显著。

关键结果摘录

来看一些具体的性能比较:

  • ImageNet-C (常见腐蚀) : 图 2 显示了在 19 种腐蚀类型、最高严重度等级 (5) 下的平均 Top-1 准确率。与 BiT 变体相比,ViT 模型在不同模型规模和参数范围内始终取得更高的平均准确率。

在 ImageNet-C 数据集上由不同 ViT 和 BiT 变体产生的平均 Top-1 准确率 (%) 。

图 2: 在 ImageNet-C 数据集上不同 ViT 与 BiT 变体的平均 Top-1 准确率 (%) 。

  • 对比度腐蚀 (ImageNet-C) : 有趣的是,ViT 在“对比度” (contrast) 腐蚀上表现略差,如图 3 所示。这是一个值得注意的例外,表明未来需要研究 ViT 对特定敏感性的原因。

在 ImageNet-C 上对比度腐蚀 (最高严重度等级) 情况下 ViT 与 BiT 的 Top-1 准确率 (%) 。

图 3: 在 ImageNet-C (最高严重度) 上对比度腐蚀情况下 ViT 与 BiT 的 Top-1 准确率 (%) 。

  • ImageNet-A (自然对抗示例) : 在由自然图像组成并会导致错误分类的数据集上,ViT 模型显示出显著增益。图 4 说明在某些配对中,ViT L-16 的 Top-1 准确率是可比 BiT 变体的 4.3 倍。论文指出,自注意力是解决此类问题的重要元素,这可能解释了 ViT 在此处的优越表现。

在 ImageNet-A 数据集上的 Top-1 准确率 (%) 。

图 4: 在 ImageNet-A 数据集上的 Top-1 准确率 (%) 。

  • ImageNet-O (域外检测) : 对于域外检测 (稳健模型应对异常图像输出较低置信度) ,ViT 也倾向于产生更高的精确率-召回率曲线下面积 (AUPR) ,如图 5 所示。这表明其在异常检测任务上表现更优。

在 ImageNet-O 数据集上的 AUPR (越高越好) 。

图 5: 在 ImageNet-O 数据集上的 AUPR (越高越好) ,比较 ViT 与 BiT 模型。

这些有力的经验证据促使对 ViT 更高稳健性的内在属性进行更深入的调查。作者开展了六个聚焦实验,下面逐一介绍。

核心实验及其揭示

1) 注意力对提高稳健性至关重要

直觉 : 自注意力机制允许 ViT 将证据跨整张图像进行组合,这可能使其对局部腐蚀或部分遮挡不那么敏感。

方法 : 作者将 ViT 与在 CNN 中加入类似注意力组件 (例如全局上下文 (GC) 模块、Gather-Excite (GE) 模块、Selective Kernel (SK) 单元) 的卷积网络进行比较。他们还可视化了注意力图并比较了 BiT 与 ViT 的类激活图 (Grad-CAM) 。论文的表 7 (此处未复现) 显示,将某种形式的注意力加入 CNN 通常能在 ImageNet-A、ImageNet-R 和 ImageNet-O 等数据集上提高稳健性,尽管并不总能达到完整 ViT 的水平。

关键学习 :

  • 注意力有帮助 : 包含注意力模块的模型 (包括 ViT) 通常在基准数据集上的稳健性优于普通的 ResNet-50。
  • 全局上下文 : 图 6 中的注意力可视化和图 7 中的 Grad-CAM 对比指出一个有用的观点: ViT 常常将注意力分布在整张图像上,捕捉全局上下文。而 BiT 更常强调更局部的、中心区域。这种全局注意力可能有助于 ViT 在输入被遮挡或部分缺失时表现得更有韧性。

ViT 在来自 ImageNet-A 的图像上的注意力图可视化 (顶部若干行) 。

图 6: ViT 在 ImageNet-A 图像上的注意力图可视化。上排显示高置信度的正确预测,较低排显示置信度降低的情况。

在 BiT 与 ViT 都给出正确预测的图像上的 Grad-CAM 结果。

图 7: 在 BiT (m-r10x3) 与 ViT (L-16) 都给出正确预测的图像上的 Grad-CAM 结果,展示了注意力焦点的差异。

2) 预训练的作用

直觉 : ViT 最初的成功很大程度上依赖于大规模预训练。这种对多样数据的大量暴露可能是一种强有力的正则化,导致更稳健的特征表示。

方法 : 作者训练了一个 ViT B/16 模型,采用两种不同的预训练方案: 一种仅在 ImageNet-1k 上预训练,另一种在更大的 ImageNet-21k 上预训练后再在 ImageNet-1k 上微调。随后他们在基准稳健性数据集上评估这些模型的表现。

关键学习 :

  • 更大规模的预训练数据提升稳健性 : 在 ImageNet-21k 上预训练并在 ImageNet-1k 上微调的 ViT 模型,在 ImageNet-A、ImageNet-R 和 ImageNet-O 上的表现明显优于仅在 ImageNet-1k 上预训练的模型。例如,预训练于 ImageNet-21k 的 ViT B/16 在 ImageNet-A 上的 Top-1 准确率为 21.75% (相较于仅 ImageNet-1k 预训练的 8.63%) 、在 ImageNet-R 上为 41.82% (相较于 28.21%) 、在 ImageNet-O 的 AUPR 为 54.61% (相较于 26.25%) 。这表明更大的预训练数据集通过向模型暴露更广泛的数据分布,显著增强了 ViT 的稳健性,从而在较少的归纳偏置下获得更普适的特征。

外显结论 : 投入于大规模、多样化的预训练数据对开发稳健的 ViT 至关重要。

3) ViT 对图像遮挡更稳健

直觉 : 如果注意力能够实现全局推理,那 ViT 应该对图像部分被遮挡更具韧性。

方法 : 实验从 ImageNet-1k 验证集中随机抽取 1,000 张图像,并对它们应用 Cutout (随机方形遮罩) ,遮罩比例分别为 5%、10%、20% 和 50%。然后分别计算 BiT (m-r101x3) 与 ViT (L-16) 的平均 Top-1 准确率。

结果 :

  • 表 2 报告了不同遮挡比例下两个模型的平均 Top-1 准确率。ViT 始终优于 BiT。在 50% 遮挡时,ViT 仍保留约 60.4% 的准确率,而 BiT 明显下降至 52%。
遮挡比例Top-1 准确率 (BiT)Top-1 准确率 (ViT)
07983
0.057682.3
0.17581.4
0.272.477.9
0.55260.4

表 2: 使用不同遮挡比例时 BiT (m-r101x3) 和 ViT (L-16) 的平均 Top-1 准确率 (%) 。

  • 图 8 给出一个定性示例,展示随着遮挡增加预测置信度如何变化。即便图像被大量遮挡,ViT 仍保持较强置信度。

随着遮挡比例变化的预测置信度变化。第一行来自 BiT-m r101x3,第二行来自 ViT L-16。

图 8: 随着遮挡比例变化的预测置信度变化。第一行显示 BiT-m r101x3,第二行显示 ViT L-16。

为何重要 : 遮挡直接测试模型组合分布式证据的能力。ViT 的注意力机制与全局视野使其在部分补丁缺失时更具鲁棒性,这与全局上下文有助于稳健性的假设一致。

4) 傅里叶谱分析显示 ViT 低敏感性

直觉 : 一个常见假设是视觉模型会捕捉到脆弱的相关性,尤其是在高频区域,这些通常对人类不可感知。一个稳健的模型应该对这类高频伪相关不那么敏感。

方法 : 作者进行傅里叶分析 (Yin 等,2019) ,通过生成具有不同频率的傅里叶基向量并将其加到 1,000 张随机抽取的 ImageNet-1k 验证图像上,记录每张被扰动图像的错误率。这生成了一个最终错误率矩阵的热图,用以可视化频谱上的敏感性。

发现 :

  • 图 9 显示了敏感性热图。基线的 ResNet-50 在其中心 (低频成分) 周围表现出较高的错误率。而 ViT 与 BiT (尤其是在大数据集上预训练的 BiT) 则在整个频谱上显示出较低的敏感性,对这些结构化谱扰动更为稳健。论文的表 10 (此处未复现) 进一步量化了这一点,显示 ViT 与 BiT 相较于 ResNet-50 在错误率分位数上更低。

二维离散傅里叶变换频谱的敏感性热图 (Yin 等人 2019) 。低频/高频分量被移到频谱的中心/角落。

图 9: 二维离散傅里叶变换频谱的敏感性热图。位置 (i, j) 的值表示被相应傅里叶基噪声扰动的数据的错误率。低频/高频分量被移到中心/角落。

  • 图 10 提供了频域幅值谱以及自然图像高频分量的可视化,为傅里叶分析提供直观理解。

频域幅值谱和原图像高频分量的可视化示例。

图 10: 频域幅值谱和示例图像的高频分量可视化。

解释 : 预训练 (和架构选择) 使模型不那么依赖脆弱的高频线索,这些线索可能被对手或腐蚀利用。ViT 表现出特别低的敏感性,与其广泛的全局表示一致。

5) ViT 的对抗扰动在能量谱上更为分散

直觉 : 对抗攻击常利用模型在某些频谱成分上的脆弱性。如果模型的决策边界由跨频谱分布的特征影响,那么使用局部化扰动进行攻击会更困难。

方法 : 使用 DeepFool (Moosavi-Dezfooli 等,2016) ,作者为 1,000 张随机抽取的 ImageNet-1k 验证图像生成小幅对抗扰动。随后将这些扰动转换到离散余弦变换 (DCT) 频率基上,计算并可视化其能量谱。

观察 :

  • 图 11 显示了这些对抗扰动的谱分解。对于 ResNet 与 BiT,对抗扰动往往集中在低频区域 (频谱中心) 。而对于 ViT,对抗扰动在整个频谱上更为分散。这表明攻击者需要修改更宽范围的频率成分才能成功欺骗 ViT 模型。

使用 DeepFool (Moosavi-Dezfooli 等 2016) 生成的对抗扰动的谱分解。左上/右下象限分别表示低频/高频区域。

图 11: 使用 DeepFool 生成的对抗扰动的谱分解。左上/右下象限表示低频/高频区域。

  • 图 12 直观比较了 BiT 与 ViT 的对抗扰动本身。总体而言,ViT 的扰动看起来更平滑。

对抗扰动的可视化。第一行来自 BiT-m r101x3,第二行来自 ViT L-16。

图 12: 对抗扰动的可视化。第一行显示 BiT-m r101x3 的扰动,第二行显示 ViT L-16 的扰动。

为何有趣 : 如果对 ViT 的对抗扰动需要改变更宽带的频率,攻击就变得更难或至少在性质上不同。这表明 ViT 利用了更广范围的频率与空间区域的信息,与其基于注意力的全局处理一致。

6) ViT 在输入扰动下具有更平滑的损失景观

直觉 : 更平滑的损失景观意味着输入的小变化 (如腐蚀或对抗攻击) 会导致模型输出损失较小的变化,这使模型更稳健。

方法 : 作者测量了在一组 100 张预测正确的 ImageNet-1k 验证图像上,随着投影梯度下降 (PGD) 攻击步数增加时交叉熵损失的上升速度。损失陡增意味着损失景观粗糙,输入的微小改变就能迅速翻转预测;缓慢上升则意味着更平滑的景观。

结果 :

  • 图 13 显示 BiT 模型在 PGD 攻击下分类损失 (交叉熵) 迅速上升。相比之下,ViT 的损失增长更慢,这表明 ViT 相对于输入扰动具有更平滑的损失景观,为其改进的稳健性提供了机械学上的解释。

在 PGD 攻击期间 ViT (L-16) 与 BiT-m (r101x3) 的损失进展 (均值与标准差) 。

图 13: 在 PGD 攻击期间 ViT (L-16) 与 BiT-m (r101x3) 的损失进展 (均值与标准差) 。

  • 图 14 进一步通过五个单独的 ImageNet-1k 验证图像的 PGD 损失图示例强化了集合观察到的总体趋势。

来自 ImageNet-1k 验证集的单个样本的 PGD 损失图。

图 14: 来自 ImageNet-1k 验证集的单个样本的 PGD 损失图,比较 BiT (红色星号) 与 ViT (蓝色叉号) 。

将这些实验综合起来——简明解读

这些实验形成了一组互补的证据,合力解释了 ViT 提升稳健性的原因:

  • 注意力促成了全局上下文聚合和分布式表示,这在遮挡、某些腐蚀和领域迁移下是有益的。
  • 更大规模的预训练数据显著提升 ViT 的稳健性,可能是通过教会模型更为多样化、可泛化的特征并弥补较少的归纳偏置。
  • 频谱意义上 , ViT 对高频扰动的敏感性较低,其对抗扰动能量在频率上更为分散,意味着攻击需要更扩散并影响更广成分才能成功。
  • 输入扰动而言 , ViT 的损失景观更平滑,使得小攻击或腐蚀不易翻转预测。

这些发现是相互一致的: 一个能够聚合全局上下文、在更广泛数据上训练并学习更平滑决策面的模型,自然更稳健。视觉变换器似乎有效地结合了这些属性。

实践性建议

对于从业者而言,论文的发现提供了有价值的指导:

  • 优先考虑 ViT 以提升稳健性 : 如果稳健性是优先目标 (例如用于安全关键应用或模型将暴露于多样的真实世界数据) ,ViT 是一个有吸引力的架构选择,尤其是在配合大规模预训练时。
  • 全面评估是关键 : 但 ViT 并非在所有腐蚀类型上都占优 (对比度腐蚀就是一个明显例外) ,因此仍需使用多样的评估套件进行仔细评估。
  • 为 CNN 添加注意力模块 : 在卷积模型中加入注意力模块可以显著提升稳健性,而不必完全更换架构。如果工程或延迟限制阻碍了全面采用 ViT,混合方法或注意力增强的卷积网络是实用的替代方案。
  • 多方面提升稳健性 : 稳健性的改进通常源于多个因素的结合: 架构设计、预训练数据的规模与多样性、以及特定的正则化/训练配方。作者也承认,尽管他们在某些因素上尽力控制变量,但训练差异 (例如优化器、dropout) 也可能发挥作用。

局限与开放问题

作者还指出了若干局限与未来研究方向:

  • 架构范围 : 研究主要比较了 ViT 与 BiT (以及一些融入注意力的 CNN 变体) 。它并未穷尽其他大量架构空间 (例如 Swin Transformer、DINO/自监督的 ViT 以及更新的混合架构可能表现不同) 。
  • 训练可比性 : 尽管作者努力匹配预训练方案,但在像 ViT 与 BiT 这类本质上不同的架构间实现训练配方 (优化器、数据增强、正则化) 上的完全平等仍具有挑战性。
  • 对比度腐蚀异常 : ViT 在对比度腐蚀上的较差表现令人好奇。这表明尽管具有全局注意力,ViT 可能以不同于 CNN 的方式依赖某些与对比度相关的线索。这仍是未来值得深入研究的有趣方向。

结论

该论文提供了强有力的、多方面的证据,表明视觉变换器可以比可比的高性能 CNN 更加稳健。原因并非单一灵丹妙药,而是多种因素的汇合: 注意力实现了全局上下文聚合、大规模预训练提供了稳健的特征基础、ViT 倾向于利用跨频率分布的信息、并且其在自然图像周围的损失景观更平滑。

对于从业者而言,结论明确: 当稳健性是中心目标时,应考虑使用经过充分预训练的 ViT,并在多样的迁移与腐蚀上进行评估。对于研究者而言,论文提出了许多引人深思的后续问题: 为什么 ViT 在对比度上表现欠佳?不同注意力头的行为如何与稳健性相关?我们能否设计训练配方将稳健性、效率与样本效率兼得?该论文为将架构选择与可衡量的稳健性收益联系起来提供了实用路线图。