引言
在计算机视觉领域飞速发展的今天,人们普遍倾向于通过增加架构的复杂性来解决复杂问题。当 Vision Transformer (ViT) 横空出世时,它彻底改变了图像分类任务。然而,当研究人员试图将其应用于更细粒度的任务 (如图像分割,即对每个像素进行分类) 时,业界的共识是: “普通”的 ViT 并不够用。
为了弥补这一差距,该领域制定了一套标准配方: 取一个 ViT,附上一个沉重的“适配器 (adapter) ”来提取多尺度特征 (模仿卷积神经网络) ,添加一个“像素解码器 (pixel decoder) ”来融合这些特征,最后再加上一个复杂的“Transformer 解码器”来生成掩码。像 Mask2Former 这样的最先进模型就遵循这种模式,虽然功能强大,但架构复杂且计算量大。
但是,如果我们一直以来都低估了 Vision Transformer 呢?
近期的一篇研究论文《Encoder-only Mask Transformer (EoMT)》挑战了这一现状。作者提出了一个发人深省的问题: 你的 ViT 是否在暗地里已经是一个图像分割模型了? 他们假设,随着大规模预训练 (如 DINOv2) 的兴起和模型尺寸的增大,那些额外的适配器和解码器所提供的“归纳偏置 (inductive biases) ”不再是必须的。
这项探究的成果就是 纯编码器掩码 Transformer (Encoder-only Mask Transformer,简称 EoMT) 。 该模型剥离了几乎所有的花哨组件,仅依赖于普通的 ViT 架构,却达到了与最先进模型相媲美的性能,同时速度提升高达 4 倍 。

如上图 1 所示,EoMT (橙线) 即便在极高的帧率 (FPS) 下也能保持较高的全景质量 (PQ) ,将传统的复杂架构 (蓝线) 远远甩在身后。在这篇文章中,我们将解构研究人员是如何实现这一点的,深入探讨其架构、名为“掩码退火 (mask annealing) ”的新颖训练策略,以及这对未来高效计算机视觉的启示。
背景: 分割领域的现状
在拆解复杂的架构之前,我们需要了解它们试图实现什么目标。图像分割通常有三种形式:
- 语义分割 (Semantic Segmentation) : 为每个像素标注类别 (如“道路”、“天空”、“汽车”) 。它将所有汽车视为一个整体。
- 实例分割 (Instance Segmentation) : 检测个体对象 (如“汽车 A”、“汽车 B”) 。它会忽略背景物体,如天空。
- 全景分割 (Panoptic Segmentation) : 两者的结合,被称为“圣杯”。你既需要区分“汽车 A”和“汽车 B”,也要标注天空和道路。
标准的 “Mask Transformer” 配方
为了使用 Transformer 解决全景分割问题,像 Mask2Former 这样的现代方法使用了基于查询 (query-based) 的方案。模型学习一组“对象查询 (object queries) ”——这些向量会询问图像: “这里有车吗?”或“这里有草地吗?”
然而,标准的 ViT 以单一尺度处理固定大小的图块 (例如 16x16 像素) 。传统的观点认为,分割任务需要:
- 多尺度特征: 高分辨率用于识别边缘,低分辨率用于理解上下文。
- 局部处理: 利用卷积来理解像素邻域。
为了强行让 ViT 做到这一点,研究人员将其包裹在层层复杂的结构中:
- ViT-Adapter: 一个与 ViT 并行运行的卷积网络,用于注入多尺度信息。
- 像素解码器 (Pixel Decoder) : 一个用于上采样和融合这些特征的模块。
- Transformer 解码器: 一组独立的 transformer 块,查询在这里关注图像特征以预测掩码。
EoMT 的作者认为,这些组件本质上是“辅助轮”。当模型较小或未受过训练时,它们有帮助,但当骨干网络足够强大时,它们就变得多余了。
核心方法: 拆解引擎
这篇论文的主要贡献不是添加新模块,而是严格地移除现有模块,以找到最小可行架构。这个过程是一次典型的架构消融实验。
第一步: 解构复杂流程
研究人员从沉重的 ViT-Adapter + Mask2Former 架构开始,系统地移除了各个组件。让我们将这一演变过程可视化。

如 图 A 所示:
- (0) 基线 (The Baseline) : 包含适配器、像素解码器和 Transformer 解码器的完整复杂模型。
- (1) 移除适配器 (Removing the Adapter) : 卷积侧挂件消失了。模型现在仅依靠 ViT 进行特征提取。为了补偿,他们使用简单的转置卷积从 ViT 的输出构建特征金字塔。
- (2) 移除像素解码器 (Removing the Pixel Decoder) : 不再使用复杂的融合模块,仅仅使用简单的上采样/下采样来调整特征大小。
- (3) 移除多尺度特征 (Removing Multi-scale Features) : 他们意识到生成 4 种不同尺度的特征可能是杀鸡用牛刀。他们转而使用 ViT 的单一尺度输出 (仅为了最终掩码预测进行一次上采样) 。
在实验的第 (4) 步中,他们得到了一个直接置于普通 ViT 之上的 Transformer 解码器。但我们能更进一步吗?我们能完全移除解码器吗?
第二步: EoMT 架构
最终的飞跃诞生了 纯编码器掩码 Transformer (EoMT) 。
在标准的 Transformer 解码器中,对象查询会与图像特征进行交叉注意力 (cross-attend) 计算。但 ViT 编码器块内部 已经 拥有注意力机制 (自注意力) 。研究人员意识到,他们可以重新利用 ViT 的最后几层来处理查询。
这是简化后的架构:

工作原理:
- 阶段 1 (标准 ViT) : 图像像往常一样通过 ViT 的前 \(L_1\) 个块。它处理的是图块 (patch) token。
- 拼接 (Concatenation) : 引入一组可学习的“查询 (Queries) ”,并将它们简单地拼接到图块 token 后面。
- 阶段 2 (联合处理) : 在最后的 \(L_2\) 个块中,ViT 同时处理图像图块 和 查询。
- 预测: 从末端提取查询,用于预测类别标签和掩码。
在数学上,ViT 块通过多头自注意力 (MHSA) 和 MLP 更新 token \(X^i\)。该块的方程保持标准的 Transformer 方程不变:

在 EoMT 中,\(X^i\) 简单地同时包含图像 token 和查询 token。通过自注意力,查询可以“查看”图像图块以收集信息,图像图块也可以“查看”查询。这统一了编码和解码步骤,将其合并为一个优化的堆栈。
第三步: 掩码注意力的问题
这中间存在一个主要障碍。像 Mask2Former 这样的最先进模型严重依赖 掩码注意力 (Masked Attention) 。
在掩码注意力中,查询被限制为只关注图像中它当前预测为掩码的特定区域。如果一个查询认为它正在看一只“狗”,它在注意力计算期间会被强制忽略“背景”像素。这作为一个强先验,有助于模型收敛并提高准确性。
下图展示了掩码 (左) 如何决定注意力图 (中间网格) ,特别是蓝色的“查询对图块 (Query-to-patch) ”区域。

权衡:
- 优点: 掩码注意力显著提高了分割质量。
- 缺点: 它很慢。在推理过程中,你必须在每一层生成中间掩码、设定阈值并修改注意力矩阵。这抹杀了使用普通 ViT 的速度优势。
如果研究人员保留掩码注意力,EoMT 虽然准确但不会比基线快多少。如果移除它,准确率就会下降。
第四步: 掩码退火 (Mask Annealing)
提出的解决方案非常优雅: 掩码退火 。
假设是: 掩码注意力对于 学习 (在早期帮助模型弄清楚对象是什么) 至关重要,但对于 推理 (一旦模型成熟) 可能是不必要的。
研究人员提出了一个训练计划,应用掩码的概率从 100% 开始,逐渐衰减到 0%。

如 图 4 所示:
- 早期训练 (黄/绿线) : 块被重度掩码。查询被引导只看它们特定的区域。
- 后期训练: 掩码概率 (\(P_{mask}\)) 下降。模型被迫学习在 没有 注意力掩码辅助的情况下进行分割。
- 推理: 掩码被完全关闭。
这一策略让 EoMT 实现了两全其美: 既有掩码训练带来的高精度,又有无掩码推理带来的极快速度。
实验与结果
研究人员在 COCO (全景/实例) 和 ADE20K (语义) 等标准基准上验证了 EoMT。他们主要将其与 ViT-Adapter + Mask2Former 基线进行了比较。
1. 速度 vs. 精度
最引人注目的结果是效率的提升。让我们看看性能的逐步分解。

表 1 的关键结论:
- 行 (0): 基线在 29 FPS 下达到 57.1 PQ。
- 行 (5): EoMT 达到 56.0 PQ,但速度跃升至 128 FPS 。
- 权衡: 我们损失了大约 1.1 分的全景质量,但获得了 4.4 倍的速度提升 。
- 为什么这么快? 注意步骤 (5)。移除掩码 (通过退火实现) 将速度从 61 FPS 翻倍至 128 FPS。普通 ViT 在现代硬件 (GPU) 上极其优化,而像掩码提取这样的自定义操作会造成瓶颈。
2. 预训练的关键作用
论文指出,以前模型的复杂性是弱骨干网络的“创可贴”。如果骨干网络足够强大,就不需要创可贴了。通过比较不同的预训练策略证明了这一点。

观察 表 2 :
- IN1K (标准 ImageNet) : EoMT 表现惨淡 (44.3 PQ vs 基线 50.4) 。在这里它 需要 复杂的解码器。
- DINOv2: 差距显著缩小 (56.0 vs 57.1) 。
- 结论: EoMT 的成功取决于高质量、大规模的预训练,如 DINOv2 或 EVA-02。这些基础模型学习到了非常丰富的密集特征,以至于架构不需要太费力就能提取它们。
3. 跨任务性能
EoMT 不仅仅适用于全景分割。它的泛化能力很强。
全景分割 (COCO) :
在表 4 中,观察 ViT-L 所在的行,EoMT 以 128 FPS 运行,而基线仅为 29 FPS,且精度具有竞争力。
分布外 (OOD) 泛化: 移除自定义组件的一个隐藏好处是,你完全依赖于预训练的骨干网络。像 DINOv2 这样的基础模型以其鲁棒性而闻名。

在 图 B 中,模型遇到了一只长颈鹿 (这是它在这个特定上下文中可能没有被明确训练去分割的对象) 。
- 面板 2 (基线) : 复杂模型在背景区域“自信地犯错”。
- 面板 3 (EoMT) : EoMT 模型生成了更清晰的置信度图,正确地高亮了长颈鹿并抑制了背景。因为它直接依赖 DINOv2 特征,没有适配器的干扰,所以继承了 DINOv2 的鲁棒性。
表 8 定量地证实了这一点:

EoMT 达到了与基线几乎相同的分布内 (ID) 性能,但保持了很高的分布外 (OOD) 性能 (77.2 vs 78.0) ,而基于 Swin transformer 的旧架构则显著下降 (69.4) 。
4. 视觉质量
简化后的模型真的能生成好的掩码吗?

图 C 比较了基线 (第 3 行) 和 EoMT (第 4 行) 。
- 看最后一列 (厨房里的人) 。基线在冰箱/人的边界处理上略显吃力。
- EoMT 生成了清晰、连贯的掩码,尽管架构显著简化,但在视觉上与更重的基线难以区分 (甚至有时更好) 。
结论与启示
纯编码器掩码 Transformer (EoMT) 为计算机视觉提供了一个令人信服的观念纠正。多年来,该领域一直认为将 Vision Transformer 应用于分割需要通过适配器和复杂的解码器重新引入卷积网络的归纳偏置。
这篇论文证明了 你的 ViT 本身就是一个隐藏的图像分割模型 。
通过利用:
- 强大的预训练 (DINOv2) ,
- 架构的极简性 (普通 ViT + 查询拼接) ,以及
- 掩码退火 (逐渐移除注意力掩码) ,
EoMT 在精度/效率的权衡中达到了一个“甜点”。它提供了最先进的速度 (在 ViT-L 上高达 128 FPS) 和具有竞争力的精度。
更广泛的教训: 与其将计算预算花在架构复杂性 (适配器、解码器) 上,不如将资源用于扩展骨干网络和改进预训练。简单的普通架构不仅更快,而且更易于优化,并且与未来的硬件进步更兼容。在基础模型时代,少即是多。
](https://deep-paper.org/en/paper/2503.19108/images/cover.png)