十多年来,实时目标检测领域一直由一个模型家族所主导:** YOLO** (You Only Look Once)。从自动驾驶汽车到零售数据分析,YOLO在速度与准确率之间实现了卓越平衡,使其成为高速、实际应用中检测物体的首选方案。YOLO生态系统的进步得益于不断的创新——但几乎所有的架构改进都集中在卷积神经网络 (CNN) 之上。
与此同时,在计算机视觉和自然语言处理等其他领域,另一种架构正改变格局: 由注意力机制驱动的Transformer。事实证明,Transformer在建模数据中复杂的长距离依赖关系方面表现出色。问题在于: 为什么直到现在才出现真正基于注意力的YOLO?
主要原因是速度。自注意力机制虽具备强大的建模能力,但计算成本高昂,其复杂度随输入规模呈平方级增长,而且内存访问模式效率低下。在像YOLO这样毫秒必争的框架中,这一直是致命障碍。
一篇开创性论文 《YOLOv12: Attention-Centric Real-Time Object Detectors》 挑战了这一假设。作者们提出了一个以注意力为核心构建的YOLO框架,其速度可媲美乃至超越基于CNN的前辈。这项工作打破了CNN的垄断,为新一代更快、更精确的实时检测器铺平了道路。
如图 1所示,YOLOv12在各种模型规模上均达到了新的SOTA水平,在给定的延迟或计算预算下提供了更高的准确率。例如,最小型号YOLOv12-N在COCO数据集上取得了40.6% mAP,在T4 GPU上每张图像的延迟仅为1.64 毫秒——在相似速度条件下,比YOLOv10-N的mAP高出2.1%。
注意力瓶颈: Transformer为何速度慢
要理解YOLOv12的创新,我们需要拆解传统注意力在实时检测中常显过慢的原因:
平方级计算复杂度
在自注意力中,每个token都会与所有其他token交互。对于长度为\(L\)、特征维度为\(d\)的输入序列,其计算复杂度为\(\mathcal{O}(L^2d)\)。高分辨率图意味着\(L\)很大,使注意力的计算成本高得令人望而却步。
相比之下,CNN的计算复杂度为\(\mathcal{O}(kLd)\),其中核大小\(k\)较小,因此具有固有的效率优势。低效的内存访问
在计算过程中,大型中间特征图 (如\(QK^\top\)) 需要在高速片上SRAM与较慢的高带宽内存 (HBM) 之间传输。即便FLOPs可控,I/O开销也会显著增加运行时间。FlashAttention等方法改善了内存访问效率,但复杂度问题依旧存在。
早期的“高效”Transformer——如Swin Transformer的移位窗口或轴向注意力——虽降低了成本,但引入了架构复杂性或缩小了感受野。YOLOv12所需的是既简单又快速的方案。
核心方法: 快速、以注意力为中心的YOLO
YOLOv12引入了三项关键创新来突破注意力瓶颈:
1. 区域注意力 (Area Attention,A2) : 简单、快速、有效
YOLOv12的核心是区域注意力 (A2) ——一种极简却高效的注意力策略。A2不采用复杂的窗口移位或重叠方案,而是简单地将特征图划分为几个较大的水平或垂直区域,并仅在每个区域内部计算注意力。
主要优势:
- 简单与快速: 区域划分仅需基本的reshape操作,避免了高昂的计算成本。
- 大感受野: 即便只有四个区域,每个区域仍覆盖场景的大部分,保持强上下文理解能力。
- 降低复杂度: 每个区域内的序列长度被有效缩短,从而在保持准确率的同时大幅削减计算成本。
这种结构在一定程度上限制了全局依赖,但显著提升了速度——非常适合实时YOLO。
2. 残差高效层聚合网络 (R-ELAN)
仅仅将注意力模块替换进去还不够。将YOLOv7中引入的ELAN用于深层注意力骨干网络时,大模型会出现不稳定——要么无法收敛,要么结果波动明显。
YOLOv12通过R-ELAN解决了这一问题。
两项关键改进:
块级残差连接
从输入到输出增加跳跃路径,并通过因子 (默认0.01) 缩放,稳定训练过程。该理念类似于深度视觉Transformer中的LayerScaling,确保稳健的梯度流。重新设计的聚合路径
R-ELAN不再将输入切分后部分处理,而是采用瓶颈结构: 过渡层调整通道数,顺序块依次处理,并高效拼接。这在不牺牲融合能力的情况下降低了参数量与内存占用。
3. 面向YOLO的架构优化
除A2与R-ELAN外,YOLOv12还包含多项优化:
- FlashAttention: 直击内存瓶颈。
- 移除位置编码: 惊喜的是,去掉它们可以加快推理且性能无损。
- 位置感知器 (Position Perceiver) : 在注意力模块的值张量上应用轻量级\(7\times 7\)深度可分离卷积,恢复空间感知能力。
- 优化的MLP比例: 标准Transformer的MLP比例 (~4.0) 在此场景下浪费算力。YOLOv12采用更小比例 (1.2或2.0) ,将算力重新分配给区域注意力。
实验与结果
团队在MS-COCO 2017数据集上测试了YOLOv12,并与流行的实时检测器进行基准对比。
亮点:
- YOLOv12-S: 48.0% mAP,比YOLOv11-S高1.1%,比RT-DETR-R18高1.5%,延迟快42%,计算量仅为RT-DETR的36%。
- YOLOv12-L: mAP比YOLOv11-L高0.4%,资源消耗相近。
- YOLOv12-X: 55.2% mAP,比YOLOv11-X高0.6%,速度快于RT-DETR-R101。
消融研究: 验证其有效性
为验证各项创新的贡献,作者进行了受控消融实验。
R-ELAN的稳定性:
无残差连接时,大模型无法收敛。重新设计的聚合结构在保持准确率的同时减少了FLOPs。
区域注意力的速度提升:
启用 (✓
) A2可在各规模下持续降低GPU/CPU延迟,优于标准注意力 (×
) 。
诊断研究显示:
- 在注意力模块中,
Conv+BN
的效率优于Linear+LN
。 - 保留YOLO的层级结构至关重要——普通Transformer堆叠表现不佳。
- FlashAttention可在无性能损失的前提下削减约0.3–0.4毫秒推理时间。
可视化成效
数据很有说服力,但可视化结果更直观。作者比较了YOLOv10、YOLOv11与YOLOv12的热力图。
YOLOv12的注意力热图展现了更锐利的物体边界,并能精准区分前景与背景。作者认为这得益于区域注意力的更大感受野,使模型更好地理解场景。
结论: 新时代的开启
YOLOv12不仅是一次迭代——它是实时检测领域的一次范式转变。通过为速度重新设计注意力机制,作者打破了CNN在YOLO中的长期垄断。
核心要点:
- 注意力也能够高速: 如区域注意力等创新证明了高速注意力的可行性。
- 稳定性不可或缺: 深度注意力骨干网络需要如R-ELAN般的架构确保训练稳定。
- 设计协同至关重要: YOLOv12的成功源于重大创新与精细优化的共同作用。
这标志着以注意力为中心的YOLO模型时代的开启。纯CNN YOLO的统治正在走向终结——YOLOv12正引领变革。