近十年来,如果你想构建一个前沿的音频分类系统,你的首选架构便是 卷积神经网络 (CNN) 。 从通过叫声识别鸟类到识别口语单词,CNN 长期以来一直主导着这个领域。它们能够检测音频频谱图——声音的视觉表示——中的局部结构,使其成为天然的选择。

这个推理直观又合理: 就像 CNN 能在图像中找到边缘和纹理一样,它们也能在频谱图中识别共振峰、起始点和谐波模式。为了处理更长时间范围的上下文,研究人员开始在 CNN 主干上叠加自注意力机制或 Transformer。这些 CNN—注意力混合模型不断刷新技术水平。

但如果卷积层根本不需要呢?如果注意力机制本身就能做得更好呢?

这个大胆的问题正是麻省理工学院 (MIT) 的 Yuan Gong、Yu‑An Chung 和 James Glass 的研究论文 “AST: Audio Spectrogram Transformer” 的核心。他们挑战了一个根深蒂固的假设——CNN 对音频表示学习是必不可少的,并提出了一个革命性的想法: 一个完全基于注意力的模型能否超越传统的卷积方法?

答案是肯定的。他们提出的模型——音频频谱图 Transformer (AST)——是第一个为音频分类设计的无卷积网络。通过将 视觉 Transformer (ViT) 迁移到音频领域,他们以更简单、更灵活的架构在各大基准上取得了卓越成绩。

让我们看看,一个视觉模型是如何学会“聆听”的。


快速回顾: 频谱图、CNN 和 Transformer

在深入了解 AST 的工作原理之前,让我们先回顾几个核心概念。

音频频谱图是一种随时间展示声音的可视化方式。它以垂直轴表示频率、水平轴表示时间,用颜色表示各频率的强度。这将一维的声波转化为二维的类图像模式——这正是使计算机视觉技术在音频研究中如此有效的关键。

声波生成频谱图的示意图。

从声波衍生出的频谱图概念图。

卷积神经网络 (CNN) 擅长处理这类类图像数据。它们使用小型滤波器在频谱图上滑动,学习局部特征——特定频段或基于时间的形状。凭借其归纳偏置,如空间局部性 (邻近点相互关联) 和平移等变性 (模式在不同位置仍可识别) ,CNN 十分高效。然而,其局部聚焦的特性意味着它们难以捕捉相距较远的区域之间的关系,除非堆叠许多层或结合注意力机制。

相较之下, Transformer 源自语言处理。它的核心组件——自注意力——使序列中的每个元素都能与其他所有元素相关,从第一层开始就实现全局上下文建模。问题是: 如何将一个为一维单词序列设计的模型应用到二维数据,如图像或频谱图?

视觉 Transformer (ViT) 解决了这个问题: 它将图像切割成一个由更小图块组成的网格,展平每个图块为向量,并将图块向量序列视作句子中的词序列处理。这个简单而优雅的思想让 Transformer 能用于视觉领域,并证明 CNN 并非图像表示学习的唯一方案。

AST 论文正是将这一思想应用到了音频频谱图上。


架构解析: 音频频谱图 Transformer 内部探秘

AST 将 ViT 的“图像即图块”概念无缝地迁移到听觉领域。其架构如图 1 所示。

所提出的音频频谱图 Transformer (AST) 架构。该模型接收一个频谱图,将其分割成重叠的图块,然后将图块投影成嵌入向量,并输入到一个 Transformer 编码器中进行分类。

图 1: 音频频谱图 Transformer (AST) 将频谱图分割成重叠图块,对其进行线性嵌入,并使用 Transformer 编码器进行分类。

步骤 1: 从波形到频谱图

原始波形首先转化为对数梅尔频谱图。对于一个长度为 \(t\) 秒的音频片段,结果是一个包含 128 个频率箱与 \(100t\) 个时间帧的张量。例如,10 秒的音频会产生一个 128 × 1000 矩阵。

步骤 2: 分割成图块

频谱图被划分为更小的方块——每个 16 × 16 像素——并在两个维度上重叠 6 像素。重叠能保持相邻图块的连续性,防止边界信息丢失。对于一个典型的 10 秒音频,这大约会产生 1,212 个图块。

步骤 3: 线性投影 (图块嵌入)

每个 16 × 16 图块被展平并通过线性投影层,映射到 768 维嵌入空间。这些嵌入序列构成 Transformer 的输入。

步骤 4: 加入位置信息

Transformer 本身对输入顺序不敏感,因此 AST 为每个图块嵌入添加一个可学习的位置嵌入 , 使模型能掌握每个图块在频谱图中的位置,从而保留时‑频结构。

步骤 5: [CLS] 标记与 Transformer 编码器

一个特殊的 [CLS]  (分类) 标记,如同在 BERT 中那样,被加到序列开头。整个序列随后通过一个标准的 Transformer 编码器——包含 12 层、12 个注意力头,嵌入维度为 768。自注意力机制使所有图块相互交互,模型由此学习跨时间与频率的全局模式。

步骤 6: 最终分类

对应 [CLS] 标记的编码器输出被视为整个频谱图的综合表示。该嵌入经由一个带 sigmoid 激活的线性层生成每个标签的概率。


秘密武器: 从视觉到音频的迁移学习

Transformer 功能强大,但极其依赖数据。ViT 的研究表明,只有在约 1400 万张或更多图像的大型数据集上训练时,Transformer 才能显著超越 CNN。音频数据集往往远达不到此规模,因此从零训练 AST 成效有限。

为此,作者采用了跨模态迁移学习 。 由于频谱图与灰度图像相似,他们用在 ImageNet 上预训练的视觉 Transformer 初始化 AST,从而在音频训练开始前就获得丰富的预学特征。

不过,为了桥接视觉与音频域,仍需几项适配:

  1. 输入通道: ViT 期望 3 通道 RGB 图像,而音频频谱图只有 1 通道。 *解决方案: * 将 ViT 卷积核的三通道权重取平均,以形成单通道等效权重。

  2. 输入形状与位置嵌入: 预训练的 ViT (尤其是 DeiT 变体) 在固定的 384 × 384 图像上训练,形成 24 × 24 的不重叠图块网格;而 AST 频谱图的网格形状则完全不同,例如 12 × 100。 *解决方案: * 通过裁剪一个维度并应用双线性插值调整位置嵌入大小,使其与 AST 匹配,从而保持图块间的空间关系。

  3. 分类头:  ViT 的最终分类器针对 ImageNet 的 1,000 类别,与音频无关。 *解决方案: * 将其替换为新的随机初始化分类器,以适配目标数据集 (例如 AudioSet 的 527 标签) 。

通过这些调整,AST 继承了强大的视觉特征,大幅减少了所需训练数据并提升了泛化能力。


对 AST 的考验: 实验与结果

作者在三个不同的基准数据集上评估了 AST:

  • AudioSet ——包含 10 秒音频片段及 527 类声音事件,规模庞大复杂。
  • ESC‑50 ——收录 50 类环境声音的短录音。
  • Speech Commands V2 ——涵盖 35 个口语单词的一秒语音片段。

在 AudioSet 中脱颖而出

由于规模庞大、标签多样,AudioSet 是最具挑战性的音频基准之一,而 AST 的表现令人惊艳。

AST 与先前方法在 AudioSet 上的性能比较。在所有设置中,AST 的表现都持续优于之前的 SOTA CNN‑注意力模型。

表 1:  AudioSet 结果。AST 超越了以往的 CNN‑注意力混合模型,并且训练更高效。

单个 AST 模型达到平均精度 (mAP) 0.459,优于最佳 CNN‑注意力混合模型 PSLA 的 0.444。使用模型集成后,AST 的 mAP 进一步提升至 0.485 , 创下最新纪录。令人印象深刻的是,AST 仅需 5 个 epoch 即可收敛,而 PSLA 需要 30 个。


消融研究: 是什么让 AST 如此强大?

为探究性能提升的原因,作者进行了多项消融实验。

1. ImageNet 预训练的必要性

去除 ImageNet 权重、从头训练的 AST 表现明显变差。使用预训练后,平衡版 AudioSet 子集上的 mAP 从 0.148 跃升至 0.347

表格显示了从头训练的 AST 模型与使用 ImageNet 预训练的模型之间巨大的性能差距。

表 2:  ImageNet 预训练带来的显著提升。

2. 预训练 ViT 的质量

在 ImageNet 上表现越好的视觉 Transformer,迁移到 AudioSet 后效果越佳。在测试的变体中, 带蒸馏的 DeiT 表现最为优异。

表格显示,在 ImageNet 上表现更好的模型会导致 AST 在 AudioSet 上表现更好。

表 3:  使用不同预训练 ViT 权重的性能对比。

3. 位置嵌入的自适应

“裁剪 + 双线性插值”策略至关重要。若重新初始化位置嵌入, mAP 会从 0.347 下降至 0.305,证明传递空间知识的重要性。

表格展示了当位置嵌入被重新初始化而不是通过插值进行自适应时,性能出现的下降。

表 4:  位置嵌入自适应的重要性。

4. 图块重叠与形状

增加重叠可提高精度,尽管计算量会增加 (见表 5) 。此外,在从头训练时,细长图块 (128 × 2) 表现更优,而使用预训练时,方形图块 (16 × 16) 由于与 ViT 结构一致,整体效果最佳。

表格显示性能随着图块重叠的增大而提高。

表 5:  图块重叠大小的影响。

表格比较了不同的图块形状。使用预训练时,方形图块更受青睐,而矩形图块有助于从头训练的模型。

表 6:  图块形状与尺寸的影响。


泛化到其他任务

AST 的优势不止于 AudioSet。同样的架构——无需调整——在 ESC‑50 和 Speech Commands V2 数据集上也创下新的纪录。

表格比较了 AST 与先前 SOTA 模型在 ESC‑50 和 Speech Commands\u202fV2 数据集上的表现,显示 AST 取得了更好的结果。

表 7:  AST 在多个数据集上刷新最高成绩。

在 ESC‑50 上,AST 达到 95.6% 准确率,超越所有先前系统。在 Speech Commands V2 上,其准确率高达 98.1%,甚至超过了那些使用数亿额外样本训练的模型。相同架构在不同任务中均表现卓越——从 1 秒语音片段到 10 秒环境录音——充分证明了其灵活性。


结论: 音频分类的新范式

音频频谱图 Transformer 不仅是又一个渐进改进——它重新定义了音频建模的思维方式。

通过将频谱图视作图像并彻底去除卷积,AST 实现了:

  1. 更强性能:  在 AudioSet、ESC‑50 和 Speech Commands 上均刷新 SOTA 成绩。
  2. 更简洁的设计:  单一、干净的 Transformer 架构取代复杂的 CNN‑注意力混合模型。
  3. 更广泛的适用性:  同一模型可处理语音、环境声音及不同长度的通用音频事件。

更令人瞩目的是,AST 利用跨模态迁移学习 , 证明视觉领域获得的知识能加速音频理解的进步。这项研究标志着一个重要转折——或许是卷积在音频研究中统治时代的终结,并传递出一个有力的讯息:

对于音频分类而言, 注意力真的就是你所需要的一切。