生成逼真、高保真的音频是机器学习领域的一大难题。
想一想原始音频波形是什么: 对于每一秒的声音,它是由数以万计的数字——即采样点——组成的序列。

要生成哪怕几秒钟连贯的音乐或语音,模型既需要理解复杂的局部模式 (如钢琴音符的质感) ,同时又必须在数十万个时间步上维持全局结构 (如旋律的演进或一个完整的句子) 。

多年来,这个问题一直由循环神经网络 (RNN) 和卷积神经网络 (CNN) 的特化版本来解决。
SampleRNN 和著名的 WaveNet 这样的模型已经将可能性推向了极限,但它们各自都有根本性的权衡:

  • RNN 训练速度慢,因为它们是按顺序处理数据——一次一个采样点。
  • CNN 由于并行化,训练速度更快,但受其感受野限制,难以捕捉非常长程的依赖关系。

如果我们能两全其美呢?
一个既能像 CNN 一样并行训练,又能像 RNN 一样高效生成,同时还能建模真正长程结构的模型?

斯坦福大学最近的一篇论文 《原始音频!使用状态空间模型生成音频》 (It’s Raw! Audio Generation with State-Space Models) 就介绍了这样一种模型: SASHIMI**。
它利用深度状态空间模型 (SSM) 实现了更快的训练、高效的生成,并且其生成音频在人类评估中被认为比前辈们在音乐性连贯性上显著更优。

在本文中,我们将详细解析 SASHIMI 的工作原理:

  1. 回顾自回归音频建模及其前辈模型。
  2. SASHIMI 核心的结构化状态空间序列模型 (S4)
  3. 确保生成结果正常的稳定性修复方法。
  4. 能够跨越从微观细节到宏观结构的多尺度架构
  5. 音乐和语音生成基准测试结果。

背景: 追求完美的音频模型

自回归建模: 一次一个采样点,预测未来

其核心在于,自回归 (AR) 模型通过基于所有先前时间步来预测当前时间步,从而学习序列的概率分布。
形式上,对于一个音频波形 \(x = (x_0, x_1, \dots, x_{T-1})\):

\[ p(x) = \prod_{t=0}^{T-1} p(x_t \mid x_0, \dots, x_{t-1}) \]

训练: 模型观察一个真实音频序列,并在每一步预测下一个采样点。
生成: 从一小段种子音频 (或静音) 开始,模型从预测分布中采样,将采样点附加到输入上,然后重复这一过程——一次一个采样点地构建完整波形。

这种方法支持任意长度的序列,但其成败取决于为 \( p(x_t \mid x_{


CNN (例如 WaveNet) : 并行训练,上下文有限

CNN 在输入序列上应用一个学习到的*卷积核 *(滤波器) :

\[ y = K * x \]

WaveNet 因使用扩张卷积而闻名,通过跳过输入来指数级地扩大感受野,而不增加参数数量。
训练过程高度并行——非常适合 GPU——但推理过程却很笨拙: CNN 只能“看到”一个固定大小的过去窗口。

对于 16 kHz 音频,一个 WaveNet 可能只能访问过去的几秒钟——这限制了它生成具有真正全局结构的旋律或句子的能力。


RNN (例如 SampleRNN) : 无限上下文,训练缓慢

RNN 逐步处理序列,并维持一个隐藏状态 \(h_t\) 来总结已看到的信息:

\[ h_t = f(h_{t-1}, x_t) \quad y_t = g(h_t) \]

这种有状态设计使得 RNN 理论上拥有对过去的无限记忆——推理速度很快 (每个采样点仅需一次隐藏状态更新) 。
但训练过程极其缓慢: 隐藏状态必须按顺序计算。


状态空间模型: 新的希望

状态空间模型 (SSM) 源自控制理论,由连续时间的线性微分方程描述:

\[ \begin{aligned} h'(t) &= Ah(t) + Bx(t) \\ y(t) &= Ch(t) + Dx(t) \end{aligned} \]

这里,\(x(t)\) 是输入,\(h(t)\) 是潜在状态,\(y(t)\) 是输出。
当对音频这样的序列进行离散化时,SSM 可以有两种计算方式:

  1. 作为 RNN: 简单的线性递归——生成速度快。
  2. 作为 CNN: 单一的、极长的卷积——训练完全可并行化。

其卷积核实际上是无限的,克服了传统 CNN 的感受野限制。


S4 模型

S4 (结构化状态空间序列模型) 是 SSM 的一个强大实例化:

  • 将 \(A\) 参数化为对角加低秩 (DPLR) 形式以加快计算。
  • 使用 HiPPO 理论进行初始化,以建模长程依赖。

S4 可以通过在卷积 (训练) 和递归 (生成) 模式间切换,对原始音频进行分类和序列生成。


用 SASHIMI 构建更好的音频模型

SASHIMI 基于 S4 构建,并添加了两项针对原始音频生成的关键改进。

1. 为生成任务稳定 S4

原始 S4 在卷积模式下工作良好,但在递归模式下有时会数值不稳定——生成会崩溃成杂音。

为什么?
在递归更新 \( h_k = \overline{A}h_{k-1} + \dots \) 中,稳定性取决于 \(\overline{A}\) 的所有特征值都在单位圆内。这要求 \(A\) 为 Hurwitz 矩阵 (所有特征值的实部为负) 。

原始参数化:

\[ A = \Lambda + pq^* \]

不能保证这一点,训练往往将 \(A\) 推出 Hurwitz 空间。

修复方法:
pq 绑定,并翻转符号:

\[ A = \Lambda - pp^* \]

项 \(-pp^*\) 为负半定,会将特征值向左移动。
如果 \(\Lambda\) 的所有元素实部为负,\(A\) 可证明为 Hurwitz 矩阵。
在实践中,即便 \(\Lambda\) 不受约束,模型也能保持稳定。

S4 状态矩阵在标准和 Hurwitz 参数化下的谱半径比较。虚线为不稳定阈值 (幅度 1) 。Hurwitz 形式保持特征值低于 1。表格确认了稳定生成且 NLL 无损失。


2. SASHIMI 的多尺度架构

第二项创新是多尺度处理——同时捕捉不同分辨率下的音频结构。
原始音频在多尺度上都有结构:
精细纹理 (毫秒级) 、音符/音素 (几十毫秒级) 、旋律/句子 (秒级) 。

SASHIMI 架构图。输入波形流经 S4 模块,下采样到更低分辨率并增加通道,再由更多 S4 模块处理,然后上采样并与高分辨率特征融合——类似 U-Net 风格。

工作原理:

  1. S4 模块: 包含稳定化 S4 层、LayerNorm、GELU 和线性变换的残差结构。
  2. 下采样池化: 重塑并映射到更短、更宽的序列 (如 \(L \to L/4\)、\(H \to 2H\)) ,压缩局部上下文。
  3. 分层处理: 在多个层级堆叠 S4 模块,每层在更粗分辨率上建模更长程依赖。
  4. 上采样与跳跃连接: 恢复到更细分辨率,并融合高层输出——结合全局上下文与局部细节。

这种设计在保留每采样点精度的同时,高效建模了长期依赖


实验: SASHIMI 基准测试

作者在无条件音乐和语音生成任务上,将 SASHIMI 与 WaveNet 及 SampleRNN 对比。


数据集

用于自回归生成的音乐和语音数据集汇总表: 贝多芬钢琴曲、YouTubeMix 钢琴曲、SC09 口语数字。包括时长、分块长度、采样率、量化方式及数据划分。


无限音乐生成

音乐天然适合 AR 模型: 它跨越长时间尺度且可无限生成。

贝多芬钢琴奏鸣曲:
SASHIMI 的 NLL 低于 WaveNet 和 SampleRNN。

条形图/表格: 贝多芬数据集结果。SASHIMI 实现最低 NLL (0.946) ,且训练更快。

它在更长训练上下文中收益显著:

折线图: SASHIMI 的 NLL 从 1.364 (1秒上下文) 降至 1.007 (8秒上下文) ,显示了更长训练上下文的优势。


YouTubeMix 钢琴数据集:
通过听感测试 (MOS) 评估 16 秒音频片段的保真度音乐性

MOS 结果: 所有模型在保真度上相近 (约 2.9) ,但 SASHIMI 的音乐性显著更高 (3.11) 相比 WaveNet (2.71) 和 SampleRNN (1.82) 。

这表明 SASHIMI 的统计性能提升能够转化为更连贯、悦耳的音乐。


效率:
一个仅 1.29M 参数的小型 SASHIMI 在 NLL 上超越 4.24M 参数的 WaveNet,训练速度快3 倍

架构消融/效率表: 小型 SASHIMI 优于更大的基线;多尺度池化相较各向同性 S4 提升了速度和质量。


无条件语音生成

SC09 口语数字:
一秒音频需同时建模单词、说话人差异、口音与噪声。

SASHIMI AR 模型在自动化指标 (FID ↓,IS ↑) 和人工指标 (质量 ↑,清晰度 ↑) 上均优于基线。

SC09 结果表: SASHIMI 在自动化和人工评估指标上均显著优于 SampleRNN/WaveNet。


SASHIMI 作为即插即用主干网络

DiffWave 是一种非自回归扩散模型,以 WaveNet 为主干。
作者将 WaveNet 替换为同规模的 SASHIMI——无需调优——即在 SC09 上取得了SOTA表现。

使用 SASHIMI 主干的 DiffWave: 在所有指标 (FID、IS、MOS) 上优于基于 WaveNet 的 DiffWave,创下 SC09 新 SOTA 记录。


样本效率:
SASHIMI-DiffWave 用一半训练时间达到 WaveNet-DiffWave 的最佳表现,并且在小模型规模上具备更好扩展性。

训练曲线: SASHIMI (绿色) 比 WaveNet (橙色) 和 SampleRNN (蓝色) 更快达到更低 NLL。


结论: SASHIMI 的意义

SASHIMI 论文提出的新架构在多方面胜出:

  1. 性能: 在音乐与语音生成中均达 SOTA,无论人工还是自动化评测都表现更优。
  2. 效率: 像 CNN 一样并行训练,像 RNN 一样快速生成——且常用更少参数。
  3. 长程建模: 支持超过 10 万步的上下文,实现卓越的全局连贯性。
  4. 通用性: 可直接替代 WaveNet,提升如 DiffWave 等模型而无需额外调优。

通过诊断并修复 S4 的稳定性问题,并将其嵌入智能的多尺度架构,作者创造了一个强大高效的音频机器学习工具。

SASHIMI 不仅推动了原始音频生成的边界——它有望彻底重塑音频合成系统的格局。
下一次你听到 AI 生成的音乐或语音时,其背后很可能就是一个状态空间模型在发挥作用。