在人工智能领域,模型往往是高度专业化的——一个负责将语音转换成文本,另一个负责将文本转化为语音,还有的则负责跨语言的语音翻译。它们各自在自己的领域中表现优异,却被限制在各自的模态之内。那么,如果我们能打破这些界限,构建一个能够处理所有口语相关任务的通用模型,会怎样呢?
这便是微软研究项目 SpeechT5 背后的雄心壮志。该项目提出了一个用于口语处理的统一预训练框架。受谷歌 T5 (Text-to-Text Transfer Transformer) 启发——T5 将所有自然语言处理 (NLP) 任务视为“文本到文本”——SpeechT5 团队提出了一个同样大胆的问题: 我们是否可以将所有语音任务都看作“语音/文本到语音/文本”?
答案是响亮的肯定。SpeechT5 采用单一的编码器-解码器模型,在海量无标签的语音与文本数据上预训练,并在从语音识别、语音合成到语音翻译、声音转换,甚至说话人识别等广泛应用中取得了业界领先的成果。 本文将深入解析这一统一模型的工作原理、架构优势,以及它对语音 AI 未来的意义。

图 1: SpeechT5 框架概览。该模型在同一架构下统一 ASR (语音转文本) 、TTS (文本转语音) 、ST (语音翻译) 、VC (声音转换) 、SE (语音增强) 及 SID (说话人识别) 等任务。
背景: 当预训练遇上双模态
预训练技术彻底革新了人工智能。在 NLP 领域, BERT 和 T5 等模型通过对海量无标签文本语料的训练,学习到通用的语言表示;在语音处理领域, wav2vec 2.0 和 HuBERT 等模型则通过无标签音频实现了类似的突破。这些预训练模型可以在仅需少量有标签数据的情况下进行微调,并且往往能超越专门为任务设计的架构。
然而,SpeechT5 的作者指出: 现有框架存在两大不足。
模态隔离: 现有的语音预训练模型大多仅针对于音频数据。它们虽能学习语音的声学结构,却缺乏对文本的理解,难以实现跨模态任务。而自动语音识别 (ASR) 等任务本质上需要跨模态理解能力。
仅关注编码器: 许多模型只对编码器进行预训练——即负责提取输入特征的部分——而解码器则未被充分训练。然而生成式任务 (如文本转语音 TTS、语音翻译) 极度依赖训练良好的解码器。冷启动的解码器会严重限制模型的生成能力。
SpeechT5 通过在共享的编码器-解码器架构上联合语音和文本数据进行预训练,从根本上构建了真正的双模态基础,彻底解决了上述问题。
SpeechT5 架构: 一个核心,多种形态
SpeechT5 的核心是一个基于 Transformer 的编码器-解码器模型。其强大之处在于高度模块化的设计,使其能灵活适应不同的语音与文本任务。框架由共享的主干网络与针对不同模态的 pre-net 和 post-net 组成,用于分别处理语音与文本输入输出。

图 2(a): SpeechT5 通过各自的 pre-net 处理语音或文本输入,经统一的编码器-解码器转化后,再由模态特定的 post-net 生成输出。
1. 模态特定的 Pre-Net
- 语音 Pre-Net: 借鉴 wav2vec 2.0 的设计,使用卷积层将原始音频波形转化为特征嵌入。
- 文本 Pre-Net: 将分词后的文本转化为嵌入向量。
2. 共享的编码器-解码器主干
这一 Transformer 主干承担了核心的序列到序列转换任务。由于其在语音和文本上均进行过预训练,模型能够自然地学习到跨越声音与语言的连贯语义表示。
3. 模态特定的 Post-Net
- 语音 Post-Net: 将解码器的输出预测为对数梅尔滤波器组特征,并由声码器 (如 HiFi-GAN) 转换为语音波形。
- 文本 Post-Net: 通过线性层和 softmax 函数生成文本词元的概率分布。
这种灵活的模块化设计使得系统只需更换 pre-net 与 post-net,即可应对不同任务:
- ASR (语音 → 文本) : 语音 pre-net + 文本 post-net
- TTS (文本 → 语音) : 文本 pre-net + 语音 post-net
- 声音转换 (语音 → 语音) : 语音 pre-net + 语音 post-net
- 语音翻译 (语音 → 另一种语言文本) : 语音 pre-net + 文本 post-net
秘密武器: 联合预训练
一个灵活的框架只是开始,它还必须学会整合跨模态知识。为此,SpeechT5 采用了强大的联合预训练策略,在无标签的语音与文本数据上同时优化多个自监督目标。
1. 语音预训练
SpeechT5 包含两个目标:
- 掩码预测: 遵循 HuBERT 的方法,随机掩盖部分语音特征,模型需预测缺失的声学单元,从而让编码器理解语音结构: \[ \mathcal{L}_{mlm}^{s} = \sum_{n \in \mathcal{M}} \log p(\mathbf{z}_{n} | \hat{\mathbf{H}}, n) \]
- 语音重建: 经掩盖的输入通过编码器-解码器重建完整的梅尔滤波器组序列,教会解码器生成平滑且逼真的音频: \[ \mathcal{L}_1^s = \sum_{n=1}^{N^f} \|\mathbf{y}_n^f - \mathbf{x}_n^f\|_1 \] 此外,还引入了二元交叉熵损失,用于预测音频何时结束。
2. 文本预训练
对于文本,模型采用与 BART 类似的去噪序列到序列任务。输入句子中部分词被随机掩盖并替换为特殊标记,模型需重建原始连贯的句子:
\[ \mathcal{L}_{mle}^{t} = \sum_{n=1}^{N^{t}} \log p(y_n^t | y_{SpeechT5 的核心亮点是跨模态向量量化 , 通过共享的离散潜在空间统一语音与文本表示。

图 2(b): 跨模态向量量化将来自共享码本的离散语音与文本嵌入混合在同一语义空间中,对齐二者的表示。
工作原理如下:
- 量化: 编码器输出 (语音或文本) 通过 L2 距离映射到共享码本中最接近的嵌入: \[ \mathbf{c}_{i} = \arg \min_{j \in [K]} \left\|\mathbf{u}_{i} - \mathbf{c}_{j}\right\|_{2} \]
- 混合: 选取部分码本向量替换编码器的连续表示,形成混合输入供解码器使用。
- 跨模态学习: 解码器在此混合表示上执行交叉注意力,从而强制学习语音模式与文本符号间的对应关系。
为避免码本使用过于单一,模型加入了一个熵最大化损失项:
\[ \mathcal{L}_{d} = \frac{1}{K}\sum_{k=1}^{K}p_{k}\log p_{k} \]最终的预训练目标综合了所有损失:
\[ \mathcal{L} = \mathcal{L}_{mlm}^s + \mathcal{L}_1^s + \mathcal{L}_{bce}^s + \mathcal{L}_{mle}^t + \gamma \mathcal{L}_d \]其中 \(\gamma\) 用于平衡多样性项。
实验与结果: 一个模型,六大任务
在使用 960 小时 LibriSpeech 音频和 4 亿句文本进行广泛预训练后,SpeechT5 被微调用于六项主要的口语任务。在几乎所有情况下,它都达到或超越了最强的专用系统。
自动语音识别 (ASR)
SpeechT5 相比 wav2vec 2.0 与 HuBERT 基线取得了更低的词错误率 (WER) ,印证了文本辅助的预训练显著提升了语音理解效果。

表 1: LibriSpeech 上的 ASR 性能。WER 越低,转录准确率越高。
文本转语音 (TTS)
在自然度测试中,人类听众在平均意见得分 (MOS) 上更偏爱 SpeechT5 生成的语音,并在成对比较 (CMOS) 中显著倾向于它。

表 3: SpeechT5 合成语音在人类评估的自然度上优于基线。
语音翻译 (ST)
在 MUST-C 英德与英法任务中,SpeechT5 的 BLEU 分数超过所有竞品模型,展现出卓越的跨语种能力。

表 4: 双语翻译性能凸显模型的多模态灵活性。
声音转换 (VC)、语音增强 (SE) 与说话人识别 (SID)
SpeechT5 在其他音频任务中同样表现出色:
- 声音转换: 较 Voice Transformer Network (VTN) 更好地保持语言清晰度并模仿说话人特征。
- 语音增强: 将带噪语音的词错误率从 76.1% 降至 8.9%,展现强劲的去噪能力。
- 说话人识别: 将任务重构为预测说话人 ID 词元,在 VoxCeleb1 数据集上取得 96.49% 准确率,超越现有基准。

表 6: SID 结果验证了 SpeechT5 在说话人识别上的领先优势。
成功秘诀: 消融研究洞察
为评估各预训练模块的贡献,研究团队逐一移除模块并测量性能变化。

表 7: 移除任一预训练要素都会显著降低模型表现,体现了三者的互补性。
主要发现:
- 移除语音预训练将导致依赖音频编码的模型完全失效。
- 移除文本预训练则削弱语言密集型任务的表现。
- 移除联合预训练会破坏模态对齐,降低 ASR 准确率。
结论: SpeechT5 的强大源于其统一、整体的预训练思路。语音、文本及跨模态学习三者共同支撑了模型的全能表现。
结论: 迈向真正统一的语音 AI
SpeechT5 标志着多模态 AI 的重要转折。通过将所有口语问题重新定义为“语音/文本到语音/文本”,它证明了单一编码器-解码器模型即可应对多样化的语音任务,而无需专有架构。
其关键创新——跨模态向量量化的联合预训练——有效融合了语音与文本表示,形成共享语义空间,从而显著提升多任务性能。
这一理念的影响深远: 未来的 AI 不再需要训练孤立的专家模型,而是可依赖真正的多才多能系统,能够在不同模态间流畅理解与生成。论文作者展望通过更大规模数据、更强 Transformer 主干以及多语言训练进一步扩展 SpeechT5。
SpeechT5 不只是又一个模型,它展示了统一多模态语言理解的可能——让我们离能像人类般无缝听、说、理解的 AI 又近了一步。
](https://deep-paper.org/en/paper/2110.07205/images/cover.png)