AI 能仅凭声音学会语言吗?语音模型扩展的经济学
学龄前儿童拥有一种惊人的能力: 他们完全从原始的感官输入——声波——中学会说话、理解句法并掌握语义,而无需见过任何文字。这一观察激发了“无文本 NLP” (Textless NLP) 或生成式口语语言建模 (Generative Spoken Language Modeling, GSLM) 领域的诞生。其目标雄心勃勃: 训练 AI 模型直接从音频中学习语言,完全绕过文本转录。
虽然概念优雅,但现实挑战重重。尽管取得了显著进展,当前的语音语言模型 (SLMs) 在句法和语义能力上仍难以匹敌基于文本的同类模型——大型语言模型 (LLMs) 。SLM 生成的声音可能听起来像是在说话,但往往缺乏像 GPT-4 那样的连贯推理和语法结构。
这为 AI 的未来提出了一个关键问题: 这是从音频学习的根本限制,还是我们仅仅需要更多的计算能力?
在研究论文*“Scaling Properties of Speech Language Models”*中,Santiago Cuervo 和 Ricard Marxer 调查了支配文本模型的著名“扩展定律” (scaling laws) 是否也适用于语音。通过训练超过 50 个不同的模型,他们为语音 AI 的未来提供了路线图,精确估算了填补文本与音频之间差距所需的计算量。
背景: 从波形到 Token
要理解我们如何扩展这些模型,首先必须理解机器如何“阅读”音频。不同于本质上离散的文本 (字母和单词) ,音频是连续的。
GSLM 流程
生成式口语语言建模的标准方法涉及三个不同阶段:
- 分词器 (Tokenizer) : 一个模型 (通常是像 HuBERT 这样的声学模型) 处理原始音频波形,并将其转换为离散单元序列,即“Token”。这有效地将连续的声音变成了整数词汇表 (例如,500 个唯一的声音单元) 。
- 语言模型 (Language Model, LM) : 一个 Transformer 模型在这些离散 Token 上进行训练,就像文本 LLM 在单词上训练一样。它的工作是预测序列中的下一个声音单元。
- 声码器 (Vocoder) : 最后一个模块接收生成的 Token 并将其转换回可听的波形。
在这项研究中,研究人员特别关注语言模型组件。他们想知道支配文本 LM 的逻辑——特别是扩展定律——能否迁移到这个语音领域。
扩展定律的概念
2020 年,Kaplan 等人证明了神经语言模型的性能并非随机。它遵循幂律 (power law) 。 随着计算量 (\(C\)) 、参数数量 (\(N\)) 或数据集大小 (\(D\)) 的增加,模型的损失 (错误率) 会以数学上可预测的方式下降。
一般关系表示为:

这里,\(\gamma\)、\(\alpha\) 和 \(\beta\) 是指数,决定了当我们增加更多资源时模型改进的速度。如果这些定律适用于语音,研究人员就可以精确预测模型需要多大,以及需要多少数据才能达到特定的智能水平。
核心方法: 为语音规模建模
为了测试这一点,作者开展了一场大规模的训练活动。他们使用了现代 LLM 的标准——Llama 架构 , 但针对源自 HuBERT 分词器的语音 Token 进行了调整。
他们训练了从 2000 万到 8.23 亿参数不等的模型。

对于每种模型尺寸,他们改变了训练数据的量,创建了一个实验网格。这使他们能够解耦模型大小的影响与数据量的影响。
数学框架
为了分析结果,作者采用了 Hoffmann 等人 (2022) 提出并由 Muennighoff 等人 (2023) 完善的“Chinchilla”扩展框架。该框架假设模型的最终损失 (\(\hat{L}\)) 可以建模为三项之和:
- 不可约损失 (\(E\)) : 数据的固有熵 (完美建模的极限) 。
- 模型近似误差: 随着模型大小 (\(N\)) 增加而减小的项。
- 数据估计误差: 随着训练 Token 数 (\(D\)) 增加而减小的项。
单 epoch 训练的核心方程如下所示:

然而,在现实世界中,我们经常对数据进行超过一个 epoch 的训练 (重复使用数据) 。为了考虑到这一点,研究人员使用了方程的广义版本,考虑“有效”参数 (\(N'\)) 和“有效”数据 (\(D'\)) ,承认重复查看相同数据带来的收益递减:

研究的目标是凭经验找到语音的常数 (\(A, B, \alpha, \beta\)) 。通过将此曲线拟合到他们的实验数据,他们可以确定计算的最佳分配 。
具体来说,给定固定的计算预算 (\(C_{avail}\)) ,你应该如何在让模型更大 (\(N\)) 与训练更长时间 (\(D\)) 之间进行分配?

这个最小化问题的解给出了最佳模型大小 (\(N_{opt}\)) 和数据集大小 (\(D_{opt}\)) :

实验与结果
研究人员利用海量的英语语音数据集 (包括 LibriSpeech、Vox Populi 和一个新的合成数据集——我们稍后会讨论) 训练了他们的模型套件。总共,他们使用了近 110 亿个语音 Token。
1. 语音遵循幂律
第一个主要发现是,语音模型确实表现得像文本模型。当绘制测试损失与计算预算 (以 FLOPs 计) 的关系图时,模型形成了一个清晰的性能“包络线”。

如图 1 所示,虚线代表最佳前沿。就像文本一样,增加更多计算量会按照幂律可靠地降低测试损失。这证实了我们可以在构建未来的、更大的语音模型之前预测其性能。
2. 损失预测智能
更低的“测试损失”仅仅意味着模型更擅长猜测下一个声音 Token。但这是否意味着它理解语言?
为了验证这一点,研究人员将模型的测试损失与下游语言任务进行了比较:
- sBLIMP: 句法一致性 (语法) 测试。
- Topic Cloze & Story Cloze: 语义理解测试 (保持主题和预测逻辑故事结局) 。

图 4 揭示了非常强的线性相关性。随着上游测试损失下降 (x 轴) ,语法和讲故事的表现 (y 轴) 提高。这证实了优化数学上的“下一个 Token 预测”目标确实教会了模型语言技能。
3. 效率差距: 语音与文本
这是论文最关键的贡献所在。虽然语音模型确实可以扩展,但研究人员将其扩展轨迹与基于文本的 LLM (特别是 Pythia 套件) 进行了比较。
结果如图 2 所示,突显了效率上的巨大差异。

文本 (黑色方块) 和语音 (绿色圆圈) 都随着计算量的增加而改进。然而,请看斜率。文本模型的改进速度要快得多。
作者通过计算两种模态的扩展指数 (\(\gamma_q\)) 量化了这一点。

如表 4 所示,对于句法任务 (BLIMP) ,文本的指数是 0.066 , 而语音是 0.021 。
这在实践中意味着什么? 这意味着语音模型的学习效率明显较低。为了获得相同的句法性能增益,语音模型需要比文本模型多得多的计算量。作者估计,语音语言性能的扩展速度比文本慢了多达 三个数量级 (\(10^3\)) 。
如果你想让一个语音 LLM 达到 GPT-3 的语法水平,你可能需要 1000 倍于训练 GPT-3 所用的计算能力。
4. 利用合成数据提升语义
为什么语音模型效率如此低下?一个假设是数据的质量。标准语音数据集 (如有声读物) 通常包含长时间的间隔或复杂的依赖关系,很难在模型有限的上下文窗口 (2050 个 Token) 中捕捉到。
为了解决这个问题,作者创建了 sTinyStories 。 他们采用了“Tiny Stories”文本数据集——旨在教小型模型推理的简单叙事——并将其合成为语音。

图 3 中的结果令人鼓舞。在语义任务 (Topic Cloze) 中,使用合成 sTinyStories 训练的模型 (橙色线) 始终优于使用标准有声读物训练的模型 (蓝色线) ,即使在真实人类语音上进行评估也是如此。这表明训练数据的内容与数量同等重要。
5. 分词瓶颈
最后,作者尝试通过使用“Unigram”分词法将更多信息打包进模型。这种方法压缩了序列长度,允许模型在其上下文窗口中看到更多的“时间”。

令人惊讶的是,这适得其反。如图 5 所示,虽然测试损失 (上游指标) 看起来不错,但下游性能 (实际智能) 却下降了。“Story Cloze”指标 (图 5 右下角) 完全持平,这意味着在使用压缩 Token 后,模型完全停止了语义学习。这表明当前的压缩方法可能会丢弃关键的语言信息。
结论与启示
这项研究提供了无文本 NLP 的首次全面“经济”分析。作者成功确立了语音语言模型遵循与文本模型相同的基本物理定律——或者更确切地说是数学定律。
启示是两面的:
- 乐观的看法: 理论上完全有可能构建一个纯粹从音频学习的“语音 GPT”。我们不需要新的架构;我们只需要沿着可预测的幂律曲线进行扩展。
- 现实的看法: 成本极其高昂。由于语音的信息密度远低于文本,纯粹通过音频达到人类水平的熟练程度需要天文数字般的计算量。
该研究表明,虽然扩展是答案,但“暴力”扩展可能不是解决方案。未来的突破可能需要来自更好的音频分词方式 (增加信息密度) 或混合方法,即利用文本模型的效率同时保留语音的丰富性。在那之前,我们确切地知道纯音频学习的代价是什么——而且它很昂贵。
](https://deep-paper.org/en/paper/2404.00685/images/cover.png)