AI 能仅凭声音学会语言吗?语音模型扩展的经济学

学龄前儿童拥有一种惊人的能力: 他们完全从原始的感官输入——声波——中学会说话、理解句法并掌握语义,而无需见过任何文字。这一观察激发了“无文本 NLP” (Textless NLP) 或生成式口语语言建模 (Generative Spoken Language Modeling, GSLM) 领域的诞生。其目标雄心勃勃: 训练 AI 模型直接从音频中学习语言,完全绕过文本转录。

虽然概念优雅,但现实挑战重重。尽管取得了显著进展,当前的语音语言模型 (SLMs) 在句法和语义能力上仍难以匹敌基于文本的同类模型——大型语言模型 (LLMs) 。SLM 生成的声音可能听起来像是在说话,但往往缺乏像 GPT-4 那样的连贯推理和语法结构。

这为 AI 的未来提出了一个关键问题: 这是从音频学习的根本限制,还是我们仅仅需要更多的计算能力?

在研究论文*“Scaling Properties of Speech Language Models”*中,Santiago Cuervo 和 Ricard Marxer 调查了支配文本模型的著名“扩展定律” (scaling laws) 是否也适用于语音。通过训练超过 50 个不同的模型,他们为语音 AI 的未来提供了路线图,精确估算了填补文本与音频之间差距所需的计算量。

背景: 从波形到 Token

要理解我们如何扩展这些模型,首先必须理解机器如何“阅读”音频。不同于本质上离散的文本 (字母和单词) ,音频是连续的。

GSLM 流程

生成式口语语言建模的标准方法涉及三个不同阶段:

  1. 分词器 (Tokenizer) : 一个模型 (通常是像 HuBERT 这样的声学模型) 处理原始音频波形,并将其转换为离散单元序列,即“Token”。这有效地将连续的声音变成了整数词汇表 (例如,500 个唯一的声音单元) 。
  2. 语言模型 (Language Model, LM) : 一个 Transformer 模型在这些离散 Token 上进行训练,就像文本 LLM 在单词上训练一样。它的工作是预测序列中的下一个声音单元。
  3. 声码器 (Vocoder) : 最后一个模块接收生成的 Token 并将其转换回可听的波形。

在这项研究中,研究人员特别关注语言模型组件。他们想知道支配文本 LM 的逻辑——特别是扩展定律——能否迁移到这个语音领域。

扩展定律的概念

2020 年,Kaplan 等人证明了神经语言模型的性能并非随机。它遵循幂律 (power law) 。 随着计算量 (\(C\)) 、参数数量 (\(N\)) 或数据集大小 (\(D\)) 的增加,模型的损失 (错误率) 会以数学上可预测的方式下降。

一般关系表示为:

幂律关系方程。

这里,\(\gamma\)、\(\alpha\) 和 \(\beta\) 是指数,决定了当我们增加更多资源时模型改进的速度。如果这些定律适用于语音,研究人员就可以精确预测模型需要多大,以及需要多少数据才能达到特定的智能水平。

核心方法: 为语音规模建模

为了测试这一点,作者开展了一场大规模的训练活动。他们使用了现代 LLM 的标准——Llama 架构 , 但针对源自 HuBERT 分词器的语音 Token 进行了调整。

他们训练了从 2000 万8.23 亿参数不等的模型。

表 1: 模型描述。

对于每种模型尺寸,他们改变了训练数据的量,创建了一个实验网格。这使他们能够解耦模型大小的影响与数据量的影响。

数学框架

为了分析结果,作者采用了 Hoffmann 等人 (2022) 提出并由 Muennighoff 等人 (2023) 完善的“Chinchilla”扩展框架。该框架假设模型的最终损失 (\(\hat{L}\)) 可以建模为三项之和:

  1. 不可约损失 (\(E\)) : 数据的固有熵 (完美建模的极限) 。
  2. 模型近似误差: 随着模型大小 (\(N\)) 增加而减小的项。
  3. 数据估计误差: 随着训练 Token 数 (\(D\)) 增加而减小的项。

单 epoch 训练的核心方程如下所示:

显示相对于 N 和 D 的损失函数的方程 9。

然而,在现实世界中,我们经常对数据进行超过一个 epoch 的训练 (重复使用数据) 。为了考虑到这一点,研究人员使用了方程的广义版本,考虑“有效”参数 (\(N'\)) 和“有效”数据 (\(D'\)) ,承认重复查看相同数据带来的收益递减:

显示用于多 epoch 训练的广义损失函数的方程 8。

研究的目标是凭经验找到语音的常数 (\(A, B, \alpha, \beta\)) 。通过将此曲线拟合到他们的实验数据,他们可以确定计算的最佳分配

具体来说,给定固定的计算预算 (\(C_{avail}\)) ,你应该如何在让模型更大 (\(N\)) 与训练更长时间 (\(D\)) 之间进行分配?

计算分配的优化问题。

这个最小化问题的解给出了最佳模型大小 (\(N_{opt}\)) 和数据集大小 (\(D_{opt}\)) :

基于计算量的最佳 N 和 D 的方程。

实验与结果

研究人员利用海量的英语语音数据集 (包括 LibriSpeech、Vox Populi 和一个新的合成数据集——我们稍后会讨论) 训练了他们的模型套件。总共,他们使用了近 110 亿个语音 Token。

1. 语音遵循幂律

第一个主要发现是,语音模型确实表现得像文本模型。当绘制测试损失与计算预算 (以 FLOPs 计) 的关系图时,模型形成了一个清晰的性能“包络线”。

图 1: 语音语言模型测试损失曲线。

如图 1 所示,虚线代表最佳前沿。就像文本一样,增加更多计算量会按照幂律可靠地降低测试损失。这证实了我们可以在构建未来的、更大的语音模型之前预测其性能。

2. 损失预测智能

更低的“测试损失”仅仅意味着模型更擅长猜测下一个声音 Token。但这是否意味着它理解语言?

为了验证这一点,研究人员将模型的测试损失与下游语言任务进行了比较:

  • sBLIMP: 句法一致性 (语法) 测试。
  • Topic Cloze & Story Cloze: 语义理解测试 (保持主题和预测逻辑故事结局) 。

图 4: 下游语言性能与测试损失之间的相关性。

图 4 揭示了非常强的线性相关性。随着上游测试损失下降 (x 轴) ,语法和讲故事的表现 (y 轴) 提高。这证实了优化数学上的“下一个 Token 预测”目标确实教会了模型语言技能。

3. 效率差距: 语音与文本

这是论文最关键的贡献所在。虽然语音模型确实可以扩展,但研究人员将其扩展轨迹与基于文本的 LLM (特别是 Pythia 套件) 进行了比较。

结果如图 2 所示,突显了效率上的巨大差异。

图 2: 下游语言性能扩展对比。

文本 (黑色方块) 和语音 (绿色圆圈) 都随着计算量的增加而改进。然而,请看斜率。文本模型的改进速度要快得多。

作者通过计算两种模态的扩展指数 (\(\gamma_q\)) 量化了这一点。

表 4: 下游性能的幂律系数。

如表 4 所示,对于句法任务 (BLIMP) ,文本的指数是 0.066 , 而语音是 0.021

这在实践中意味着什么? 这意味着语音模型的学习效率明显较低。为了获得相同的句法性能增益,语音模型需要比文本模型多得多的计算量。作者估计,语音语言性能的扩展速度比文本慢了多达 三个数量级 (\(10^3\))

如果你想让一个语音 LLM 达到 GPT-3 的语法水平,你可能需要 1000 倍于训练 GPT-3 所用的计算能力。

4. 利用合成数据提升语义

为什么语音模型效率如此低下?一个假设是数据的质量。标准语音数据集 (如有声读物) 通常包含长时间的间隔或复杂的依赖关系,很难在模型有限的上下文窗口 (2050 个 Token) 中捕捉到。

为了解决这个问题,作者创建了 sTinyStories 。 他们采用了“Tiny Stories”文本数据集——旨在教小型模型推理的简单叙事——并将其合成为语音。

图 3: 合成数据带来的收益。

图 3 中的结果令人鼓舞。在语义任务 (Topic Cloze) 中,使用合成 sTinyStories 训练的模型 (橙色线) 始终优于使用标准有声读物训练的模型 (蓝色线) ,即使在真实人类语音上进行评估也是如此。这表明训练数据的内容数量同等重要。

5. 分词瓶颈

最后,作者尝试通过使用“Unigram”分词法将更多信息打包进模型。这种方法压缩了序列长度,允许模型在其上下文窗口中看到更多的“时间”。

图 5: Unigram 与原始 Token 的扩展行为对比。

令人惊讶的是,这适得其反。如图 5 所示,虽然测试损失 (上游指标) 看起来不错,但下游性能 (实际智能) 却下降了。“Story Cloze”指标 (图 5 右下角) 完全持平,这意味着在使用压缩 Token 后,模型完全停止了语义学习。这表明当前的压缩方法可能会丢弃关键的语言信息。

结论与启示

这项研究提供了无文本 NLP 的首次全面“经济”分析。作者成功确立了语音语言模型遵循与文本模型相同的基本物理定律——或者更确切地说是数学定律。

启示是两面的:

  1. 乐观的看法: 理论上完全有可能构建一个纯粹从音频学习的“语音 GPT”。我们不需要新的架构;我们只需要沿着可预测的幂律曲线进行扩展。
  2. 现实的看法: 成本极其高昂。由于语音的信息密度远低于文本,纯粹通过音频达到人类水平的熟练程度需要天文数字般的计算量。

该研究表明,虽然扩展是答案,但“暴力”扩展可能不是解决方案。未来的突破可能需要来自更好的音频分词方式 (增加信息密度) 或混合方法,即利用文本模型的效率同时保留语音的丰富性。在那之前,我们确切地知道纯音频学习的代价是什么——而且它很昂贵。