引言
我们都有过这样的经历。你问语音助手一个简单的问题,比如“我该如何选择一部新手机?”,结果它通过朗读一篇五段式的论文来回应。它喋喋不休,列举着“第一点”,读出网址,或者使用复杂的句子结构,迫使你必须高度集中注意力才能跟上逻辑。等它说完的时候,你已经忘记了句子的开头是什么。
这在现代 AI 中造成了一种根本性的摩擦。虽然像 GPT-4 或 Llama 这样的大型语言模型 (LLM) 彻底改变了信息检索,但它们主要被训练用于生成文本 。 我们用眼睛阅读文本,这使我们能够浏览、跳读和回读复杂的从句。然而,当我们通过语音与 AI 交互时——通过智能音箱、车载助手或辅助工具——我们使用的是耳朵。
语音是线性的且转瞬即逝的。一个词一旦说出口,就消失了。你无法像用眼睛扫描段落那样用耳朵“扫描”声波。
在一篇题为 “Speechworthy Instruction-tuned Language Models” (适合语音交互的指令微调语言模型) 的有趣研究论文中,来自南加州大学 (USC) 和亚马逊的研究人员调查了这种模态不匹配。他们认为,仅根据文本偏好进行对齐的模型无法满足口语对话独特的认知需求。他们的工作提出了一个新的框架,利用广播行业的见解、新颖的提示策略和独特的基于语音的偏好数据集,来创建“适合语音 (Speechworthy) ”的 LLM。

问题所在: 文本与语音的不匹配
要理解为什么当前的 AI 在语音方面表现挣扎,我们需要看看它是如何训练的。大多数指令微调语言模型 (ITLM) 都是使用人类反馈强化学习 (RLHF) 进行微调的。人类标注员阅读两个文本回复并选出最好的一个。
问题在于, 阅读回复的标注员偏爱细节、全面的列表和结构化格式 (如粗体文本或项目符号) 。如上文图 1 所示,一个标准模型 (OLMo 7B Instruct) 生成的回复充满了列表和表情符号。虽然这在屏幕上看起来不错,但当通过文本转语音 (TTS) 引擎合成时,听起来就很不自然。
研究人员假设语音处理比阅读需要更高的认知负荷 。 因此,语音界面的最佳回复不仅仅是好的文本回复的逐字稿。它需要是:
- 简洁: 避免不必要的废话。
- 线性: 简单的句子结构,不需要在记忆中保留多个从句。
- 适合发音: 没有表情符号、URL 和格式化语法。
为了验证这一点,研究人员对用户进行了调查,要求他们评估文本和音频格式的回复。结果非常明显: 用户对“太长”或包含“太多信息”的语音回复给予了严厉的负面评价,即使这些回复在文本格式下评分很高。
方法论: 教 AI 说话,而不仅仅是写作
这篇论文的核心贡献是一个系统性的方法,用于调整 LLM 以适应语音。作者探索了两种主要方法: 基于广播新闻学的提示工程 (Prompt Engineering) , 以及使用新颖数据集的偏好学习 (Preference Learning) 。

如图 2 所示,该过程首先定义什么样的语音是“好的”,生成多样化的样本,然后训练模型去偏好这些样本。
1. 提示工程: “NPR”式方法
在训练模型之前,你可以引导它。研究人员转向了一个意想不到的来源寻求指导方针: 广播行业。数十年的广播新闻经验建立了一套适合听觉的写作“经验法则”:
- 使用简单的单词和句子结构。
- 避免“绕口令”和过多的头韵。
- 避免带连字符的形容词 (例如,“mineral-rich”) 。
- 保持口语化。
研究人员开发了特定的系统提示词 (System Prompts) ——在 AI 生成回复之前给予它的指令——来强制执行这些规则。他们还利用了上下文学习 (In-Context Learning, ICL) , 即向模型展示将“糟糕”的文本回复转换为“优秀”的语音回复的示例。
例如,一个标准的提示词可能只是: “你是一个有用的助手。” 而针对语音优化的提示词则是: “你是一个有用的语音助手。使用简单的词汇口语化地回答… 保持回复紧凑… 不要使用项目符号列表。”
2. 偏好学习: 基于听觉的训练
虽然提示工程很有效,但它很脆弱。为了将这些行为融入模型权重中,研究人员需要数据。他们创建了 SPEECHPREF , 这是一个包含超过 20,000 个回复对的数据集。
至关重要的是,这个数据集的标注员并不是阅读回复。 他们是听回复。

如图 9 所示,标注员面对的是一个隐藏了文本的界面。他们听取用户查询和两个生成的回复 (通过 Amazon Polly 转换为音频) ,然后选择获胜者。这确保了偏好信号能够捕捉到在基于文本的标注中丢失的节奏、长度和可听性等细微差别。
训练算法: PPO 与 DPO
有了这个新数据集,研究人员使用两种流行的对齐算法对模型进行了微调:
- 近端策略优化 (PPO) : 这是用于训练 ChatGPT 的经典 RLHF 方法。它涉及训练一个单独的“奖励模型”来预测人类对回复的喜爱程度,然后优化语言模型以最大化该奖励。
- 直接偏好优化 (DPO) : 一种较新、更稳定的方法,直接根据偏好数据优化模型,不需要单独的奖励模型循环。
对于 PPO 的实现,研究人员使用了以下成对二元排序损失来训练奖励模型:
\[ \mathcal { L } _ { r a n k i n g } = - \mathrm { l o g } ( \sigma ( r _ { \theta } ( x , y _ { c } ) ) - r _ { \theta } ( x , y _ { r } ) ) , \]
在这个方程中,\(r_{\theta}\) 代表奖励分数。目标是最大化被选中的回复 (\(y_c\)) 和被拒绝的回复 (\(y_r\)) 之间的分数差异。通过基于听觉偏好进行训练,奖励模型学会了以基于文本的奖励模型永远不会采用的方式来惩罚冗长和复杂性。
实验与结果
研究人员将这些方法应用于两个开源模型: Falcon 7B 和 OLMo 7B 。 他们将“基础 (Base) ”模型与通过提示工程、上下文学习 (ICL) 和 DPO 调整后的版本进行了比较。
人类评估
结果非常积极。如下面的图表所示,每种调整技术在直接对比中都显著优于基础模型。

绿色条代表“胜利”,即调整后的模型优于基础模型。
- 提示工程有效: 仅更改系统提示词 (OLMo-Prompt) 就使得针对基础模型的胜率达到了 57%。
- 微调效果更好: DPO 模型表现出强劲的性能。
- 组合为王: 最有趣的发现是这些方法是可叠加的 。 最佳性能来自 DPO-ICL——一个经过 DPO 微调且同时使用了优化后的系统提示词和示例的模型。对于 Falcon,DPO-ICL 模型对原模型的胜率达到了惊人的 75% 。
这表明,提示工程有助于在生成过程中引导模型,而偏好学习则从根本上改变了模型的概率分布,使其更倾向于适合语音的词元 (tokens) 。
为什么组合策略有效?
研究人员分析了训练轨迹,以理解为什么将提示 (ICL) 与 DPO 结合效果如此之好。

图 4 显示了验证边际 (validation margins,即模型区分好回复与坏回复的信心) 。 DPO ICL (栗色线) 始终比基础 DPO 更快地达到更高的边际。实际上,提示词充当了“辅助轮”,帮助模型在微调过程的早期就识别出所需的语音特征。
即使是 GPT-4 也需要帮助
研究人员不仅止步于较小的开源模型。他们还在 GPT-4 上测试了他们的提示策略。

尽管 GPT-4 是一个庞大的、最先进的模型,但基础版本在语音适应性方面仍然很吃力。通过简单地应用“适合语音”的提示词 (GPT-4-Prompt 和 GPT-4-ICL) ,研究人员看到了胜率的大幅提升。这证实了语音不适应性不是因为缺乏智能,而是因为缺乏对音频模态的对齐。
什么样的回复才是“适合语音”的?
那么,文本中到底什么改变了?模型只是少说话了吗?研究人员进行了自动评估来测量特定的语言特征。

表 5 提供了变化的定量观察:
- 字数 (\(\downarrow\)): 调整后的模型 (DPO-ICL) 大幅减少了回复长度。对于 OLMo,字数从 ~211 降至 ~95。
- Flesch 阅读易读性 (FRE \(\uparrow\)): 该指标估算文本阅读 (和听) 的容易程度。分数越高越好。Falcon DPO-ICL 模型从 49.74 提高到了 69.52。
- 非语音字符 (NV \(\downarrow\)): 模型学会了停止生成会干扰 TTS 输出的标记、表情符号和列表格式。
然而,定性分析表明,这不仅仅是变短的问题。更重要的是变得更加口语化。

在上面的比较中( 表 10 ),请看例子“我该如何开始与陌生人交谈?”
- GPT-4 (右) : 使用编号列表 (“第一步…”、“第二…”、“第三…”) 。虽然准确,但感觉很机械。
- Falcon DPO-ICL (左) : 使用自然的过渡词: “一种方法是… 另一种方法是…”。它以一个对话式的确认结束: “你想了解更多技巧吗?”
这种区别——使用语言连接词而不是结构化格式——是真正语音对齐的标志。
结论与启示
论文“适合语音交互的指令微调语言模型”突显了当前 AI 发展中的一个关键空白。随着我们走向无处不在的语音计算——从《星际迷航》式的计算机到 AI Pin 和智能眼镜——我们不能简单地依赖配备了 TTS 语音皮肤的基于文本的模型。
研究人员证明了模态很重要 。 我们喜欢阅读的内容与我们喜欢听到的内容截然不同。通过将广播风格的提示与基于真实音频数据 (SpeechPref) 的偏好学习相结合,我们可以构建出听起来自然、简洁且有用的模型。
其影响不仅仅在于便利性。对于视力受损或识字率低的用户来说,语音是主要的交互界面。提高这些模型的“可听性”是无障碍设计的必然要求。
关键要点:
- 不要列举,要叙述: 语音助手应避免使用项目符号,改用对话式过渡。
- 少即是多: 口语回复需要比书面回复短得多,以减少认知负荷。
- 倾听你的数据: 要训练语音模型,你必须用耳朵而不是眼睛来评估它。
随着 LLM 的不断发展,这项工作提醒我们,“对齐”并不是单一的目标。针对聊天机器人对齐的模型并不适合语音助手。为了构建语音 AI 的未来,我们必须开始训练知道何时停止写作并开始说话的模型。
](https://deep-paper.org/en/paper/file-3659/images/cover.png)