引言: “对讲机”难题

如果你曾与 Alexa、Siri 或当前版本的 ChatGPT Voice 等语音助手对话过，你就体验过一种“半双工”交互。就像使用对讲机一样，这种协议是死板的: 你说话，你停止，机器检测到沉默，处理你的请求，最后做出回应。

这种基于回合制的交流虽然具备功能性，但明显不像是人类之间的交流。

真正的人类对话是“全双工”的。它是一场混乱但同步的舞蹈。我们会打断对方以澄清观点。我们会在对方说话时提供口头“反馈语 (backchannels) ” (如“嗯嗯”、“对”或“是的”) 来表示我们在听。我们甚至会在对方说完之前就预判他们要说什么。

阻碍大型语言模型 (LLM) 实现这种自然流畅性的主要瓶颈在于, 预训练的 LLM 没有时间概念 。它们处理的是 Token 序列，但对于一个 Token 代表毫秒还是分钟却一无所知。如果没有与现实世界共享的时钟，AI 就无法把握礼貌打断或恰当笑声的时机。

在研究论文 “Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents” 中，来自 Meta AI 和华盛顿大学的研究人员提出了 SyncLLM 。这是一种新的架构，将时间信息直接集成到 Llama3-8b 中，使其能够与现实世界的时钟同步运行。其结果是一个能够进行有意义、低延迟、全双工对话的系统。

同步架构

为了弥合静态文本处理与动态语音之间的鸿沟，SyncLLM 从根本上改变了 LLM 看待交互的方式。模型不再等待完整的句子 (提示词) 完成，而是对音频“块 (chunks) ”流进行操作。

SyncLLM 机制

SyncLLM 的核心创新在于它能够同时流式传输输入和输出，并保持当前时间的概念。

图 1: SyncLLM 作为全双工对话代理。

如 图 1 所示，该架构按步骤运行:

输入流: 用户的声音被捕获为连续的块 (Chunk N-1, Chunk N 等) 。这些块通过声码器 (vocoder) 和分词器 (tokenizer) 转换为模型可理解的数据。
流式上下文: 在任何给定的时间步 (例如 Chunk N) ，模型都可以访问之前发生的所有事情——包括用户说的和 AI 说的。
预测挑战: 在现实世界的互联网环境中，延迟是存在的。当服务器从用户那里接收到“Chunk N”时，时间已经向前推进了。如果 AI 等到处理完 Chunk N 才生成响应，它就会落后，从而破坏同步。

为了解决这个问题，SyncLLM 做了一件非常人性化的事情: 预测。

仔细观察图 1 中标有 “User’s chunk estimate” (用户分块估计) 的绿色框。模型不仅生成自己的响应；它还预测用户当前正在说什么或在不久的将来 (Chunk N+1) 要说什么。通过估计当前的语音块，模型可以将此估计值附加到其上下文中，并立即生成自己的下一个块。这使得 AI 能够与用户同步“说话”，有效地掩盖了云端处理固有的延迟。

Token化: 给模型装上时钟

标准 LLM 预测下一个文本 Token。然而，SyncLLM 必须预测对应特定持续时间的语音单元。研究人员利用自监督语音表示模型 HuBERT 对音频进行 Token 化。

但是，原始音频 Token 化带来了一个数据问题。沉默或长元音会导致相同 Token 的大量重复 (例如 [75], [75], [75]...) 。这会极大地增加序列长度并稀释语义信息，使 LLM 难以理解实际说了什么。

图 3: 表示一秒语音所需的 Token 数 (有/无去重) 。

图 3 强调了这个问题。橙色线显示，如果不进行去重，无论信息内容如何，模型都会被固定、高密度的 Token (大约每秒 60 个) 淹没。绿色分布显示了 去重 (deduplication) 的结果，即移除冗余 Token，将负载降低到可管理的每秒 25-30 个 Token。

时间的格式

虽然去重解决了语义问题，但它破坏了时间信息。如果 5 个 [75] Token 代表 200 毫秒的沉默，将它们减少为单个 [75] Token 会让模型认为沉默是瞬间发生的。

SyncLLM 通过 同步标记 (Synchronization Tokens) 重新注入时间来解决这个问题。

图 2: 以 160 毫秒块大小可视化的 SyncLLM Token 序列格式。

图 2 展示了这种巧妙的格式化策略:

顶行 (原始) : 显示原始交错语音。说话者 0 (紫色) 和说话者 1 (绿色) 具有对应于时间的重复 Token。
中间行 (训练目标) : 这是 SyncLLM 实际学习的内容。序列经过了去重以保留含义，但周期性地插入了特殊的“说话者标签” ([S0] 和 [S1]) 。

这些标签充当 节拍器 。
模型学习到，一个 [S0] 标签与下一个 [S0] 标签之间的距离恰好对应于现实世界时间的一个“块” (例如 160 毫秒) ，无论中间挤进了多少语音 Token。

底行 (推理) : 当模型生成语音时，它输出去重格式。然后系统对 Token 进行插值 (重复) 以填充时间块，重建音频波形以进行播放。

训练方案: 解决数据稀缺问题

训练一个稳健的语音对话模型需要海量数据。不幸的是，高质量的双通道语音对话数据集非常稀缺。研究人员指出，结合所有重要的语音数据集也只能产生约 3,000 小时的数据——这与文本数据集相比简直是沧海一粟。

为了克服这个问题，团队设计了一个利用 合成数据 的三阶段训练方案。

第一阶段: 文本-语音对齐

团队从纯文本模型 Llama3-8b 开始。他们获取了大型文本对话数据集，并使用文本转语音 (TTS) 引擎将其转换为音频。

图 4: 我们从截断正态分布中采样语音百分比。

如 图 4 所示，他们并没有瞬间将文本替换为语音。他们使用了一种课程学习方法，混合了文本句子和语音 Token。在训练早期 (蓝色曲线) ，数据主要是文本。随着训练的进行 (绿色曲线) ，模型看到的主要是语音 Token。这有助于基于文本的 LLM 逐渐将其语义知识与新的声学 Token 词汇表对齐。

第二阶段和第三阶段: 从回合制到全双工

在第二阶段，模型在格式化为全双工流的合成对话上进行训练，但做了一个简化: 没有重叠。这教会了模型同步标记的“节拍器”结构，而没有同时说话带来的混乱。

最后，在第三阶段，模型在 Fisher 数据集 (2,000 小时的真实电话交谈) 上进行微调。由于模型已经从海量合成数据中学习了语言语义和时间结构，它可以从这个相对较小的真实世界数据集中有效地学习人类轮流说话的细微差别——如打断、反馈语和节奏。

实验结果

SyncLLM 实际上比现有模型表现更好吗？研究人员主要将其与之前的全双工建模最先进技术 dGSLM 进行了比较。

语义有意义性

语音建模的最大风险之一是 AI 可能听起来很自然，但在胡言乱语 (高自然度，低有意义性) 。

图 5: 不同模型生成的语音对话转录的困惑度。

图 5 测量了生成对话的困惑度 (perplexity，越低越好) 。

dGSLM (蓝线) : 困惑度很高，意味着其输出通常在语义上是混乱或荒谬的。
SyncLLM (绿/红/紫线) : 无论块大小如何 (160ms 到 240ms) ，SyncLLM 都保持了低困惑度，非常接近地面真值 (Ground Truth，橙线) 。这证实了基于 Llama3 的架构保留了大型语言模型的“智能”。

人类评估

指标很有用，但人类判断是对话的黄金标准。研究人员进行了一项研究，人类评估员对对话的 有意义性 (Meaningfulness) (是否合理？) 和 自然度 (Naturalness) (轮流说话是否像人类？) 进行了评分。

表 3: 有意义性和自然度平均估计值。

表 3 揭示了明显的差异:

自然度 (Nat.): SyncLLM 的表现与 dGSLM 相当。两者在听起来像对话方面都不错。
有意义性 (Meaning.): 这是 SyncLLM 大放异彩的地方。dGSLM 得分非常低，仅为 1.55 , 表明它经常生成胡言乱语。SyncLLM 得分为 3.74 , 极大地缩小了与重新合成的地面真值 (3.87) 的差距。

这证明 SyncLLM 实现了两全其美: 既有文本 LLM 的智慧，又有语音模型的时机把控。

泛化能力

AI 的一个常见故障模式是仅在与其训练集相似的数据上表现良好。SyncLLM 是在 Fisher 数据集上训练的。当在 CANDOR 数据集 (一个完全不同的对话语料库) 上进行测试时，它保持了高性能，而基线模型则出现了显著退化。

图 6: 分布内和分布外测试。

图 6 可视化了这种鲁棒性。无论是在分布内数据 (Fisher) 还是分布外数据 (CANDOR) 上，与 dGSLM (蓝色) 不稳定的表现相比，SyncLLM (绿/红/紫) 都保持了稳定、低的困惑度。

应对网络延迟

这篇论文最实际的贡献可能在于对延迟的处理。在实际应用中，你的声音传输到服务器需要时间。如果 AI 等到听到你停止说话才生成响应，时机就已经错过了。

因为 SyncLLM 会预测未来的用户语音 (如架构部分所述) ，所以它对延迟具有鲁棒性。

图 8: 延迟对双模型交互的影响。

图 8 显示了模型在不同模拟延迟下的表现。模型在 160ms 和 200ms 的延迟下保持稳定和有效。性能仅在 240ms 时开始略有下降。这种缓冲对于在标准互联网连接上部署全双工代理至关重要，可确保 AI 不会因滞后而不断意外打断或陷入尴尬的沉默。

结论

SyncLLM 代表了远离当前语音助手“指令-响应”范式的重大一步。通过将对话视为连续、同步的事件流，而不是一系列孤立的回合，研究人员创建了一个能够捕捉人类语音中混乱、重叠和动态本质的系统。

关键要点是:

时间即 Token: 集成同步标记使基于文本的 LLM 能够理解时间的流逝。
预测是关键: 预测用户语音使模型能够自然地处理网络延迟和重叠。
合成扩展规模: 使用合成数据来弥合文本预训练和语音微调之间的差距，可以创建更智能、更连贯的代理。

随着这项技术的成熟，我们可以期待在未来，与 AI 交谈不再像是使用对讲机，而更像是与朋友聊天——包括打断、“嗯嗯”声以及所有的一切。

引言: “对讲机”难题#

同步架构#

SyncLLM 机制#

Token化: 给模型装上时钟#

时间的格式#

训练方案: 解决数据稀缺问题#

第一阶段: 文本-语音对齐#

第二阶段和第三阶段: 从回合制到全双工#

实验结果#

语义有意义性#

人类评估#

泛化能力#

应对网络延迟#

结论#