想象一下观看一段某人说话的视频,但声音被静音了。你可以看到他们的嘴唇在动,面部表情在变化,下巴也在移动。如果让你仅凭观看视频来为这段视频“配音”,你能做到吗?你可能会猜出他们在说什么 (唇语识别) ,但你能猜出他们声音的音质吗?音高呢?情感的起伏呢?
这就是视频转语音 (Video-to-Speech, VTS) 合成所面临的挑战。这是计算机视觉和音频处理领域中一个令人着迷的问题,其应用范围从修复无声档案电影到辅助言语障碍人士。
然而,VTS 众所周知地困难。在我们看到的 (面部像素) 和我们听到的 (音频波形) 之间存在巨大的“模态差异 (modality gap) ”。一段无声视频并不显式包含说话者的声音音高或独特的音色。在 KAIST 研究人员最近发表的一篇题为 “From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech” 的论文中,他们提出了一种新颖且复杂的方法,比以往任何时候都更好地弥合了这一差距。
在这篇文章中,我们将深入探讨他们的分层方法,解释他们如何将语音分解为内容 (Content) 、音色 (Timbre) 和韵律 (Prosody) , 以及他们如何使用流匹配 (Flow Matching) 来生成超逼真的音频。
问题所在: 模态差异
视频转语音的核心问题在于视觉和听觉数据存在于两个不同的世界中。
- 视觉提供嘴唇运动 (暗示单词) 和面部表情 (暗示情绪) 。
- 音频包含音色 (声音独特的“质感”) 、韵律 (节奏和音高) 以及内容 (音素) 。
以前的方法通常试图使用端到端的深度学习模型 (如 GAN 或扩散模型) 直接将视频特征映射到音频特征。虽然这些方法在一定程度上有效,但它们往往难以解耦这些复杂的属性。结果呢?生成的语音听起来很机械,缺乏正确的情感冲击力,或者听起来像是一个通用的“大众”声音,而不是屏幕上那个特定的人。
解决方案: 分层方法
研究人员意识到,语音不仅仅是一大块数据;它是一个分层的信号。为了生成高质量的语音,模型不应该试图一次性学习所有内容。相反,它应该分阶段学习,从最稳定的特征转移到最动态的特征。
他们提出了一种分层视觉编码器 (Hierarchical Visual Encoder) , 将生成过程分为三个明显的阶段:
- 内容建模: 确定说了什么。
- 音色建模: 确定是谁在说。
- 韵律建模: 确定是怎么说的。

如上图 1 所示,该系统获取一段无声视频并提取三个特定的视觉线索: 嘴唇运动、面部身份和面部表情 。 这些与上述三个声学阶段完美对应。
深入探究: 架构
让我们看看其内部机制。该系统由两个主要部分组成: 分层视觉编码器和流匹配解码器 。

1. 分层视觉编码器
这是整个操作的大脑。如图 2 所示,编码器按顺序处理视频输入。
第一阶段: 内容 (“说什么”)
语音最基本的部分是语言内容。如果词不对,语气再好也没用。
- 视觉输入: 模型聚焦于嘴唇 。
- 机制: 研究人员使用预训练的 AV-HuBERT 模型 (一种最先进的唇语识别模型) 来提取嘴唇运动特征。
- 对齐: 这些视觉特征与“语音单元” (语音内容的量化表示) 相对齐。
为了确保模型理解单词的上下文 (协同发音) ,他们使用了一个专门的卷积块。

如图 3 所示,预测器使用了一个“掩码卷积块 (Masked ConvBlock) ”。这允许模型根据相邻帧预测当前帧的内容,学习对于流畅语音至关重要的时序依赖关系。
这一阶段的损失函数结合了标准的交叉熵 (CE) 和这种掩码方法:

第二阶段: 音色 (“谁在说”)
一旦确定了单词,模型就需要决定声音听起来像什么。
- 视觉输入: 人脸 ID (Face ID) 。
- 洞察: 面部结构与声音音色之间存在生物特征相关性。 (想想看,有时你仅看某人的脸就能猜出他们的声音大概是什么样的) 。
- 机制: 他们使用人脸识别网络 (ArcFace) 提取静态身份嵌入。这与第一阶段的内容特征融合在一起。
第三阶段: 韵律 (“怎么说”)
最后,语音需要注入生命力——音高、能量和情感。
- 视觉输入: 面部表情 。
- 洞察: 当你大喊时,你的脸会紧绷。当你悲伤时,你的表情会低以此。这些视觉线索与音高 (F0) 和能量高度相关。
- 机制: 一个表情编码器捕捉这些细微的差别。然后系统预测语音的音高和能量轮廓。
2. 流匹配解码器
一旦视觉编码器创建了一个包含内容、音色和韵律的丰富分层表示 (\(\mu\)) ,就需要将其转换为梅尔频谱图 (Mel-spectrogram) (一种音频频率随时间变化的视觉表示) 。
作者没有使用标准的扩散模型 (可能速度慢且计算量大) ,而是使用了流匹配 (Flow Matching) , 具体来说是最佳传输条件流匹配 (Optimal Transport Conditional Flow Matching, OT-CFM) 。
简单来说,扩散模型通过从噪声到清晰图像/音频的锯齿状随机游走来“去噪”数据,而流匹配试图找到从噪声分布到目标数据分布的最直、最直接的路径 (向量场) 。
流的轨迹由这个常微分方程 (ODE) 定义:

为了训练它,他们试图最小化模型预测的向量场 (\(v_t\)) 与最佳目标路径 (\(u_t\)) 之间的差异:

与传统的扩散模型相比,这种方法允许以更少的采样步骤生成高质量的内容。最后,神经声码器 (HiFi-GAN) 将生成的梅尔频谱图转换为最终的音频波形。
实验结果
那么,效果如何呢?结果令人印象深刻,为该领域树立了新的标杆。
研究人员在 LRS3-TED (TED 演讲) 和 LRS2-BBC 等标准数据集上测试了他们的模型。他们将自己的工作与 SVTS、Intelligible 和 DiffV2S 等顶级竞争对手进行了比较。
主观评估 (人工听测)
在平均意见得分 (MOS) 测试中,人类听众对生成语音的自然度 (Naturalness) 和可懂度 (Intelligibility) 进行了评分。

上表中的结果令人震惊。所提出的方法达到了 4.49 的自然度得分,这与真实人类语音 (Ground Truth) 的得分 4.54 几乎相同。像 DiffV2S 这样的以前的方法仅达到 2.97。这表明合成语音与真实录音几乎无法区分。
视觉证据: 频谱图
我们也可以通过观察生成的梅尔频谱图来“看到”这种改进。

在图 4 中,对比“Ours”一列和“GT” (Ground Truth,真实值) 一列。
- 黄/绿线代表语音的谐波和共振峰。
- 所提出的方法比 SVTS 或 Intelligible 等竞争对手更好地保留了详细的谐波结构 (水平条纹) ,后者的图像看起来很模糊或“涂抹”感严重。
- 红色框突出显示了模型捕捉到的与嘴唇运动完美对齐的动态音高变化区域。
客观指标
客观数据支持了主观测试的结果。该模型在词错误率 (WER) 上得分最低,意味着生成的语音清晰易懂,并且在 UTMOS 和 DNSMOS 等感知质量指标上得分最高。

为什么分层很重要: 消融研究
为了证明“分而治之”策略是必要的,研究人员进行了消融研究,移除了模型的不同部分以观察结果。

- w/o Hier: 移除分层结构导致质量大幅下降。
- w/o Timbre / w/o Prosody: 移除这些特定阶段也会损害模型,证明你确实需要将“谁在说”和“怎么说”与“说什么”分开建模。
结论
论文 “From Faces to Voices” 展示了人工智能在从无声视频重建语音能力方面的重大飞跃。通过承认语音是内容、身份和情感的复杂相互作用——并设计一个模仿这种层次结构的神经网络——研究人员实现了可与真实人类语音相媲美的生成质量。
流匹配的集成进一步增强了这一点,确保了生成过程的高效和准确。这项技术为媒体编辑的未来、言语障碍人士的辅助工具以及强大的视听理解系统打开了令人兴奋的大门。
对于对多模态学习感兴趣的学生来说,这篇论文是一个完美的例子,展示了领域知识 (了解语音是如何产生的) 如何指导网络架构 (分层编码器) 来解决暴力深度学习无法单独解决的复杂问题。
](https://deep-paper.org/en/paper/2503.16956/images/cover.png)