你是否看过一部配音电影,里面的配音与演员的脸完全脱节?也许是嘴唇停止了移动但声音还在继续,或者是屏幕上的角色在愤怒地尖叫,而配音听起来只是轻微的恼火。这种割裂感瞬间破坏了沉浸感。
这一挑战属于 视觉语音克隆 (Visual Voice Cloning, V2C) 的范畴。其目标是利用文本脚本、演讲者的视频片段和参考音频,生成与视频唇部动作匹配且克隆参考者声音的语音。

如图 1 所示,这项任务非常复杂。现有的研究一直难以平衡配音的“铁三角”: 音画同步、发音清晰度和情感表现力 。
大多数当前模型都面临权衡。如果你过分注重匹配嘴唇 (同步) ,发音往往会变得含糊不清。如果你专注于清晰的语音,唇形同步就会出现偏差。更糟糕的是,几乎所有现有的方法都会产生僵硬、毫无情感的语音。它们无法模拟导演说“再读一遍这句台词,但要更愤怒一点”或“稍微少一点悲伤”时的细微差别。
在这篇文章中,我们将探讨 EmoDubber , 这是由中国科学院及其他机构的研究人员提出的一种新颖架构。EmoDubber 通过引入一种确保高质量唇形同步和清晰发音的方法,同时为用户提供对情感类型和强度的精细控制,从而解决了这些局限性。
核心挑战: 为什么配音如此困难?
要理解 EmoDubber,我们首先需要了解以前的方法在哪里失败了。通常,V2C 方法分为两类:
- 风格导向 (Style-Focused) : 这些方法使用预训练的编码器来捕获说话人的身份。虽然它们听起来像目标说话人,但通常使用简单的损失函数,无法将语音节奏与视频的唇部动作对齐。
- 视觉导向 (Visual-Focused) : 这些方法大量结合视觉数据 (唇动、面部表情) 来驱动语音的韵律 (节奏和语调) 。虽然同步性更好,但在视频帧级别操作往往会忽略音素级别的细节,导致发音“含糊不清”。
此外,这两类方法都无法有效处理情感控制 。 在真实的录音棚里,演员会进行多次录音以获得恰到好处的情感强度。AI 配音系统历来缺乏这种“旋钮”,产生的输出平淡单调,无法匹配场景的戏剧张力。
EmoDubber 解决方案
研究人员提出了一个综合架构,将配音视为一个包含对齐、增强、适应和情感渲染的多阶段过程。

如上图所示,EmoDubber 框架由四个不同的模块组成,每个模块解决配音难题的一个特定部分:
- 唇部相关韵律对齐 (Lip-related Prosody Aligning, LPA): 确保语音节奏与视频匹配。
- 发音增强 (Pronunciation Enhancing, PE): 通过优化音素修复“含糊不清”的问题。
- 说话人身份适应 (Speaker Identity Adapting, SIA): 注入目标说话人的声音风格。
- 基于流的用户情感控制 (Flow-based User Emotion Controlling, FUEC): 用于生成具有可控强度的情感波形的引擎。
EmoDubber 的总体目标函数可以概括为:

在这里,模型接收参考音频 (\(R_a\))、文本 (\(T_p\))、视频 (\(V_l\)) 和用户情感引导 (\(E\)),以生成最终音频 \(\hat{Y}\)。让我们分解每个组件。
1. 唇部相关韵律对齐 (LPA)
第一步是建立文本与无声视频之间的联系。LPA 模块专注于 持续时间级对比学习 (Duration-Level Contrastive Learning, DLCL) 。
首先,系统从文本和视频中提取特征。
- 文本: 音素编码器提取具有风格意识的音素嵌入 (\(\mathcal{O}_{s}\))。
- 视频: 唇部编码器从视频帧的嘴部区域提取运动嵌入 (\(\mathcal{E}\))。
![]\n\\mathcal { O } _ { s } = \\mathrm { P h o E n c o d e r } ( T _ { r } \\in \\mathbb { R } ^ { P } , S _ { i d } ) ,\n[](/en/paper/2412.08988/images/004.jpg#center)
![]\n\\mathcal { E } = \\mathrm { L i p E n c o d e r } ( M _ { r o i } \\in \\mathbb { R } ^ { F \\times D _ { w } \\times D _ { h } \\times D _ { c } } ) ,\n[](/en/paper/2412.08988/images/005.jpg#center)
为了同步这些特征,模型需要知道每个音素应该发音多长时间以匹配嘴部运动。LPA 使用多头注意力机制,其中唇动作为查询 (Query),音素韵律作为键 (Key) 和 值 (Value)。这生成了一个“唇部-韵律上下文序列” (\(C_{pho}\))。
![]\nC _ { p h o } = \\mathrm { s o f t m a x } ( \\frac { \\mathcal { E } ^ { \\top } \\mathcal { O } _ { p } } { \\sqrt { d _ { m } } } ) { \\mathcal { O } _ { p } } ^ { \\top } ,\n[](/en/paper/2412.08988/images/006.jpg#center)
然而,简单的注意力机制不足以保证紧密的同步。研究人员引入了对比学习损失 (\(\mathcal{L}_{cl}\)),迫使模型学习“正确”的对齐方式。它鼓励正样本对 (正确的文本-视频匹配) 比负样本对具有更高的相似度得分。
![]\n\\mathcal { L } _ { c l } = - \\log \\frac { \\sum \\exp \\big ( ( \\sin ^ { + } ( \\mathcal { E } , \\mathcal { O } _ { p } ) ) / \\tau \\big ) } { \\sum \\exp ( ( \\sin ( \\mathcal { E } , \\mathcal { O } _ { p } ) ) ) } ,\n[](/en/paper/2412.08988/images/007.jpg#center)
至关重要的是,正样本对的相似度由真实基准矩阵 (\(M_{lip,pho}^{gt}\)) 加权,该矩阵源自强制对齐工具 (Forced Aligner),确保注意力机制遵循语音的单调性 (即,你不能在句子开始之前说句子的结尾) 。
![]\n\\mathrm { s i m } ^ { + } ( \\mathcal { E } , \\mathcal { O } _ { p } ) = \\mathrm { s i m } ( \\mathcal { E } , \\mathcal { O } _ { p } ) \\times M _ { l i p , p h o } ^ { g t } ,\n[](/en/paper/2412.08988/images/008.jpg#center)
2. 发音增强 (PE)
虽然 LPA 处理了时间安排,但我们仍需确保词语清晰易懂。以前仅依赖视频特征的方法通常会产生含糊不清的语音,因为某些音素的视觉线索是模棱两可的 (例如,‘p’ 与 ‘b’) 。
发音增强 (PE) 策略通过显式扩展音素序列以匹配视频长度来解决这个问题。它使用 单调对齐搜索 (MAS) 根据上一步学习到的注意力图计算每个音素的最佳持续时间 (\(D_p\))。
![]\n\\begin{array} { r } { \\mathcal { O } _ { s } ^ { v } = \\mathrm { L R } ( D _ { p } , \\mathcal { O } _ { s } ) , } \\end{array}\n[](/en/paper/2412.08988/images/009.jpg#center)
长度调节器 (Length Regulator, LR) 扩展音素序列。然后,使用 视听高效 Conformer (AVEC) 将扩展后的序列与唇部-韵律上下文 (\(C_{pho}\)) 融合。
![]\n\\mathcal { V } _ { f } = \\mathrm { C o n f o r m e r } ( C _ { p h o } , \\mathcal { O } _ { s } ^ { v } ) ,\n[](/en/paper/2412.08988/images/010.jpg#center)
Conformer 架构非常适合此处,因为它结合了卷积 (擅长局部细节,如单个音素) 和 Transformer (擅长全局上下文) 。这种融合确保了语音既与嘴唇同步,又在语言上清晰。
3. 说话人身份适应 (SIA)
现在我们有了同步且清晰的内容,我们需要让它听起来像目标演员。SIA 模块接收融合后的特征 (\(\mathcal{V}_f\)) 并注入说话人的风格嵌入 (\(S_{id}\))。
![]\n\\mu = { \\mathrm { P r o j } } ( { \\mathrm { U S L } } ( { \\mathrm { U p } } ( \\mathcal V _ { f } ) , S _ { i d } ) ) ,\n[](/en/paper/2412.08988/images/011.jpg#center)
这个过程包括将特征上采样到梅尔声谱图层级,并使用 语句级风格学习 (USL) 模块。输出 \(\mu\) 作为“声学先验”——即包含内容和说话人身份的语音蓝图,准备进行情感着色。
4. 基于流的用户情感控制 (FUEC)
这是 EmoDubber 最具创新性的部分。我们如何将情感注入这个声学蓝图中?研究人员利用了 流匹配 (Flow Matching) , 这是一种类似于扩散模型的生成技术,但通常更快、更稳定。
目标是将简单的噪声 (\(x_0\)) 转换为代表情感语音的复杂梅尔声谱图 (\(M\))。模型学习一个“向量场”——本质上是一张地图,告诉噪声如何随时间 (\(t\)) 流动以变成目标图像 (声谱图) 。
![]\n\\mathcal { L } _ { \\theta } = \\mathbb { E } _ { t , q ( M ) , p _ { t } ( x | \\mu , M ) } | | v _ { t } ( \\phi _ { t } ( x ) | \\mu , \\theta ) - u _ { t } ( \\phi _ { t } ( x ) | M ) | | ^ { 2 } ,\n[](/en/paper/2412.08988/images/012.jpg#center)
然而,标准的流匹配只是生成最可能的语音。为了控制情感,EmoDubber 引入了 正负引导机制 (Positive and Negative Guidance Mechanisms, PNGM) 。
人类的情感是复杂的混合体。一个“快乐”的声音不仅仅是快乐;它同时也是不悲伤且不愤怒的。为了实现精确控制,研究人员使用了一个预训练的 情感专家分类器 。 在生成过程中,它们同时向两个方向引导流:
- 正向引导 (\(\alpha\)): 推动生成过程朝向目标情感类别 (\(c_i\))。
- 负向引导 (\(\beta\)): 推动生成过程远离所有其他情感类别。
修正后的向量场方程如下所示:
![]\n\\begin{array} { r l } & { \\tilde { v } _ { t , i } = v _ { t } ( \\phi _ { t } ( x ) | \\mu , \\theta ) } \\ & { \\qquad + \\gamma \\Big ( \\alpha \\nabla \\log p _ { \\psi } ( c _ { i } | \\phi _ { t } ( x ) ) - \\beta \\nabla \\log p _ { \\psi } \\big ( \\displaystyle \\sum _ { j = 0 , j \\neq i } l _ { j } c _ { j } | \\phi _ { t } ( x ) ) \\Big ) , } \\end{array}\n()](/en/paper/2412.08988/images/013.jpg#center)
通过调整 \(\alpha\) 和 \(\beta\),用户 (或导演) 可以控制情感的 强度 。 高 \(\alpha\) 使情感更强烈,而 \(\beta\) 通过抑制冲突的情感特征来确保纯度。
实验结果
研究人员使用 Chem (单说话人) 和 GRID (多说话人) 数据集,将 EmoDubber 与几种最先进 (SOTA) 的方法进行了对比测试,包括 V2C-Net、HPMDubbing 和 StyleDubber。
定量性能
评估指标集中在三个领域:
- 同步性: 唇形同步误差置信度 (LSE-C) 和距离 (LSE-D)。
- 质量: 词错率 (WER) 和说话人相似度 (SECS)。
- 情感: 强度评分 (IS)。
在具有挑战性的 GRID 基准测试 (设置 2.0,涉及多说话人场景) 中,EmoDubber 显示出显著的改进。

如表 4 所示,EmoDubber 取得了最低的 MCD (梅尔倒谱失真) 得分 3.92 , 而 StyleDubber 为 6.33。较低的 MCD 表明生成的音频更接近真实情况。
至关重要的是,在可懂度 (WER) 方面,EmoDubber 达到了 19.75% , 击败了之前最好的 49.09% (V2C-Net),甚至可以与那些不尝试复杂唇形同步的模型相媲美。它独特地实现了同步性 (LSE-C/D) 和 发音的同时改进,验证了 LPA 和 PE 模块的有效性。
控制情感强度
该论文的一个关键主张是控制情感强度的能力。研究人员通过绘制 强度评分 与正向引导比例 (\(\alpha\)) 的关系图来可视化这一点。

在图 3 中,我们可以看到,随着用户增加 \(\alpha\) (x 轴) ,诸如快乐、悲伤和愤怒等各种情绪的强度评分都会上升。不同颜色的线代表不同水平的负向引导 (\(\beta\))。这证明该架构允许“可调节”的性能——用户不必局限于单一、静态的“悲伤”声音。
音频可视化
为了查看这在信号本身中是什么样子,作者提供了声谱图可视化。

在图 4 中,将“中性”声谱图 (底部) 与生成的情感 (顶部) 进行比较。
- 惊讶 (a): 注意结尾处音调的上扬 (蓝色框突出显示) ,这是惊讶的疑问句或感叹句的典型特征。
- 愤怒 (b): 整个发声过程中的能量明显更高且更强烈。
- 悲伤 (c): 声谱图显示高频能量减少,过渡更柔和,这是与悲伤相关的低沉基调的特征。
泛化与质量
最后,模型能否清晰地区分情感?下面的 t-SNE 图比较了基线 TTS 模型与 EmoDubber 的特征聚类。

在右侧 (EmoDubber) ,愤怒 (蓝色) 、悲伤 (红色) 和快乐 (橙色) 的聚类清晰且分离良好。这表明 FUEC 模块成功地将可区分的情感特征注入到了音频中。
表 5 进一步证实,添加情感并不会破坏唇形同步或清晰度。

即使在生成诸如恐惧或厌恶等强烈情感时,词错率 (WER) 仍然很低 (约 11-12%) ,说话人相似度 (SECS) 仍然很高 (约 88-89%) 。这证实了 EmoDubber 将情感生成与内容生成解耦——你可以改变说话的方式,而不会破坏说话的内容或说话的人。
结论
EmoDubber 代表了自动化电影配音向前迈出的重要一步。通过将问题分解为对齐、发音、身份和情感,研究人员创建了一个系统,解决了以前 V2C 模型的主要缺陷。
主要收获如下:
- 对齐至关重要: 持续时间级对比学习 (LPA) 确保声音不会偏离嘴唇。
- 清晰为王: 发音增强 (PE) 模块确保配音清晰易懂,而不仅仅是同步。
- 导演剪辑版: 基于流的用户情感控制 (FUEC) 赋予创作者调整场景所需的确切情感和强度的能力,弥合了 AI 生成与艺术指导之间的差距。
对于电影制作、本地化和内容创作的未来,像 EmoDubber 这样的工具预示着一个可以在不失去原始表演情感冲击力的情况下跨越语言障碍的世界。
](https://deep-paper.org/en/paper/2412.08988/images/cover.png)