如果你玩过现代 RPG 游戏,或者看过使用 AI 生成口型同步的配音电影,你可能经历过“恐怖谷效应”。角色的嘴唇在动,从技术上讲,它们针对发音做出的形状也是对的,但总感觉有什么地方不对劲。对于元音 ‘a’,嘴巴张开的幅度可能完美无缺,但它缺乏大喊时的那种能量,或者时间上哪怕只有几毫秒的机械感偏差。
多年来,语音驱动的 3D 说话人头像 (3D Talking Head) 生成领域一直在这个特定的数学目标上追逐: 最小化生成的 3D 唇部顶点与“真值 (ground truth) ”录制数据之间的物理距离。这通常通过 唇部顶点误差 (Lip Vertex Error, LVE) 来衡量。逻辑很简单: 如果几何形状与录制数据匹配,动画就是完美的。
然而,近期一篇题为 “Perceptually Accurate 3D Talking Head Generation” (感知精确的 3D 说话人头像生成) 的论文挑战了这一假设。作者认为,较低的几何误差并不能保证动画的逼真度。人类的感知远比均方误差 (MSE) 计算要复杂得多。
在这篇文章中,我们将解构这项研究。我们将探讨为什么目前的模型让人感觉僵硬机械,介绍一种新的能够捕捉语音感觉的“语音-网格 (Speech-Mesh) ”表征,并以此展示如何将其嵌入现有模型中,从而大幅提升逼真度。
问题所在: 几何与感知
现有方法 (如 FaceFormer 或 CodeTalker) 的核心问题在于它们严重依赖最小化 MSE 损失。虽然这降低了 LVE 指标,但它未能捕捉到语音与动作之间的感知对齐。
作者发现了一个关键差距: 现有的数据集通常规模较小且缺乏强度范围 (人们在数据集中通常以正常音量说话) 。因此,模型无法学习到: 即使音素相同,大喊比耳语需要张大嘴巴。
定义感知精确的唇部运动
那么,到底是什么让一个说话人头像在人类眼中看起来“真实”呢?研究人员提出了三个基本标准:
- 时间同步性 (Temporal Synchronization): 嘴唇必须与音频在完全相同的时间移动。人类对视听延迟极其敏感。
- 唇语可读性 (Lip Readability): 视觉形状 (视素) 必须准确反映声音 (音素) 。如果你听到“b”的声音却看到“o”的形状,幻觉就会破灭。
- 表现力 (Expressiveness): 这是一个经常被忽视的因素。随着语音强度 (响度/情绪) 的增加,下颌和嘴唇的运动幅度也应成比例增加。

如上图 Figure 1(a) 所示,这三大支柱支撑着感知准确性。有趣的是,研究人员进行了一项人类研究,看看这些因素中哪一个最重要。

请看上表。在并排比较中,参与者实际上更喜欢 样本 B——它具有高表现力但有 100ms 的不同步——而不是 样本 A , 后者时间完美但缺乏表现力。这表明,相对于严格的时间精度,人类可能更看重动作的强度和能量 (表现力) ,这一发现完全颠覆了传统对顶点精度的关注。
核心方法: 语音-网格同步表征
为了解决这个问题,作者不仅构建了一个新的生成器;他们构建了一个新的 表征空间 。 他们假设存在一个共享的潜在空间,在这个空间中,根据上述三个标准,语音和 3D 面部运动是完美对齐的。

上图展示了这个“理想表征空间”。在这个空间里,相同音素 (如 [a] 或 [i]) 的表征应该聚类在一起 (唇语可读性) ,轨迹应该在时间上对齐 (同步性) ,并且随着语音变大,向量的幅度应该增长 (表现力) 。
构建这个空间很困难,因为 3D 扫描数据昂贵且稀缺。然而,2D 视频数据却很丰富。作者提出了一种巧妙的 两阶段训练流程 来克服数据稀缺问题。

第一阶段: 学习视听语音表征 (2D)
在接触 3D 网格之前,模型首先从标准的 2D 视频数据集 (如 LRS3) 中学习。这里的目标是学习音频和唇部运动之间的一般关系。
该架构使用基于 Transformer 的方法,具有两个关键的学习目标:
- 掩码自编码器 (Masked Autoencoder, MAE): 模型随机掩盖部分音频和视频,并尝试重建它们。这迫使模型理解数据的上下文和结构。
- 对比学习 (InfoNCE): 这将音频和视频在共享空间中对齐。
InfoNCE 损失函数将同步的音频和视频的嵌入拉近,同时将不同步的配对推开。语音到视频的损失方程为:

这里,\(\mathbf{c}_{s,i}\) 和 \(\mathbf{c}_{v,i}\) 分别是语音和视频的嵌入。总 InfoNCE 损失是语音到视频和视频到语音损失的总和:

重建 (MAE) 损失确保模型保留原始信号的详细信息:

第一阶段的总目标结合了这些,创造了一个丰富的“视听语音表征”。

第二阶段: 学习语音-网格表征 (3D)
现在来到了“迁移”魔法时刻。作者提取第一阶段训练好的鲁棒语音编码器并将其 冻结 。 然后,他们引入了一个 3D 网格编码器 (Mesh Encoder)。
使用语音-3D 网格配对数据集,他们训练网格编码器将 3D 顶点映射到第一阶段定义的同一个冻结语音空间中。因为语音空间是从海量 2D 数据中学习而来的,它已经拥有了“涌现特性”——它了解强度和音素聚类。通过强制 3D 网格与这个空间对齐,3D 表征继承了这些丰富的特性。
这里的损失函数将网格嵌入 \(\mathbf{c}_{m}\) 与固定的语音嵌入 \(\mathbf{c}_{s}\) 对齐:

“即插即用”的感知损失
这就论文的终极贡献不仅仅是表征本身,还在于它的使用方式。这个学习到的表征充当了一个 感知损失 (Perceptual Loss) 。
你可以拿任何现有的 3D 说话人头像模型 (如 FaceFormer 或 CodeTalker) ,并在训练期间添加这个损失函数。模型不再仅仅最小化顶点的物理距离 (MSE),而是尝试在这个感知对齐的空间中,最小化生成网格的嵌入与输入音频的嵌入之间的距离。

这个损失 (\(\mathcal{L}_{percp}\)) 起到了向导的作用,当模型生成的动作在几何上“还可以”但在感知上“死板”时,它会进行纠正。
新定义: 评估真正重要的东西
由于作者认为 LVE (唇部顶点误差) 是不充分的,他们引入了对应于其三个标准的三个新指标。
1. 平均时间错位 (Mean Temporal Misalignment, MTM)
为了在不需要人工标注的情况下测量时间误差,研究人员使用了 导数动态时间规整 (Derivative Dynamic Time Warping, DDTW) 。 他们计算真值和生成网格的唇部运动速度,并找出它们之间的时间偏移。

如上图所示,DDTW 识别局部峰值 (嘴巴张开/闭合) ,并测量它们之间的时间差 (\(\Delta t\))。
2. 感知唇语可读性评分 (Perceptual Lip Readability Score, PLRS)
该指标复用了预训练的语音-网格表征。它计算输入语音与生成网格在那个学习到的潜在空间中的余弦相似度。如果模型为音素生成了正确的视素,嵌入应该很接近,从而得分较高。

3. 语音-唇动强度相关系数 (Speech-Lip Intensity Correlation Coefficient, SLCC)
该指标评估表现力。它测量语音的响度 (语音强度 或 SI) 与唇部运动幅度 (唇动强度 或 LI) 之间的相关性。

高相关性 (\(r_{SL}\)) 意味着当音频更响亮时,虚拟化身张嘴的幅度更大,模仿了自然的人类行为。
实验与结果
研究人员通过将他们的感知损失嵌入最先进的模型 (FaceFormer, CodeTalker, SelfTalk) 并在标准数据集 (VOCASET) 和新的、更具表现力的数据集 (MEAD-3D) 上进行评估,测试了他们的方法。
表征有效吗?
首先,他们分析了学习到的表征空间本身。

上面的 t-SNE 图展示了特征空间。
- (a) 3D SyncNet: 基线方法显示出分散的聚类。
- (b) Ours w/o 2D prior: 如果没有第一阶段 (2D 视频训练) ,特征是混乱的。
- (c) Ours w/ 2D prior: 采用完整的两阶段流程后,我们看到了清晰、独特的聚类,其中相同音素的语音 (圆形) 和网格 (方形) 紧密地聚在一起。这证实了 2D 初始化至关重要。
他们还验证了表征对时间和强度的敏感性。

在 Figure 5(a) 中,随着音频和网格变得不同步,余弦相似度急剧下降,证明该指标对时间敏感。在 Figure 5(b) 中,低、中、高强度形成了明显的聚类,证明该空间理解表现力。
改进现有模型
当感知损失被添加到现有模型中时,结果非常显著。

在上面的定性比较中,请看标记为 +Ours 的列。与基线模型相比,唇形更加清晰准确。例如,在发“some”这个音 (顶行) 时, +Ours 版本显示出比基线更好的闭唇 (双唇音) 效果。
解锁表现力
也许最引人注目的改进在于表现力。作者发现,在标准数据集 (VOCASET) 上训练限制了表现力,因为数据是“平淡”的。然而,通过结合更具表现力的数据集 (MEAD-3D) 和他们的感知损失,他们实现了高保真的情感语音。

Figure 6 展示了低 (-) 和高 (+) 强度语音之间的差异。使用感知损失训练的模型 (标记为 +Ours rep. )在高强度语音 (橙色箭头) 下显示出更大幅度的运动范围,比标准模型张嘴幅度大得多。
最后,消融实验证实了架构的每一部分都很重要。

Table 3 显示,移除 2D 先验 (第一阶段) 会导致模型在 PLRS (可读性) 和 MTM (时间性) 上的表现显著下降。Transformer 架构的表现也优于基于 CNN 的方法 (SyncNet) 。
结论与启示
这项研究标志着 3D 面部动画的一个转折点。它将目标从 几何准确性 (匹配顶点) 转移到了 感知准确性 (匹配人类预期) 。
通过定义口型同步的“三位一体”——同步性、可读性和表现力——并构建一个自然理解这些要素的表征空间,作者提供了一种可以升级几乎所有现有说话人头像模型的工具。
对于学生和研究人员来说,关键的收获是 跨模态迁移学习 的力量。通过从丰富的 2D 视频数据中学习丰富的特征,并将稀疏的 3D 数据投影到该空间,我们可以解决仅靠 3D 数据似乎无法解决的问题。其结果是,数字虚拟化身不再只是动动嘴皮子,而是真正地在说话。
](https://deep-paper.org/en/paper/2503.20308/images/cover.png)