倾听的艺术: 扩散模型如何彻底改变数字虚拟人
在数字人 (Digital Human) 生成的领域中,我们通常关注说话者。我们希望化身能够说话,口型完美同步,并带有情感地发表演讲。但沟通是双向的。回想一下你上次的视频通话: 当你说话时,对方在做什么?他们在点头、微笑、皱眉,或者可能困惑地歪着头。这些非语言线索对于自然的互动至关重要。
这就引出了聆听头像生成 (Listening Head Generation) 的挑战。其目标是创建一个聆听者的视频,该视频能对说话者的音频和视频输入做出逼真的反应。这听起来很简单,但众所周知,这非常困难。与口型同步不同 (即特定的声音对应特定的嘴型) ,聆听是一个“一对多”的问题。对于任何给定的句子,聆听者可以点头、保持静止或微笑,这些都是合理的反应。
从历史上看,AI 模型在这一领域一直举步维艰。它们通常生成模糊、低分辨率 (通常是 \(256 \times 256\)) 且动作机械、重复的视频。在这篇文章中,我们将深入探讨一篇新论文: “Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling” (基于混合运动建模的扩散式逼真聆听头像生成) , 该论文提出了一种突破性的方法,使用潜在扩散模型 (LDM) 来生成高保真 (\(512 \times 512\)) 、表情丰富的聆听头像。
“纯粹”方法的弊端
在理解解决方案之前,我们需要了解为什么这很难。以前最先进的方法通常遵循两阶段流程:
- 运动预测: 使用一个模型 (如 LSTM) 根据说话者的音频预测 3D 系数 (面部表情和姿态的数学表示) 。
- 渲染: 将这些系数输入渲染器以生成视频帧。
问题在于?这些 3D 系数是“显式”的——它们是僵硬的数学定义,往往会遗漏人类皮肤、皱纹和微表情的细微细节。结果生成的视频看起来通常像光滑的塑料面具。
另一方面,现代扩散模型 (如 Stable Diffusion 背后的模型) 在生成细节图像方面表现出色。然而,直接将它们应用于聆听头像非常棘手。聆听需要理解长期上下文 (你不会对单个单词点头,而是对句子的含义点头) 。扩散模型计算量大,通常难以“记住”长序列的上下文。
解决方案: 混合运动建模
研究人员提出了一种“两全其美”的方法。他们结合了显式运动建模 (Explicit Motion Modeling) (用于引导一般动作) 和隐式运动建模 (Implicit Motion Modeling) (通过扩散模型填充逼真的细节) 。
让我们看看整体架构:

如上图 1 所示,该框架将聆听者的肖像和说话者的音频/运动作为输入。然后通过三个主要阶段进行处理:
- 显式运动生成 (a): 一个轻量级模块预测粗略的 3D 姿态和表情。
- 高保真渲染 (c): 一个修改后的 Stable Diffusion 网络生成视频帧。
- 隐式运动细化 (d): 一个特殊模块注入 3D 模型遗漏的细微细节。
让我们一步步分解这些过程。
1. 显式运动生成
第一步是弄清楚聆听者大致应该做什么。他们应该转头吗?应该微笑吗?
该模型为此使用了一个基于 Transformer 的轻量级扩散网络。它不是立即生成像素,而是生成 3DMM 系数 (3D 形变模型的参数) 。这非常高效,并允许模型查看说话者音频的更长历史记录,从而做出更好的决策。
在数学上,目标是根据说话者的音频 (\(\mathbf{A}\)) 和运动 (\(\mathbf{S}\)),从噪声输入中预测干净的运动信号 \(\hat{\mathbf{L}}\) (姿态和表情) 。

这里,\(\mathcal{G}\) 是运动生成模块。通过在这个低维“参数空间”而不是像素空间中操作,模型可以轻松学习合理的反应,而不会陷入渲染细节的泥潭。
2. 带引导的高保真渲染
既然我们有了动作的“骨架” (显式运动) ,我们需要将其充实为逼真的视频。研究人员采用了源自 Stable Diffusion 1.5 的潜在扩散模型 (LDM) 。
渲染过程 \(\mathcal{R}\) 基于噪声潜在变量 \(\mathbf{V}_{t}\)、我们要计算的显式运动 \(\hat{\mathbf{L}}\)、说话者的音频/运动以及聆听者的参考图像 \(\mathbf{I}\) 来生成视频帧 \(\hat{\mathbf{V}}_{0}\)。

然而,简单地将所有这些条件一次性扔给模型往往会让它感到困惑。研究人员设计了一种巧妙的双重控制策略 (Dual-Control Strategy) 来有效地引导扩散模型。
分离姿态和表情
研究人员意识到头部姿态 (Head Pose) (头看向哪里) 和面部表情 (Facial Expression) (微笑、皱眉) 是根本不同类型的运动。
- 姿态是刚性的: 它影响头部的全局位置。
- 表情是非刚性的: 它影响嘴巴和眼睛等局部特征。
为了处理这个问题,他们在网络中对二者进行了不同的处理。
对于姿态: 他们将 3D 姿态关键点投影到图像上 (连接眼睛和鼻子) ,并使用专门的卷积编码器将此“姿态图像” \(\mathbf{P}\) 输入网络。该信号直接添加到网络的特征中:

对于表情: 由于表情更加微妙,它们通过交叉注意力 (Cross-Attention) 层注入。表情特征 \(\mathbf{F}\) 充当渲染网络关注的“键 (keys) ”和“值 (values) ”:

这种分离确保了头部正确旋转而不会扭曲面部特征,面部也能正确表达情感而不会扭曲头部形状。
3. 隐式运动细化
如果我们只停留在显式运动步骤,结果看起来还不错,但会显得“没有灵魂”。3DMM 系数是低维近似值。它们可以捕捉微笑,但无法捕捉让微笑看起来真实的眼角皱纹或脸颊肌肉的紧绷感。
这就是隐式运动细化 (Implicit Motion Refinement) 发挥作用的地方。
研究人员引入了一个模块,允许扩散模型再次直接查看说话者的音频和运动特征,绕过 3DMM 的瓶颈。这条“隐式”路径允许模型生成显式数学模型遗漏的高频细节——即“神韵”。

在这个公式中,模型关注说话者的原始信号 (\(\mathbf{S}, \mathbf{A}\)),并将此信息添加到由显式引导生成的特征中。这种残差连接充当了“细节润色器”。
4. 保持身份一致性
最后,为了确保聆听者在整个视频中看起来是同一个人,他们使用了参考网络 (Reference Net) (如图 1 中的 (b) 部分所示) 。这是处理聆听者原始静态肖像的网络的并行副本。
来自该静态图像的特征被注入到主视频生成流中,以锁定身份。

实验结果
那么,这个复杂的混合架构真的有效吗?研究人员将他们的方法与几种最先进的方法进行了对比测试,包括 RLHG、PCH 和 L2L。
视觉质量
视觉上的改进是惊人的。由于主干是一个强力的扩散模型 (Stable Diffusion) ,输出分辨率为 \(512 \times 512\),比以前的方法清晰得多。

在图 2 中,请看标记为 Ours 的一行。与 RLHG 或 L2L 相比,皮肤纹理更逼真,光照保存得更好,表情 (如列 ‘b’ 中的微笑) 感觉更自然,不那么“僵硬”。
定量指标也支持了这一点。在表 1 (RealTalk 数据集) 和表 2 (ViCo 数据集) 中,所提出的方法在 FID (Fréchet Inception Distance) 上得分最高,该指标衡量生成的图像与真实图像的相似程度。数值越低越好。


注意 FID 分数与竞争对手相比大幅下降 (例如,RealTalk 上 13.38 对比 20.05) 。这证实了扩散主干正在生成质量高得多的像素。
运动质量
这不仅仅关乎漂亮的像素;动作也必须正确。研究人员使用 FD (特征距离) 等指标来衡量生成的运动与真实分布的匹配程度。
在表 1 中,该方法在表情、角度和平移方面均取得了最低的 FD 分数。这表明显式运动生成模块成功地学习了对说话者的适当反应。
消融实验: 为什么每个部分都很重要
研究人员不仅仅是把组件堆砌在一起;他们测试了每个组件的必要性。
1. 显式运动引导是必要的吗?
他们尝试在没有显式 3DMM 引导的情况下训练模型 (仅依靠扩散模型从音频中找出规律) 。
如图 3 所示,如果没有运动引导 (中间行) ,面部会崩坏,眼睛和嘴巴周围会出现严重的伪影。模型难以仅从有限的数据中学习几何结构。
2. 为什么要分离姿态和表情?
他们尝试将姿态和表情合并为一个信号,而不是使用双重控制策略。
图 4 说明,混合这些信号 (中间列) 会导致“串扰”——即头部旋转可能会奇怪地扭曲眼睛的形状。分离控制策略 (右列) 保持了面部的稳定性。
3. 隐式细化真的能增加细节吗?
这是一个微妙但至关重要的部分。
在图 5 中,中间行缺少细化模块。虽然面部结构正确,但表情比较平淡。底行 (“Ours”) 显示了改进的微观细节,如微妙的嘴型和眼睛的真实感,如绿框所示。
结论与启示
论文 “Diffusion-based Realistic Listening Head Generation via Hybrid Motion Modeling” 代表了数字人类交互向前迈出的重要一步。通过认识到单一方法是不够的,作者成功地结合了显式 3D 建模的稳定性与隐式扩散生成的创造力。
主要收获:
- 混合建模: 结合刚性的 3D 参数和灵活的潜在特征是获得控制力和真实感的一种强有力的方式。
- 控制策略: 如何将数据输入扩散模型至关重要。分离姿态 (空间) 和表情 (语义) 比混合它们能产生更好的结果。
- 分辨率飞跃: 从 \(256 \times 256\) 提升到 \(512 \times 512\),让我们离视觉上能通过图灵测试的虚拟化身更近了一步。
随着我们迈向电子游戏中更具沉浸感的虚拟助手和 NPC,这类技术确保了我们的数字对应物不仅仅是对我们说话——它们看起来也终于在倾听了。
](https://deep-paper.org/en/paper/file-1985/images/cover.png)