几十年来,拥有“哈利·波特”风格的会动的照片一直是计算机视觉领域的梦想。我们希望通过一张静态的人物照片,利用驱动视频使其动起来——让画中人跳舞、说话或行走,同时保留他们的身份特征。
尽管扩散模型的最新进展已使这成为可能,但目前最先进的方法中仍存在挥之不去的“恐怖谷”效应。你可能会看到一个人跳得完美无瑕,但他们的头发像坚硬的头盔,衣服像硬纸板一样移动,背景则停滞在时间里。人在动,但动态 (Dynamics) ——即风、重力和动量的物理规律——却缺失了。
X-Dyna 应运而生,这是由字节跳动、南加州大学 (USC) 、斯坦福大学和加州大学洛杉矶分校 (UCLA) 的研究人员提出的一个新框架。这篇论文介绍了一种不仅姿态准确,而且细节生动的方法。它仅需一张图像,就能生成飘逸的头发、涟漪般的衣褶,甚至动态背景 (如瀑布或烟花) 。
在这篇深度文章中,我们将剖析 X-Dyna 如何解决视频生成中的“雕像效应”。我们将探索扩散模型的架构、注意力机制的数学原理,以及用于分离身份与运动的巧妙工程技巧。

1. 核心问题: 身份与动态之间的权衡
要理解 X-Dyna 的必要性,我们需要先了解人物图像动画 (Human Image Animation) 的现状。
任务很简单:
- 输入: 一张人物的参考图像 (\(I_R\)) 。
- 输入: 一个驱动视频 (提供姿态和表情) 。
- 输出: 参考图像中的人执行驱动视频中动作的视频。
挑战在于“参考图像”。你需要提取人物的外观 (身份、衣服、发色) ,并将其绘制到新视频的每一帧上。
两个失败的极端
在 X-Dyna 之前,现有方法通常分为两类,每一类都有一个致命缺陷:
- CLIP/IP-Adapter 方法: 这些方法将参考图像编码为一个高层向量 (使用 CLIP 等工具) 。它们将这个关于人物的笼统“概念”注入到视频生成器中。
- *优点: * 动态效果极佳。模型可以自由构想飘逸的头发和光照变化。
- 缺点: * 丢失身份。衬衫可能会变色,或者脸看起来不一样。它捕捉到了氛围*,但没有捕捉到像素。
- ReferenceNet 方法 (现状) : 这是目前最流行的方法 (用于 Animate Anyone 等模型) 。它使用神经网络的一个副本 (并行 UNet) 从参考图像中提取详细特征,并强制视频生成器通过严格的连接来使用这些特征。
- *优点: * 完美的身份保留。
- *缺点: * “雕像”效应。因为模型被迫如此紧密地注视静态参考图像,它变得不敢改变任何东西。背景冻结了。头发冻结了。动作看起来很僵硬。

如上图所示:
- IP-Adapter (a) 创造了一个生动的火焰场景,但将人物变成了通用的影子 (身份丢失) 。
- ReferenceNet (b) 保持了人物的完美,但萤火虫和背景死气沉沉 (动态丢失) 。
- Dynamics-Adapter (c)——即 X-Dyna 方法——两全其美。
2. 背景: 扩散与控制
在剖析解决方案之前,让我们先建立技术基础。X-Dyna 建立在 Stable Diffusion (SD) 这一潜在扩散模型 (Latent Diffusion Model) 之上。
骨干网络 (The Backbone)
Stable Diffusion 的核心是一个 UNet 。 这是一个形状像字母“U”的神经网络。它接收带噪声的图像,将其压缩以捕捉高层概念 (U 的底部) ,然后再将其扩展回像素级细节,在每一步中去除噪声。
UNet 内部是 注意力块 (Attention Blocks) 。 它们是决策者。它们观察图像数据并询问: “图像的这部分与哪部分相关?”
- 自注意力 (Self-Attention): 像素观察同一帧中的其他像素 (例如,“这个蓝色像素是天空的一部分”) 。
- 交叉注意力 (Cross-Attention): 像素观察外部提示 (例如,“这个形状对应文本提示中的‘狗’这个词”) 。
控制运动
为了让图像动起来,研究人员使用了 ControlNet 。 这是一种神经网络结构,允许你将空间条件 (如骨架火柴人) 插入到预训练的扩散模型中。X-Dyna 使用一个特定的姿态 ControlNet (\(C_P\)) 来告诉模型每一帧中手臂和腿应该在哪里。
3. X-Dyna 方法
研究人员提出了一种流程,从根本上改变了参考图像被“喂”给生成过程的方式。

该架构包含三个主要创新:
- Dynamics-Adapter (动态适配器) : 一种在不扼杀运动的情况下注入外观的新方法。
- S-Face ControlNet: 处理面部表情的巧妙方法。
- Harmonic Data Fusion (和谐数据融合) : 包含自然视频的训练策略。
我们将详细分解这些内容,重点放在主要贡献 Dynamics-Adapter 上。
3.1 Dynamics-Adapter (动态适配器)
目标是将参考图像 (\(I_R\)) 的外观转移到生成的视频帧 (\(I_i\)) 上,同时允许形状发生变化 (衣服褶皱、头发飘动) 。
为什么 ReferenceNet 失败了
要理解解决方案,请看以前的最先进技术 (ReferenceNet) 是如何工作的。ReferenceNet 运行一个并行网络并直接拼接特征。它本质上告诉模型: “完全复制这些特征。” 这这就产生了一个强烈的空间约束。如果参考图像的头发是垂直垂下的,模型就很难生成向侧面飞舞的头发,因为“空间引导”说它应该是直的。
X-Dyna 解决方案: 残差跨帧注意力
X-Dyna 采取了一种更柔和的方法。它不使用单独的重型网络,而是使用一个名为 Dynamics-Adapter 的轻量级模块。
以下是架构的概念对比:

注意在 (c) 中,X-Dyna 如何使用“部分共享权重的 UNet”。它不运行完全独立的繁重进程,而是依附于主进程。
动态的数学原理
让我们看看注意力层内部的数学原理。
扩散 UNet 中的标准自注意力计算正在生成的当前帧 (\(I_i\)) 中像素之间的关系。它从输入噪声中计算查询 (Query, \(Q\)) 、键 (Key, \(K\)) 和值 (Value, \(V\)) 。

这个方程本质上是在说: “检查我当前的像素 (\(Q_i\)) 与所有其他像素 (\(K_i\)) 的相似程度,并根据加权和更新我的值 (\(V_i\)) 。”
创新点: X-Dyna 在此注入了参考图像。它计算第二个注意力图。它使用来自当前帧的查询 (\(Q'_i\)) ,但查看来自参考图像的键和值 (\(K_R, V_R\)) 。

这个方程问的是: “ 参考图像的哪些部分对应于当前帧的这个像素?”
最后,X-Dyna 结合了这两个世界。它不替换原始注意力 (那会破坏模型对物理/运动的认知) ;它将参考信息作为一个残差 (residual) (辅助者) 添加进去。

在这个方程中:
- 第一项 \((A_i W_O)\) 是标准生成 (物理、光照、构图) 。
- 第二项 \((A'_i W'_O)\) 是 Dynamics-Adapter 注入 (身份、纹理、颜色) 。
- \(+\) 号至关重要。这意味着模型在“物理上合理的内容”与“人物外观”之间进行平衡。
通过将输出投影器 (\(W'_O\)) 的权重初始化为零,训练从标准的扩散模型行为开始,并慢慢“淡入”参考图像的影响。这防止了通常会冻结动态的冲击。
3.2 隐式局部面部表情控制 (\(C_F\))
让身体动起来是一回事;让脸部有表情是另一回事。以前的方法使用简单的面部关键点 (眼睛和嘴巴上的点) 。
- 问题: 关键点是稀疏的。它们无法捕捉微笑或皱眉的细微之处。
- 问题: 如果你直接输入驱动视频中的人物图像,模型可能会将他们的身份 (脸型) 复制到你的参考角色上。
X-Dyna 引入了 S-Face ControlNet 。
“跨身份”技巧
为了教网络只看表情而忽略身份,研究人员使用了一种巧妙的训练策略:
- 他们获取驱动视频帧。
- 他们使用现有的换脸网络将驱动者的脸换成一个随机身份,但保留表情。
- 他们将这张“拼接”的人脸输入 ControlNet。
因为 ControlNet 中的脸看起来不像参考图像中的人,X-Dyna 模型无法依赖它来获取身份信息。它被迫仅从控制信号中学习运动 (表情) ,同时严格从参考图像中提取身份。这导致了“身份解耦”的控制。
3.3 和谐数据融合训练 (Harmonic Data Fusion Training)
神经网络的好坏取决于它的数据。如果你只在白墙背景的摄影棚里训练人们跳舞的视频,模型永远学不会风是如何吹动树木的,或者水是如何飞溅的。
X-Dyna 采用了 和谐数据融合 。 他们同时在以下数据上训练模型:
- 人类运动视频: (跳舞、行走) 。
- 自然场景视频: (瀑布、云层延时摄影、烟花) 。
当在自然视频上训练时,他们只需将骨架/姿态输入留空。这教会了骨干网络 (UNet) 和 Dynamics-Adapter 如何在不依赖人类运动的情况下构想逼真的环境物理效果。
4. 实验与结果
这种复杂的架构真的有效吗?研究人员评估了 X-Dyna,并与 MagicAnimate、Animate-Anyone、MagicPose 和 MimicMotion 等顶尖竞争对手进行了比较。
4.1 定量分析: DTFVD 指标
衡量视频“有多好”很难。研究人员使用了一种称为 DTFVD (动态纹理弗雷歇视频距离) 的指标。
- 数值越低越好。
- 它专门衡量动态纹理 (水、火、头发) 的质量。

如表 1 所示,X-Dyna 实现了 1.518 的 DTFVD 分数 , 显着低于 (优于) MimicMotion (3.590) 或 MagicAnimate (2.601)。这在数值上证明了 X-Dyna 视频中的纹理更逼真且时间一致性更好。
他们还测量了标准图像质量指标 (PSNR, SSIM) 和身份保留度 (Face-Cos) 。

在表 2 中,我们看到 X-Dyna 拥有最高的 Face-Cos (人脸余弦相似度) 分数 0.497 , 这意味着它比任何其他方法都能更好地保留人物身份,同时还具有更好的动态效果。
4.2 定性对比
数据固然重要,但在图形学中,视觉结果最为关键。
动态场景中的人物
下图比较了 X-Dyna 与 MagicPose 和 MimicMotion。请看底行 (X-Dyna) 。手中产生的粒子/火花具有流畅的连续性。相比之下,其他方法通常会模糊这些细节或使其保持静止。

面部和姿态控制
这里我们看到了 S-Face ControlNet 的结果。在“Ours”一列中,面部表情与参考相匹配,但自然地适应了姿态。其他方法 (如 Animate Anyone) 在转头时通常会导致面部模糊,或产生变形 (MagicPose) 。

4.3 用户研究
研究人员不仅信任算法;他们还请 100 名人类参与者根据三个标准对视频进行评分: 前景动态、背景动态和身份。

结果压倒性地支持 X-Dyna,特别是在 背景动态 (BG-Dyn) 方面,其得分为 4.26/5 , 而第二名仅为 2.78。这一巨大差距证实了和谐数据融合训练的成功。
5. 结论与未来影响
X-Dyna 代表了生成式视频迈出的重要一步。通过识别特定的架构瓶颈——ReferenceNet 的“严师”性质——并将其替换为 Dynamics-Adapter 的“良师益友”模式,研究人员解锁了新的真实感水平。
主要收获:
- 关注点分离: X-Dyna 成功分离了什么 (外观/参考) 与如何 (动态/运动) 。
- 架构至关重要: 简单地添加更多层 (如 ReferenceNet) 并不总是更好。Dynamics-Adapter 的并行残差设计让底层的扩散物理规律得以展现。
- 数据多样性: 在非人类数据 (自然场景) 上进行训练改善了人类视频的动画效果,证明了通用的动态理解有助于特定任务。
虽然该模型仍面临挑战——极端的摄像机缩放或复杂的手部姿态仍然很难处理——但这项工作为高度逼真的虚拟化身、电影制作工具以及沉浸式数字体验铺平了道路,在这些体验中,风吹水流将与现实世界别无二致。
本博文解读了 Xie 等人的论文 “X-Dyna: Expressive Dynamic Human Image Animation” 。
](https://deep-paper.org/en/paper/2501.10021/images/cover.png)