引言
在日新月异的生成式 AI 世界中,人类角色动画已成为研究的前沿热点。我们已经看到了一些令人印象深刻的成果: 仅凭一张单人照片,就可以在舞蹈或演讲视频的驱动下“活”过来。诸如 AnimateAnyone 和 MagicAnimate 等模型已经为此类“基于参考 (reference-based) ”的动画设立了标准。然而,这些模型都有一个显著的局限性: 它们通常受限于原始参考图像的视角。
试想一下,你有一张角色的面部特写肖像,但你想生成一段他们背对镜头走开、露出背部和腿部的视频。反之亦然,你有一张远景全身照,却想生成一段充满戏剧性的面部特写。目前的模型在处理这类任务时极其吃力。当参考视频和目标视频之间的摄像机距离或角度发生剧烈变化时,它们往往会产生幻觉细节、扭曲解剖结构,或者根本无法生成高频细节。
在最近一篇题为 “Free-viewpoint Human Animation with Pose-correlated Reference Selection” (基于姿态相关参考选择的自由视点人类动画) 的论文中,来自香港科技大学和 Adobe Research 的研究人员提出了针对这一问题的稳健解决方案。他们引入了一种超越单图范式的方法,利用多张参考图像来创建连贯的、“自由视点”的视频。

如上图 1 所示,他们的方法可以获取受试者的参考图像 (左) ,并合成一段摄像机围绕角色平移、缩放和旋转的视频 (右) ,同时以以前的方法无法做到的方式保持身份和外观的一致性。
核心问题: 单一视角的局限
要理解这里的创新,我们需要先了解瓶颈所在。大多数最先进的人类动画模型使用一种特定的架构,即 ReferenceNet (参考网络) 加上 Denoising UNet (去噪 UNet) 。
- ReferenceNet 从单一源图像 (参考图) 中提取特征。
- Denoising UNet 以骨架 (姿态) 为向导,逐帧生成视频。
当驱动姿态要求提供参考图像中根本不存在的信息时,问题就出现了。如果你的参考图是侧面轮廓,它包含的关于人物另一只眼睛的数据为零。如果参考图是远景长镜头,面部特征仅由极少数像素组成。当模型试图从该长镜头生成特写时,它不得不“猜测”细节,从而导致模糊或怪异的结果。
直观的解决方案是给模型提供更多的参考图像——正面图、侧面图、特写图等。然而,简单地将多张图像扔进扩散模型会产生一个新的问题: 计算量爆炸和特征混淆。模型会被冗余或不相关的数据淹没。
解决方案: 自适应参考选择
研究人员提出了一种新的框架,可以高效地使用多张参考图像。他们方法的核心是选择性地使用信息。模型不是针对每个生成帧都处理每张参考图像的每个像素,而是智能地确定哪张参考图像的哪些部分与当前目标姿态相关。
系统架构
整个框架建立在流行的“双 UNet (Double UNet) ”骨干之上,但为了处理多输入进行了重大修改。

如图 2 所示,该过程的工作原理如下:
- 输入: 一组 \(N\) 张参考图像 \(\{\mathbf{I}_{ref}^i\}\) 和一个目标姿态 (骨架) 序列。
- 参考特征提取: Reference UNet 从所有参考图像中提取特征图。
- 姿态相关性 (Pose Correlation) : 一个专门的模块将目标姿态与参考姿态进行比较,以查看哪张参考图像最匹配当前的动作。
- 选择 (Selection) : 系统过滤掉冗余信息,只保留“Top-K”个最有用的特征。
- 生成: 这些被选中的特征引导 Denoising UNet 创建最终的视频帧。
让我们拆解一下使这种选择成为可能的数学机制。
1. 姿态相关性学习
本文的核心是 姿态相关性模块 (Pose Correlation Module, PCM) 。 它的工作是回答这个问题: “假设我想生成一个人举起左手 (目标姿态) ,我的 10 张参考图像中哪一张包含关于左手的最佳信息?”

PCM 接收参考图像的骨架和目标帧的骨架。它使用轻量级编码器将这些简笔画转换为特征向量。

这里,\(\mathcal{E}^P\) 代表姿态编码器。它从参考姿态 (\(P_{ref}\)) 和目标姿态 (\(P_{tgt}\)) 中提取特征 \(\mathbf{F}\)。
接下来,模型使用一个包含交叉注意力层 (Cross-Attention layers) 的 Transformer 块 来寻找这些姿态之间的关系。有趣的是,作者设计的注意力机制使得 目标姿态 (Target Pose) 充当 Key (\(K\)) 和 Value (\(V\)),而 参考姿态 (Reference Pose) 充当 Query (\(Q\))。

在这个公式中:
- \(\mathcal{T}\) 是 Transformer 块。
- \(f_{zero}\) 是一个零初始化卷积层 (确保训练从中性开始) 。
- \(\mathbf{R}^{i,j}\) 是生成的 相关性图 (Correlation Map) 。
这个图 \(\mathbf{R}\) 是一个热力图。它高亮显示了参考图像中与目标姿态在结构上相关的特定区域。如果目标姿态涉及特定的头部倾斜,该图将点亮参考图像中具有类似倾斜的头部区域。
一旦生成了相关性图,它就被用来增强参考特征。从参考图像中提取的特征 (\(\mathbf{F}^i_l\)) 与插值后的相关性图相乘:

这一步有效地“调高”了参考图像中有用部分的“音量”,并“静音”了不相关的部分。
2. 选择策略: 过滤噪声
现在系统拥有了基于姿态相关性增强的特征,它面临着计算瓶颈。如果我们有 10 张参考图像,我们就有 10 倍的数据需要处理。为了解决这个问题,作者实施了 自适应参考选择策略 (Adaptive Reference Selection Strategy) 。
首先,他们将来自所有 \(N\) 张参考图像的所有相关性值 (\(\mathbf{r}\)) 和参考特征 (\(\mathbf{f}\)) 展平并连接起来。

然后,系统根据相关性分数对这些特征进行排序。它寻找具有最高“相关性”分数的特征。

使用 argsort,模型识别出前 \(K_l\) 个特征的索引 (其中 \(K\) 是第 \(l\) 层允许的固定特征数量) 。本质上,模型在说: “我只有处理 1000 个特征 token 的预算;我要拿那些与我的目标姿态相关性得分最高的 1000 个。”
然后,它将这些顶级特征与其相关性分数融合:

这组经过过滤的特征 \(\mathbf{f}_{cor}\) 是最终被发送到去噪 UNet 的内容。这使得无论有多少参考图像可用,计算成本都能保持在可控范围内,同时也确保了最关键的视觉数据得以保留。
一个巧妙的训练技巧: 随机采样
论文中一个有趣的细节是特定的训练策略。在训练期间仅依赖“Top-K”选择是有风险的,因为 argsort 操作是不可微的——梯度无法轻易流过它来更新模型权重。此外,如果模型总是选择“最好”的特征,它可能会陷入局部极小值,无法探索其他有用的上下文。
为了应对这一问题,研究人员在训练阶段将“Top-K”特征与一组 随机采样 的特征混合在一起。

通过强制模型偶尔查看参考图像的随机部分 (通过 \(S_{uni}\),均匀采样) ,训练变得更加稳定,姿态相关性模块也能学得更稳健。
MSTed 数据集
要训练一个“自由视点”动画模型,你需要包含真实自由视点的数据。现有的数据集 (如 DyMVHumans) 通常是在带有固定环形摄像机的摄影棚中拍摄的。这些数据集提供了多个角度,但与受试者的距离通常是恒定的。它们缺乏真实电影镜头中那种动态的“推近/拉远 (zoom-in/zoom-out) ”变化。
作者介绍了 多镜头 TED 视频数据集 (Multi-Shot TED Video Dataset, MSTed) 。 他们整理了超过 15,000 个 TED 演讲视频片段。

为什么选择 TED 演讲?因为专业的摄像通常会用多台摄像机覆盖演讲者: 舞台全景、半身中景和面部特写。这种镜头类型和角度的自然变化,使其成为旨在处理视点转换的模型的完美训练场。MSTed 包含超过 1,000 个独特的身份,与 DyMVHumans 中的 33 个身份相比,提供了巨大的外观多样性。
实验与结果
研究人员将他们的方法与领先的单参考图模型进行了比较: MagicAnimate、AnimateAnyone 和 Champ 。
定量性能
结果使用 L1 (像素误差) 、LPIPS (感知相似度) 和 FVD (Fréchet Video Distance——衡量视频运动真实感的指标) 等指标进行测量。

在 MSTed 数据集上 (表 2) ,所提出的方法显着优于竞争对手。值得注意的是,即使仅限于单张参考图像 (R=1),所提出的模型也比其他模型表现更好。这表明训练过程本身——学习寻找姿态相关性——使得模型即使在数据有限的情况下也更加稳健。当添加第二张参考图像 (R=2) 时,FVD 分数大幅下降 (从 20.88 降至 7.044) ,表明视频生成更加流畅和逼真。

表 3 显示该模型具有良好的扩展性。在 DyMVHumans 数据集上使用 10 张参考图像 (R=10) 在几乎所有指标上都产生了最佳结果。这验证了“选择策略”的有效性——模型有效地利用了额外数据而没有产生混淆。
定性性能
数字令人印象深刻,但视觉对比才是差异显而易见的地方。

在图 4 中,查看 MagicAnimate 和 AnimateAnyone 的行。你经常可以看到伪影或身份丢失——脸部看起来可能有点大众化,或者衣服失去了纹理。 Ours (我们的方法) 列保持了清晰的面部特征和一致的服装图案,与 Ground Truth (真实值) 非常匹配。
消融研究: “相关性”真的有效吗?
为了证明他们的特定模块 (姿态相关性和参考选择) 确实发挥了作用,作者进行了消融研究。他们从基线模型开始,逐一添加功能。

如表 4 所示,添加第二张参考图 (baseline+2ref) 将 FVD 分数从 26.32 提高到 9.82。添加姿态相关性模块 (+H) 进一步将质量优化至 7.60。
研究人员还可视化了 相关性图 , 以证明模型不只是在瞎猜。

在上图的右侧,你可以看到 相关性图 。 注意覆盖在参考姿态上的类似热成像的热力图。当目标姿态 (最右侧) 显示特定的手势或身体朝向时,相关性图会“点亮”参考图像中相应的肢体。这证实了 PCM 成功地识别了源数据中最具信息量的区域。
结论
论文 “Free-viewpoint Human Animation with Pose-correlated Reference Selection” 代表了生成式视频迈出的重要一步。通过认识到单张图像很少足以完全描述运动中的 3D 人体,作者转向了多参考范式。
他们方法的精妙之处不仅在于使用了更多数据,还在于选择性地使用数据。 姿态相关性模块就像一位智能导演,准确地指出哪张参考图像为当前帧提供了最佳角度,而 自适应参考选择 确保了计算预算保持在可控范围内。
结合 MSTed 数据集的发布,这项工作为更具电影感的 AI 视频生成铺平了道路,在这种生成中,摄像机角度不再是限制,而是创造性的选择。随着这项技术的成熟,我们可以期待看到能够经受住任何角度推敲的 AI 生成角色,从而有效地弥合 2D 图像生成与 3D 感知视频合成之间的差距。
](https://deep-paper.org/en/paper/2412.17290/images/cover.png)