引言

在日新月异的生成式 AI 世界中,人类角色动画已成为研究的前沿热点。我们已经看到了一些令人印象深刻的成果: 仅凭一张单人照片,就可以在舞蹈或演讲视频的驱动下“活”过来。诸如 AnimateAnyone 和 MagicAnimate 等模型已经为此类“基于参考 (reference-based) ”的动画设立了标准。然而,这些模型都有一个显著的局限性: 它们通常受限于原始参考图像的视角。

试想一下,你有一张角色的面部特写肖像,但你想生成一段他们背对镜头走开、露出背部和腿部的视频。反之亦然,你有一张远景全身照,却想生成一段充满戏剧性的面部特写。目前的模型在处理这类任务时极其吃力。当参考视频和目标视频之间的摄像机距离或角度发生剧烈变化时,它们往往会产生幻觉细节、扭曲解剖结构,或者根本无法生成高频细节。

在最近一篇题为 “Free-viewpoint Human Animation with Pose-correlated Reference Selection” (基于姿态相关参考选择的自由视点人类动画) 的论文中,来自香港科技大学和 Adobe Research 的研究人员提出了针对这一问题的稳健解决方案。他们引入了一种超越单图范式的方法,利用多张参考图像来创建连贯的、“自由视点”的视频。

图 1. 所提出的方法即使在视点与参考输入相比发生剧烈变化时,也能生成外观一致的新视点视频。

如上图 1 所示,他们的方法可以获取受试者的参考图像 (左) ,并合成一段摄像机围绕角色平移、缩放和旋转的视频 (右) ,同时以以前的方法无法做到的方式保持身份和外观的一致性。

核心问题: 单一视角的局限

要理解这里的创新,我们需要先了解瓶颈所在。大多数最先进的人类动画模型使用一种特定的架构,即 ReferenceNet (参考网络) 加上 Denoising UNet (去噪 UNet)

  1. ReferenceNet 从单一源图像 (参考图) 中提取特征。
  2. Denoising UNet 以骨架 (姿态) 为向导,逐帧生成视频。

当驱动姿态要求提供参考图像中根本不存在的信息时,问题就出现了。如果你的参考图是侧面轮廓,它包含的关于人物另一只眼睛的数据为零。如果参考图是远景长镜头,面部特征仅由极少数像素组成。当模型试图从该长镜头生成特写时,它不得不“猜测”细节,从而导致模糊或怪异的结果。

直观的解决方案是给模型提供更多的参考图像——正面图、侧面图、特写图等。然而,简单地将多张图像扔进扩散模型会产生一个新的问题: 计算量爆炸和特征混淆。模型会被冗余或不相关的数据淹没。

解决方案: 自适应参考选择

研究人员提出了一种新的框架,可以高效地使用多张参考图像。他们方法的核心是选择性地使用信息。模型不是针对每个生成帧都处理每张参考图像的每个像素,而是智能地确定哪张参考图像的哪些部分与当前目标姿态相关。

系统架构

整个框架建立在流行的“双 UNet (Double UNet) ”骨干之上,但为了处理多输入进行了重大修改。

图 2. 框架架构。处理多张参考图像,姿态相关性引导器 (Pose Correlation Guider) 帮助选择仅最具信息量的 token 传递给去噪 UNet。

如图 2 所示,该过程的工作原理如下:

  1. 输入: 一组 \(N\) 张参考图像 \(\{\mathbf{I}_{ref}^i\}\) 和一个目标姿态 (骨架) 序列。
  2. 参考特征提取: Reference UNet 从所有参考图像中提取特征图。
  3. 姿态相关性 (Pose Correlation) : 一个专门的模块将目标姿态与参考姿态进行比较,以查看哪张参考图像最匹配当前的动作。
  4. 选择 (Selection) : 系统过滤掉冗余信息,只保留“Top-K”个最有用的特征。
  5. 生成: 这些被选中的特征引导 Denoising UNet 创建最终的视频帧。

让我们拆解一下使这种选择成为可能的数学机制。

1. 姿态相关性学习

本文的核心是 姿态相关性模块 (Pose Correlation Module, PCM) 。 它的工作是回答这个问题: “假设我想生成一个人举起左手 (目标姿态) ,我的 10 张参考图像中哪一张包含关于左手的最佳信息?”

图 3. 姿态相关性模块 (PCM) 。它计算参考姿态和目标姿态之间的注意力图。

PCM 接收参考图像的骨架和目标帧的骨架。它使用轻量级编码器将这些简笔画转换为特征向量。

公式 1

这里,\(\mathcal{E}^P\) 代表姿态编码器。它从参考姿态 (\(P_{ref}\)) 和目标姿态 (\(P_{tgt}\)) 中提取特征 \(\mathbf{F}\)。

接下来,模型使用一个包含交叉注意力层 (Cross-Attention layers) 的 Transformer 块 来寻找这些姿态之间的关系。有趣的是,作者设计的注意力机制使得 目标姿态 (Target Pose) 充当 Key (\(K\)) 和 Value (\(V\)),而 参考姿态 (Reference Pose) 充当 Query (\(Q\))。

公式 2

在这个公式中:

  • \(\mathcal{T}\) 是 Transformer 块。
  • \(f_{zero}\) 是一个零初始化卷积层 (确保训练从中性开始) 。
  • \(\mathbf{R}^{i,j}\) 是生成的 相关性图 (Correlation Map)

这个图 \(\mathbf{R}\) 是一个热力图。它高亮显示了参考图像中与目标姿态在结构上相关的特定区域。如果目标姿态涉及特定的头部倾斜,该图将点亮参考图像中具有类似倾斜的头部区域。

一旦生成了相关性图,它就被用来增强参考特征。从参考图像中提取的特征 (\(\mathbf{F}^i_l\)) 与插值后的相关性图相乘:

公式 3

这一步有效地“调高”了参考图像中有用部分的“音量”,并“静音”了不相关的部分。

2. 选择策略: 过滤噪声

现在系统拥有了基于姿态相关性增强的特征,它面临着计算瓶颈。如果我们有 10 张参考图像,我们就有 10 倍的数据需要处理。为了解决这个问题,作者实施了 自适应参考选择策略 (Adaptive Reference Selection Strategy)

首先,他们将来自所有 \(N\) 张参考图像的所有相关性值 (\(\mathbf{r}\)) 和参考特征 (\(\mathbf{f}\)) 展平并连接起来。

公式 4

然后,系统根据相关性分数对这些特征进行排序。它寻找具有最高“相关性”分数的特征。

公式 5

使用 argsort,模型识别出前 \(K_l\) 个特征的索引 (其中 \(K\) 是第 \(l\) 层允许的固定特征数量) 。本质上,模型在说: “我只有处理 1000 个特征 token 的预算;我要拿那些与我的目标姿态相关性得分最高的 1000 个。”

然后,它将这些顶级特征与其相关性分数融合:

公式 9

这组经过过滤的特征 \(\mathbf{f}_{cor}\) 是最终被发送到去噪 UNet 的内容。这使得无论有多少参考图像可用,计算成本都能保持在可控范围内,同时也确保了最关键的视觉数据得以保留。

一个巧妙的训练技巧: 随机采样

论文中一个有趣的细节是特定的训练策略。在训练期间仅依赖“Top-K”选择是有风险的,因为 argsort 操作是不可微的——梯度无法轻易流过它来更新模型权重。此外,如果模型总是选择“最好”的特征,它可能会陷入局部极小值,无法探索其他有用的上下文。

为了应对这一问题,研究人员在训练阶段将“Top-K”特征与一组 随机采样 的特征混合在一起。

公式 10

通过强制模型偶尔查看参考图像的随机部分 (通过 \(S_{uni}\),均匀采样) ,训练变得更加稳定,姿态相关性模块也能学得更稳健。

MSTed 数据集

要训练一个“自由视点”动画模型,你需要包含真实自由视点的数据。现有的数据集 (如 DyMVHumans) 通常是在带有固定环形摄像机的摄影棚中拍摄的。这些数据集提供了多个角度,但与受试者的距离通常是恒定的。它们缺乏真实电影镜头中那种动态的“推近/拉远 (zoom-in/zoom-out) ”变化。

作者介绍了 多镜头 TED 视频数据集 (Multi-Shot TED Video Dataset, MSTed) 。 他们整理了超过 15,000 个 TED 演讲视频片段。

表 1. 新的 MSTed 数据集与现有基准的比较。

为什么选择 TED 演讲?因为专业的摄像通常会用多台摄像机覆盖演讲者: 舞台全景、半身中景和面部特写。这种镜头类型和角度的自然变化,使其成为旨在处理视点转换的模型的完美训练场。MSTed 包含超过 1,000 个独特的身份,与 DyMVHumans 中的 33 个身份相比,提供了巨大的外观多样性。

实验与结果

研究人员将他们的方法与领先的单参考图模型进行了比较: MagicAnimateAnimateAnyoneChamp

定量性能

结果使用 L1 (像素误差) 、LPIPS (感知相似度) 和 FVD (Fréchet Video Distance——衡量视频运动真实感的指标) 等指标进行测量。

表 2. MSTed 数据集上的定量结果。分数越低通常越好 (PSNR 除外) 。注意当参考数量 (R) 增加到 2 时带来的提升。

在 MSTed 数据集上 (表 2) ,所提出的方法显着优于竞争对手。值得注意的是,即使仅限于单张参考图像 (R=1),所提出的模型也比其他模型表现更好。这表明训练过程本身——学习寻找姿态相关性——使得模型即使在数据有限的情况下也更加稳健。当添加第二张参考图像 (R=2) 时,FVD 分数大幅下降 (从 20.88 降至 7.044) ,表明视频生成更加流畅和逼真。

表 3. DyMVHumans 数据集上的结果。该模型可有效扩展至 10 张参考图像。

表 3 显示该模型具有良好的扩展性。在 DyMVHumans 数据集上使用 10 张参考图像 (R=10) 在几乎所有指标上都产生了最佳结果。这验证了“选择策略”的有效性——模型有效地利用了额外数据而没有产生混淆。

定性性能

数字令人印象深刻,但视觉对比才是差异显而易见的地方。

图 4. 定性比较。所提出的方法 (右二) 在保持面部身份和衣物细节方面比竞争对手好得多,后者经常模糊或扭曲特征。

在图 4 中,查看 MagicAnimateAnimateAnyone 的行。你经常可以看到伪影或身份丢失——脸部看起来可能有点大众化,或者衣服失去了纹理。 Ours (我们的方法) 列保持了清晰的面部特征和一致的服装图案,与 Ground Truth (真实值) 非常匹配。

消融研究: “相关性”真的有效吗?

为了证明他们的特定模块 (姿态相关性和参考选择) 确实发挥了作用,作者进行了消融研究。他们从基线模型开始,逐一添加功能。

表 4. 消融研究显示了添加多参考和姿态相关性模块 (H) 带来的增量改进。

如表 4 所示,添加第二张参考图 (baseline+2ref) 将 FVD 分数从 26.32 提高到 9.82。添加姿态相关性模块 (+H) 进一步将质量优化至 7.60。

研究人员还可视化了 相关性图 , 以证明模型不只是在瞎猜。

图 5 & 6. 消融研究的可视化 (左) 和学习到的相关性图 (右) 。热力图清晰地显示了模型聚焦于相关的身体部位。

在上图的右侧,你可以看到 相关性图 。 注意覆盖在参考姿态上的类似热成像的热力图。当目标姿态 (最右侧) 显示特定的手势或身体朝向时,相关性图会“点亮”参考图像中相应的肢体。这证实了 PCM 成功地识别了源数据中最具信息量的区域。

结论

论文 “Free-viewpoint Human Animation with Pose-correlated Reference Selection” 代表了生成式视频迈出的重要一步。通过认识到单张图像很少足以完全描述运动中的 3D 人体,作者转向了多参考范式。

他们方法的精妙之处不仅在于使用了更多数据,还在于选择性地使用数据。 姿态相关性模块就像一位智能导演,准确地指出哪张参考图像为当前帧提供了最佳角度,而 自适应参考选择 确保了计算预算保持在可控范围内。

结合 MSTed 数据集的发布,这项工作为更具电影感的 AI 视频生成铺平了道路,在这种生成中,摄像机角度不再是限制,而是创造性的选择。随着这项技术的成熟,我们可以期待看到能够经受住任何角度推敲的 AI 生成角色,从而有效地弥合 2D 图像生成与 3D 感知视频合成之间的差距。