引言

想象一下,让 AI 生成一段一个人“向前走”的动画。以今天的标准来看,这是一个已经解决的问题。现代扩散模型可以在几秒钟内生成逼真的行走循环。但是,如果你增加了复杂性会发生什么?如果你要求一个人“向前走并且挥动双手,但不要转身”呢?

这就是标准生成模型经常跌跟头的地方。人类是组合的大师。我们可以毫不费力地将简单的概念——行走、挥手、向左看——融合到一个单一、连贯的行为中。我们也能像理解肯定约束一样轻松地理解否定约束 (即做什么) 。

对于人工智能,特别是潜在扩散模型 (Latent Diffusion Models, LDMs) 来说,这种类型的组合是非常困难的。虽然 LDM 在生成高保真动作方面效率惊人,但它们往往难以将多个语义概念组合在一起,或者难以在不扭曲动作或忽略部分提示词的情况下遵守严格的否定约束。

在这篇文章中,我们将深入探讨 EnergyMoGen , 这是由悉尼科技大学和浙江大学的研究人员提出的一个新颖框架。这篇论文提出了一个迷人的视角转变: 通过基于能量的模型 (Energy-Based Models, EBMs) 的透镜来看待扩散模型。通过将动作生成视为一个能量最小化问题,EnergyMoGen 在组合复杂的人类动作方面取得了最先进的结果,能够同时处理“联合 (conjunction) ” (做 A 和 B) 和“否定 (negation) ” (做 A 但不做 B) 。

图 1 展示了使用人物形象进行的组合动作操作示例。面板 (a) 显示联合 (走且喝水) 。面板 (b) 显示否定 (向前跳但不要跳跃动作) 。面板 (c) 显示混合操作。面板 (d) 显示多概念生成。

如上图所示,其目标是对行为进行“算术”运算——将动作相加或减去特定特征——以生成丰富、复杂的动画。

核心问题: 为什么组合如此困难

要理解为什么 EnergyMoGen 是必要的,我们首先需要了解当前动作生成技术的局限性。

大多数最先进的方法依赖于潜在扩散模型 (LDMs) 。 LDM 不会逐帧生成骨架的原始坐标 (这在计算上很昂贵) ,而是将动作压缩到一个低维的“潜在空间”中。扩散过程在这个压缩空间中进行,使其快速且高效。

然而,这种压缩是有代价的。在原始骨架模型中,“挥手”对应于特定关节在 3D 空间中的移动。而在潜在空间中,“挥手”只是一组密集的数字向量。这里没有显式的空间对应关系。这使得使用传统的混合技术将挥手动作“粘贴”到行走动作上变得极其困难。

此外,标准扩散模型通常使用单个潜在向量 (或固定序列) 来表示整个动作。当你输入像“行走并喝水”这样复杂的提示词时,模型会尝试将整个复杂的句子映射到单个分布上。通常情况下,其中一个概念会占主导地位,或者生成的动作变成一个怪异、模糊的混合体,无法捕捉到这两个动作的独特细节。

背景: 基于能量的模型 (EBMs)

研究人员通过重新审视物理学和机器学习中一个历史悠久的概念来解决这个问题: 能量

在生成建模的背景下,“能量函数”定义了一个势场。想象一个有山丘和山谷的景观。

  • 低能量 (山谷) : 代表理想的、逼真的且符合我们文本描述的数据状态。
  • 高能量 (山丘) : 代表不切实际的、扭曲的或不匹配的数据。

生成的目的是让球滚下山坡——迭代地更新数据,直到它稳定在一个低能量的山谷中。在数学上,数据样本 \(X\) 的概率密度由玻尔兹曼分布定义:

公式 1: 定义基于能量的概率密度的玻尔兹曼分布公式。

这里,\(E_{\theta}(X)\) 是能量函数。能量越低,样本有效的概率 \(p_{\theta}(X)\) 就越高。

这篇论文的关键见解是: 扩散模型可以被解释为基于能量的模型。 当扩散模型从图像或动作序列中去除噪声时,它本质上是在计算数据分布的梯度 (斜率) ,以便向更高概率 (更低能量) 的方向移动。

EnergyMoGen 方法

EnergyMoGen 不仅仅是一个单一的模型;它是一个框架,结合了看待“能量”的不同方式,以实现最佳的动作效果。作者将其分解为基于能量模型的两个“谱系 (spectrums) ”,然后将它们融合在一起。

图 2. ENERGYMoGEN 概览,展示了动作 VAE、潜在扩散模型架构和组合动作生成模块。

让我们拆解图 2 中展示的架构:

  1. 动作 VAE (部分 a): 将 3D 动作压缩为潜在向量 \(z\)。
  2. 潜在扩散模型 (部分 b): 一个基于 Transformer 的网络,学习在文本条件的约束下对这些潜在向量进行去噪。
  3. 组合生成 (部分 c): 这就是魔法发生的地方。作者没有仅仅运行标准的扩散模型,而是使用两种不同的能量方法来以此操纵生成过程。

谱系 1: 潜在感知 EBM (Latent-Aware EBM)

第一种方法将去噪网络本身视为能量函数。

在标准的扩散模型中,网络 \(\epsilon_{\theta}\) 预测要去除的噪声。如果我们将扩散过程视为朗之万动力学 (Langevin Dynamics,一种基于物理的采样方法) ,网络预测的“分数 (score) ”与能量函数的梯度成正比。

公式 7: 使用能量函数梯度的基于能量模型的更新规则。

这意味着我们可以通过简单地组合来自不同概念的预测噪声 (能量梯度) 来组合动作。

联合 (AND): 如果我们想要一个既满足概念 \(c_1\) (例如,“走”) 又满足概念 \(c_2\) (例如,“挥手”) 的动作,我们可以将它们的能量梯度相加。论文使用修改后的无分类器引导 (Classifier-Free Guidance) 方程将其形式化:

公式 9: 潜在感知模型中概念联合的公式。

在这里,模型通过获取无条件噪声并加上每个单独概念 \(c_i\) 的加权引导,来预测组合概念的噪声。这将潜在向量推向一个同时满足所有概念的区域。

否定 (NOT): 如果我们想要“跳跃”但不要 “向前”呢?我们可以减去不需要的概念的能量梯度。

公式 10: 潜在感知模型中概念否定的公式。

通过相对于概念 \(c_i\) (正向基础) 减去概念 \(c_j\) (负向约束) 的梯度,模型会被引导远离“向前”的动作,同时保留“跳跃”。

潜在感知的优缺点:

  • 优点: 它生成的动作非常平滑、连贯,因为它直接在动作潜在变量上操作。
  • 缺点: 它有时会遭遇“文本错位”问题。动作在物理上可能看起来不错,但可能会错过文本中要求的特定语义细节。

谱系 2: 语义感知 EBM (Semantic-Aware EBM)

为了解决错位问题,作者引入了第二个谱系: 将交叉注意力 (Cross-Attention) 解释为一种能量操作。

在 Transformer 模型中,交叉注意力是动作特征“查看”文本特征以决定生成什么的机制。作者认为,高注意力分数表明动作与文本之间具有高兼容性 (低能量) 。

基于能量的交叉注意力: EnergyMoGen 不仅仅将文本嵌入 \(c\) 用作静态输入,而是在生成过程中更新它们。它将交叉注意力图视为定义文本与动作之间对齐程度的能量函数。

通过计算该能量相对于文本嵌入的梯度,模型可以使用自适应梯度下降 (AGD) 迭代地优化文本输入。

公式 5: 使用能量函数梯度优化文本嵌入的更新规则。

这有效地“微推”文本嵌入,使其聚焦于提示词中与当前动作状态最相关的语义部分。为了使其稳定,作者使用了一个特定的梯度公式,平衡了注意力最大化与正则化:

公式 4: 交叉注意力能量的详细梯度计算,包括注意力和正则化项。

语义感知的优缺点:

  • 优点: 惊人的文本对齐能力。它能捕捉到提示词中的细微细节。
  • 缺点: 它可能导致“动作失真”。由于它过于激进地优化语义对齐,可能会忽略物理约束,导致诸如滑步 (脚在地面上滑动) 或动作抖动等问题。

解决方案: 协同能量融合 (SEF)

我们有两种方法:

  1. 潜在感知: 动作质量好,文本依从性较弱。
  2. 语义感知: 文本依从性好,动作质量较弱。

EnergyMoGen 的精髓在于协同能量融合 (SEF) 。 作者建议将这两个能量项,连同一个标准的多概念生成项,组合成一个单一的统一更新步骤。

公式 12: 结合潜在感知、语义感知和多概念项的协同能量融合公式。

在这个方程中:

  • \(\epsilon_{\theta}^l\): 潜在感知项 (平滑度) 。
  • \(\epsilon_{\theta}^s\): 语义感知项 (文本细节) 。
  • \(\epsilon_{\theta}\): 针对组合文本提示词的标准项。
  • \(\lambda\): 平衡这三者的加权超参数。

通过调整这些权重,EnergyMoGen 实现了“两全其美”——既能在物理上看似合理,又能忠实地遵守复杂、多部分的文本提示词。

实验结果

研究人员在三个主要基准上测试了 EnergyMoGen: HumanML3DKIT-MLMTT (Multi-Track Timeline)。他们评估了模型在从标准文本到动作生成到复杂组合任务中的表现。

定量分析

首先,让我们看看在 HumanML3D 上的标准文本到动作生成结果。

表 1 比较了 EnergyMoGen 与 HumanML3D 上最先进的扩散模型。

上表显示,EnergyMoGen (特别是标有 * 的版本) 优于 MLD、MotionDiffuse 和 ReMoDiffuse 等竞争对手。

  • R-Precision (Top-1, Top-2, Top-3): 衡量生成的动作与文本匹配的准确程度。EnergyMoGen 在此得分最高,表明其语义理解能力更强。
  • FID: 衡量生成的动作分布与真实动作分布之间的距离。越低越好。EnergyMoGen 取得了 0.188 的极低 FID,击败了大多数基于骨架和基于潜在的模型。

在 KIT-ML 数据集上也看到了类似的优势:

表 2 比较了 EnergyMoGen 与 KIT-ML 测试集上的 SOTA 模型。

同样,EnergyMoGen 取得了最佳的 R-Precision 和保真度分数,证明了其在不同数据集上的稳健性。

评估组合能力 (真正的考验)

这篇论文真正的考验是 MTT 数据集 , 它旨在测试多概念生成 (例如,“一个人在走并且在挥手”) 。

表 3 展示了在 MTT 数据集上进行多概念和组合生成的定量比较。

表 3 揭示了不同组件的影响:

  • Ours (Latent only): 转换距离 (平滑度) 好,但 R-Precision 较低。
  • Ours (Semantic only): R-Precision 高,但转换距离较差 (抖动) 。
  • Ours + SEF (Synergistic Energy Fusion): 这种组合在所有方面都取得了最高分。它保持了语义模型的高准确性,同时保持了像潜在模型一样的动作平滑度。

定性可视化

数字虽然重要,但在计算机动画中,眼见为实。

图 3 比较了 EnergyMoGen 与 MLD、FineMoGen 和 ReMoDiffuse 在特定提示词下的视觉结果。

在图 3 中,提示词是 “坐在椅子上然后站起来” (sits down in a chair and then gets back up)

  • MLD & FineMoGen: 未能清晰地生成“坐下”的动作。
  • ReMoDiffuse: 未能生成“站起来”的部分。
  • EnergyMoGen: 成功执行了完整的序列——坐下,然后站起——与真实参照 (Ground Truth) 非常接近。

该模型处理逻辑操作的能力在下面的图 4 中得到了直观展示。

图 4 展示了联合、否定和混合操作的组合生成结果。

  • 面板 (b) 否定: 提示词暗示“坐下”减去“坐下” (否定) 。模型有效地去除了坐下的动作,同时保留了其余的上下文。
  • 面板 (c) 混合: “深蹲并且向右转,但不要站起来”。模型生成了深蹲和转身,但人物保持蹲姿,遵守了否定约束。

理解能量景观

为了证明他们的“能量”理论不仅仅是一个隐喻,作者可视化了潜在分布。

图 5 分析了联合和否定的潜在分布能量图。

图 5 非常引人入胜。它比较了通过组合 (加/减概念) 生成的动作与从包含所有概念的单个句子生成的动作的能量等高线图。

  • 行 (a) 联合: “走 + 挥手” (组合) 的能量图看起来几乎与“走并挥手” (单文本) 完全相同。
  • 行 (b) 否定: “向右跳”减去“跳”导致的能量图看起来像“向右走”。

红色高亮区域表明,无论模型是通过单个提示词还是通过数学方式组合不同的提示词,它实际上都在寻找相同的“低能量山谷”。

解决滑步问题

前面提到的一个具体伪影是“滑步 (foot sliding) ”——这是 AI 角色常见的问题,看起来像是在冰上滑太空步。

表 11 使用物理足部接触 (PFC) 分数评估滑步情况。

表 11 中的消融研究证实了协同能量融合背后的理论。“仅语义”模型的 PFC 分数很高 (1.05),表明存在严重的滑动。SEF 模型将其降低到 0.51,甚至低于仅潜在模型,表明融合策略有效地让动作符合物理规律。

CompML: 扩展数据

最后,作者证明了 EnergyMoGen 非常有效,甚至可以用于数据增强 。 他们创建了一个名为 CompML 的新数据集,通过使用他们的模型从组合文本提示词中合成了 5,000 个新的复杂动作。

当他们在这些合成数据上微调模型时,HumanML3D 测试集上的性能得到了进一步提升 (回顾表 1,最后一行“EnergyMoGen (CompML)”) 。这表明了一个良性循环: 更好的组合模型可以生成训练数据,从而构建出更好的模型。

结论

EnergyMoGen 代表了人类动作生成向前迈出的重要一步。通过将扩散过程形式化为能量最小化问题,作者解锁了一种灵活的方式来对人类行为进行“算术”运算。

主要的要点是:

  1. 能量的双重性: 同时利用潜在感知 (平滑度) 和语义感知 (准确性) 能量项优于单独使用任何一项。
  2. 协同融合: 混合这些能量允许对涉及 AND 和 NOT 逻辑的复杂复合提示词进行精确控制。
  3. 通用性: 该框架适用于潜在扩散模型,与基于骨架的方法相比,使其更高效且更具可扩展性。

对于计算机动画和生成式 AI 领域的学生和研究人员来说,EnergyMoGen 凸显了重新审视基本概念 (如势能) 以解决现代深度学习挑战的力量。随着我们在游戏和元宇宙中迈向更具交互性和可控性的化身,像这样允许对运动进行精确、逻辑组合的技术将变得至关重要。