想象一下,你完全可以通过笔记本电脑执导一部短片。你提供一张演员的照片、一份台词脚本和一段场景描述——然后,一个 AI 模型就能生成一段高质量的视频,将你的构想变为现实。这就是以人为中心的视频生成 (Human-Centric Video Generation, HCVG) 所承诺的前景——一个正在快速发展、重塑内容创作的领域。
传统上,即便是制作一段短视频,也是一个复杂且昂贵的过程,涉及选角、勘景、拍摄和后期制作。生成式 AI 的目标是将这一过程大众化,让创作者能通过简单的多模态输入制作视频: 用于描述场景和动作的文本,用于定义角色身份的图像,以及用于生成语音的音频。
然而,让文本、图像和音频三种模态和谐协同,是一项重大挑战。现有模型往往难以在三者之间取得平衡。例如,一个模型可能在根据照片匹配人物身份方面表现良好,但无法准确遵循文本提示;另一个模型或许能与语音文件实现完美的唇形同步,却会丢失主体原本的外观。这种权衡长期以来阻碍了进展。
来自清华大学和字节跳动的研究人员在一篇新论文中提出了 HuMo ——一个旨在解决上述问题的统一框架。HuMo 实现了跨文本、图像和音频的协同多模态控制,在所有维度同时达到了当前最优水平——这是在创建逼真、可控且多样化人物视频方面的一大突破。
图 1: HuMo 是一个多功能框架,可以基于文本、图像和音频的多种组合生成视频,适用于写实人类、风格化艺术,甚至动画。
在本文中,我们将探讨 HuMo 背后的创新,了解研究人员如何破解数据稀缺与协同控制两大核心难题,从而打造出一个真正强大的多模态视频生成体系。
平衡之术: 为何以往方法会失效
理解 HuMo 的贡献,首先要看看以往方法的局限。大多数 HCVG 方法可归为以下两类:
1. “先生成后动画”流程
例如 OmniHuman-1 先用文本到图像 (T2I) 模型生成一个包含主体和背景的“起始帧”,然后用图像到视频 (I2V) 模型根据音轨为该帧制作动画。
*缺点: * 流程僵化。一旦生成起始帧,场景即固定不变。如果你的文本提示是“一个男人在和他的狗玩”,但 T2I 模型遗忘了玩具,那么后续无法添加。最终视频质量高度依赖这一帧。
2. “主体一致性”流程
例如 Phantom 聚焦于主体一致性 (S2V) 。你提供一张参考图像和一个文本提示,模型生成的视频中主体始终与参考图像保持一致。这类方法在身份保真上表现良好,并允许用文本灵活控制场景。
*缺点: * 往往不能处理音频,因此你能生成某人行走的视频,但无法让他开口说话。
近期一些尝试将主体保真和音视频同步结合的方法仍表现欠佳。如下图所示,强调参考图像会削弱唇形同步;过度关注音频同步则会引发身份漂移或文本契合度下降。
图 2: OmniHuman-1 受制于起始帧,Phantom 无法整合音频,HunyuanCustom 难以平衡所有模态。HuMo 在文本控制、主体一致性和音视频同步方面均表现优异。
研究人员指出,这些问题源于两个根本原因:
- 数据稀缺: 鲜有大型且高质量的数据集,同时完美配对了文本描述、参考图像和同步音频三要素。
- 协同控制困难: 让单个模型同时掌握文本遵循、主体保真与音视频同步极具挑战,因为这些目标往往存在冲突。
HuMo 从零开始设计,旨在化解这两个难题。
HuMo 框架: 数据、训练与推理
HuMo 的成功基于三大核心元素:
- 创新的数据处理流程
- 渐进式训练范式
- 智能的推理策略
图 3: HuMo 建立在基于 DiT 的视频生成骨干之上,采用渐进式训练——先学习主体保真 (阶段 1) ,再添加音视频同步 (阶段 2) ——全部依托精心构建的数据集。
第一部分: 构建更优数据集
由于缺少现成的合适数据集,团队采用多阶段流程自建:
- 阶段 0 (文本) : 从海量视频库出发,利用强大的视觉-语言模型 (VLM) 生成详细描述,形成文本-视频对。
- 阶段 1 (文本 + 图像) : 从十亿级图像语料中检索跨属性参考图像 (同一主体但服装、姿势、背景各异) ,迫使模型学习核心身份特征而非简单像素拷贝,从而提升文本可编辑性。
- 阶段 2 (文本 + 图像 + 音频) : 通过唇形同步分析筛选出语音清晰且同步的视频,得到高质量的三元组: 文本、参考图像、音频。
这一流程产出了丰富且高度对齐的多模态数据,为平衡训练奠定基础。
第二部分: 渐进式多模态训练
HuMo 在 扩散变换器 (DiT) 视频骨干上引入流匹配技术:
\[ \mathcal{L}_{\mathrm{FM}}(\theta) = \mathbb{E}_{t,z_0,z_1} \| v_{\theta}(z_t,t,c) - (z_1 - z_0) \|_2^2 \]其中,\(v_{\theta}\) 学习将随机噪声 \(z_0\) 转换为目标视频潜变量 \(z_1\),并以多模态输入 \(c\) 为条件。
阶段 1: 主体保真 (文本 + 图像)
最小侵入式图像注入策略确保在引入参考身份时,不损失文本遵循能力:
- 无结构改动: 将参考图像的 VAE 潜变量拼接到视频潜变量序列的末尾,鼓励基于注意力的身份提取贯穿全帧。
- 有限微调: 冻结大部分参数,仅更新自注意力层,以保持预训练的合成与对齐能力。
阶段 2: 音视频同步 (文本 + 图像 + 音频)
在文本-图像能力稳固后,引入音频:
- 音频交叉注意力: 添加音频交叉注意力层处理语音特征,并与视频帧对齐: \[ \operatorname{Attention}\left(h_z, c_a\right) = \operatorname{softmax}\left(\frac{\mathbf{Q}_z \mathbf{K}_a^{\top}}{\sqrt{d}}\right) \mathbf{V}_a \]
- 通过预测聚焦: 不硬编码人脸区域,而是在后期 DiT 模块中用掩码预测器根据内部特征估计人脸区域,以真实掩码和二元交叉熵监督: \[ \mathcal{L}_{\text{mask}} = \frac{hw}{\sum_{i=1}^{h} \sum_{j=1}^{w} \mathbf{M}_{\text{gt}}^{(i,j)}} \cdot \mathrm{BCE}(\mathbf{M}_{\text{pred}}, \mathbf{M}_{\text{gt}}) \] 这种方式柔性引导注意力而不限制动作建模。
- 渐进式课程: 阶段 2 初期任务分配为 80% 文本-图像 和 20% 文本-图像-音频,逐步过渡到 50/50,以保留已有能力。
第三部分: 灵活与精细的推理
生成时,HuMo 采用两大策略:
1. 灵活的多模态控制 (CFG)
将无分类器引导 (classifier-free guidance) 扩展到三种模态,分别设置缩放因子 \((\lambda_{txt}, \lambda_{img}, \lambda_a)\),以实现细粒度控制。缺失条件以空标记替代。
2. 时间自适应 CFG
在不同去噪阶段,不同模态权重不同:
- 早期: 文本主导场景布局。
- 晚期: 图像与音频细化身份和唇部动作。
HuMo 会在生成中动态切换 CFG 权重,以兼顾结构合理性和细节质量。
图 4: 时间自适应 CFG 随时间调整引导优先级,平衡文本遵循与身份保真。
实验与结果
团队将 HuMo 与业界领先模型进行了主体保真与音视频同步对比。
主体保真任务 (文本 + 图像)
定性比较:
图 5: 仅 HuMo 正确生成了“走进寺庙”场景,并维持所有主体身份一致。
定量比较:
表 1: HuMo-17B 在视频质量、结构合理性、文本遵循及身份指标上均居首位。
音视频同步任务 (文本 + 图像 + 音频)
定性比较:
图 6: HuMo 添加了提示中的元素 (吉他、金色光照) ,且保持身份准确,优于基于起始帧的方法。
定量比较:
表 2: HuMo 在美学表现和文本契合度上表现最佳,并在唇形同步上保持竞争力。
各组件的重要性: 消融研究
移除关键组件会明显削弱性能。
图 7: 缺少渐进式训练或预测聚焦等组件,输出质量下降。
表 3: 缺少任何策略都会带来可量化的性能下降。
可控性展示
文本可控性:
图 8: 同一参考人物,通过不同文本提示可改变服饰与背景,同时身份保持一致。
图像可控性:
图 9: 通过文本-音频-图像输入,将其他演员面孔自然融入《权力的游戏》原场景,实现“换角”。
结论与未来展望
HuMo 是以人为中心的视频生成领域的重要飞跃。通过协同设计多模态数据管线与渐进式训练方案,它解决了长期存在的文本、图像、音频控制冲突。该框架能从多模态输入生成高质量、一致性高且可高度控制的视频,为创意生产开辟了新边界。
凭借跨属性参考图像检索、预测聚焦和时间自适应 CFG等创新,HuMo 为未来多模态生成研究提供了新蓝本。尽管必须重视伦理风险——如深度伪造与未经许可内容传播——但它在普及影视创作与叙事方面的潜力巨大。像 HuMo 这样的工具,能让世界各地的任何人成为创作者。