如果你尝试过最近的视频生成模型,比如 Sora、Stable Video Diffusion 或 MovieGen,你可能会发现一个反复出现的模式。这些模型可以毫不费力地生成令人惊叹的风景、赛博朋克风格的城市和超现实的抽象画面。但是,一旦你要求生成一段人类说话或执行复杂动作的视频,缺陷便开始显现。
面部扭曲,手部变成难以名状的恐怖形状,动作也违反物理定律。
造成这种情况的原因不一定是模型架构 (如 Diffusion Transformer) 的缺陷,而更多是一个数据问题。现有的大规模视频数据集通常分辨率低、带有水印,或者缺乏教导模型理解人类实际如何运动和外观所需的特定“以人为中心”的元数据。
OpenHumanVid 应运而生。
在复旦大学和百度公司研究人员最近发表的一篇论文中,团队介绍了一个专门为弥补这一差距而设计的大规模高质量数据集。在这篇文章中,我们将拆解这篇论文,了解他们如何策划超过 1300 万个高质量片段,他们为过滤“坏”数据构建的流程,以及能够实现逼真人类视频生成的特定训练策略。
瓶颈: 为什么“大数据”还不够
要训练一个视频生成模型,通常需要两样东西: 大量的视频和与这些视频匹配的文本描述 (字幕) 。
以前的数据集如 WebVid-10M 或 Panda-70M 提供了数百万个片段。然而,当应用于以人为中心的任务时,它们存在显著的局限性:
- 低分辨率: 许多视频上限为 360p 或充满水印。
- 笼统的字幕: 字幕可能只说“男人在走路”,这不足以让模型学习面部微表情或复杂的手势。
- 缺乏动作数据: 它们提供视频像素,但很少包含骨架姿态或深度图等结构化数据。
当模型在这些数据上训练时,它们学习到的是“平均”的人类运动,这导致了我们经常看到的“恐怖谷”效应。OpenHumanVid 的创建旨在通过专注于高质量、多样化的人类数据来解决这个问题。
介绍 OpenHumanVid
OpenHumanVid 不仅仅是随机视频的集合;它是一个来源于电影、电视剧和纪录片等高制作水准来源的精选库。这确保了在计算机处理之前,光照、运镜和美学质量就已经达到了专业级标准。
如下方 图 1 所示,该数据集规模庞大。它从原始素材开始,筛选至 1320 万个高质量片段 。 至关重要的是,它不仅提供视频-文本对;它还包括骨架序列 (用于姿态控制) 和语音音频 (用于口型同步) 。

与竞品的对比
为了理解这一贡献的规模,我们可以看看 表 1 中的比较。虽然像 WebVid-10M 这样的数据集拥有巨大的体量,但它们缺乏“人类”特异性。OpenHumanVid 结合了通用数据集的规模和通常仅在小型细分数据集 (如 UCF-101) 中才有的详细标注 (骨架、音频) 。
![表 1. 我们的数据集与以往通用及人类视频数据集的对比分析。我们通过整合反映人类特征的短文本、长文本和结构化格式来增强文本字幕。此外,我们整合了源自 DWPose [64] 的骨架序列和经 SyncNet [41] 过滤的相应语音音频,以丰富数据集的上下文人类运动数据。](/en/paper/2412.00115/images/003.jpg#center)
核心方法: 构建处理流程
对于数据科学和 AI 学生来说,这篇论文最具教育意义的部分是 处理流程 (Pipeline) 。 你不能简单地抓取 10 万小时的视频并将其输入 GPU。其中的噪声会破坏模型的收敛。
研究人员设计了一个四步流程,将原始素材提炼为黄金标准的训练数据。

第一步: 视频预处理
在质量分析之前,需要进行基本的清理:
- 编解码标准化: 所有内容转换为 H.264。
- 字幕移除: 使用一种称为 CRAFT 的方法裁剪掉字幕 (文本覆盖对于训练生成模型来说很糟糕,除非你想让模型随机生成乱码文本) 。
- 场景分割: 他们使用
SceneDetect根据剪辑或转场将视频切分为 2-20 秒的片段。
第二步: 视频质量过滤
这是见证奇迹的时刻。团队采用“优胜劣汰”的方法,使用了五个关键指标:
- 亮度 (Luminance): 太暗或太亮?删除。
- 模糊度 (Blur): 通过边缘分析检测。模糊的镜头被丢弃。
- 美学质量 (Aesthetic Quality): 使用基于 CLIP 的预测器对艺术构图进行评分。
- 运动 (Motion): 使用光流 (Optical Flow) 确保视频实际上是动态的 (静态镜头不利于视频训练) 。
- 技术质量 (Technical Quality): 针对压缩伪影和噪声的综合评分。
这种过滤的结果是显著的。 图 6 展示了保留 (白色数字) 与删除 (红色数字) 视频的示例。请注意,被删除的视频通常很暗、模糊或缺乏清晰的主体。

这种过滤的影响是可测量的。如下方 图 4 所示,OpenHumanVid (蓝色“Filtered”区域) 的质量分布始终高于 Panda-70M 等数据集 (绿色区域) ,特别是在美学质量和运动平滑度方面。

第三步: 以人为中心的标注
一旦视频质量得到保证,流程就会专注于内容。
- 字幕: 他们没有依赖单一模型。他们使用 MiniCPM 和 CogVLM 生成描述,然后使用 BLIP2 的投票策略选出最好的一个。最后, Llama 3.1 将它们重写为“结构化”、“短”和“长”格式。
- 骨架: 使用 DWPose 提取演员的线框骨架。
- 音频: 使用 SyncNet 验证视频中的嘴唇运动是否实际上与音轨匹配,从而实现高质量的口型同步训练。
第四步: 人类质量过滤器
流程的终极关卡是人类质量过滤器。仅仅拥有高质量视频是不够的;文本必须与视频中的人对齐。
- 外观对齐: 文本“穿红裙子的女人”是否真的匹配像素画面?
- 动作对齐: “挥手”是否匹配动作?
- 如果对齐分数 (通过 BLIP2 计算) 很低,该片段就会被丢弃。这确保了模型不会学习到错误的关联。
验证模型: 扩展的扩散 Transformer
为了证明数据集有效,研究人员需要训练一个模型。他们选择了一个基线 扩散 Transformer (DiT) , 类似于 Sora 和 CogVideoX 使用的架构。
然而,从头开始训练一个庞大的 DiT 计算成本很高。相反,他们利用了 低秩自适应 (LoRA) 技术。
工作原理 (简化版)
- 3D 因果 VAE: 将视频压缩到潜空间 (一种更小的数学表示) ,使处理变得可控。
- 专家 Transformer: 预测噪声的核心大脑。
- LoRA 集成: LoRA 不会重新训练网络中的每个权重 (数十亿个参数) ,而是在注意力层中注入小的、可训练的秩矩阵。这使得模型能够学习新的“OpenHumanVid”风格而不会忘记其原始训练,并且只需一小部分计算量即可完成。

实验与结果
研究人员进行了严格的实验,以确切了解其流程的哪些部分有助于改善结果。他们专注于 面部一致性 (面部是保持不变还是变形?) 和 VBench 分数 (标准视频生成基准) 等指标。
洞察 1: 帧率至关重要
最重要的发现之一是视频采样率 (FPS) 的影响。在 24 FPS 数据上训练产生的结果明显优于许多先前工作中使用的标准 8 FPS 。
为什么?人类运动——尤其是面部表情和手势——包含微妙、快速的信息。在 8 FPS 下,微笑可能看起来像是一个突然的故障。在 24 FPS 下,模型学习到了过渡过程。
表 3 证实,增加 FPS 可以同时提高面部和身体一致性得分。

洞察 2: 对齐就是一切
实验还强调了文本-视频对齐过滤器的价值。通过过滤掉文本与人类外观或动作不完全匹配的数据,生成结果得到了极大改善。
我们可以在 图 8 中看到视觉证据。
- 行 (a): 显示高采样率 (24 FPS) 防止了快速运动期间的“融化”外观。
- 行 (b): “人类外观过滤器”确保面部保持结构化和美观,而不是扭曲。
- 行 (d): “面部动作”对齐允许模型准确渲染特定的情绪,如“悲伤”或“微笑”,而基线模型无法捕捉到这些。

最终裁决
当与基线 CogVideoX 模型进行比较时,在 OpenHumanVid 上训练的版本 (Ours) 在几乎所有指标上都表现出更优越的性能。 表 5 突出了在 I2V 一致性 (保持身份稳定) 和 运动平滑度 方面的改进。

结论与启示
OpenHumanVid 代表了生成式视频的一大进步。它将焦点从模型架构之争转移到了一个可能更重要的前沿: 数据策展 。
通过将数据处理视为首要任务——实施严格的美学过滤器,确保高帧率,并强制执行严格的文本-视频对齐——研究人员证明,我们可以生成不仅分辨率高,而且连贯且富有情感表现力的人类视频。
对于进入该领域的学生和研究人员来说,结论很清楚: 模型的好坏取决于它所看到的数据。如果你想解决像人类运动这样复杂的问题,你不能依赖嘈杂的网络抓取数据。你需要结构化、高质量且语义对齐的数据集。OpenHumanVid 正是为下一代视频 AI 提供了这样的基础。
](https://deep-paper.org/en/paper/2412.00115/images/cover.png)