想象一下你想执导一部短片。你有剧本,也有主角的照片。在传统世界里,这需要摄影机、灯光团队和数天的拍摄。而在生成式 AI 的世界里,我们离仅凭一段文本提示就能实现这一目标越来越近了。
然而,如果你尝试过使用标准的文生视频模型来生成特定人物的视频,你很可能遇到过“身份问题”。你可能上传了一张自己的照片,要求生成一段你打篮球的视频。结果呢?那个打篮球的人在第一帧里看起来依稀像你,下一帧像你的表亲,到了第三帧简直就是个完全的陌生人。
在视频帧之间保持人物身份的一致性——且无需昂贵、逐个案例的微调——是当前视频生成研究的“圣杯”。
在这篇文章中,我们将深入探讨 ConsisID , 这是一篇通过提出 频率分解 (frequency decomposition) 方法来解决这一问题的突破性论文。研究人员发现,当前模型之所以在身份保持上表现挣扎,是因为它们对所有视觉信息一视同仁。通过将面部特征分离为 低频 (结构、形状) 和 高频 (细节、纹理) 信号,ConsisID 实现了最先进的、无需微调的身份保持效果。

核心问题: 为什么保持身份如此困难?
在剖析解决方案之前,我们需要了解瓶颈所在。
大多数现代视频生成模型都基于 扩散模型 (Diffusion Models) 。 虽然早期版本使用 U-Net 架构 (如 Stable Diffusion) ,但最先进的技术正在转向 扩散 Transformer (DiT) (如 Sora 或 CogVideoX) 。DiT 功能强大、可扩展性强,并且非常擅长理解时间动态。然而,在控制力方面,它们存在弱点。
ConsisID 的作者强调了使用 DiT 进行身份保持的两个关键局限性:
- 训练收敛: DiT 缺乏 U-Net 中的长跳跃连接 (skip connections) 。这使得它们要在没有强引导的情况下从头开始学习像素级预测变得更加困难。
- 频率盲区: Transformer 天生善于捕捉全局上下文 (“大局”) ,但在处理 高频信息 时却很吃力。高频信号包含了精细的细节——眼皮的特定弧度、皮肤的纹理、鼻子的确切形状——正是这些让一个人看起来像他自己。
目前的解决方案要么需要 微调 (针对特定人物训练模型数小时) ,要么使用“免微调”的适配器,但这往往导致相似度下降或无法编辑视频上下文。
解决方案: 频率分解
研究人员提出了一种名为 ConsisID 的方法。其核心理念简单而深刻: 不要一次性把整张脸喂给模型。把它拆解开来。
面部特征可以分解为两类信号:
- 低频 (全局特征) : 面部轮廓、头部比例和大致外形。
- 高频 (固有特征) : 不受姿势或光照影响的身份标记,例如特定的面部细节。
ConsisID 创建了两条独立的路径,在扩散 Transformer 最能利用这些信号的确切位置将它们注入。

如上面的架构图所示,该模型由三个主要部分组成:
- 全局人脸提取器 (Global Facial Extractor,低频)
- 局部人脸提取器 (Local Facial Extractor,高频)
- 一致性训练策略 (Consistency Training Strategy)
让我们一步步来拆解。
1. 全局人脸提取器 (低频视角)
第一个挑战是帮助 DiT 收敛并理解人脸的基本结构。
基于“网络的浅层 (早期) 依赖低频特征进行像素预测”这一发现,ConsisID 对参考人脸图像进行了独特的处理。研究人员不仅仅输入原始图像,而是提取 面部关键点 (眼睛、鼻子、下颌线的地标) ,并将它们转换为热图风格的 RGB 图像。
他们将原始参考图像与这些关键点拼接,并将它们与噪声潜变量 (latent variables) 一起输入到模型中。
为什么要用关键点? 如果你只输入一张人脸照片,它包含光照、阴影和背景噪声。通过包含关键点,模型获得了一张“结构图”。这从一开始就引导模型关注面部布局 (低频信号) 。这充当了一个强有力的锚点,确保生成的人物在整个视频中具有正确的头部形状和比例。
2. 局部人脸提取器 (高频视角)
这是实现“神似”的关键所在。结构图确保了头型正确,但不能保证那个人看起来像你。为此,模型需要高频细节。
研究人员发现,如果在开始阶段就注入高频细节,DiT 对此有些“反应迟钝”。这些细节需要被注入到 Transformer 块的深层内部。
局部人脸提取器 使用了一种巧妙的双塔方法:
- 人脸识别主干网络: 提取“固有身份”特征。这是人脸识别系统用来识别你的特征,无论你的表情或年龄如何。
- CLIP 图像编码器: 提取语义特征 (例如,“金发”、“微笑”) 。这使得视频可以通过文本进行编辑。
这些特征使用 Q-Former (一种设计用于连接不同模态的模块) 进行融合。结果是一个丰富的特征集,既包含身份的“灵魂”,又包含生成所需的语义细节。
注入策略: 至关重要的是,这些高频 token 与 DiT 的 注意力块 (Attention Blocks) 内的视觉 token 进行了融合。

上面的可视化图 (特别是 c) 展示了获胜的策略。注意高频信息 (Local) 是如何直接在注意力机制内部进行交互的,而低频信息 (Global/Points) 则是在输入层进入的。这确保了模型在生成过程中先处理结构,再描绘身份细节。
3. 一致性训练策略
光有架构是不够的;还需要教模型如何优先考虑人脸。作者引入了一套分层训练配方:
- 由粗到精训练 (Coarse-to-Fine Training) : 模型首先学习低频全局特征 (人的“形状”) ,然后逐步专注于高频纹理。
- 动态掩码损失 (Dynamic Mask Loss) : 在标准训练中,模型试图优化整个图像 (背景+人) 。在这里,研究人员专门计算面部区域的损失 (使用掩码) ,并赋予其更高的权重。这迫使模型比关注背景中的树木更“在意”把脸生成对。
- 动态跨人脸损失 (Dynamic Cross-Face Loss) : 为了防止模型只是“复制粘贴”参考图像,他们有时使用与目标视频帧不同的参考图像 (例如,同一人的另一张照片) 。这迫使模型学习身份,而不仅仅是复制像素。
实验结果
这真的有效吗?结果令人信服,特别是与现有的开源解决方案 (如 ID-Animator )相比时。
定性分析
在视觉对比中,差异非常明显。ID-Animator 经常难以生成身体或复杂的动作,局限于“说话人头 (talking head) ”风格的视频。而 ConsisID 则能生成全身动作、多样化的背景和复杂的交互,同时保持面部一致。

在上图中,请看第四列。ConsisID 成功生成了一个男人在田野里的电影感镜头,保持了他的面部结构和胡须纹理。ID-Animator 生成的面部虽然看起来有些相似,但缺乏与身体和环境的融合。
定量分析
研究人员使用了 FaceSim (人脸相似度) 和 CLIPScore (视频与文本提示的匹配程度) 等指标。

如表 1 所示,ConsisID 在身份保持方面显著优于 ID-Animator (FaceSim-Arc: 0.58 vs 0.32) 。这是一个巨大的飞跃,表明生成的面部在数学上与参考面部更加接近。
频率证明
论文中最有趣的部分之一是验证了他们的核心假设: 频率分解确实发生了。他们对生成的视频应用了傅里叶变换,以可视化频率信息。

在图 7 中,观察傅里叶频谱 (a-e) 中的“星芒”图案。
- (a) 仅高频注入: 线条锐利 (细节) ,但收敛性差。
- (b) 仅低频注入: 中心模糊 (结构) ,但缺乏锐利的外部线条 (细节) 。
- (c) ConsisID (高频 & 低频) : 既显示了强烈的中心光晕 (结构) ,也显示了锐利的辐射线 (细节) 。
这种可视化科学地证明了在 DiT 的不同阶段注入信号可以有效地重建面部的形状和纹理。
消融实验: 我们需要所有组件吗?
作者进行了“消融实验”——系统地移除模型的各个部分,看看什么会出问题。

- w/o GFE (无全局人脸提取器) : 模型无法收敛 (图 b) 。面部看起来像一团模糊的混乱,因为模型“不知道头在哪儿”。
- w/o LFE (无局部人脸提取器) : 视频生成了,但那个人看起来像个普通人,而不是特定的参考身份 (图 c) 。高频细节丢失了。
- w/o DML (无动态掩码损失) : 身份得以保留,但背景质量下降,因为模型没有正确平衡前景/背景的关注点。
结论与启示
ConsisID 代表了个性化视频生成的一大进步。通过认识到 并非所有特征都是生而平等的 , 研究人员成功地调整了强大的扩散 Transformer 架构以适应身份保持任务。
对于学生和从业者来说,关键要点是:
- DiT 的行为与 U-Net 不同: 你不能简单地将旧的 U-Net 技巧 (如简单的拼接) 应用到 Transformer 上并期望它们能处理好精细细节。
- 频率很重要: 从频率 (结构 vs. 细节) 的角度思考图像,可以进行更有针对性的架构干预。
- 免微调是未来: 我们正从 30 分钟的微调过程转向即时、零样本的个性化。
随着这项技术的成熟,我们可以期待看到从个性化游戏头像、虚拟试穿到 AI 辅助电影制作 (单个演员可以在无限生成的场景中被一致地渲染) 等各种应用。ConsisID 证明了我们不需要重新训练模型来记住一张脸;我们只需要用模型听得懂的频率与它对话。
](https://deep-paper.org/en/paper/2411.17440/images/cover.png)