引言
我们都见过这种情况: AI 生成的人像看起来几乎是对的,但总有些地方不对劲。也许是皮肤质感太像塑料,眼睛缺乏神采,或者是骨骼结构以人类不该有的方式扭曲。尽管像 Stable Diffusion 这样的扩散模型已经取得了巨大的飞跃,但生成真正照片级逼真的人类仍然是计算机视觉中最困难的挑战之一。
核心问题往往在于这些模型是如何进行微调的。通常,研究人员使用诸如通过人类反馈的强化学习 (RLHF) 或直接偏好优化 (DPO) 等方法。这些方法通过向模型展示两张生成的图像——一张“好的”和一张“坏的”——并告诉它偏好那张好的。但这种方法存在天花板: 如果模型生成的“好”图像仍然是虚假且有缺陷的,那么模型只是在学习“在一堆糟糕的选项中选出最好的 (矮子里拔将军) ”。它并没有学会什么是真实。
这就轮到 HG-DPO (Human image Generation through Direct Preference Optimization,通过直接偏好优化进行人像生成) 出场了。在 Kakao 研究人员的一篇新论文中,提出了一种新颖的方法,从根本上改变了目标。HG-DPO 不再要求模型偏好一张稍微好一点的生成图像,而是要求模型偏好真正的真实图像 。

如图 1 所示,结果令人震惊。通过将训练过程锚定在现实上,模型学会了纠正解剖结构变形,并捕捉光照和纹理等细粒度细节。然而,告诉模型“直接模仿现实”在数学上会导致混乱,因为生成的噪声与真实像素之间存在巨大的差异。
在这篇文章中,我们将剖析 HG-DPO 如何利用巧妙的三阶段课程学习策略来解决这个问题,从而弥合人工噪声与照片级真实感之间的鸿沟。
背景: DPO 与现实鸿沟
要理解这篇论文的重要性,我们首先需要看看直接偏好优化 (DPO) 。
在扩散模型的标准 DPO 中,训练数据由三元组组成: 一个提示词 (prompt) 、一张“获胜”图像 (\(x_w\)) 和一张“失败”图像 (\(x_l\)) 。目标是调整模型,使其更有可能生成 \(x_w\),更不可能生成 \(x_l\)。
现有的方法依赖于数据集,其中获胜者和失败者都是由 AI 生成的。这对对齐 (即遵循指令) 很有效,但对真实感帮助不大。研究人员认为,要实现真正的真实感,“获胜”图像应该是一张真实照片 。
然而,简单地换入真实照片会破坏训练。真实照片的统计分布与扩散模型生成的图像截然不同。如果你试图强迫模型直接跳跃到现实,训练就会变得不稳定。这就是所谓的域差距 (Domain Gap) 。
解决方案: 三阶段课程
作者提出了一个受人类教育启发的解决方案: 课程学习 (Curriculum Learning) 。 你不会在教孩子加法之前先教微积分。同样,HG-DPO 分三个不同的阶段教授模型真实感,逐步增加难度。

如图 2 所示,该流程从生成域 (简单) 移动到中间域 (正常) ,最后移动到真实域 (困难) 。让我们分解每个阶段。
第一阶段: 简单阶段 (解剖结构与对齐)
第一阶段的目标是基本的质量控制。模型 (表示为 \(\epsilon_{base}\)) 经常会生成扭曲的肢体或忽略提示词的部分内容。
在这个阶段,研究人员坚持使用标准的 DPO 方法,但改进了数据的选择方式。他们针对单个提示词生成一个图像池,并使用 AI 评分器 (PickScore) 对它们进行排名。

如图 3 所示,“获胜者”只是一个幸运生成的图像——它具有正确的解剖结构并遵循了提示词。“失败者”是一个带有扭曲的生成图像。通过在这些配对上进行训练,模型学会了停止生成六个手指或扭曲的躯干。
图像池策略
作者不仅仅是生成两张图像,而是生成了一个包含 \(N\) 张图像的池子。
然后他们对这些图像进行评分 (\(S_{gen}\)) 以找到最好和最差的例子。
最好的图像成为获胜者 (\(x^{\mathbf{w}}\)) ,最差的成为失败者 (\(x^{\mathbf{l}}\)) 。

解决偏色问题
在简单阶段实验中出现了一个问题。模型开始产生带有奇怪色调 (例如,过饱和或色相偏移) 的图像。发生这种情况是因为模型潜空间 (latent space) 的统计分布偏离了原始基础模型。
为了解决这个问题,作者引入了统计匹配损失 (\(\mathcal{L}_{stat}\)) 。

该损失函数强制模型潜特征的通道均值 (channel-wise mean) 保持在接近基础模型统计数据的范围内。

图 15 展示了这种损失的影响。左侧 (没有 \(\mathcal{L}_{stat}\)) 的图像看起来褪色或有色偏,而右侧的图像保留了自然的光照和色彩平衡。
第二阶段: 正常阶段 (缩短差距)
一旦模型 (\(\epsilon_{\mathbb{E}}\)) 能够生成解剖结构正确的人类,就该解决真实感问题了。然而,我们仍然不能直接跳到真实照片。差距太大了。
正常阶段引入了一个中间域 (Intermediate Domain) 。 研究人员创建了合成的“获胜”图像作为桥梁。他们使用了一种称为随机微分重建 (SDRecon) 的技术。
SDRecon 如何工作
他们取一张真实照片,向其中添加特定量的噪声 (在时间上向前扩散) ,然后使用基础模型将其“重建”或去噪回图像。

图 17 可视化了这个范围。
- \(t_1\): 添加的噪声很少。重建的图像看起来几乎与真实照片完全一样。
- \(t_T\): 添加了大量噪声。重建看起来像是一个纯粹的 AI 生成图像。
对于正常阶段,他们选择这个范围中间的图像 (\(t_4\) 到 \(t_7\)) 。这些图像具有真实照片的构图和姿势 , 但具有生成图像的纹理和噪声模式 。
在这个阶段:
- 获胜者: 中间图像 (真实感 + 生成纹理) 。
- 失败者: 简单阶段的获胜者 (纯生成) 。
这教会了模型偏好逼真的姿势和构图,而不会过早地用像素级完美的真实纹理冲击它。

第三阶段: 困难阶段 (照片级真实感)
现在模型 (\(\epsilon_{\mathbb{N}}\)) 理解了解剖结构和逼真的构图。它准备好参加期末考试了: 真实图像。
在困难阶段,“获胜”图像来自 \(t_1\) 域——这些图像与真实照片非常接近,以至于人眼无法区分。
- 获胜者: 真实图像 (技术上是 \(t_1\) 重建) 。
- 失败者: 正常阶段的获胜者。

最后这一步迫使模型完善微小细节 : 皮肤的纹理、眼睛中的反射,以及让照片看起来“真实”的微妙阴影。

如图 21 所示,困难阶段消除了通常与 AI 艺术相关的“塑料感”,引入了生动的阴影和清晰度。
改进文本对齐
在 U-Net (图像生成器) 训练的同时,研究人员注意到,随着模型极度专注于视觉质量,图像与文本的对齐可能会略有下降。为了应对这一点,他们在简单阶段单独训练了文本编码器 (Text Encoder) 。

通过将困难阶段的 U-Net 与这个增强的文本编码器相结合,最终的 HG-DPO 模型实现了两全其美: 照片级真实感和高提示词依从性。
实验与结果
研究人员将 HG-DPO 与几个最先进的基线进行了比较,包括 Diffusion-DPO、Pick-a-Pic 和 AlignProp。评估使用了标准指标,如 FID (Fréchet Inception Distance,衡量真实感) 和 PickScore (衡量人类偏好) 。
定量优势

表 1 显示了明显的优势。HG-DPO 实现了最低的 FID (29.41),显着低于基础模型 (37.34) 和竞争对手如 Diffusion-DPO (112.67)。这在数学上证实了 HG-DPO 图像在统计上更接近真实图像。
定性比较
数字虽然好,但视觉检查对于生成模型至关重要。

在图 4 中,请看第二行 (自拍对比) 。许多基线在光照或面部结构上都很吃力。HG-DPO 生成了一个自然、连贯的图像,看起来像一张真正的照片。
课程重要吗? (消融实验)
你可能会问,“我们可以跳过简单或正常阶段吗?”研究人员也提出了这个问题并进行了消融实验。

图 7 证明了课程是必不可少的。
- Hard w/o Easy (无简单的困难模式) : 模型崩溃或产生伪影,因为它还没有准备好处理困难数据。
- Hard w/o Normal (无正常的困难模式) : 模型有所改进,但缺乏完整流程的精致真实感。
个性化应用
这项技术最实用的应用之一是个性化文生图 (Personalized Text-to-Image, PT2I) ——生成特定人物 (比如你自己) 不同风格的图像。HG-DPO 可以无需额外训练即插即用到现有的个性化框架 (如 InstantBooth) 中。

结论与启示
HG-DPO 论文提出了一个令人信服的论点: 如果我们希望 AI 生成看起来真实的图像,我们必须找到一种用真实图像训练它的方法。障碍一直在于模型所知道的 (噪声) 与现实的样子之间的数学差距。
通过使用课程学习方法——从解剖结构升级到构图再到纹理——HG-DPO 成功地弥合了这一差距。它本质上是在“修饰”模型,确保它不仅仅是记住好的生成结果,而是积极地向真实摄影的分布靠拢。
虽然该模型仍然偶尔存在局限性 (手指仍然是所有 AI 的克星,如下面的图 24 所示) ,但 HG-DPO 代表了跨越“恐怖谷”的重要一步。

对于生成式 AI 领域的学生和研究人员来说,这篇论文强调了数据选择策略的重要性。这不仅仅关乎架构或损失函数;更关乎你向模型展示了什么,以及你何时展示它。
](https://deep-paper.org/en/paper/2405.20216/images/cover.png)