引言

我们正处于生成式 AI 的黄金时代。随着扩散模型的出现,我们可以仅凭一句话就创造出生动的世界。但随着技术的成熟,焦点正从单纯的生成 (从零开始创造图像) 转移到编辑 (修改现有图像) 。

想象一下,你有一张客厅的照片,你想“在桌子上加一个花瓶”或者“把狗变成猫”。这听起来很简单,但要评估一个 AI 模型是否出色地完成了这项工作却极其困难。

为什么?因为图像编辑具有主观性。如果你要求模型“让她微笑”,有无数种方法可以执行这个指令。此外,一个好的编辑不仅仅在于遵循指令,还在于你不改变什么。你希望人物的身份、背景光线和周围环境保持完全一致。

图 1. 一个突显图像编辑中一致性重要性的例子。左侧结果比右侧更符合输入,更好地保留了人物特征。

图 1 所示,两张编辑后的图像在技术上都满足了“让她微笑”的提示词。然而,右边的图像改变了女子的衬衫、头发质感和背景细节。对于人类观察者来说,左边的图像显然是更好的编辑,因为它保持了一致性

直到最近,衡量这一点的唯一可靠方法还是询问人类。但人工评估速度慢、成本高且无法扩展。

在这篇文章中,我们将深入探讨 HATIE (Human-Aligned Text-guided Image Editing,人类对齐的文本引导图像编辑),这是首尔大学研究人员提出的一个新基准。他们开发了一个全面的框架,利用海量数据集和一套与人类感知惊人一致的指标,实现了图像编辑模型评估的自动化。

问题所在: 缺乏“黄金”标准

在传统的机器学习任务中,比如将图像分类为“猫”或“狗”,我们有一个明确的真实标签 (Ground Truth) 。你要么得 1 分,要么得 0 分。

文本引导的图像编辑则不同。对于“将背景改为海滩”这样的提示词,不存在唯一的“正确”像素级输出。这种缺乏黄金标准的情况迫使研究人员依赖代理指标。

通常,研究人员使用 CLIP (Contrastive Language-Image Pre-training) 来衡量图像与文本的匹配程度。然而,CLIP 仅仅衡量语义相似度;它并不在乎人物的面部是否扭曲,或者背景是否被意外重新着色。

以前创建基准的尝试在规模或范围上都受到限制。如下面的比较表所示,以前的基准通常只包含几百张图像,或者缺乏全自动的评估流程。

表 1. 与其他图像编辑基准的比较。HATIE 提供了一种全自动的大规模评估方法。

HATIE 旨在通过大幅扩展规模来解决这个问题——提供超过 18,000 张图像和近 50,000 个编辑查询——并且至关重要的是,通过自动化评估中的“人类”因素。

HATIE 框架

这项研究的核心贡献是一个模仿人类评估图像方式的整体框架。人类不只是看某一方面;他们看的是整体。对象是否正确改变了?背景是否保持不变?图像是否逼真?

研究人员设计 HATIE 就是为了复制这种多面评估。

图 2. HATIE 基准概述。它包含图像/查询数据集和评估 5 个不同方面的自动评估流程。

图 2 所示,工作流程是循环的。它始于精选的数据集和特定的编辑查询。这些被输入到编辑模型中。然后,输出结果会经过 5 个特定标准的严格分析,最后根据从实际人类反馈中学习到的权重聚合成一个总分。

让我们分解这个引擎的三个主要组成部分: 数据集、查询生成和评估指标。

1. 数据集

没有高质量的源图像,就无法评估编辑效果。研究人员利用了 GQA 数据集 , 这是一个用于视觉问答的基础数据集。GQA 的独特之处在于它不仅仅提供图像,还提供场景图 (scene graphs)

场景图是图像的结构化表示: “对象 A (人) 正拿着对象 B (杯子) 站在对象 C (墙) 前面。”

这种丰富的元数据至关重要。如果你想自动化编辑查询,你需要知道图像里实际上有什么。研究人员过滤了这个数据集以确保质量,删除了太小、被遮挡或模糊的对象。

图 3. 我们数据集中的对象类别分布。HATIE 通过提供分布均匀的数据集来进行公平评估。

由此产生的数据集非常平衡,涵盖了 76 个对象类别,从人和动物到车辆和家居用品( 图 3 )。这确保了模型不仅仅是测试其编辑“狗”的能力,而是测试其处理各种现实世界场景的能力。

2. 自动化“可行”的查询

HATIE 最聪明的地方之一是它如何生成编辑用的文本提示词 (查询) 。随机生成提示词可能会导致荒谬的结果,比如要求模型“把汽车放在餐桌上”。

研究人员将编辑任务分为两大类:

  1. 以对象为中心 (Object-Centric) : 对特定物品的修改 (添加、移除、替换、属性更改、调整大小) 。
  2. 非以对象为中心 (Non-Object-Centric) : 全局更改 (背景更改、风格更改) 。

为了确保可行性,他们使用了场景图中的统计数据。对于对象添加任务,系统会查看哪些对象通常一起出现。如果场景是客厅,系统会建议在“沙发”上添加一个“靠垫”,因为这些对象在数据中经常共现。

图 5. 查询集分布。(a) 编辑类型分布,(b) 对象类别分布。

他们还利用大语言模型 (LLM,如 Llama 3 和 GPT-4) 将这些结构化的意图转化为自然语言描述。这使得 HATIE 既支持基于描述的模型 (需要“修改前”描述和“修改后”描述) ,也支持基于指令的模型 (只接受像“把猫换成狗”这样的命令) 。

3. 评估的 5 大支柱

这是论文的核心。我们如何量化“好的编辑”?研究人员提出,一个好的编辑必须满足三个广泛的标准: 质量 (Quality)保真度 (Fidelity) (它是否完成了我的要求?) 和一致性 (Consistency) (它是否保留了其他部分?) 。

他们将其进一步细分为 5 个不同的分数。

I. 图像质量 (IQ)

首先,图像必须看起来真实。如果编辑引入了伪影或噪点,它就失败了。研究人员使用 Fréchet Inception 距离 (FID) 来衡量这一点,这是生成式 AI 中的标准指标,用于比较生成图像与真实图像的分布。

基于 FID 分数的图像质量公式。

他们对该分数进行了归一化,使 1.0 代表完美质量。

II. 对象保真度 (OF)

模型是否成功编辑了目标对象?如果提示词是“把车变成红色”,车真的变红了吗?

为了衡量这一点,HATIE 结合使用了:

  • CLIP 对齐 (CLIP Alignment) : 检查对象的视觉内容是否与文本描述匹配。
  • 检测置信度 (Detection Confidence) : 对象检测模型还能找到该对象吗? (如果你试图把车变成红色,但把它变成了一团红色的东西,检测就会失败) 。
  • 尺寸评分 (Size Scoring) : 对于调整大小的任务,对象真的变大或变小了吗?

这些子分数使用权重 (\(w\)) 组合在一起,我们稍后会讨论。

结合 CLIP、检测和尺寸分数的对象保真度公式。

III. 背景保真度 (BF)

这适用于用户明确要求更改背景的情况 (例如,“将背景更改为图书馆”) 。它使用图像背景区域的 CLIP 对齐来确保新环境与文本提示词匹配。

IV. 对象一致性 (OC)

这一点至关重要。如果你“把车变成红色”,车的形状、型号和朝向应保持完全相同。只有颜色应该改变。

HATIE 通过使用三个强大的感知指标比较原始图像和编辑后图像中的对象来衡量这一点:

  • LPIPS: 衡量感知相似度 (人类如何看待差异) 。
  • DINO: 一种视觉 Transformer,非常擅长理解语义结构。
  • L2 距离: 像素级差异。

对象一致性和背景一致性公式。

V. 背景一致性 (BC)

如果编辑集中在一个对象上,背景就不应改变。HATIE 将对象遮挡住,并使用相同的 LPIPS、DINO 和 L2 指标比较原始图像和编辑后图像的背景。

特定任务的工作流程

至关重要的是,并非所有编辑都使用所有指标。对于对象移除任务,衡量“对象一致性”是没有意义的 (对象应该消失了!) 。该框架会根据任务类型动态调整评估工作流程。

图 5. 针对每个编辑任务的具体评估流程。

图 5 可视化了这种复杂性。请注意不同的任务 (如对象添加与属性更改) 如何触发不同的检测、裁剪和测量链。

与人类感知对齐

我们有这么多数学公式,但我们怎么知道它们有效呢?研究人员并非凭空猜测这些公式的权重。他们进行了一项大规模的用户研究

他们向人类参与者展示了数千对图像,并要求他们根据特定标准判断编辑效果 (例如,“哪张图片更好地保留了背景?”) 。

然后,他们利用这些人类选择的数据来“调整”公式中的权重。他们优化权重,以便 HATIE 分数能尽可能频繁地预测人类的选择。

聚合所有子分数的总分公式。

结果如何?一套与人类判断高度相关的自动化指标。

图 8. 用户胜率与 HATIE 之间的关系。散点图显示出极强的相关性。

图 8 所示,HATIE 分数与人类用户评分之间的相关性 (r 值) 非常高,特别是在对象一致性 (0.98)对象保真度 (0.94) 方面。这验证了 HATIE 是人类评估的可靠代理。

实验结果

研究人员利用 HATIE 对几种最先进的模型进行了基准测试,包括 Prompt-to-Prompt (P2P)ImagicInstructPix2Pix

保真度与一致性的权衡

基准测试中最有趣的发现之一是进行更改 (保真度) 与保持图像不变 (一致性) 之间固有的张力。

大多数编辑模型都有一个“强度”参数 (通常表示为 \(\tau\) 或 \(s_T\)) ,用于控制编辑的激进程度。

图 6. 不同编辑强度下 Prompt-to-Prompt 的 HATIE 聚合分数。

图 6 完美地展示了 Prompt-to-Prompt 模型的这种权衡。

  • 随着 \(\tau\) 增加 (编辑变弱) , 一致性分数 (绿线) 上升——图像看起来更像原图。
  • 然而, 保真度分数 (蓝线) 下降——模型未能做出要求的更改。
  • 总分 (红线) 在中间达到峰值,确定了模型在编辑与保留之间取得平衡的“最佳点”。

可视化指标

让我们使用 InstructPix2Pix 来直观地看看这些分数代表什么。

图 7. 针对每个标准的样本图像评估指标演示。

图 7 中,看第一行 (摩托车) 。随着编辑强度 (\(s_T\)) 从 2.5 增加到 12.5:

  • 红色摩托车成功变成了奶油色。
  • 对象保真度从 0.623 上升到 0.676。

然而,看第三行 (大车上的人 -> 废墟) 。随着强度增加,背景成功变成了废墟,但人和马 (对象一致性) 开始退化和扭曲。指标精确地捕捉到了这种退化,对象一致性从 0.985 降至 0.624。

排行榜

那么,哪个模型最好呢?研究人员测试了基于描述的模型 (需要输入/输出文本) 和基于指令的模型。

表 4. 各评分标准的 HATIE 基准测试结果。

根据表 4 :

  • MagicBrush 在基于指令的模型中表现异常出色,获得了最高的总分 (0.7329) 和图像质量。
  • Prompt-to-Prompt (P2P) 是基于描述的模型中的全能型选手,很好地平衡了保真度和一致性。
  • 一些模型,如 Imagic , 擅长保持一致性 (背景一致性分数高) ,但有时难以实现强烈的更改 (保真度较低) 。

基准测试还按编辑类型细分了性能。

图 9. 每个模型针对每种编辑类型和目标对象类别的评估分数。

图 9 (在图组中标记为 Figure IX) 中的雷达图揭示了具体的优势。例如, Imagic (蓝线,左图) 在风格更改方面非常强,但在对象替换方面较弱。 MagicBrush (绿线,右图) 在基于指令的模型中几乎在所有类别中都占据主导地位。

可视化成功与失败

最后,查看定性示例有助于了解指标如何与视觉输出相对应。

图 VII. 我们的评估结果示例。

图 VII (在图组中标记为 VII) 中,我们可以看到不同模型如何处理相同的提示词。

  • 第 1 行 (运动球 -> 刀) : 模型 IP2P 创建了一把非常逼真的刀,这反映在高的对象保真度分数 (0.869) 上。
  • 第 3 行 (背景 -> 图书馆) : 注意这有多难。将水背景变成图书馆,同时保留游泳的人,在视觉上非常突兀。大多数模型都在这里挣扎,导致一致性分数较低。 InstDiff 设法最好地保留了原始内容 (变化最小) ,但未能生成令人信服的图书馆,说明了这项任务的难度。

结论

评估生成式 AI 不再仅仅是靠“感觉”。随着这些工具进入专业工作流程,我们需要严格、可量化的方法来衡量其性能。

HATIE 代表了该领域的重大飞跃。通过将大规模、高质量的数据集与反映人类感知的多面评估流程相结合,它使我们摆脱了主观猜测,走向客观基准测试。

本文的关键要点包括:

  1. 复杂性: 图像编辑不能用单一数字评分。我们必须分别衡量保真度 (变化) 和一致性 (保留) 。
  2. 权衡: 当前的模型仍然难以同时最大化保真度和一致性;提高其中一项通常需要付出另一项的代价。
  3. 人类对齐: 自动化指标只有在与人类感知一致时才有用。HATIE 的权重调整方法确保了这种一致性。

对于进入计算机视觉领域的学生和研究人员来说,HATIE 提供了一个稳健的标准。它允许在从新方法之间进行公平比较,并提供关于当前模型在何处失败的深刻见解——为下一代智能图像编辑器铺平道路。