学会“视而不见”：EraDiff 如何教导扩散模型正确擦除物体

简介

想象一下，你有一张完美的意大利辣香肠披萨照片，但你想移除其中一片，以露出下面的木制托盘。你启动了最先进的 AI 图像修补 (Inpainting) 工具，掩膜选区选中那片香肠，然后点击“生成”。

理想情况下，AI 应该生成木盘的纹理。但在标准扩散模型中，往往会发生令人沮丧的事情: 它把那片辣香肠变成了一片……奶酪。或者可能留下了一个扭曲的香肠“残影”。

为什么会发生这种情况？答案在于这些模型的训练方式。大多数潜在扩散模型 (Latent Diffusion Models, LDMs) 被训练用于从噪声中重建图像。当你要求它们填充被遮挡的区域时，它们的第一直觉是根据上下文找到应该在那里的东西。在披萨照片中，上下文都在高呼“这是披萨”，所以模型就生成了披萨。

这就是 擦除修补 (Erase Inpainting) 的核心问题: 连贯性 (Coherence) (让图像看起来自然) 与 消除 (Elimination) (真正移除物体) 之间的冲突。

在这篇文章中，我们将深入探讨一篇名为 “Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways” 的论文。研究人员提出了一个名为 EraDiff 的新颖框架。他们没有依赖标准的去噪路径，而是从根本上重新训练了扩散过程，使其理解“逐渐消失”的概念。

图 1. 我们提出的 EraDiff 生成的多样化擦除修补结果，其中移除前后的图像成对展示，原始图像中待擦除的区域已被标记。EraDiff 能够在各种复杂的现实场景中消除目标，同时确保生成图像的视觉连贯性。

正如上图 1 所示，EraDiff 成功移除了复杂的物体——比如咖啡馆场景中的人或盘子里的特定食材——且没有留下其他模型中常见的伪影。

背景: 标准扩散模型的困境

要理解为什么需要 EraDiff，我们首先需要看看当前方法为何在这个特定任务上表现不佳。

GAN 和补丁方法的局限性

历史上，物体移除依赖于“复制粘贴”的方法 (如 PatchMatch) ，即从周围区域借用像素。虽然效率很高，但当背景具有复杂的结构或语义含义时，这些方法就会失效。后来，生成对抗网络 (GANs) 对此进行了改进，但往往受到“模式重复”的困扰，即它们只是重复平铺纹理来填充空洞，缺乏对场景的全局理解。

扩散困境

潜在扩散模型 (LDMs) ，如 Stable Diffusion，代表了一个巨大的飞跃。它们通过逐步去除潜在表示中的噪声来生成高质量、自然的图像。

然而，图像修补的标准训练范式涉及获取一张图像，添加噪声，遮挡其中一部分，并要求模型恢复原始图像。

目标: \(Noise \rightarrow Original Image\)
现实: 如果被遮挡的区域包含一个物体 (比如一只狗) ，模型就会学习重建这只狗。

当你使用这个训练好的模型来擦除一只狗时，模型实际上是在与其自身的训练对抗。它看到一个狗形状的掩膜和噪声，其内部概率分布暗示“这里应该有一只狗”。这导致了意外物体或伪影的生成，因为模型试图“挽救”内容而不是删除它。

核心方法: EraDiff

EraDiff 的作者认为，“扩散路径 (diffusion pathway) ”——即模型从噪声到最终图像的轨迹——需要专门针对擦除任务进行重新校准。

EraDiff 框架引入了两大创新:

链式矫正优化 (Chain-Rectifying Optimization, CRO) : 一种模拟物体逐渐消除的新训练范式。
自矫正注意力 (Self-Rectifying Attention, SRA) : 一种阻止模型关注其试图擦除的伪影的机制。

图 2. 我们提出的 Erase Diffusion (称为 EraDiff) 概览。左: 动态图像合成。每张图像最初使用抠图、缩放和复制粘贴等技术进行转换。然后，混合策略合成一系列动态图像，模拟物体的逐渐消退。上: 链式矫正优化 (CRO) 。标准的采样路径容易产生伪影 (黑色虚线) 。相比之下，我们建立了一条新的擦除采样路径 (红色虚线) ，使反向采样轨迹更好地与清晰背景对齐。下: 自矫正注意力 (SRA) 。标准的自注意力机制可能会无意中放大伪影，偏离预期的扩散路径。通过修改注意力激活，我们引导模型绕过伪影区域，增强其对背景的关注，确保更准确的擦除采样路径。

如图 2 所示，该架构修改了网络内的优化 (上图) 和注意力机制 (下图) 。让我们逐一拆解。

1. 链式矫正优化 (CRO)

CRO 的目标是建立一条从物体到背景的扩散路径。

在标准扩散中，路径是通过添加高斯噪声定义的。在 CRO 中，研究人员创建了一条特定的路径，随着时间步长的增加，物体会“淡出”。

数据合成: 创造“褪色”效果

要训练一个模型进行擦除，你需要成对的图像: 一张有物体，一张没有物体 (干净的背景) 。公共数据集很少完美地提供这种配对，因此作者设计了一种数据合成策略。

他们取一张原始图像 (\(x_0^{ori}\)) ，使用抠图模型切出主要物体，对其进行变换 (缩放/旋转) ，然后将其粘贴到背景上，创建一个合成的物体图像 (\(x_0^{obj}\)) 。

图 11. 本研究中用于模型训练的数据合成过程。

图 11 展示了这个过程。通过生成这些图像对，模型有了一个明确的“之前” (有物体) 和“之后” (仅背景) 。

动态潜在状态

这是论文的数学核心。作者不仅仅是向物体图像添加噪声，而是引入了 动态图像 (Dynamic Images) (\(\tilde{x}_t^{mix}\))。

模型被输入背景和物体的混合图像，并由时间步长 \(t\) 加权。

\[ \tilde{\boldsymbol{x}}_{t}^{mix} = (1 - \lambda_t) \boldsymbol{x}_{0}^{ori} + \lambda_t \boldsymbol{x}_{0}^{obj} \]

当 \(t=0\) (清晰图像) 时，图像主要是物体。
随着 \(t\) 增加 (噪声更多) ，物体的贡献 (\(\lambda_t\)) 减少，背景的贡献增加。

这模拟了一个平滑的过渡，在这个过程中，随着扩散过程向纯噪声移动，物体逐渐变得透明并消失在背景中。然后，模型被训练以反向遍历这条特定路径: 从物体微弱/消失的状态开始，向重建背景的状态移动，而且是在不带回物体的情况下。

新的优化目标

由于底层的“真实”状态在每个时间步都在变化 (它是物体和背景之间的移动目标) ，标准的扩散损失函数 (比较预测噪声与实际噪声) 是不够的。

研究人员提出了一个新的损失函数，旨在最小化模型预测的潜在状态与前一个时间步的“真实”混合状态之间的距离。

\[ \min_{\theta} \mathbb{E}_{\gamma \sim \mathrm{Uniform}(1,\gamma_m), t} \left\| \boldsymbol{x}_{t-\gamma}^{mix} - p_{\theta}\bigl(\hat{\boldsymbol{x}}_{t-\gamma}^{mix} \mid \boldsymbol{x}_{t}^{mix}\bigr) \right\|_{2}^{2}. \]

简单来说: 如果模型试图重建物体，而它本应该让物体淡出，模型就会受到惩罚。

2. 自矫正注意力 (SRA)

即使有了新的训练范式，仍然存在风险。在采样的早期阶段 (去噪) ，掩膜的形状可能会“泄露”信息。模型可能会看到被遮挡物体的轮廓并认为: “这看起来像一个前景物体；我应该关注它。”

标准的自注意力机制计算所有像素之间的关系。如果模型关注了掩膜内的伪影，它会在随后的步骤中放大该伪影。

SRA 机制

提出的解决方案非常优雅: 强制注意力机制忽略被遮挡的区域。

作者修改了标准的注意力方程。他们取二进制掩膜 \(m\) (其中 0 是要擦除的区域) 并创建一个扩展掩膜 \(m'\)。这个扩展掩膜将任何涉及擦除区域的连接的注意力分数设置为 \(-\infty\)。

\[ \mathrm{SRA}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \mathrm{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^{\top}}{\sqrt{d}} \cdot m'\right)\mathbf{V}. \]

通过将此掩膜注入 Softmax 函数，关注擦除区域的概率降至零。模型被迫观察背景来填充空洞，而不是观察空洞内嘈杂的“幽灵”。

图 8. 有无 SRA 机制下注意力块输出的热力图可视化。

图 8 生动地展示了这一点。

Output w/o SRA (无 SRA 输出) : 热力图显示在物体本身 (羊驼或甜甜圈) 上有高激活。模型正在“注视”它应该删除的东西。
SRA-based Output (基于 SRA 的输出) : 物体上的激活消失了。模型将焦点转移到了周围的背景环境上，从而实现了干净的擦除。

实验与结果

研究人员将 EraDiff 与几个基准模型进行了比较，包括 SD2-Inpaint (标准扩散) 、LaMa (一个强大的基于 GAN 的基准) 以及像 Inst-Inpaint 这样的文本引导编辑器。

定量分析

他们使用 FID (弗雷歇起始距离) 和 LPIPS (学习感知图像块相似度) 等指标在 OpenImages V5 数据集上进行了测试。

FID: 衡量图像整体看起来的真实程度。
LPIPS: 衡量输出与真实值 (Ground Truth) 在感知上的相似程度。
Local FID: 专门检查擦除区域的真实感。

结果令人印象深刻:

表 1. OpenImages V5 数据集上各种擦除修补模型的定量评估。最佳结果以粗体显示，次优结果加下划线。

虽然标准 SD2-Inpaint 具有良好的全局 FID 分数 (意味着图像看起来“不错”) ，但它在 Local FID 上失败了。EraDiff 取得了最好的 Local FID (3.799) 和 LPIPS 分数。

但数字并不能说明全部。这个任务最关键的指标是 消除 (Elimination) : 物体真的消失了吗？为了衡量这一点，作者进行了用户研究，并使用 GPT-4V 来评估物体是否已消失。

图 4. 用户研究结果。EraDiff 表现出增强的性能，其在消除和连贯性评估中的平均得分较高均表明了这一点。

如图 4 所示，人类评估者在消除方面给 EraDiff 的评分 (8.18) 明显高于 LaMa (5.77) 和 SD2-Inpaint (3.94) 。这证实了虽然其他模型可能会制作出漂亮的图片，但 EraDiff 最擅长真正服从用户的意图去移除物体。

定性比较

让我们看看视觉证据。

图 3. OpenImages V5 数据集上的定性结果比较，包括 SD2-Inpaint、带提示引导的 SD2-Inpaint、PowerPaint、Inst-Inpaint、LaMa 和我们的方法。

在图 3 中，看第二行 (带花纹的盘子) 。

SD2-Inpaint 和 PowerPaint 难以正确延续花纹，通常会留下模糊或错误的纹理。
Inst-Inpaint 改变了全局色调。
EraDiff (最右侧) 无缝地延续了盘子的纹理。

同样，在雪景 (底行) 中，EraDiff 移除了人物，同时完美地重建了雪路，而其他模型则留下了幽灵般的伪影。

消融实验: 我们需要同时使用 CRO 和 SRA 吗？

作者进行了消融实验，以观察这两个组件是否都是必要的。

图 6. 消融实验的视觉示例，从左到右依次为: 基线、基线+CRO、基线+SRA、以及基线+CRO&SRA。

Baseline (基线) : 物体 (橙色靴子) 被部分重建。
+ CRO: 背景更好，但仍有一些伪影。
+ SRA: 纹理有所改善，但结构可能有偏差。
CRO & SRA: 靴子完全消失，取而代之的是完美的墙壁和地板。

这证明了 CRO 提供了正确的擦除“轨迹”，而 SRA 确保模型在此过程中不会被伪影分心。

泛化能力

最后，这在标准数据集之外有效吗？作者在卡通、电子商务产品和复杂的艺术风格上测试了 EraDiff。

图 13. 适销产品场景下基线模型与拟议 EraDiff 的可视化比较。

图 13 展示了电子商务应用。移除香水瓶 (第一行) 或拿着产品的手 (第二行) 是常见的商业用例。EraDiff 处理反射和阴影的能力明显优于基线模型，后者通常会留下“污迹”。

结论与启示

EraDiff 代表了我们对用于编辑的生成式 AI 思考方式的转变。研究人员没有将物体移除仅仅视为另一个“图像修补”任务，而是将其视为一个需要独特扩散路径的独特问题。

通过在数学上强制模型学习从 物体 \(\rightarrow\) 背景 的过渡 (通过链式矫正优化) ，并在架构上强制其在生成过程中忽略物体 (通过自矫正注意力) ，EraDiff 取得了最先进的结果。

对于学生和研究人员来说，这里的关键启示是 特定任务校准 (task-specific calibration) 的重要性。像 Stable Diffusion 这样的通用模型虽然强大，但根据任务的特定物理特性 (在本例中是物体的“消退”) 调整底层的扩散链，可以释放出卓越的性能。

简介#

背景: 标准扩散模型的困境#

GAN 和补丁方法的局限性#

扩散困境#

核心方法: EraDiff#

1. 链式矫正优化 (CRO)#

数据合成: 创造“褪色”效果#

动态潜在状态#

新的优化目标#

2. 自矫正注意力 (SRA)#

SRA 机制#

实验与结果#

定量分析#

定性比较#

消融实验: 我们需要同时使用 CRO 和 SRA 吗？#

泛化能力#

结论与启示#

简介