简介
想象一下,你有一张完美的意大利辣香肠披萨照片,但你想移除其中一片,以露出下面的木制托盘。你启动了最先进的 AI 图像修补 (Inpainting) 工具,掩膜选区选中那片香肠,然后点击“生成”。
理想情况下,AI 应该生成木盘的纹理。但在标准扩散模型中,往往会发生令人沮丧的事情: 它把那片辣香肠变成了一片……奶酪。或者可能留下了一个扭曲的香肠“残影”。
为什么会发生这种情况?答案在于这些模型的训练方式。大多数潜在扩散模型 (Latent Diffusion Models, LDMs) 被训练用于从噪声中重建图像。当你要求它们填充被遮挡的区域时,它们的第一直觉是根据上下文找到应该在那里的东西。在披萨照片中,上下文都在高呼“这是披萨”,所以模型就生成了披萨。
这就是 擦除修补 (Erase Inpainting) 的核心问题: 连贯性 (Coherence) (让图像看起来自然) 与 消除 (Elimination) (真正移除物体) 之间的冲突。
在这篇文章中,我们将深入探讨一篇名为 “Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways” 的论文。研究人员提出了一个名为 EraDiff 的新颖框架。他们没有依赖标准的去噪路径,而是从根本上重新训练了扩散过程,使其理解“逐渐消失”的概念。

正如上图 1 所示,EraDiff 成功移除了复杂的物体——比如咖啡馆场景中的人或盘子里的特定食材——且没有留下其他模型中常见的伪影。
背景: 标准扩散模型的困境
要理解为什么需要 EraDiff,我们首先需要看看当前方法为何在这个特定任务上表现不佳。
GAN 和补丁方法的局限性
历史上,物体移除依赖于“复制粘贴”的方法 (如 PatchMatch) ,即从周围区域借用像素。虽然效率很高,但当背景具有复杂的结构或语义含义时,这些方法就会失效。后来,生成对抗网络 (GANs) 对此进行了改进,但往往受到“模式重复”的困扰,即它们只是重复平铺纹理来填充空洞,缺乏对场景的全局理解。
扩散困境
潜在扩散模型 (LDMs) ,如 Stable Diffusion,代表了一个巨大的飞跃。它们通过逐步去除潜在表示中的噪声来生成高质量、自然的图像。
然而,图像修补的标准训练范式涉及获取一张图像,添加噪声,遮挡其中一部分,并要求模型恢复原始图像。
- 目标: \(Noise \rightarrow Original Image\)
- 现实: 如果被遮挡的区域包含一个物体 (比如一只狗) ,模型就会学习重建这只狗。
当你使用这个训练好的模型来擦除一只狗时,模型实际上是在与其自身的训练对抗。它看到一个狗形状的掩膜和噪声,其内部概率分布暗示“这里应该有一只狗”。这导致了意外物体或伪影的生成,因为模型试图“挽救”内容而不是删除它。
核心方法: EraDiff
EraDiff 的作者认为,“扩散路径 (diffusion pathway) ”——即模型从噪声到最终图像的轨迹——需要专门针对擦除任务进行重新校准。
EraDiff 框架引入了两大创新:
- 链式矫正优化 (Chain-Rectifying Optimization, CRO) : 一种模拟物体逐渐消除的新训练范式。
- 自矫正注意力 (Self-Rectifying Attention, SRA) : 一种阻止模型关注其试图擦除的伪影的机制。

如图 2 所示,该架构修改了网络内的优化 (上图) 和注意力机制 (下图) 。让我们逐一拆解。
1. 链式矫正优化 (CRO)
CRO 的目标是建立一条从 物体 到 背景 的扩散路径。
在标准扩散中,路径是通过添加高斯噪声定义的。在 CRO 中,研究人员创建了一条特定的路径,随着时间步长的增加,物体会“淡出”。
数据合成: 创造“褪色”效果
要训练一个模型进行擦除,你需要成对的图像: 一张有物体,一张没有物体 (干净的背景) 。公共数据集很少完美地提供这种配对,因此作者设计了一种数据合成策略。
他们取一张原始图像 (\(x_0^{ori}\)) ,使用抠图模型切出主要物体,对其进行变换 (缩放/旋转) ,然后将其粘贴到背景上,创建一个合成的物体图像 (\(x_0^{obj}\)) 。

图 11 展示了这个过程。通过生成这些图像对,模型有了一个明确的“之前” (有物体) 和“之后” (仅背景) 。
动态潜在状态
这是论文的数学核心。作者不仅仅是向物体图像添加噪声,而是引入了 动态图像 (Dynamic Images) (\(\tilde{x}_t^{mix}\))。
模型被输入背景和物体的混合图像,并由时间步长 \(t\) 加权。
\[ \tilde{\boldsymbol{x}}_{t}^{mix} = (1 - \lambda_t) \boldsymbol{x}_{0}^{ori} + \lambda_t \boldsymbol{x}_{0}^{obj} \]- 当 \(t=0\) (清晰图像) 时,图像主要是物体。
- 随着 \(t\) 增加 (噪声更多) ,物体的贡献 (\(\lambda_t\)) 减少,背景的贡献增加。
这模拟了一个平滑的过渡,在这个过程中,随着扩散过程向纯噪声移动,物体逐渐变得透明并消失在背景中。然后,模型被训练以反向遍历这条特定路径: 从物体微弱/消失的状态开始,向重建背景的状态移动,而且是在不带回物体的情况下。
新的优化目标
由于底层的“真实”状态在每个时间步都在变化 (它是物体和背景之间的移动目标) ,标准的扩散损失函数 (比较预测噪声与实际噪声) 是不够的。
研究人员提出了一个新的损失函数,旨在最小化模型预测的潜在状态与前一个时间步的“真实”混合状态之间的距离。
\[ \min_{\theta} \mathbb{E}_{\gamma \sim \mathrm{Uniform}(1,\gamma_m), t} \left\| \boldsymbol{x}_{t-\gamma}^{mix} - p_{\theta}\bigl(\hat{\boldsymbol{x}}_{t-\gamma}^{mix} \mid \boldsymbol{x}_{t}^{mix}\bigr) \right\|_{2}^{2}. \]简单来说: 如果模型试图重建物体,而它本应该让物体淡出,模型就会受到惩罚。
2. 自矫正注意力 (SRA)
即使有了新的训练范式,仍然存在风险。在采样的早期阶段 (去噪) ,掩膜的形状可能会“泄露”信息。模型可能会看到被遮挡物体的轮廓并认为: “这看起来像一个前景物体;我应该关注它。”
标准的自注意力机制计算所有像素之间的关系。如果模型关注了掩膜内的伪影,它会在随后的步骤中放大该伪影。
SRA 机制
提出的解决方案非常优雅: 强制注意力机制忽略被遮挡的区域。
作者修改了标准的注意力方程。他们取二进制掩膜 \(m\) (其中 0 是要擦除的区域) 并创建一个扩展掩膜 \(m'\)。这个扩展掩膜将任何涉及擦除区域的连接的注意力分数设置为 \(-\infty\)。
\[ \mathrm{SRA}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \mathrm{Softmax}\left(\frac{\mathbf{Q}\mathbf{K}^{\top}}{\sqrt{d}} \cdot m'\right)\mathbf{V}. \]通过将此掩膜注入 Softmax 函数,关注擦除区域的概率降至零。模型被迫观察 背景 来填充空洞,而不是观察空洞内嘈杂的“幽灵”。

图 8 生动地展示了这一点。
- Output w/o SRA (无 SRA 输出) : 热力图显示在物体本身 (羊驼或甜甜圈) 上有高激活。模型正在“注视”它应该删除的东西。
- SRA-based Output (基于 SRA 的输出) : 物体上的激活消失了。模型将焦点转移到了周围的背景环境上,从而实现了干净的擦除。
实验与结果
研究人员将 EraDiff 与几个基准模型进行了比较,包括 SD2-Inpaint (标准扩散) 、LaMa (一个强大的基于 GAN 的基准) 以及像 Inst-Inpaint 这样的文本引导编辑器。
定量分析
他们使用 FID (弗雷歇起始距离) 和 LPIPS (学习感知图像块相似度) 等指标在 OpenImages V5 数据集上进行了测试。
- FID: 衡量图像整体看起来的真实程度。
- LPIPS: 衡量输出与真实值 (Ground Truth) 在感知上的相似程度。
- Local FID: 专门检查擦除区域的真实感。
结果令人印象深刻:

虽然标准 SD2-Inpaint 具有良好的全局 FID 分数 (意味着图像看起来“不错”) ,但它在 Local FID 上失败了。EraDiff 取得了最好的 Local FID (3.799) 和 LPIPS 分数。
但数字并不能说明全部。这个任务最关键的指标是 消除 (Elimination) : 物体真的消失了吗?为了衡量这一点,作者进行了用户研究,并使用 GPT-4V 来评估物体是否已消失。

如图 4 所示,人类评估者在消除方面给 EraDiff 的评分 (8.18) 明显高于 LaMa (5.77) 和 SD2-Inpaint (3.94) 。这证实了虽然其他模型可能会制作出漂亮的图片,但 EraDiff 最擅长真正服从用户的意图去移除物体。
定性比较
让我们看看视觉证据。

在图 3 中,看第二行 (带花纹的盘子) 。
- SD2-Inpaint 和 PowerPaint 难以正确延续花纹,通常会留下模糊或错误的纹理。
- Inst-Inpaint 改变了全局色调。
- EraDiff (最右侧) 无缝地延续了盘子的纹理。
同样,在雪景 (底行) 中,EraDiff 移除了人物,同时完美地重建了雪路,而其他模型则留下了幽灵般的伪影。
消融实验: 我们需要同时使用 CRO 和 SRA 吗?
作者进行了消融实验,以观察这两个组件是否都是必要的。

- Baseline (基线) : 物体 (橙色靴子) 被部分重建。
- + CRO: 背景更好,但仍有一些伪影。
- + SRA: 纹理有所改善,但结构可能有偏差。
- CRO & SRA: 靴子完全消失,取而代之的是完美的墙壁和地板。
这证明了 CRO 提供了正确的擦除“轨迹”,而 SRA 确保模型在此过程中不会被伪影分心。
泛化能力
最后,这在标准数据集之外有效吗?作者在卡通、电子商务产品和复杂的艺术风格上测试了 EraDiff。

图 13 展示了电子商务应用。移除香水瓶 (第一行) 或拿着产品的手 (第二行) 是常见的商业用例。EraDiff 处理反射和阴影的能力明显优于基线模型,后者通常会留下“污迹”。
结论与启示
EraDiff 代表了我们对用于编辑的生成式 AI 思考方式的转变。研究人员没有将物体移除仅仅视为另一个“图像修补”任务,而是将其视为一个需要独特扩散路径的独特问题。
通过在数学上强制模型学习从 物体 \(\rightarrow\) 背景 的过渡 (通过链式矫正优化) ,并在架构上强制其在生成过程中忽略物体 (通过自矫正注意力) ,EraDiff 取得了最先进的结果。
对于学生和研究人员来说,这里的关键启示是 特定任务校准 (task-specific calibration) 的重要性。像 Stable Diffusion 这样的通用模型虽然强大,但根据任务的特定物理特性 (在本例中是物体的“消退”) 调整底层的扩散链,可以释放出卓越的性能。
](https://deep-paper.org/en/paper/2503.07026/images/cover.png)