图像修复 (Image inpainting) ——填补图像缺失或损坏部分的技术——随着生成式 AI 的出现经历了革命性的变化。像 Stable Diffusion 和 FLUX 这样的模型可以奇迹般地重建缺失的景色或移除不需要的物体。然而,如果你尝试过这些工具,你可能遇到过两个令人沮丧的现象: 模型在原本应该是空白的地方插入了一个随机的、奇怪的物体,或者填充区域的色调与图像其余部分略有不同,看起来像是一块“污渍”。
在这篇文章中,我们将深入探讨一篇题为 “Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency” 的近期论文。研究人员提出了 ASUKA , 这是一个旨在约束生成模型的框架。通过结合掩码自编码器 (MAE) 的稳定性与一种新颖的“协调”解码器,ASUKA 修复了困扰即使是最先进模型的幻觉和色偏问题。

如上图 1 所示,虽然标准的 Stable Diffusion (SD) 可能会留下伪影或模糊 (中间行) ,或者插入幽灵般的结构 (顶行) ,但 ASUKA (右列) 能够以高保真度将修复区域无缝融合。
当前生成式修复存在的问题
为了理解为什么需要 ASUKA,我们需要先看看现代修复技术是如何工作的,以及它在何处失效。大多数现代高分辨率修复模型依赖于 Latent Diffusion (潜在扩散) 或 Rectified Flow (整流流) 架构。
这些模型在一个压缩的“潜在空间”中工作。它们获取图像,使用变分自编码器 (VAE) 将其压缩成更小的表示 (潜在) ,在这个小空间中进行创造性生成,然后将其解码回完整图像。虽然效率很高,但这个过程引入了两个主要问题:
1. 非预期物体插入 (幻觉)
生成模型被训练得具有创造力。如果你遮挡住海滩上站着的人,模型通常会想: “我应该在这里放另一个人”,或者“也许这里应该有一只狗”。这被称为 物体幻觉 (object hallucination) 。
根本原因在于训练策略。这些模型通常使用随机掩码进行训练。有时掩码覆盖了一个真实的物体,如果模型没有重建该物体,就会受到惩罚。因此,模型学到了一种偏差: “如果有洞,就用物体填补它”。
2. 颜色不一致
这个问题比较微妙,但对真实感的破坏同样严重。当模型将潜在表示解码回像素时,生成区域与周围原始像素之间通常存在亮度、饱和度或色调的不匹配。

如图 4 所示,这些色偏发生在各种场景中——室内、室外以及不同的掩码形状。结果是填充区域看起来像补丁或贴纸,而不是照片的无缝部分。这是由于 VAE 压缩中的信息丢失以及“真实”潜在变量与“生成”潜在变量之间的差距造成的。
ASUKA 解决方案
研究人员提出了 ASUKA (Aligned Stable inpainting with UnKnown Areas prior,即具有未知区域先验的对齐稳定修复) 。这是一种后处理方法,可以改进现有的预训练模型 (如 Stable Diffusion 或 FLUX) ,而无需从头开始重新训练庞大的生成骨干网络。
该框架使用两种不同的策略来解决这两个问题:
- 上下文稳定对齐 (Context-Stable Alignment) : 使用掩码自编码器 (MAE) 来阻止幻觉。
- 颜色一致对齐 (Color-Consistent Alignment) : 使用专门的 VAE 解码器来修复色偏。

第一部分: 用 MAE 治愈幻觉
为了阻止模型凭空捏造随机物体,ASUKA 寻求另一种 AI 的“第二意见”: 掩码自编码器 (Masked Auto-Encoder, MAE) 。
与具有生成性和创造性的扩散模型不同,MAE 纯粹是为了重建而训练的。如果你向 MAE 展示一张被遮挡的图像,它会尝试根据上下文准确预测那里有什么。它不追求花哨;它追求准确。
为什么不直接使用 MAE? MAE 很稳定,但它们产生的结果模糊、分辨率低。它们缺乏扩散模型的纹理和细节。

图 3 清楚地证明了这一点。MAE 的结果 (第二个面板) 是褐色且模糊的。如果我们简单地使用 MAE 的输出作为 Stable Diffusion 的起点 (第三个面板) ,结果仍然很混乱。
对齐模块 ASUKA 的创新之处在于 对齐模块 (alignment module) 。 它利用 MAE 提供的稳定、“枯燥”的结构信息,并将其作为条件输入到生成模型中。这取代了文本提示 (在修复任务中通常为空或通用的) 。
对齐模块架起了桥梁。它告诉生成模型: “使用 MAE 建议的结构,但应用你的高质量纹理和细节。” 这有效地抑制了插入随机物体的冲动,因为 MAE 先验表示: “这里没有物体,只有背景”。
第二部分: 通过局部协调修复颜色
ASUKA 的另一半解决了“污渍”效应。研究人员发现标准的 VAE 解码器对于修复任务来说不够准确。

图 6 显示,即使只是对图像进行编码和解码 (没有任何修复) ,也会导致色偏,特别是在低频区域 (颜色的整体色调) 。
修复专用解码器 为了解决这个问题,ASUKA 重新训练了模型的解码器部分。他们将解码过程视为 局部协调 (Local Harmonization) 任务。
在标准解码中,模型只看到潜在代码。在 ASUKA 的解码中,模型还会获得 原始图像的未遮挡像素 。 它被明确教导将生成区域的颜色与周围区域的真实值 (ground truth) 相匹配。
使用增强进行训练 为了使解码器具有鲁棒性,研究人员使用了一种巧妙的训练策略,涉及 颜色和潜在增强 (Color and Latent Augmentation) 。

- 颜色增强: 他们在训练期间扰动输入的颜色。这迫使解码器依赖未遮挡区域来找出正确的色彩平衡。
- 潜在增强: 他们使用一步估计 (如下面的公式所示) 来模拟生成潜在变量的缺陷。这使得解码器准备好处理来自生成模型的稍微“偏离”的数据。

结果是一个像色彩校正艺术家一样的解码器,确保旧图像和新图像之间的接缝是不可见的。

图 8 比较了普通解码器 (b) 与 ASUKA 解码器 (d)。注意 ASUKA 解码器如何恢复正确的光照和色调,消除了普通输出中看到的暗色投射。
实验与结果
团队在标准的 Places2 数据集和他们构建的一个名为 MISATO 的新的多样化数据集 (包含室内、风景、建筑和背景图像) 上验证了 ASUKA。

视觉质量
视觉对比非常惊人。与基于 GAN 的方法 (Co-Mod, LaMa) 和标准 Stable Diffusion 变体相比,ASUKA 产生了最干净的结果。

在图 9 中,看第三行 (白色冰柜) 。标准 SD 试图在那儿放点 什么——把手、阴影、新物体。ASUKA 只是完美地补全了白色表面。
定量指标
数据支持了视觉效果。研究人员使用了像 FID (Fréchet Inception Distance) 这样的标准指标,以及他们专门为这篇论文设计的两个新指标:
- CLIP@mask (C@m): 衡量内容的幻觉程度 (越高越好/越一致) 。
- Gradient@edge (G@e): 衡量掩码边缘的颜色平滑度 (越低越好) 。

如表 1 所示, ASUKA-SD 取得了最先进的结果,在 FID 上得分最低,在人类偏好代理指标 (U-IDS) 上得分最高。
扩展到 FLUX
ASUKA 的一大特点是它与模型无关。研究人员将相同的框架应用于更新的 FLUX 模型。

表 2 证实,ASUKA 对 FLUX 的改进就像对 Stable Diffusion 的改进一样,证明了 MAE 引导和协调解码的原则具有普遍适用性。
结论
ASUKA 代表了我们解决生成式 AI 局限性的一种巧妙转变。作者没有盲目地扩大模型规模或重新训练庞大的网络,而是确定了具体的结构性弱点——幻觉和潜在色偏——并设计了针对性的模块来修复它们。
通过利用“枯燥但稳定”的掩码自编码器作为向导,并重新训练解码器以尊重局部颜色上下文,ASUKA 使我们能够利用强大的生成模型做它们最擅长的事情: 创造高保真的纹理,而不会带来不必要的意外。
对于计算机视觉领域的学生和研究人员来说,这篇论文强调了 先验 (priors) 的重要性。生成模型很强大,但它们需要指导。有时,前进的最佳方式是回顾更简单的、基于重建的架构 (如 MAE) ,并使用它们来锚定我们的现代创意引擎。
](https://deep-paper.org/en/paper/2312.04831/images/cover.png)