告别模糊：ASUKA 如何修复生成式修复中的幻觉与色偏

图像修复 (Image inpainting) ——填补图像缺失或损坏部分的技术——随着生成式 AI 的出现经历了革命性的变化。像 Stable Diffusion 和 FLUX 这样的模型可以奇迹般地重建缺失的景色或移除不需要的物体。然而，如果你尝试过这些工具，你可能遇到过两个令人沮丧的现象: 模型在原本应该是空白的地方插入了一个随机的、奇怪的物体，或者填充区域的色调与图像其余部分略有不同，看起来像是一块“污渍”。

在这篇文章中，我们将深入探讨一篇题为 “Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency” 的近期论文。研究人员提出了 ASUKA , 这是一个旨在约束生成模型的框架。通过结合掩码自编码器 (MAE) 的稳定性与一种新颖的“协调”解码器，ASUKA 修复了困扰即使是最先进模型的幻觉和色偏问题。

ASUKA 与标准模型的比较，展示了改进的物体移除和颜色一致性。

如上图 1 所示，虽然标准的 Stable Diffusion (SD) 可能会留下伪影或模糊 (中间行) ，或者插入幽灵般的结构 (顶行) ，但 ASUKA (右列) 能够以高保真度将修复区域无缝融合。

当前生成式修复存在的问题

为了理解为什么需要 ASUKA，我们需要先看看现代修复技术是如何工作的，以及它在何处失效。大多数现代高分辨率修复模型依赖于 Latent Diffusion (潜在扩散) 或 Rectified Flow (整流流) 架构。

这些模型在一个压缩的“潜在空间”中工作。它们获取图像，使用变分自编码器 (VAE) 将其压缩成更小的表示 (潜在) ，在这个小空间中进行创造性生成，然后将其解码回完整图像。虽然效率很高，但这个过程引入了两个主要问题:

1. 非预期物体插入 (幻觉)

生成模型被训练得具有创造力。如果你遮挡住海滩上站着的人，模型通常会想: “我应该在这里放另一个人”，或者“也许这里应该有一只狗”。这被称为 物体幻觉 (object hallucination) 。

根本原因在于训练策略。这些模型通常使用随机掩码进行训练。有时掩码覆盖了一个真实的物体，如果模型没有重建该物体，就会受到惩罚。因此，模型学到了一种偏差: “如果有洞，就用物体填补它”。

2. 颜色不一致

这个问题比较微妙，但对真实感的破坏同样严重。当模型将潜在表示解码回像素时，生成区域与周围原始像素之间通常存在亮度、饱和度或色调的不匹配。

标准修复任务中色偏和伪影的示例。

如图 4 所示，这些色偏发生在各种场景中——室内、室外以及不同的掩码形状。结果是填充区域看起来像补丁或贴纸，而不是照片的无缝部分。这是由于 VAE 压缩中的信息丢失以及“真实”潜在变量与“生成”潜在变量之间的差距造成的。

ASUKA 解决方案

研究人员提出了 ASUKA (Aligned Stable inpainting with UnKnown Areas prior，即具有未知区域先验的对齐稳定修复) 。这是一种后处理方法，可以改进现有的预训练模型 (如 Stable Diffusion 或 FLUX) ，而无需从头开始重新训练庞大的生成骨干网络。

该框架使用两种不同的策略来解决这两个问题:

上下文稳定对齐 (Context-Stable Alignment) : 使用掩码自编码器 (MAE) 来阻止幻觉。
颜色一致对齐 (Color-Consistent Alignment) : 使用专门的 VAE 解码器来修复色偏。

ASUKA 框架的架构，展示了并行的 MAE 路径和专用解码器。

第一部分: 用 MAE 治愈幻觉

为了阻止模型凭空捏造随机物体，ASUKA 寻求另一种 AI 的“第二意见”: 掩码自编码器 (Masked Auto-Encoder, MAE) 。

与具有生成性和创造性的扩散模型不同，MAE 纯粹是为了重建而训练的。如果你向 MAE 展示一张被遮挡的图像，它会尝试根据上下文准确预测那里有什么。它不追求花哨；它追求准确。

为什么不直接使用 MAE? MAE 很稳定，但它们产生的结果模糊、分辨率低。它们缺乏扩散模型的纹理和细节。

比较显示为什么单独使用 MAE 或简单的初始化是不够的。

图 3 清楚地证明了这一点。MAE 的结果 (第二个面板) 是褐色且模糊的。如果我们简单地使用 MAE 的输出作为 Stable Diffusion 的起点 (第三个面板) ，结果仍然很混乱。

对齐模块 ASUKA 的创新之处在于 对齐模块 (alignment module) 。它利用 MAE 提供的稳定、“枯燥”的结构信息，并将其作为条件输入到生成模型中。这取代了文本提示 (在修复任务中通常为空或通用的) 。

对齐模块架起了桥梁。它告诉生成模型: “使用 MAE 建议的结构，但应用你的高质量纹理和细节。” 这有效地抑制了插入随机物体的冲动，因为 MAE 先验表示: “这里没有物体，只有背景”。

第二部分: 通过局部协调修复颜色

ASUKA 的另一半解决了“污渍”效应。研究人员发现标准的 VAE 解码器对于修复任务来说不够准确。

VAE 重建误差分析，显示低频区域的色偏。

图 6 显示，即使只是对图像进行编码和解码 (没有任何修复) ，也会导致色偏，特别是在低频区域 (颜色的整体色调) 。

修复专用解码器 为了解决这个问题，ASUKA 重新训练了模型的解码器部分。他们将解码过程视为 局部协调 (Local Harmonization) 任务。

在标准解码中，模型只看到潜在代码。在 ASUKA 的解码中，模型还会获得 原始图像的未遮挡像素 。它被明确教导将生成区域的颜色与周围区域的真实值 (ground truth) 相匹配。

使用增强进行训练 为了使解码器具有鲁棒性，研究人员使用了一种巧妙的训练策略，涉及 颜色和潜在增强 (Color and Latent Augmentation) 。

使用颜色和潜在增强的解码器训练过程。

颜色增强: 他们在训练期间扰动输入的颜色。这迫使解码器依赖未遮挡区域来找出正确的色彩平衡。
潜在增强: 他们使用一步估计 (如下面的公式所示) 来模拟生成潜在变量的缺陷。这使得解码器准备好处理来自生成模型的稍微“偏离”的数据。

潜在增强估计的公式。

结果是一个像色彩校正艺术家一样的解码器，确保旧图像和新图像之间的接缝是不可见的。

解码器比较，展示 ASUKA 卓越的色彩匹配能力。

图 8 比较了普通解码器 (b) 与 ASUKA 解码器 (d)。注意 ASUKA 解码器如何恢复正确的光照和色调，消除了普通输出中看到的暗色投射。

实验与结果

团队在标准的 Places2 数据集和他们构建的一个名为 MISATO 的新的多样化数据集 (包含室内、风景、建筑和背景图像) 上验证了 ASUKA。

MISATO 数据集中包含的领域视觉分类。

视觉质量

视觉对比非常惊人。与基于 GAN 的方法 (Co-Mod, LaMa) 和标准 Stable Diffusion 变体相比，ASUKA 产生了最干净的结果。

定性比较网格，显示 ASUKA 优于 GAN 和标准 SD。

在图 9 中，看第三行 (白色冰柜) 。标准 SD 试图在那儿放点什么——把手、阴影、新物体。ASUKA 只是完美地补全了白色表面。

定量指标

数据支持了视觉效果。研究人员使用了像 FID (Fréchet Inception Distance) 这样的标准指标，以及他们专门为这篇论文设计的两个新指标:

CLIP@mask (C@m): 衡量内容的幻觉程度 (越高越好/越一致) 。
Gradient@edge (G@e): 衡量掩码边缘的颜色平滑度 (越低越好) 。

MISATO 和 Places2 数据集上的定量比较表。

如表 1 所示, ASUKA-SD 取得了最先进的结果，在 FID 上得分最低，在人类偏好代理指标 (U-IDS) 上得分最高。

扩展到 FLUX

ASUKA 的一大特点是它与模型无关。研究人员将相同的框架应用于更新的 FLUX 模型。

展示 ASUKA 应用于 FLUX 模型时性能提升的表格。

表 2 证实，ASUKA 对 FLUX 的改进就像对 Stable Diffusion 的改进一样，证明了 MAE 引导和协调解码的原则具有普遍适用性。

结论

ASUKA 代表了我们解决生成式 AI 局限性的一种巧妙转变。作者没有盲目地扩大模型规模或重新训练庞大的网络，而是确定了具体的结构性弱点——幻觉和潜在色偏——并设计了针对性的模块来修复它们。

通过利用“枯燥但稳定”的掩码自编码器作为向导，并重新训练解码器以尊重局部颜色上下文，ASUKA 使我们能够利用强大的生成模型做它们最擅长的事情: 创造高保真的纹理，而不会带来不必要的意外。

对于计算机视觉领域的学生和研究人员来说，这篇论文强调了 先验 (priors) 的重要性。生成模型很强大，但它们需要指导。有时，前进的最佳方式是回顾更简单的、基于重建的架构 (如 MAE) ，并使用它们来锚定我们的现代创意引擎。

当前生成式修复存在的问题#

1. 非预期物体插入 (幻觉)#

2. 颜色不一致#

ASUKA 解决方案#

第一部分: 用 MAE 治愈幻觉#

第二部分: 通过局部协调修复颜色#

实验与结果#

视觉质量#

定量指标#

扩展到 FLUX#

结论#