想象一下,你正驾驶着一辆自动驾驶汽车穿过浓重的迷雾。
对于作为驾驶员的你来说,目标是感知图像恢复 (Perceptual Image Restoration, PIR) 。 你希望清除视野中的雾气,看清风景、路面纹理,并以高保真度还原世界。你关心的是美感和清晰度。
然而,对于汽车的计算机而言,目标是面向任务的图像恢复 (Task-Oriented Image Restoration, TIR) 。 AI 并不在乎树木是否好看;它关心的是边缘检测、对象分类和语义分割。它需要准确地知道行人位于何处以及车道线在哪里结束。
从历史上看,在计算机视觉领域,这两个目标分属于两个不同的世界。让图像对人类来说“好看”的方法往往会破坏神经网络进行特征提取所需的细微数据模式。相反,针对机器准确性进行优化的方法,往往会生成在人类眼里充满噪点或显得“怪异”的图像。
在这篇文章中,我们将深入探讨 UniRestore , 这是一篇开创性的论文,它提出了一种能够同时满足生物肉眼和硅基传感器需求的统一模型。通过利用扩散模型的力量并引入新颖的适应模块,UniRestore 成功地为所有“观察者”拨开了迷雾。

如上图 1 所示,UniRestore 不仅在这两个目标之间取得了折衷,而且在这两方面都表现出色。请特别注意部分 (b),UniRestore (橙色方块) 在保持高分类准确率的同时,实现了高分割性能,占据了右上角的“最佳位置”。
让我们来拆解一下这个架构是如何工作的,它为什么要使用扩散先验 (diffusion prior) ,以及它如何解决这个“全能选手”难题。
背景: 为什么这很难?
要理解 UniRestore 的创新,我们首先需要理解感知与任务性能之间的冲突。
感知图像恢复 (PIR)
PIR 算法旨在消除退化 (噪声、模糊、雨、雪) 以提高视觉质量。这里的指标是人类感知。我们使用 PSNR (峰值信噪比) 等分数来衡量成功与否。然而,为了让人眼看起来干净而清理图像,通常涉及平滑像素,这可能会无意中抹去神经网络依赖的高频纹理特征。
面向任务的图像恢复 (TIR)
TIR 侧重于实用性。如果图像退化了,TIR 模型会尝试恢复下游任务 (如目标检测或分类) 所需的语义信息。有时,TIR 模型可能会引入一些在我们看来很丑陋的伪影,但这些伪影却能让特定对象对算法来说更加“突出”。
扩散模型的困境
最近, 扩散模型 (如 Stable Diffusion) 已成为生成高质量图像的黄金标准。它们通过迭代地对随机分布进行去噪来形成连贯的图像。它们拥有令人难以置信的“先验”——即关于世界是什么样子的知识。
然而,使用标准扩散模型进行恢复有一个缺陷: 它是为生成而优化的,不一定是为保真度或实用性而优化的。扩散模型可能会看到一团模糊的东西,然后把它变成一只高清的猫,而实际上那是一只狗。它优先考虑看起来“真实”,而不是“准确”。
UniRestore 通过使用预训练的 Stable Diffusion 模型作为骨干网络,但对其进行修改以响应恢复任务的具体需求,从而解决了这个问题。
核心方法: UniRestore 架构
研究人员在 Stable Diffusion 自编码器 (VAE) 之上构建了 UniRestore。目标是保留扩散模型的生成能力,但严格控制它以服务于特定任务。

如图 2 所示,该架构从根本上改变了数据在扩散过程中的流动方式。输入是退化图像 (例如,积雪的街道) 。输出可以是视觉上干净的图像,也可以是任务优化的特征图。
这里引入了两项关键创新来弥合 PIR/TIR 之间的鸿沟:
- 互补特征恢复模块 (Complementary Feature Restoration Module, CFRM) : 在编码器中修复输入特征。
- 任务特征适配器 (Task Feature Adapter, TFA) : 在解码器中针对特定任务调整输出特征。
让我们逐步拆解这些模块。
1. 互补特征恢复模块 (CFRM)
扩散模型中的标准编码器并不是为处理严重退化而设计的。如果你将一张下雪的图像输入标准的 VAE 编码器,得到的“潜在特征” (图像的压缩表示) 将会被损坏。
CFRM 被注入到编码器中,以便即时清理这些特征。

观察图 3 的左侧 (a),CFRM 的操作分为四个明显的步骤:
- 特征增强 (Feature Enhancement): 它获取原始特征并使用标准卷积块 (NAFBlock) 对其进行扩展。这为更深入的分析准备了数据。
- 组内通道注意力 (Intra-group Channel Attention): 这是一个巧妙的设计选择。通道被分成若干组。为什么?因为不同类型的退化 (雨 vs 雾 vs 噪点) 对图像频率的影响不同。通过分组,模型可以学习特定的权重来处理特征内不同“类型”的损伤。
- 组间通道整合 (Inter-group Channel Integration): 在单独处理各组之后,模型需要综合这些信息。这一步结合了来自不同组的见解,形成一个连贯的、恢复后的特征图。
- 特征恢复 (Feature Recovery): 最后的跳跃连接将恢复的特征与原始输入混合,以确保没有丢失结构信息。
当数据离开编码器时,特征空间中的“雪”或“雾”已被显著抑制。
2. 任务特征适配器 (TFA)
现在我们有了干净的潜在特征,我们将它们传递给去噪 U-Net (Stable Diffusion 的大脑) 。但是,解码器需要知道如何处理它们。它应该制作一张漂亮的图片吗?还是应该突出显示汽车?
这就是 任务特征适配器 (TFA) 发挥作用的地方。UniRestore 不是为每个单一任务训练一个全新的庞大网络 (这在计算上非常昂贵) ,而是使用提示 (Prompts) 。
TFA 就像一个总机接线员。它位于解码器中,接收一个代表任务 (例如“语义分割”) 的小型、可学习的“提示向量”。
参考图 3 (上图) 的右侧 (b) 和下面的公式,这是 TFA 如何动态工作的:

数学公式看起来可能很吓人,但逻辑很优雅:
- 令牌更新 (\(f_i, i_i\)): 模型计算“遗忘”门和“输入”门,类似于 LSTM (长短期记忆) 网络。它决定保留多少上一层的提示信息,以及接受多少新信息。
- 提示传播 (\(C_{i+1}^k\)): 提示 \(C\) 逐层更新。随着图像在解码器中被放大,它也在不断演变。
- 特征融合: 适配器将恢复后的编码器特征 (\(F_{enc}\)) 与扩散潜在特征 (\(F_{latent}\)) 混合。
- 自适应: 最后,提示控制特征如何被混合。如果提示是“分类”,它可能会强调对象形状。如果是“感知”,它可能会强调纹理和颜色。
这种结构使得模型非常高效。要添加一个新任务,你不需要重新训练整个模型——你只需训练一个新的微小提示向量。
训练流程
训练 UniRestore 是一个两阶段的过程,确保模型在学习做什么之前先学会如何看。
第一阶段: 学习恢复 首先,模型必须学会清理图像。CFRM 和控制器使用感知图像恢复 (PIR) 数据集进行训练。
CFRM 的损失函数强制退化特征与真实图像的“干净”特征相匹配:

同时,训练控制模块以确保扩散过程保持在正轨上:

第二阶段: 学习适应 一旦模型擅长通用恢复,就开始训练 TFA。在这个阶段,CFRM 和主扩散模型被冻结。只有轻量级的 TFA 参数被更新。
模型同时在多个任务上进行训练 (多任务学习) 。损失函数结合了多个目标——例如,看起来好看 (PIR)、识别对象 (分类) 和勾勒边界 (分割):

具体到这篇论文,研究人员使用了三种损失的加权和:

实验与结果
这种复杂的架构真的有效吗?研究人员将 UniRestore 与最先进的方法进行了测试,包括专门的 PIR 模型 (如 NAFNet) 和专门的 TIR 模型 (如 URIE) 。
感知结果 (让它看起来好看)
在视觉质量方面,UniRestore 在涉及雨、雾和模糊的数据集上进行了测试。

表 1 显示了定量结果。 UniRestore 在几乎所有类别中都取得了最高分 (PSNR 和 SSIM) 。注意“未见数据集 (Unseen Datasets)”列——这至关重要。这意味着 UniRestore 即使在未经过明确训练的天气或退化类型上也能表现良好。这种泛化能力很大程度上归功于 Stable Diffusion 模型底层强大的先验知识。
从定性上看,差异是明显的:

在图 4 中,看看中间那一行 (帕台农神庙) 。 URIE 方法 (第二列) 留下了很多噪点。 PromptIR (第三列) 好一些,但仍然模糊。 UniRestore (第四列) 生成了清晰、干净的图像,可与高质量 (HQ) 真实图像相媲美。
面向任务的结果 (让它变得有用)
这才是 UniRestore 真正大放异彩的地方。大多数恢复模型在这里都失败了。
图像分类: 研究人员选取退化的图像,对其进行恢复,然后将其输入到标准分类器 (如 ResNet-50) 中。

表 2 显示 UniRestore 提供了巨大的准确率提升。在某些情况下,与未见数据集 (CUB) 上的其他方法相比,它的准确率提高了超过 20% 。
语义分割: 这项任务需要理解像素级的边界。

在表 3 中,我们看到 UniRestore 实现了最高的 mIoU (平均交并比) 分数。这意味着即使经过严重退化,它也能更好地帮助 AI 区分道路和人行道。
为什么它更好? 我们可以通过查看“激活图”来验证它为什么有效——这是可视化 AI 关注点的一种方式。

在图 5 (左侧) 中,看那只鸟。“低质量”(LQ) 图是分散的;AI 被噪点搞糊涂了。 UniRestore 的图紧凑且聚焦于鸟的身体,与 HQ 图非常相似。
在图 6 (右侧) 中,看街道的分割。其他方法产生了锯齿状、混乱的掩码 (紫色/粉色斑块) 。UniRestore 生成了干净、连贯的道路路段。
适应性和效率
最令人印象深刻的发现之一是模型的可扩展性 。 研究人员问道: “如果我们想增加目标检测功能怎么办?”
通常,你需要重新训练整个网络。但使用 UniRestore,他们只需添加一个新的提示向量并仅训练该提示。

如表 6 所示,尽管没有重新训练核心网络,UniRestore 的表现仍优于专用方法。它还表明,使用特定提示 (UniRestore) 比尝试使用单一的“一刀切”提示 (UniRestore-SP) 效果更好,如下面的消融研究所示:

结论
UniRestore 代表了图像恢复领域向前迈出的重要一步。它承认了计算机视觉中的一个基本真理: 人类的需求和机器的需求往往是不同的。
通过构建一个共享强大核心 (Stable Diffusion) 但又能适配输入 (通过 CFRM) 和输出 (通过 TFA) 的统一框架,UniRestore 实现了两全其美。
关键要点:
- 统一框架: 无需为观看和分析分别建立模型。
- 扩散能力: 利用大型预训练模型的生成能力,且不失保真度。
- 基于提示的适应性: 通过训练轻量级提示而不是繁重的骨干网络,可以廉价且高效地添加新任务。
对于进入该领域的学生和研究人员来说,UniRestore 提供了一个如何驯服生成式 AI 的蓝图。它表明,只要有正确的架构控制,我们就不必在美观和实用之间做出选择——我们可以恢复出既悦目又易于机器理解的图像。
](https://deep-paper.org/en/paper/2501.13134/images/cover.png)