工程界有一句令人无奈但又无比贴切的项目管理谚语: “好、快、省。只能三选二。”
在图像压缩领域,这个“不可能三角”同样主宰着技术的极限。你可以拥有高视觉保真度 (好) 和低文件大小 (省) ,但这通常需要计算昂贵、速度缓慢的 AI 模型来解码。反之,你可以拥有一个快如闪电且生成极小文件的编解码器 (如低质量的标准 JPEG) ,但结果往往充满块状伪影、模糊不清,且带有明显的“数码味”。
多年来,关于学习型图像压缩 (learned image compression) 的研究一直严重倾向于“好”和“省”这两个角,利用 GANs (生成对抗网络) 或扩散模型 (Diffusion models) 等庞大的生成式模型。这些模型可以在极低的比特率下“幻构”出逼真的纹理,但它们是计算上的重量级选手。在手机电池上部署它们目前几乎是无从谈起的。
但是,如果繁重的计算需求不是针对模型,而是针对训练模型的度量标准呢?
在论文 《好、省、快: 基于 Wasserstein 失真的过拟合图像压缩》 (Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion) 中,研究人员证明了我们并不一定需要巨大的生成网络来达到生成级别的质量。通过采用一个轻量级的、“过拟合”的神经编解码器,并使用一种复杂的人类感知模型——Wasserstein 失真 (WD) ——对其进行训练,他们实现了这一圣杯: 高质量、低比特率,且计算轻量化,足以进行实用的解码。
学习型压缩的格局
为了理解这种方法的创新之处,我们需要先看看现代图像压缩中的两个主导范式。
1. 生成式方法 (The Generative Approach)
AI 的最新进展催生了“生成式”压缩 (例如 HiFiC、基于扩散的编解码器) 。这些模型将解压缩视为一项生成任务。它们不只是重建像素,而是试图从自然图像的分布中进行采样。如果编码器发送一个压缩信号说“这块是草地”,解码器就会利用其学到的世界知识生成令人信服的草地纹理。结果在视觉上令人惊叹,避免了传统编解码器的模糊感。然而,计算成本 (以 MACs,即乘累加运算来衡量) 是巨大的。
2. 过拟合方法 (The Overfitted Approach)
光谱的另一端是“过拟合”编解码器,例如 C3 (COOL-CHIC) 。与在数百万张图像上训练的庞大全局网络不同,过拟合编解码器为单张图像学习一个微小且特定的神经网络。网络参数本身就是比特流。
C3 的架构非常高效。它在率失真 (Rate-Distortion) 性能上可以媲美 VVC (通用视频编码) 等现代标准,但结构要简单得多。然而,C3 传统上是使用 均方误差 (MSE) 进行优化的。
MSE 的问题
MSE 在数学上等同于“求稳”。它计算原始图像和重建图像之间的逐像素差异。当编解码器不确定一片草叶确切应该在哪里时,最小化 MSE 的结果就是将所有可能性平均化。视觉结果是什么?一团模糊的、棕绿色的污迹。MSE 会抹杀纹理,因为它惩罚任何偏离确切像素位置的行为,即使该纹理在人眼看来是“真实”的。
解决方案: 建模感知,而非分布
研究人员提出了一种理念上的转变。与其试图对所有自然图像的复杂分布进行建模 (这需要沉重的生成模型) ,他们专注于建模人类视觉感知 。
他们采用轻量级的 C3 编解码器,并做了两个关键的改变:
- Wasserstein 失真 (WD) : 用一种衡量“感知距离”并允许纹理重采样的损失函数取代 MSE。
- 公共随机性 (CR) : 为解码器提供一个噪声源,以帮助合成随机纹理 (如砾石或云彩) 。
让我们拆解一下这个架构。
带有公共随机性的 C3 架构
基准是 C3 编解码器。如下图所示,该过程涉及解码多个分辨率下的潜变量 (latents) 。这些潜变量被上采样并通过一个合成网络 (\(f_{\theta}\)) 来创建最终图像。

这里的创新之处在于添加了公共随机性 (CR) (图 B 中的棕色方块所示) 。
想象一下,试图画一块细节丰富的花岗岩。如果你必须描述每一粒灰尘,那需要很多词语 (比特) 。但如果你和画家共用一把特定的刷子,这把刷子能产生随机的斑点,你只需要说“在这里用那把斑点刷子”即可。
在这个系统中,编码器和解码器共享一个固定的随机种子 (伪随机数生成器) 。这会生成“噪声图”,这些噪声图被上采样并与图像潜变量拼接在一起。神经网络学习将这种噪声作为原材料来创建纹理。因为种子是固定的,所以不需要额外的比特来发送这种噪声;这是“免费”的细节。
核心引擎: Wasserstein 失真
这项工作最重要的贡献是 Wasserstein 失真 (WD) 作为训练目标的实际实现。
像 MSE 或 SSIM 这样的标准指标是逐像素或逐结构地比较图像。像 LPIPS 这样的感知指标在“特征空间”中比较图像 (使用像 VGG 这样的预训练网络的激活值) 。WD 更进一步,结合了人眼的生物学特性——具体来说,就是中央凹视觉 (注视中心) 和外周视觉之间的区别。
在我们的外周视觉中,我们看不到精确的细节。我们看到的是纹理的“汇总统计信息”。如果你看一面砖墙,你的外周视觉会感知到“砖块纹理”,而不是左边第三块砖上的确切裂缝。WD 对此进行建模,允许重建与原始图像不同,只要特征的局部统计信息匹配即可。
高效计算 WD
计算真正的 Wasserstein 距离在计算上非常昂贵。作者提出了一种使用 VGG 特征的高效近似方法。

该过程分为三个阶段:
- 特征提取: 将原始图像和压缩图像都通过 VGG 网络以获取特征图 (\(f_i\)) 。
- 局部统计: 不直接比较特征,而是计算特定池化区域内特征的局部均值 (\(\mu\)) 和标准差 (\(\nu\)) 。这代表了该区域的“纹理”。
- 聚合: 计算这些分布之间的距离。
池化区域的大小由一个称为 \(\sigma\) (西格玛) 的参数决定。
- 小 \(\sigma\): 小池化区域。模型必须精确匹配特征。这模仿了中央凹视觉 (直接注视物体) 。
- 大 \(\sigma\): 大池化区域。模型只需要匹配纹理的大致“氛围”或统计数据。这模仿了外周视觉。
为了使优化速度足够快,作者使用了以 2 的幂次为尺度的预计算统计量的金字塔。然后,他们使用以下公式对任何特定 \(\sigma\) 值的损失进行插值:


这种方法创建了一个“可微”的损失函数。神经网络可以确切地学习如何操纵公共随机性来满足这些统计纹理约束。
显著性 (Saliency) 的作用
如果我们到处都使用大的 \(\sigma\),整张图像看起来可能就像是它自己的“纹理”版本——这对草地来说很好,但对文字或人脸来说就很糟糕,因为它们会变得混乱。如果我们到处都使用小的 \(\sigma\),我们就会退回到类似 MSE 的行为,在无关紧要的噪声上浪费太多比特。
解决方案是显著性 。 研究人员使用 EML-net (一个显著性预测网络) 来猜测人类可能会看哪里。
他们将显著性图 (\(s\)) 转换为密度图 (\(p\)) ,最后转换为可变的 \(\sigma\) 图:


- 高显著性 (眼睛注视此处) : 高 \(p\) \(\rightarrow\) 低 \(\sigma\)。编解码器被迫重建精确的细节。
- 低显著性 (外周) : 低 \(p\) \(\rightarrow\) 高 \(\sigma\)。编解码器被允许幻构统计上相似的纹理,从而节省比特。
实验结果
效果如何?结果令人信服。
视觉质量 vs. 比特率
视觉差异非常明显。在下面的比较中,请看草地。MSE 版本 (右上) 将草地涂抹成模糊的一片。WD 版本 (左下) 保留了草地的纹理。有趣的是,右下角的图像显示了没有公共随机性会发生什么: 模型试图使用确定性的线条来合成纹理,导致屋顶上出现伪影。CR 允许自然、随机的噪声整形。

“好、省、快”的权衡
下面的图表总结了该论文的主要成就。Y 轴代表 Elo 分数 (来自评分员研究的人类偏好度量) ,X 轴代表比特率。
- HiFiC (绿线) : 高质量,低比特率,但极其复杂 (见右图显示的 MACs) 。
- C3/WDs (橙线 - 本文方法) : 质量媲美 HiFiC,但计算成本 (解码器复杂度) 不到其 1% 。

这张图有效地证明了论点: 你可以拥有生成模型的质量,而无需庞大的解码器网络。
显著性的重要性
显著性引导的 \(\sigma\) 图的影响在包含文本的图像中显而易见。在下图中,“平坦 \(\sigma\)”版本 (右上) 将相机镜头上的文字视为随机纹理,打乱了字母。显著性引导版本 (右下) 识别出文本是重要的,降低了该区域的 \(\sigma\),在保留可读性的同时也幻构了其他地方的皮肤纹理。

另外注意与 C3/wMSE (中下) 的比较。简单地通过显著性加权 MSE 损失并不能帮助合成纹理;它只是让模糊区域稍微不那么模糊。你需要 Wasserstein 的几何属性来实现纹理生成。
比特分配
模型是如何实现这种效率的?通过将“细节”卸载给“纹理”生成器。下图显示了编解码器在不同分辨率数组上的比特分配。

请注意,与 MSE 模型 (左侧条形) 相比,WD 模型 (中间/右侧条形) 在 Array 1 (最高分辨率层,以蓝色显示) 上花费的比特明显更少。WD 模型不再显式编码每个高频像素变化,而是依赖较低分辨率的潜变量和公共随机性在解码期间合成这些细节。
WD 作为评估指标
一个意外但重要的发现是 Wasserstein 失真作为图像质量评估 (IQA) 指标的表现非常出色。作者比较了不同指标预测人类评分 (Elo 分数) 的准确性。

如上所示, WD8 (\(\sigma=8\) 的 Wasserstein 失真) 与人类评分的皮尔逊相关系数达到了 0.936 , 大大优于 MS-SSIM (0.540) 等标准指标,甚至优于 LPIPS (0.711) 等学习型指标。这表明 WD 不仅是一个好的损失函数;它还是一个高度准确的数学代理,反映了人类如何感知图像质量。
更多视觉示例
纹理合成能力在各种场景中都是一致的。
与 LPIPS 的比较: 在这个瀑布场景中,LPIPS 优化的模型 (中间) 模糊了前景中的人物。WD 模型 (右侧) 设法保留了前景细节,同时忠实地重建了水的混乱纹理。

街道场景和标牌: 这里我们看到了显著性权衡的另一个例子。平坦 WD 模型 (中) 创建了不错的街道纹理,但破坏了 “POPPIE’S” 的招牌。显著性引导模型 (右) 检测到高对比度文本,保护其免受纹理重采样的影响,从而产生可读的文本和逼真的砖墙。

风景和植被: 在这张山景照片中,MSE 优化 (左) 产生了“阶梯状”伪影和平坦的植被。WD 版本 (右) 使用减少 15% 的比特合成了可信的树叶。

结论: 打破三角
论文《好、省、快》挑战了普遍的假设,即高保真“生成式”图像压缩需要庞大、缓慢的神经网络。
通过将高效的过拟合架构 (C3) 与感知对齐的损失函数 (Wasserstein 失真) 以及一点点随机性 (公共随机性) 相结合,作者创建了一个编解码器,它:
- 好看: 质量媲美 HiFiC 且优于标准编解码器。
- 小巧: 在所提供的质量下具有竞争力的比特率。
- 快速: 解码速度比基于扩散或 GAN 的方法快几个数量级。
这项工作凸显了 AI 研究中的一个重要教训: 有时,瓶颈不在于模型容量,而在于目标函数。通过告诉网络如何看 (使用 Wasserstein 距离和显著性) ,而不仅仅是匹配什么 (像素) ,我们可以实现以前认为不可能的效率。
对于媒体流和存储的未来,这意味着下一代的视觉保真度可能不是来自更大的芯片,而是来自更聪明的数学。
](https://deep-paper.org/en/paper/2412.00505/images/cover.png)