你是否曾经把一张图片压缩得非常厉害,以至于它看起来满是马赛克且像素化,但你的手机依然能完美地识别出里面的人脸?反过来说,你是否拍过一张在你看来很正常的照片,但你的智能相机却拒绝聚焦或检测其中的物体?
几十年来,图像处理领域一直痴迷于一个问题: “这对人类来说好看吗?”
我们构建了旨在取悦人类视觉系统 (HVS) 的压缩算法 (如 JPEG) 、相机和修复滤波器。但世界已经变了。根据最近的数据,机器对机器 (M2M) 的连接数已经超过了人对机器的连接数。如今,视觉数据的主要消费者不再是你或我,而是人工智能。
这种转变带来了一个巨大的问题。在人眼看来“不错”的东西,对机器的神经网络来说可能是难以辨认的垃圾。而机器觉得完全可读的内容,在我们看来可能像是一堆静态噪声。
在这篇文章中,我们将深入探讨一篇开创性的论文: 《图像质量评估: 从人类偏好到机器偏好》 (Image Quality Assessment: From Human to Machine Preference) 。 研究人员认为,我们需要停止仅为人类眼睛优化图像,转而开始理解机器偏好 。 他们推出了首个旨在教我们机器究竟想看什么的大规模数据库。
巨大的鸿沟: 人类视觉 vs. 机器视觉
要理解为什么这项研究是必要的,我们首先必须接受一个事实: 生物眼睛和数字传感器“看”世界的方式并不相同。
人类注重美学。我们在乎纹理、自然的色彩和结构完整性。如果天空看起来稍微有点像素化,我们会立刻注意到。然而,机器在乎的是实用性 。 一辆自动驾驶汽车并不在乎停车标志是否“渲染得精美”;它在乎的是边缘是否足够清晰,以便将其分类为停车标志。

如上图 1 所示,人类视觉系统 (HVS) 和机器视觉系统 (MVS) 之间存在显著差距。
- 中上方: 看那两张飞船的图片。左边的图片在我们看来很清晰 (人类评分: 4.21/5) ,而右边那张看起来像素化严重 (人类评分: 2.86/5) 。然而,由于高饱和度或特定的噪声模式,机器可能无法处理那张“清晰”的图片,却能完美地理解那张像素化的图片。
- 右下方: 山地景观展示了一个明显的分割错误。机器看到了山 (MVS 评分: 3.51/5) ,但人类给这张失真图片的评分很低 (1.40/5) ,因为它看起来不自然。
这种差异会带来现实后果。如果我们为了让人类看着舒服而压缩图像,可能会意外破坏 AI 在 X 光片中检测癌症或在道路上检测行人所需的特征。
图像质量评估 (IQA) 的现状
在这篇论文之前,图像质量评估 (IQA) 数据库完全是以人类为中心的。研究人员会收集数千张图片,对其进行失真处理,然后让数千人进行评分。由此产生的数据集 (如 LIVE 或 TID2013) 成为了训练算法的黄金标准。

表 1 展示了这些传统数据库的局限性。注意以前数据集的“标注标准” (Annotation Labeling Criteria) 一栏: 它们全都基于 “人类偏好” (Human preference) 。
这篇论文背后的研究人员意识到,为了服务于现代物联网 (IoT) 和 AI 生态系统,他们需要一个新的标准。他们创建了机器偏好数据库 (MPD) 。 这是首个此类数据库,拥有:
- 30,000 对参考/失真图像。
- 225 万 个细粒度的标注。
- 来自 30 个不同 AI 模型 的评估。
构建机器偏好数据库 (MPD)
你该如何询问机器它是否“喜欢”一张图片?你不能直接要一个星级评分。你必须测试它的性能。如果一个 AI 在某张图片上表现良好,那么对该机器来说,这就属于“高质量”图片。如果 AI 失败了,质量就是“低”。
MPD 的构建是一项巨大的工程,包含四个不同的阶段。

1. 图像收集
团队不仅限于标准照片。为了代表现代互联网,他们收集了三个类别的 1,000 张高质量参考图像:
- 自然场景图像 (NSIs): 标准摄影。
- 屏幕内容图像 (SCIs): 网站、游戏和文档的截图。
- AI 生成图像 (AIGIs): 由 Midjourney 或 DALL-E 等模型生成的图像。
2. 折磨室: 图像失真
要衡量质量,你必须先破坏东西。研究人员对这些图像应用了 30 种不同类型的损坏 (corruption) 。 这些不仅仅是随机噪声;它们模拟了现实世界的问题,如运动模糊、JPEG 压缩伪影、对比度变化和传输错误。

看看上面的图 12。它展示了所应用失真的多样性,从简单的模糊 (第 1 行) 到“块交换” (第 4 行,图像的部分被交换) 和“像素化” (第 5 行) 。他们应用了 5 个不同的强度等级。
3. 定义机器眼中的“质量”
这是论文的核心创新点。研究人员根据下游任务的成功率来定义机器质量。他们使用了 15 个大型多模态模型 (LMMs) 和 15 个专用计算机视觉 (CV) 模型,在失真图像上执行 7 项特定任务。
如果模型在失真图像上的输出与其在干净参考图像上的输出相匹配,则质量得分高。
LMM 任务 (思考模型) :
- YoN (Yes or No): 向模型询问关于图像的是非题。
- MCQ (Multiple Choice): 提出带有混淆选项的选择题。
- VQA (Visual Question Answering): 询问开放式问题。
- CAP (Captioning): 要求模型描述图像。
CV 任务 (视觉模型) :
- SEG (Segmentation): 模型能勾勒出物体轮廓吗?
- DET (Detection): 模型能在物体周围找到边界框吗?
- RET (Retrieval): 模型能在数据库中找到这张图片吗?
4. 分数背后的数学
为了将这些任务转化为数字,研究人员使用了参考结果 (\(ref\)) 和失真结果 (\(dis\)) 之间的数学比较。
对于 是非题 (YoN) 任务,他们测量置信度概率的差异:

对于 多项选择 (MCQ) , 他们查看选项概率向量之间的余弦相似度:

对于 视觉问答 (VQA) , 他们使用 CLIP (一种文本嵌入模型) 比较文本答案的语义含义:

对于 分割 (SEG) , 他们使用标准的交并比 (IoU) 指标,该指标衡量预测形状与正确形状的重叠程度:

对于 物体检测 (DET) , 他们结合了分类准确率 (\(Acc\)) 和边界框重叠度 (\(IoU\)):

通过汇总 30 个不同模型的这些分数,研究人员为每一张失真图像建立了一个“平均意见得分”(MOS)——这不基于它看起来如何,而是基于它对机器有多大用处。
机器究竟偏好什么?
MPD 的结果揭示了机器视觉“思维”中一些引人入胜的见解。
1. 机器与人类意见不一
最重要的发现是,机器偏好与人类偏好并不一致。

图 6 展示了不同模型之间的相关性。左上角的矩阵显示了人类受试者之间的相关性 (0.76) ,而机器 (其他矩阵) 显示的内部一致性较低 (约为 0.62) 。这意味着不同的 AI 模型有不同的“口味”。一种破坏分割模型的失真可能根本不会干扰图像描述模型。
2. 对损坏的敏感度
机器对某些人类可能忽略的错误出奇地敏感,而对其他让我们感到恼火的错误却很有韧性。

在图 4 中,观察不同损坏类型的分数分布。机器对 镜头模糊 (Lens Blur) (第 1 行,第 2 列) 高度敏感——分数急剧下降。然而,它们对 均值增亮 (Mean Brighten) (第 4 行,中间) 相对稳健。人类可能讨厌一张过亮的照片,但机器通常仍能检测到其中的边缘和物体。
3. 任务独立性

图 3 说明,在一项任务 (如图像描述,CAP) 中的成功并不能保证在另一项任务 (如检测,DET) 中也能成功。相关性热图 (左) 显示,虽然 LMM 任务 (MCQ, YoN) 具有一定的相关性,但像分割 (SEG) 这样的专门任务则截然不同。这意味着机器的“图像质量”不是一个单一的数字;它在很大程度上取决于机器试图做什么。
传统指标的失败
论文中最令人沮丧的结果是现有图像质量评估指标的表现。多年来,我们一直依赖 PSNR (峰值信噪比) 或 SSIM (结构相似性指数) 等指标来判断图像压缩质量。
研究人员在 MPD 上训练并测试了这些标准指标,看它们是否能预测机器偏好。

表 2 描绘了一幅黯淡的图景。标准指标的 SRCC (一种相关性得分,1.0 为完美) 低得惊人,特别是对于“轻微失真” (现实世界应用中常用的那种微妙压缩) 。
- PSNR 在轻微失真上的 SRCC 仅为 0.3097 。
- 即使是专为人类设计的先进深度学习指标 (如 HyperIQA) ,在模拟机器感知方面也难以与其在人类数据集上的表现相提并论。
这证明了我们不能使用以人类为中心的工具来为机器优化图像。 如果我们这样做,那就像是在盲目行事。
可视化差异
为了更具体地说明这一点,让我们看看 MPD 认为什么是“低质量”与“高质量”。

在图 10 (低质量) 中,我们看到受到失真影响严重的图像,这些失真严重阻碍了机器的性能。请注意,其中一些图像对人类来说可能仍然可以辨认 (如模糊的城市灯光) ,但边缘细节的丢失使其对物体检测算法毫无用处。

相比之下,图 11 (高质量) 展示了机器评分很高的图像。即使不是“完美”的摄影作品,这些图像保留了分割和分类等任务所需的结构信息。
为什么这很重要: 机器视觉的未来
机器偏好数据库的发布标志着计算机视觉的一个转折点。随着我们迈向智慧城市、自动驾驶和自动化医疗诊断,机器消费的图像数量将持续激增。
我们目前正在浪费带宽传输人类喜欢 (颜色、纹理) 但机器不需要的视觉数据。反过来说,我们正在以一种对我们来说看起来不错,但却会混淆 AI 系统的方式压缩数据。
关键要点:
- 停止假设: 我们不能仅仅因为人类说一张图片“好”就认为它是好的。
- 需要新指标: 我们需要新的压缩标准 (比如“面向 AI 的 JPEG”) ,优先考虑机器实用性而非人类美学。
- 特定任务优化: 图像处理流程应该感知下游任务。发送给分割机器人的图像,其处理方式应该不同于发送给图像描述机器人的图像。
MPD 提供了构建这些下一代工具所需的数据。它挑战我们在一个最常见的“眼睛”是连接到 GPU 的摄像头镜头的时代,重新思考“图像质量”的定义。
](https://deep-paper.org/en/paper/2503.10078/images/cover.png)