人造之眼与人类之眼: 基础模型的视觉机制像我们吗?
在快速发展的计算机视觉领域,我们见证了向“基础模型”的巨大转变。诸如 DINOv2、OpenCLIP 和 Segment Anything (SAM) 等巨头模型在数十亿张自然图像上进行训练,学习以惊人的准确度识别物体、分割场景并理解视觉概念。这些模型是自监督的;就像人类婴儿在发育过程中一样,它们通过观察世界来学习。
这种平行关系引发了一个深刻的科学问题: 如果神经网络和人类视觉系统 (HVS) 都是通过观察自然界的统计数据来训练的,它们是否会进化出相同的“观看”方式?
我们知道它们在高层上具有相似性——都能识别猫或汽车。但在视觉的低层机制上呢?基础模型感知对比度、纹理和模糊图案的方式,是否与我们的眼睛和初级视觉皮层相同?还是说它们找到了一种完全陌生的光信号处理方式?
剑桥大学最近发表的一篇题为*“Do computer vision foundation models learn the low-level characteristics of the human visual system?”* (计算机视觉基础模型是否学习了人类视觉系统的低级特征?) 的论文,直面了这个问题。通过对 45 个不同的 AI 模型进行用于人类的相同心理物理学测试,研究人员绘制了一幅描绘生物视觉与人工视觉之间相似与分歧的迷人图景。

前提: 生物约束 vs 统计约束
要理解这为何重要,我们必须看看为什么人类的视觉是现在这个样子。我们的视觉受两股主要力量的塑造:
- 生物约束: 我们眼睛的光学结构、视网膜中视锥细胞的密度以及大脑的神经连接,造成了特定的“瓶颈”。例如,我们在黑暗中难以看清细节,如果图案太细或太粗,我们也无法分辨对比度。
- 自然统计: 我们的大脑适应了环境。我们擅长将物体从背景中分离出来,并且无论光照或距离如何,都能识别物体。
如果计算机视觉模型也具有这些特征,这表明这些特征是在我们的宇宙中进行高效视觉感知所必需的。如果它们不同,则表明人类视觉在很大程度上是我们生物局限性 (如杂乱的光学结构) 的产物,而计算机无需担心这些。
框架: 像测试人类一样测试 AI
研究人员将 AI 模型视为“黑盒”,或者更准确地说,视为心理学实验中的数字受试者。在人类心理物理学中,我们通过向人们展示特定的图案——通常是光栅 (条纹) 或噪声——并询问“你能看到这个吗?”或“这个看起来和那个不同吗?”来测量视觉。
为了将此应用于 AI,作者开发了一套流程,根据模型的特征编码器来测量两张图像之间的“感知差异”。
流程
如下图所示,该过程模仿了标准的人类视觉测试 (二选一强迫选择) :

- 刺激生成: 他们生成精确的视觉图案 (测试图像) 和参考背景 (参考图像) 。这些是以物理光单位 (\(cd/m^2\)) 定义的,以匹配人类实验。
- 显示模型: 由于这些模型是在互联网图像 (通常是 sRGB) 上训练的,因此物理光值被转换为 sRGB 色彩空间。
- 特征提取: 两张图像都被输入到基础模型 (例如 DINOv2) 中。模型输出一个特征向量——一长串代表图像“含义”的数字。
- 相似度度量 (\(S_{ac}\)) : 研究人员计算两个特征向量之间的差异。
度量标准: 角余弦相似度
你如何衡量神经网络是否认为两张图像不同?你可能会想到使用简单的欧几里得距离 (数字相距多远) 。然而,研究人员发现,特征向量之间的角度是感知更好的代理指标。
他们将度量标准 \(S_{ac}\) (角余弦距离) 定义为:

这里,\(F_T\) 和 \(F_R\) 是测试图像和参考图像的特征向量。
- 如果 \(S_{ac} = 0\),则向量指向完全相同的方向;模型视图像为完全相同。
- 如果 \(S_{ac}\) 很高,则模型感知到显著差异。
通过改变测试图像的对比度并检查 \(S_{ac}\) 何时开始上升,研究人员可以确定模型的“检测阈值”——这就相当于计算机在说: “我看到东西了!”
刺激: 模型在看什么?
要探索低级视觉,不能使用猫和狗的照片。你需要视觉的基本构建块。这项研究使用了 Gabor 斑块——由高斯包络加窗的正弦光栅。这是视觉科学中的标准工具,因为它们可以隔离特定的位置和频率。
所用刺激的数学定义如下:

在视觉上,它们看起来像一团模糊的条纹。研究人员改变了空间频率 (条纹的密集程度) 和对比度 (明暗条纹之间的差异) 。

在上图中,人类可以很容易地看到底部的图案 (高对比度) 。当你向上移动时,对比度会减弱。有趣的是,人类在中频 (每度 2-4 个周期) 有一个“最佳点”,在这个范围内我们要最敏感。我们很难看清非常低的频率 (宽阔、渐变的梯度) 或非常高的频率 (微小的细节) 。
研究人员还测试了:
- 色度 Gabor: 红-绿和黄-紫图案,用于测试颜色视觉。
- 噪声: 随机静态图案。
- 掩蔽图案: 隐藏在嘈杂或条纹背景中的目标图案。
关键实验 1: 对比敏感度 (CSF)
对比敏感度函数 (CSF) 本质上是人眼的传递函数。它告诉我们需要多少对比度才能检测到特定大小的图案。
人类基准: 人类是“带通”的。我们忽略非常缓慢的梯度 (低频) 以对光照变化保持不变性,并且由于光学模糊而丢失高频细节。
模型结果: 当研究人员测试 DINO、SAM 和 OpenCLIP 等模型时,他们发现明显缺乏一致性。

看上图中的 (a) 行。
- 虚线代表人类表现 (castleCSF) 。它弯曲得像一个倒置的“U”。
- 等高线显示了模型的敏感度。
观察结果: 大多数基础模型没有遵循人类的虚线。
- OpenCLIP (最右侧) 杂乱且不规则。
- DINOv2 (第二列) 显示出一些带通特性 (低频敏感度下降) ,这表明它学会了忽略光照梯度,但它并没有精确匹配人类曲线。
- SD-VAE (Stable Diffusion 的编码器) 激进地降低了低频敏感度,很可能是因为它在压缩图像并丢弃“无聊”的低频数据。
结论: 基础模型不具备人眼的生物瓶颈。它们在处理高频时并不吃力 (直到达到像素分辨率限制) ,并且它们处理低频的方式也不同。它们开辟了自己的检测路径。
关键实验 2: 对比掩蔽
视觉掩蔽是一种现象,即一个刺激 (掩模) 使另一个刺激 (目标) 更难被看见。例如,很难在长满条纹草的田野里发现斑马。
在“相位非相干掩蔽”测试中,研究人员将一个 Gabor 斑块隐藏在随机噪声中。

为了通过数学方法生成这些掩模,他们使用了过滤后的噪声:

结果: 在这里,情况发生了变化。虽然模型在模仿人类检测阈值方面表现糟糕,但在模仿人类掩蔽方面却出奇地好。
回顾 图 5 的 (h) 行 (掩蔽图) 。
- DINOv2 和 OpenCLIP 显示的等高线斜率与人类数据非常吻合。
- 这表明“掩蔽”不仅仅是一个生物学上的小故障。它是图像的一种统计特性。为了在杂乱的场景中有效地识别物体 (这是这些模型的核心任务) ,你自然会像生物系统一样发展出对掩蔽的抵抗力。
关键实验 3: 对比度恒常性
最后一个主要测试是对比度恒常性 。
在现实世界中,如果你远离一个物体,它的细节会变小 (空间频率变高) ,但物体看起来不会“褪色”。它的感知对比度保持不变。这对于识别不同距离的物体至关重要。
研究人员通过要求模型“匹配”测试光栅与参考光栅的对比度来测试这一点。他们最小化了两者在特征空间中的差异:

结果 (图 5,i 行) :
- 虚线 (人类数据) 在高对比度下是平坦的。这证明人类具有“对比度恒常性”——我们在不同频率下同样能看清强烈的对比度。
- DINOv2 (绿线) 和 OpenCLIP (橙/红线) 很好地遵循了这一趋势。它们趋于平坦。
- SAM (Segment Anything) 在这里表现挣扎,显示出不稳定性。
这表明最优秀的视觉模型已经学会了尺度不变性 。 它们将高对比度边缘表示为“高对比度”,无论它是近距离 (粗) 还是远距离 (细) 。这对于稳健的计算机视觉来说是功能上的必要条件,就像对于人类生存一样。
比较竞争者
该研究测试了 45 个不同的模型。虽然我们无法查看每一个模型,但研究人员使用斯皮尔曼相关系数 (\(r_s\),用于检测/掩蔽) 和均方根误差 (RMSE,用于匹配) 量化了对齐程度。

优胜者:
- DINOv2: 该模型始终表现出与人类视觉最接近的相似性,特别是在掩蔽和区域求和 (敏感度如何随物体大小增加) 方面。
- OpenCLIP: 在掩蔽和恒常性方面表现出色,尽管它在基本的检测一致性方面表现挣扎。
- 监督模型 (ResNet): 较旧的监督模型 (使用标签训练) 通常表现出比现代自监督巨头更低的一致性。
下表详细列出了分数 (\(r_s\) 越高越好,RMSE 越低越好) :

请注意, DINOv2 ViT-B/14 在掩蔽任务中实现了非常高的相关性 (\(>0.95\)) ,这表明在复杂、嘈杂的环境中,它与人类感知趋于一致。
为什么对齐很重要?
你可能会问: 只要机器人能工作,它是否像人类一样看东西有关系吗?
事实证明,“像人类一样看东西”可能是“运作良好”的一个预测指标。研究人员将对齐分数与模型在标准计算机视觉基准 (如 ImageNet 分类) 上的表现进行了绘图。

散点图显示出正相关。在掩蔽和匹配特性上与人类对齐得更好的模型 (如 DINOv2) ,倾向于在分类任务上表现更好。
这表明处理视觉杂乱 (掩蔽) 和尺度 (恒常性) 的“人类方式”并非随意为之。这很可能是处理我们世界视觉统计数据的最佳方式。进化花费了数百万年才弄明白这一点;神经网络花费了数百万个 GPU 小时也弄明白了。
结论
论文*“Do computer vision foundation models learn the low-level characteristics of the human visual system?”* 为我们开篇的问题提供了一个细致的答案。
不 , 基础模型并没有盲目模仿人眼。它们缺乏造成我们特定对比敏感度函数的生物硬件限制。它们不会在低光照或低频率下遭遇同样的衰减。
然而 , 它们在功能能力上确实与人类视觉趋同。两个系统都学会了:
- 以相似的方式处理视觉杂乱 (掩蔽) 。
- 在不同距离上一致地感知对比度 (恒常性) 。
这意味着,虽然我们的“硬件”不同,但我们的“软件” (从自然数据中学到的处理规则) 却惊人地相似。随着我们要构建更强大的 AI,通过人类心理物理学的视角来分析它们,不仅为理解它们学到了什么,也为理解它们为什么学习这些提供了强有力的工具。生物视觉和人工视觉的趋同表明,视觉存在普遍规律——而我们的机器正开始遵循这些规律。
](https://deep-paper.org/en/paper/2502.20256/images/cover.png)