人眼是生物工程的奇迹,但它也出奇地节约。我们并不是以均匀的高清晰度来感知世界。相反,我们拥有一个中央凹 (fovea) ——一个具有高敏锐度的小型中心区域——周围是逐渐模糊成低分辨率的周边区域。这种机制使我们能够有效地处理复杂的场景,在最需要的地方分配有限的生物资源 (光感受器和视神经带宽) 。

相比之下,现代计算机视觉 (CV) 和大型多模态模型 (LMMs) 则是蛮力处理器。它们通常以均匀的高分辨率摄取整个视场 (FOV) 的图像。虽然有效,但这种方法计算成本高且占用带宽大。

对于在弱连接下运行的自主无人机或电池受限的边缘设备来说,传输 4K 图像进行处理根本不可行。这就引出了研究人员 Gizdov、Ullman 和 Harari 在他们最近的论文中提出的一个令人信服的问题: 我们能否通过模仿人类的中央凹采样方案来提高 AI 模型的性能和效率?

在这篇文章中,我们将深入探讨他们的研究,了解“少即是多”如何不仅能节省带宽,还能切实提高模型准确性,并在人工神经网络中诱发出类似人类的表征。

背景: 效率差距

在理解解决方案之前,我们必须定义问题。目前的 LMMs (如 BLIP2、LLaVA 或 MDETR) 同等重视每一个像素。无论一个像素是包含人脸的关键细节,还是角落里的一片空旷天空,处理它的计算成本通常是相同的。

最近的技术如“Token 合并 (token merging) ”试图通过在图像完全嵌入修剪冗余信息来减轻这种负担。然而,这并不能解决“带宽瓶颈”。如果你是火星上的漫游车或偏远地区的无人机,你无法承担上传高分辨率图像到服务器仅仅是为了让服务器丢弃一半 Token 的代价。压缩必须发生在源头

生物学的解决方案是中央凹化 (Foveation) 。 通过改变分辨率——注视点中心高,边缘低——人类在细节和语境之间取得了平衡。这篇论文研究了将这一生物学原理应用于标准的、预训练的 AI 架构是否会产生类似的好处。

核心方法: 信息匹配采样

研究人员着手测试关于图像下采样的两个相互竞争的假设。为了公平起见,他们引入了信息匹配图像 (Information-Matched Images) 的概念。

如果我们想比较“人类视角”与“机器视角”,我们必须确保两种视角消耗完全相同的像素“预算”。如果一种方法使用了更多的像素,它就拥有了不公平的优势。

1. 采样方案

作者比较了两种具体的采样策略:

  1. 可变分辨率 (中央凹化) : 这模仿了人眼。采样点的密度在中心 (注视点) 达到峰值,并随着向周边移动而线性下降。
  2. 均匀分辨率: 采样点均匀分布在图像上。

至关重要的是,这两种方案都被限制使用完全相同的总样本数 (\(N\)) 。

图 1. 这种采样方案在使用马车场景时的对比。图 (a) 显示了在马车 (感兴趣对象) 上保留高细节的中央凹方法。图 (b) 显示了细节处处丢失的均匀方法。

图 1 所示,差异是惊人的。在图 (a) 中,可变方案将像素预算分配给了马车 (感兴趣的对象) ,保留了车轮和乘客等精细细节。在图 (b) 中,均匀方案将相同的预算分散到树木和街道上,导致马车变成了一团模糊。

2. 数学表述

为了实现这一点,研究人员定义了一个采样图 \(S\)。令 \(I\) 为原始高分辨率图像。采样图决定了哪些像素被保留 (\(1\)) ,哪些被丢弃 (\(0\)) 。

方程 1: 定义基于图 S 保留哪些像素的采样函数。

样本总数 \(N\) 是所有 \(S(x,y)=1\) 点的总和。实验的严格约束条件是:

\[ \sum S_{\mathrm{var}} = \sum S_{\mathrm{uni}} = N \]

一旦像素被采样,图像实际上就是稀疏的点集。为了将其输入标准架构 (通常期望网格输入) ,研究人员使用插值 (记为 \(\mathcal{I}\)) 重建图像。

方程 2: 使用插值从采样点重建图像。

3. 视觉结果

这对 AI 来说看起来像什么?下面的图 2 展示了一个视觉问答 (VQA) 任务。模型被问到: “人们坐在什么东西前面?

图 2. 视觉问答示例。图 (a) 是原始全分辨率。图 (b) 是可变分辨率,保持飞机清晰。图 (c) 是均匀分辨率,将飞机模糊成无法辨认的团块。

在可变分辨率版本 (b) 中,尽管只有原始像素的一小部分,“飞机”仍然清晰可见,因为采样集中在中心。在均匀版本 (c) 中,飞机模糊得无法辨认,导致模型产生“海洋”的幻觉。

实验与结果

研究人员评估了几种最先进的模型,包括 ViLT、MDETR、BLIP2、InstructBLIP 和 LLaVA 。 他们在 VQAv2、GQA 和 SEED-Bench 等主要数据集上测试了这些模型。

主要的限制非常严格: 3% 的采样密度 。 这意味着模型只允许“看到”原始图像中 3% 的像素。

1. 中央凹化在准确性上胜出

结果在各项测试中都是一致的: 当像素预算紧张时, 可变 (中央凹) 采样优于均匀采样

表 1. VQA 任务的性能指标。在 3% 密度下,可变采样的得分始终高于均匀采样。

表 1 所示:

  • ViLT 在 VQAv2 上: 可变采样得分为 64.9% , 而均匀采样为 62.9%
  • MDETR 在 GQA 上: 可变采样得分为 46.8% , 而均匀采样为 44.1%

虽然这些差距在绝对数值上看起来很小,但在基准测试的世界里,2.7% 的提升是显著的——尤其是考虑到模型没有进行任何架构更改。这纯粹是基于数据呈现方式的改进。

我们可以从图 3 中看到更详细的分类,它显示了 BLIP2 模型在 SEED-Bench 数据集上的雷达图。

图 3. 显示 BLIP2 在不同类别中性能的雷达图。橙色线 (可变) 始终包围灰色线 (均匀) ,显示出在实例定位和视觉推理等类别中的优越性能。

值得注意的是,对于像“实例识别”这样的特定任务,3% 密度的可变模型实际上优于全分辨率基线 。 作者假设周边的模糊起到了自然的注意力机制作用,过滤掉了背景噪声,迫使模型专注于主体。

2. 分辨率的边际收益递减

这篇论文最深刻的发现之一是目前的方法是多么浪费。通过测试从 1% 到 100% 的采样密度,作者绘制了性能比例图。

图 5. 显示准确率与样本密度关系的比例图。图 (a) 显示 LLaVA,图 (b) 显示 MDETR 和 BLIP2。注意急剧上升和早期平台期。

观察图 5 , 注意“MDetr - Variable”曲线 (图 b 中的实心橙色线) 。它急剧上升并在 20-30% 左右开始进入平台期。这表明模型仅使用 3% 的像素就能达到其全部能力的 80%。

这一发现挑战了简单地在更大、更高分辨率图像上训练模型的趋势。它表明 (通过中央凹化保留的) 纹理和细粒度细节比在草地或天空等背景元素上拥有高清像素更为关键。

3. 解决“中心偏差”问题

怀疑的读者可能会问: “可变模型获胜仅仅是因为摄影师通常把主体放在画面中心吗?

这是一个合理的担忧,被称为摄影师偏差 。 为了控制这一点,研究人员进行了消融研究,将注视点移动到图像的角落 (左下、右上等) 。

表 2. MDETR 在 GQA 上使用角落注视点的性能。即使注视点移动到角落 (BL, BR, TL, TR) ,可变采样仍然优于均匀采样。

表 2 显示了结果。即使高分辨率的“中央凹”被移动到角落 (远离可能的中心主体) ,可变方法仍然优于均匀方法 (45.2% 对 44.1%) 。

此外,他们还针对目标检测进行了“分箱实验” (见下图 4) 。他们根据物体实际位于高分辨率区域 (HRA) 内的比例来衡量性能。

图 4. 分箱实验。图 (b) 显示,只要有一小部分 (10-20%) 物体处于高分辨率区域内,可变模型 (绿线) 就优于均匀模型 (黄线) 。

图 4b 中的图表显示,一旦约 10% 的物体进入高分辨率中央凹,可变模型就占据主导地位。均匀模型只有在物体几乎完全处于模糊的边缘时才会获胜——这是一种罕见的边缘情况。

可解释性: 开发“人类”大脑?

这篇论文最引人入胜的部分也许是探索模型的内部状态。给神经网络输入中央凹图像会改变它的“思考”方式吗?

作者分析了 MDETR (一种基于 Transformer 的检测模型) ,看看它的注意力机制是如何适应的。

1. 全局注意力

在视觉 Transformer 中,“自注意力 (Self-Attention) ”计算图像的一个部分与另一部分的相关程度。作者定义了注意力距离 (Attention Distance) (\(d_i\)) 来衡量特定 Token 正“看”向图像多远的地方。

方程 3: 计算注意力距离的公式。

较高的 \(d_i\) 意味着模型正在整合来自图像远处部分的信息 (全局语境) 。

分析显示,使用可变采样训练的模型在周边 Token 上发展出了显著更长的注意力距离 。 本质上,因为周边是模糊的,模型学会了向清晰的中心寻求语境,从而在“中央凹”和“周边”之间建立了强大的信息流。

2. 神经元选择性

在卷积主干 (ResNet) 中,作者寻找分辨率选择性 。 在生物大脑中,有些神经元只对高频细节放电,而其他神经元则对低频形状放电。

图 6. 可解释性可视化。顶行 (a-c) 显示注意力图;注意 (b) 中的分布更广。中行 (d-f) 显示核滤波器。底行 (g-h) 显示神经元激活直方图。

图 6 提供了这种现象的全面视图:

  • 图 a, b, c: 红点代表周边 Token。在可变模型 (b) 中,注意力图 (热图) 比在均匀模型 (c) 中扩散得更广。
  • 图 h: 这个直方图比较了高分辨率裁剪 (蓝色) 与低分辨率裁剪 (橙色) 上的激活情况。这种分离表明,特定的神经元已经特化为仅在遇到高分辨率细节时触发——这种行为在人类视觉皮层中可以观察到,但在标准 CNN 中通常不存在。

结论与未来启示

这项名为“Seeing more with less”的研究为重新思考机器如何“看”提供了强有力的信息论论据。主要结论如下:

  1. 效率: 如果我们进行智能 (中央凹) 采样,我们可以丢弃图像中近 97% 的像素,仍保留约 80% 的模型性能。
  2. 性能: 在严格的带宽限制下,中央凹图像比均匀缩小的图像产生更高的准确性。
  3. 硅基生物学特性: 中央凹输入自然地诱发出类似人类的处理特征,如全局注意力和分辨率特异性神经元,而无需显式编程。

为什么这很重要? 随着我们将 AI 推向“边缘”——部署在微型无人机、可穿戴眼镜和远程传感器上——带宽和功耗是最终的制约因素。我们不能总是依赖大型服务器和 5G 连接。通过采用中央凹化的生物学策略,我们可以构建不仅更快、更轻,而且出人意料地更健壮的系统。

这篇论文表明,计算机视觉的未来可能不仅仅在于更大的模型,还在于像我们一样知道该往哪里看的模型。