简介

想象一下你在高速公路上开车。在远处,你发现了一个路标。为了看清上面的文字,你的眼睛会自然地聚焦在那一小块特定区域,以高清晰度感知它,而你的周边视觉则保持较低的分辨率。你不会用同样的微观强度去处理整个风景;那会让你的大脑不堪重负。你会分清主次。

然而,目前的人工智能并不是这样工作的。

大多数现代视觉语言模型 (VLMs) ,比如支持 GPT-4o 或 Gemini 的那些,在处理高分辨率输入时都很吃力。标准的视觉编码器 (如 CLIP 或 SigLIP) 通常是在低分辨率下进行预训练的,通常在 \(378 \times 378\) 像素左右。当这些模型面对 4K 图像时,它们要么对其进行下采样——把远处的路标变成一团模糊的像素——要么尝试以高分辨率处理整张图像,导致计算成本呈爆炸式增长。

这就是分辨率壁垒。

在一篇题为 “Scaling Vision Pre-Training to 4K Resolution” (将视觉预训练扩展至 4K 分辨率) 的新论文中,来自加州大学伯克利分校和 NVIDIA 的研究人员介绍了一种突破性的解决方案,称为 PS3 (Pre-training with Scale-Selective Scaling,尺度选择性缩放预训练) 。

SigLIP 和 PS3 方法的比较。左图: PS3 选择性地处理相关 Patch (如停车标志) 。右上: PS3 将计算成本降低了 79 倍。右下: VILA-HD 的表现优于 Qwen2.5-VL。

如图 1 所示,PS3 不像传统模型那样试图一次性吞下整张图像,而是模仿人类的视觉。它以低分辨率对全局上下文进行编码,然后选择性地“放大”重要的部分。这种方法允许以近乎恒定的计算成本在 4K 分辨率下进行预训练,从而解锁了能够看清细节的新一代多模态大语言模型 (MLLMs) 。

问题: 清晰度的代价

为什么我们不直接在 4K 图像上训练模型呢?答案在于视觉 Transformer (ViTs) 的架构。

视觉 Transformer 的计算成本随着图像分辨率的增加呈二次方 (甚至四次方) 增长。如果你将图像大小加倍,所需的计算量不仅仅是加倍;它是激增。这使得在高于 1K 的分辨率上进行预训练只有最大的科技巨头才可能实现,即使这样,效率也极低。

现有的变通方法,如 AnyResS\(^2\) , 试图通过采用低分辨率预训练模型并在推理过程中将高分辨率图像分割成“图块 (tiles) ”来修补这个问题。虽然这有所帮助,但这只是次优解,因为视觉编码器在训练阶段从未真正学会看高分辨率图像。这就像试图教人看显微地图,而他们只练习过看大字体的书。

解决方案: PS3 (尺度选择性缩放预训练)

PS3 的核心洞察是尺度选择性 (Scale-Selectivity)

研究人员认为,要理解高分辨率图像,你不需要将整张高分辨率图像与全局标题进行对比。相反,你只需要将局部高分辨率区域局部详细标题对齐。

如果图像包含一个小的“Stop”标志,模型只需要提取标志周围的高分辨率特征并将它们与文本“Stop”匹配。它不需要以 4K 分辨率处理标志上方空旷的天空。这成功将计算成本与图像分辨率解耦。

为了实现这一点,作者必须在三个支柱上进行创新: 数据、模型架构和训练算法。

1. 数据流水线

如果你的训练数据只包含像“街道场景”这样的全局标题,你就无法学习高分辨率细节。你需要针对特定微小区域的特定标签。

由于不存在这种规模的数据集,研究人员构建了一个。他们收集了 7500 万张高分辨率图像 (自然场景和文档) ,并创建了一个自动化流水线来生成 2.82 亿对 局部边界框和详细标题。

数据策展流水线。图像被分割,显著区域被检测出来,然后 MLLM 为这些特定的裁剪区域生成标题。

如图 2 所示,该流水线分三步工作:

  1. 分割一切 (Segment Everything) : 使用分割模型识别所有对象。
  2. 显著区域检测 (Salient Region Detection) : 识别具有小掩码或密集掩码的区域 (这通常表示高细节) 。
  3. 局部描述 (Local Captioning) : 使用单独的 MLLM (如 Qwen2-VL) 观察裁剪区域,并根据全局上下文对其进行详细描述。

结果是一个训练集,模型被明确告知细节在哪里以及它们是什么

预训练数据示例。图像显示了一个自助餐设置,带有特定的边界框,并为横幅文本等特定元素生成了标题。

2. 模型架构

PS3 模型的设计初衷是高效。它不仅仅处理像素;它决定处理哪些像素。该架构分为三个阶段:

PS3 的模型架构。阶段 1 提取全局低分辨率特征。阶段 2 根据显著性或文本提示选择 Patch。阶段 3 使用 KV 缓存处理高分辨率特征。

  • 阶段 1: 低分辨率特征提取: 模型以标准的低分辨率 (\(378 \times 378\)) 观察整张图像。这给它提供了场景的“大意”。
  • 阶段 2: Patch 选择: 这是操作的大脑。模型预测不同区域的“选择分数”。这种选择可以是:
  • 自顶向下 (Top-Down) : 由文本提示引导 (例如,“找到车牌”) 。
  • 自底向上 (Bottom-Up) : 由视觉显著性引导 (例如,“看繁忙/细节丰富的部分”) 。
  • 阶段 3: 高分辨率特征提取: 模型抓取选定区域的高分辨率 Patch。关键是,它使用了一个低分辨率 KV 缓存 (Low-Res KV Cache) 。 这将高分辨率 Patch 连接回阶段 1 的全局低分辨率上下文,确保模型知道它正在看图像的哪个位置

3. 训练算法

你如何训练一个模型去“放大”?研究人员使用了双目标方法。

预训练算法。(a) 局部特征与标题之间的对比学习。(b) & (c) 自顶向下和自底向上 Patch 选择的监督。

  1. 局部对比学习 (Localized Contrastive Learning) : 模型从局部区域提取特征,并尝试将它们与该区域标题的嵌入进行匹配 (图 5a) 。为了保持模型的基础能力,他们将其与标准的全局图像-文本对比学习混合使用。
  2. 选择监督 (Selection Supervision) : 模型被明确训练去选择“正确”的 Patch。利用数据阶段生成的边界框,模型学会为包含显著对象或匹配文本提示的区域预测高分 (图 5b & 5c) 。

这种选择机制的定性结果令人印象深刻。如下所示,模型学会了准确地聚焦在人类为了回答特定问题会看的地方。

Patch 选择的定性示例。模型根据文本查询高亮显示特定区域 (如球衣号码或标志) 。

VILA-HD: 高分辨率助手

PS3 只是视觉编码器——也就是“眼睛”。为了使其发挥作用,研究人员将其接入大语言模型,创建了 VILA-HD

在这个设置中,LLM 充当控制器。当用户提出问题时,LLM 首先处理低分辨率图像特征。然后,它利用用户问题的语义含义来驱动 PS3 中的自顶向下 Patch 选择

VILA-HD 的模型设计。系统提取低分辨率特征,将其发送给 LLM,并利用 LLM 的上下文选择高分辨率 Patch 进行第二轮处理。

例如,如果你提供一张商店货架的 4K 图像并问,“牛奶的价格是多少?”,VILA-HD 会:

  1. 扫描低分辨率图像。
  2. 利用“价格”和“牛奶”这两个词来识别相关的货架区域。
  3. 仅请求该区域的高分辨率 Patch。
  4. 读取价格标签。

这使得 VILA-HD 能够处理巨大的图像,同时比 AnyRes 等基线方法使用的 Token 少 4.3 倍

为了微调 VILA-HD,研究人员也必须非常聪明。标准数据集都是低分辨率的。为了教模型将高分辨率特征与文本对齐,他们通过将小的低分辨率图像粘贴到大的空白画布上,创建了合成的“高分辨率 VQA”数据,迫使模型找到并处理那个小的“高分辨率”区域 (图 8) 。

微调数据的生成。左: 从局部标题创建问题。右: 通过将图像粘贴到大背景上来合成高分辨率 VQA 数据。

缩放特性: 事半功倍

论文中最令人兴奋的发现之一是 PS3 的缩放行为。由于该模型将图像分辨率计算成本分开,它解锁了“免费缩放”。

缩放特性。(a) 随着分辨率增加,PS3 优于基线。(b) 恒定成本缩放显示出效率。(c) 以计算换取性能。

  • 全图缩放 (图 9a) : 随着输入分辨率的增加,PS3 的性能提升速度远快于 SigLIP 或 AnyRes 等基线。
  • 恒定成本缩放 (图 9b) : 即使你限制模型处理固定数量的 Token (保持速度恒定) ,增加输入分辨率仍然能提高性能。为什么?因为模型变得更聪明了,能从更高质量的源图像中选择更好的 Patch。
  • 测试时缩放 (图 9d) : 你可以使用有限的 Patch “预算”来训练模型,但在测试时让它使用更多的 Patch,从而在不重新训练的情况下获得更好的结果。

4KPro 基准测试

在研究过程中,作者意识到了一个问题: 大多数“高分辨率”基准测试实际上并不需要高分辨率。你用 1K 图像就能解决它们。

为了证明 4K 预训练的价值,他们推出了 4KPro , 这是一个涵盖自动驾驶、家庭场景、游戏和 UI 理解的新基准测试。这些任务的最小可识别分辨率 (MRR) 确实是 4K。

各基准测试的最小可识别分辨率 (MRR) 比较。4KPro 是唯一真正需要 2K-4K 分辨率的基准测试。

在 4KPro 上,差异是显而易见的。VILA-HD 取得了最先进的结果,优于 GPT-4o 等专有巨头和 Qwen2.5-VL 等开源领跑者。

来自 4KPro 的示例。VILA-HD 正确识别了其他模型失败的微小细节 (如高速公路出口编号或 UI 元素) 。

图 11 (上图) 中的视觉示例显示,VILA-HD 正确识别了高速公路出口编号 (“72A”) 和特定的 RAM 使用百分比 (“82%”) ,而其他模型则出现幻觉或失败。

在定量方面,VILA-HD 在该基准测试上比 GPT-4o 提高了 16.1% , 比 Qwen2.5-VL 提高了 7.5% , 同时运行速度显著更快。

可视化: 更敏锐的眼睛

PS3 真的能“看”到更好的特征吗?研究人员使用 PCA (主成分分析) 可视化了内部特征图。

特征图的 PCA 可视化。左/中: 基线显示模糊或嘈杂的特征。右: PS3 显示清晰、精细的细节,可识别单个文本字符。

如图 14 所示,AnyRes 等基线在拉伸到 4K 时会产生嘈杂或模糊的特征图。然而,PS3 产生了清晰、连贯的特征,清楚地描绘了小物体和文本字符。

效率 vs. 剪枝

最后,论文将 PS3 与“Token 剪枝”方法进行了比较——这些技术试图通过在视觉编码器处理之后删除图像中“不重要”的部分来使模型更快。

与 Token 剪枝方法的比较。PS3 提供了更低的延迟和更高的准确性,因为它在输入阶段而不是处理后进行剪枝。

表 6 强调了 PS3 的优势。因为 PS3 在繁重处理之前选择 Patch (自顶向下选择) ,它节省了视觉编码器和 LLM 的计算量。剪枝方法仍然必须先在整张图像上运行视觉编码器,导致更高的延迟。PS3 是唯一能够在不发生内存溢出 (OOM) 的情况下处理 4K 分辨率的方法。

结论

关于“Scaling Vision Pre-Training to 4K Resolution”的论文标志着多模态 AI 向前迈出了重要一步。通过摆脱处理每个像素的暴力方法,采用类似人类的中央凹注意力 (foveal attention) 策略——扫描整体但聚焦局部——PS3 打破了二次方成本壁垒。

由此产生的模型 VILA-HD 证明了:

  1. 分辨率很重要: 现实世界的任务 (驾驶、阅读屏幕) 需要 4K。
  2. 选择很重要: 我们不需要处理天空来阅读路标。
  3. 预训练很重要: 通过平铺低分辨率模型来“伪造”高分辨率是不够的;模型需要从一开始就学习高分辨率特征。

随着我们迈向能够与复杂的计算机 UI 交互或在混乱的现实世界环境中导航的 AI 代理,像 PS3 这样高效的高分辨率视觉将成为必不可少的基石。