引言

如果你曾尝试向 LLaVA 或 GPT-4V 这样的大型多模态模型 (MLLM) 询问一张巨幅全景照片中微小细节的问题,你可能已经注意到了一个令人沮丧的现象: 模型经常会产生幻觉,或者干脆说它看不到那个物体。

原因在于架构设计。虽然模型在智能程度上已经大幅扩展,但它们的“眼睛”往往受到限制。大多数 MLLM 为了节省计算成本,会将输入图像调整为固定的低分辨率 (通常是 \(336 \times 336\) 或 \(448 \times 448\) 像素) 。对于一张高分辨率 (HR) 图像——比如一张 8K 照片——这种下采样是灾难性的。它引入的形状畸变和模糊会抹去执行光学字符识别 (OCR) 或视觉定位等任务所需的细粒度细节。

为了解决这个问题,研究人员过去主要依赖启发式的裁剪 (将图像切割成固定网格) 或复杂的滑动窗口搜索。然而,这些方法往往会丢失全局上下文或导致计算量过大。

在最近的一篇论文 Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG 中,研究人员提出了一种范式转变。他们不再将高分辨率感知仅仅视为视觉处理任务,而是将其作为一个长上下文检索问题来处理。通过将自然语言处理领域著名的检索增强生成 (RAG) 技术应用于视觉领域,他们在不重新训练底层模型的情况下,显著提高了准确性。

RAP 框架概览及性能对比。

如图 1 所示,该框架被称为检索增强感知 (RAP) , 它能动态地检索相关的图像切片,并以一种保留空间上下文的方式重构它们,从而在不同规模的模型上都实现了巨大的性能提升。

背景: 分辨率瓶颈

当前的 MLLM 由一个视觉编码器 (如 CLIP 或 SigLIP) 和一个大语言模型 (LLM) 组成。视觉编码器将图像转换为“视觉 token”,LLM 将其与文本一起处理。

如果你将一张 8K 图像直接输入标准的 Vision Transformer (ViT),可能会生成约 300,000 个视觉 token。对于大多数 LLM 来说,这种序列长度的计算成本高得令人望而却步。标准的解决方案是调整图像大小,这对于描述日落可能没问题,但当被问及“角落里那张小邮票上写的日期是什么?”时,这种方法就失效了。

现有方法及其局限性

  1. 基于裁剪的方法: 将图像分割成网格。虽然这保留了细节,但 token 数量线性增加,且往往会破坏位于切片边界上的物体。
  2. 基于搜索的方法: 像地图一样处理图像,逐步放大。然而,它们通常从低分辨率概览图开始。如果小物体在概览图中不可见,搜索路径会立即失败。

RAP背后的研究人员提出了一个根本性的问题: 我们能否像增强文本 LLM 那样,利用 RAG 来增强 MLLM 的长上下文能力?

先导研究: 如何实现视觉 RAG?

为图像实现 RAG 并不像检索文本块那么简单。图像是二维的空间数据。研究人员在构建框架之前进行了一项先导研究,以回答两个关键问题。

1. 布局重要吗?

在文本 RAG 中,你通常可以将检索到的段落按顺序粘贴。但在视觉中,如果你从图像中检索三个切片——左上角、右下角和中心——并将它们作为一个序列输入模型,模型就会失去对这些切片相对位置关系的理解。

研究人员测试了三种策略:

  1. 按检索分数 (相关性) 排序。
  2. 按原始顺序排序。
  3. 保留相对空间位置。

表格展示了不同布局策略的影响。

如表 1 所示,策略 3 (保留位置) 至关重要。虽然简单的检索有助于寻找单个物体 (细粒度单实例感知,即 FSP ),但除非保留空间布局,否则会损害模型理解物体间关系的能力 (细粒度跨实例感知,即 FCP )。

2. 我们应该检索多少个切片 (\(K\)) ?

在 RAG 中,检索文档的数量 (\(K\)) 是一个超参数。在视觉 RAG 中,\(K\) 代表图像切片的数量。

基于切片数量的 FSP 和 FCP 任务性能图表。

图 2 的结果揭示了一个权衡:

  • 对于 FSP (寻找单一物体) : 较小的 \(K\) 更好。添加过多的切片会引入噪声和分辨率开销。
  • 对于 FCP (关系) : 需要较大的 \(K\) 来捕获物体之间的上下文。

这意味着固定的 \(K\) 是次优的。系统需要根据查询动态决定检索多少视觉信息。

核心方法: 检索增强感知 (RAP)

基于这些见解,作者提出了 RAP , 这是一个无需训练的框架,由三个主要阶段组成:

  1. VisRAG: 检索相关切片。
  2. 空间感知布局 (Spatial-Awareness Layout): 在保持相对位置的同时压缩图像。
  3. RE-Search: 一种寻找最佳 \(K\) 的自适应算法。

让我们来拆解一下这个架构。

RAP 工作流程的详细图解。

第一步: 使用 VisRAG 进行检索

首先,高分辨率图像被划分为一组切片 \(V\)。系统将用户的文本问题视为查询 \(q\)。利用视觉检索器 (如 VisRAG 或 SigLIP) ,系统计算查询与每个图像切片之间的相似度分数。

相似度分数 \(s(q, V)\) 定义为:

相似度分数计算公式。

这一步过滤掉了噪声。模型不再处理整张图像,而是只关注与问题语义相关的区域。

第二步: 空间感知布局

一旦选出了前 \(K\) 个切片,我们不能简单地将它们拼接起来。我们必须将它们作为一个连贯的图像呈现给 MLLM,以保留空间推理能力 (例如“在…左边”、“在…上方”) 。

研究人员引入了空间感知布局 。 他们用一个二进制矩阵 \(M\) 来表示选中的切片,其中 \(1\) 表示选中的切片,\(0\) 表示空白空间。为了创建一个高效的输入图像,他们通过移除全为空 (零) 的行和列来压缩这个矩阵。

压缩矩阵的索引计算如下:

压缩矩阵索引的公式。

通过将选定的切片映射到这个压缩网格中,相对位置得以保持——在原图中位于另一个切片左上方的切片,在合成图像中仍然位于左上方——但与完整的原始图像相比,整体分辨率显著降低。

由于不同的问题需要不同程度的细节 (不同的 \(K\)) ,RAP 使用了一种名为 RE-Search 的自适应搜索算法。其灵感来自于 A* 搜索算法。

该算法构建了一棵“RE-Tree”。树中的每个节点代表一个用不同切片保留比例 (例如前 10%、前 20%、前 50%) 构建的图像版本。

为了在这棵树中导航并找到最佳节点 (图像版本) ,RAP 计算一个成本函数 \(f(t)\),平衡两个因素:

  1. 相关性: 切片与查询的相似度如何?
  2. 置信度: 给定这些切片,MLLM 有多大信心能回答这个问题?

相关性成本 (\(g\)) 是保留切片的平均相似度分数:

相关性成本 g 的公式。

启发式成本 (\(h\)) 估计我们距离得到好答案还有多远。它利用 MLLM 自身的置信度。系统向模型提示: “你能根据现有的视觉信息回答这个问题吗?回答 Yes 或 No。” “Yes”的概率会降低成本:

启发式成本 h 的公式。

最后,这些被组合成总成本函数 \(f(t_s)\)。权重是动态变化的: 在较浅的深度 (切片较少) ,模型的置信度不可靠,因此系统更多地依赖检索分数。随着树的加深 (视觉上下文更多) ,模型的置信度成为主要的指导。

动态权重 \(w\) 和最终成本函数定义为:

动态权重 w 的公式。

总成本函数 f 的公式。

当模型的回答置信度超过阈值 (例如 0.6) 时,搜索终止,从而确保效率。

实验与结果

研究人员在 \(V^*\) BenchHR-Bench (4K 和 8K 分辨率) 等具有挑战性的基准上评估了 RAP。

定量性能

改进是巨大的。如表 2 所示,RAP 将开源模型 (如 LLaVA-v1.5 和 v1.6) 的性能提升到了在特定任务上可以与 GPT-4o 等闭源巨头相媲美甚至超越的水平。

RAP 与最先进模型对比的表格。

例如:

  • LLaVA-v1.5-7B 在 HR-Bench 8K 上的整体准确率从 32.1% 跃升至 53.8%
  • \(V^*\) Bench 的得分对于 7B 模型来说几乎翻了一番。

与其他搜索方法的比较

RAP 与其他试图解决高分辨率问题的方法 (如 Zoom Eye 或 \(DC^2\)) 相比如何?

RAP 与 Zoom Eye 和 DC2 对比的表格。

表 8 显示 RAP 始终优于这些方法。具体而言,在 LLaVA-v1.5-7B 模型上,RAP 实现了相对于基线 +27.0% 的增益,而 Zoom Eye 为 +22.5%。这表明“检索”比分层“缩放”更有效。

效率

人们可能会认为搜索最佳切片数量很慢。然而,由于 VisRAG 并行计算所有切片的相似度,且搜索树很浅,RAP 非常高效。

展示效率分析的表格。

表 5 证明 RAP 实际上实现了比 Zoom Eye (3.3) 和 \(DC^2\) (2.1) 更高的吞吐量 (4.2 样本/分钟) ,同时也提供了更高的准确性。

\(K\) 的自适应选择

RE-Search 真的有效吗?选定 \(K\) 值的分布证明了系统能适应任务难度。

选定 K 值的分布。

图 4 显示,对于 FSP 任务 (寻找单个物体) ,分布倾向于较小的 \(K\) 值。对于 FCP 任务 (关系) ,系统会自动选择较大的 \(K\) 值,证实了先导研究中的假设。

定性分析

通过例子最能理解 RAP 的威力。

示例 1: 单实例感知 在图 7 中,模型被要求识别背景中一个小牌子上的数字。

单实例任务的定性对比。

  • Zoom Eye: 失败了,因为它的搜索路径切断了文本“08-26”,只剩下“08-”。
  • RAP: 检索到了包含牌子和文本的具体切片,使 MLLM 能正确读出“08-26”。

示例 2: 跨实例感知 在图 8 中,查询询问石冢相对于瀑布的位置。

跨实例任务的定性对比。

  • Zoom Eye: 检索到了石冢的切片,但丢失了瀑布的上下文,导致产生幻觉般的方向性回答 (“在左边”) 。
  • RAP: 利用空间感知布局,它检索到了石冢和瀑布的切片,并保持了它们的相对位置。模型正确识别出石冢位于“右下角”。

消融实验: 什么最重要?

作者分解了 RAP 中每个组件的贡献。

消融实验表格。

  • 基线 (Baseline): 32.1% 准确率。
  • + VisRAG: 仅使用检索显著提升了 FSP,但损害了 FCP (由于丢失了空间信息) 。
  • + 空间布局 (SL): 修复了 FCP 的下降,略微提高了整体得分。
  • + RE-Search: 跃升至 53.8% 的巨大提升来自于动态选择 \(K\)。这证实了使用固定数量的切片是一个主要瓶颈。

结论

论文 Retrieval-Augmented Perception 提出了一个令人信服的观点: 我们要解决高分辨率视觉问题,并不一定需要更大的上下文窗口或更重的编码器。相反,我们可以将视觉细节视为可检索的信息。

通过结合用于相关性的 VisRAG、用于上下文的空间感知布局和用于适应性的 RE-Search , RAP 使标准 MLLM 能够“看到”以前对它们来说不可见的 8K 图像细节。这种方法不仅大幅提高了准确性 (在某些基准上高达 43%) ,而且效率很高,无需昂贵的训练。

随着多模态模型继续融入现实世界的应用——从分析卫星图像到阅读密集文档——像 RAP 这样的技术将在弥合像素数量与真实感知之间的鸿沟中发挥至关重要的作用。