引言
想象一下,你正试图在拥挤的体育场里寻找一位特定的朋友。你不会一次性盯着整个体育场看并指望能瞬间处理每一张面孔。相反,你的眼睛会四处游移。你会扫描各个区域,聚焦在一群穿着正确颜色球衣的人身上,放大到具体的一排,并过滤掉周围的干扰。这种认知机制被称为视觉搜索 , 它是人类与世界互动的基础。我们会动态地调整焦点,过滤掉无关信息,专注于重要内容。
对于大型多模态模型 (LMMs) ——即驱动 GPT-4V 或 LLaVA 等工具的 AI 系统——这个过程却出奇地困难。大多数 LMM 以静态方式处理图像。它们要么将高分辨率图像缩小到固定尺寸 (丢失关键细节) ,要么将其切割成固定的补丁 (丢失全局上下文) 。当被要求寻找一个小物体或回答关于混乱场景的详细问题时,这些模型经常会产生“幻觉”——它们自信地声称看到了并不存在的东西,因为它们无法有效地“放大”或过滤掉视觉噪声。
今天,我们将深入探讨一篇引人入胜的论文,题为 “DyFo: A Training-Free Dynamic Focus Visual Search for Enhancing LMMs in Fine-Grained Visual Understanding” (DyFo: 一种用于增强 LMM 细粒度视觉理解的免训练动态聚焦视觉搜索) 。研究人员提出了一种名为 DyFo (Dynamic Focus,动态聚焦) 的新方法,让 LMM 能够模拟人类的视觉搜索。最棒的是什么?它无需训练 。 通过协调智能 LMM 与专门的“视觉专家”模型之间的协作,DyFo 允许 AI 动态探索图像,聚焦相关区域,并以显著更高的准确率回答细粒度问题。

如图 1 所示,标准 LMM (a) 经常遗漏微小细节,例如自行车上的人。之前的尝试如 SEAL (b) 试图解决这个问题,但需要昂贵的微调。DyFo (c) 则通过智能搜索过程成功定位了目标,而无需修改底层模型权重。
背景: 分辨率与注意力的难题
要理解为什么 DyFo 是必要的,我们首先需要看看当前 LMM 的局限性。
权衡: 上下文与细节
当 LMM 处理图像时,通常使用像 ViT (视觉 Transformer) 这样的编码器。这些编码器通常具有固定的输入分辨率 (例如 336x336 像素) 。如果你将繁忙街道的 4K 图像输入到这个模型中,图像会被压缩,将小物体变成无法辨认的模糊点。这导致了物体幻觉 , 即模型基于概率而非视觉证据来猜测模糊区域中的内容。
一些较新的模型,如 LLaVA-Next 或 Qwen2-VL,试图通过“分块 (patching) ”来解决这个问题——将图像切割成瓷砖状。然而,盲目增加分块数量引入了一个新问题: 信息过载 。 在混乱的场景中,90% 的图像可能是无关背景。将所有这些都输入模型会产生干扰,使 AI 混淆,实际上反而增加了幻觉率。
现有方案及其缺陷
已经有人尝试赋予 LMM “眼睛”以便四处观察。像 SEAL 这样的方法通过添加定位模块 (输出边界框或热图的工具) 和“视觉工作记忆”来集成视觉搜索。虽然有效,但 SEAL 有一个主要缺点: 它需要微调 。 你必须专门训练模型来使用这些工具,这涉及收集昂贵的数据集并消耗大量的计算资源。此外,如果出现了一个新的、更好的 LMM (如 Qwen2-VL) ,你必须重新开始整个训练过程。
这引出了 DyFo 的核心创新点: 我们能否使用现成的模型,在无需任何训练的情况下实现动态视觉搜索?
核心方法: 动态聚焦 (DyFo)
DyFo 旨在充当两种 AI 模型之间的桥梁:
- 大型多模态模型 (LMM) : “大脑”。它理解用户的问题,推理图像内容,并决定下一步看哪里。 (例如 LLaVA, Qwen-VL) 。
- 视觉专家 (Visual Expert) : “眼睛”。这些是专门的模型 (如 Grounding DINO 或 SAM) ,擅长根据文本提示检测物体,但缺乏深度推理能力。
DyFo 使用受蒙特卡洛树搜索 (MCTS) 启发的框架将这两者结合起来。它将寻找正确视觉区域的过程视为一种游戏,模型必须选择最佳的“动作” (焦点转移) 以最大化“奖励” (找到答案) 。

如图 2 所示,该框架由两大支柱组成: 聚焦调节器 (Focus Adjuster) 和聚焦树搜索 (Focus Tree Search) 。 让我们逐一拆解。
1. 聚焦调节器 (The Focus Adjuster)
聚焦调节器是让 LMM 和视觉专家相互对话的机制。它创建了一个交互闭环。
这是一个迭代过程。我们定义一个“聚焦状态” \(f = (I, T)\),其中 \(I\) 是当前的图像区域 (原始图像的裁剪) ,\(T\) 是与之相关的文本描述或查询。更新循环如下工作:
- LMM 的回合: LMM 查看当前图像区域 (\(I\)) 和当前问题。它生成一个新的文本指令 (\(T\)),说明下一步要寻找什么。
- 视觉专家的回合: 视觉专家接收这个文本指令 (\(T\)) 并扫描图像以找到匹配的物体。它将图像裁剪到该区域,创建一个新的图像输入 (\(I\))。
- 更新: 这创建了一个新的聚焦状态。
在数学上,作者将这个更新循环定义为:

这里,\(L\) 代表 LMM,\(E\) 代表视觉专家。\(A^i\) 代表正在采取的“动作”。
动作空间 (The Action Space)
为了模拟人类的眼睛,DyFo 不仅仅是随机裁剪图像。它使用特定的动作 (\(A\)) 来模拟人类的认知反射:
- 语义聚焦 (\(A_1\)) : 这模拟了“结合搜索”。模型主动寻找查询中提到的物体 (例如,“找到红色的公共汽车”) 。
- 语义发散 (\(A_2\)) : 这模拟了“发散”。如果焦点太紧,模型会稍微缩小 (zoom out) 以捕获上下文,确保没有错过周围的细节。

图 3 可视化了这个循环。注意“上下文” (问题) 如何驱动 LMM 生成提示,进而驱动视觉专家改变视觉输入,最后循环回 LMM。
2. 聚焦树搜索 (MCTS)
如果我们只遵循上面的循环,模型可能会陷入“死胡同”,聚焦在错误的物体上而无法返回。为了防止这种情况,DyFo 使用了蒙特卡洛树搜索 (MCTS) 。
MCTS 构建一棵“聚焦树”。树的根节点是原始完整图像。每个分支代表聚焦于特定子区域的一个决策。目标是探索这棵树,找到能为用户问题提供最佳答案的节点 (区域) 。
选择: 平衡探索与利用
在每一步,算法必须决定: 我应该继续调查这个有希望的区域 (利用) ,还是应该尝试一个我还没看过的不同区域 (探索) ?
为了做出这个决定,DyFo 使用置信上限 (UCT) 公式。对于给定的聚焦节点 \(f\),算法选择下一个动作 \(a^*\) 以最大化:

- \(Q(f, a)\): 采取动作 \(a\) 的预期质量 (奖励) 。这代表利用——坚持有效的方法。
- 平方根项: 这代表探索 。 \(N(f)\) 是父节点被访问的次数,\(N(c(f,a))\) 是这个特定子节点被访问的次数。如果一个节点没怎么被访问过,这个项就会很大,鼓励模型去尝试它。
奖励与反向传播
模型如何知道一个聚焦区域是否是“好”的?它需要一个奖励函数 (Reward Function, \(R\)) 。
在强化学习中,奖励通常来自外部环境。在这里,环境就是图像本身。作者设计了一个巧妙的“基于共识的奖励”。如果 LMM 和视觉专家达成一致,则认为该聚焦区域是好的。
如果视觉专家根据文本“红车”裁剪了图像,而 LMM 看着那个裁剪图并独立地说“这是一辆红车”,我们就实现了匹配。
奖励函数定义为:

- \(\mathbb{I}_{\{I=T\}}\) 是一个指示函数,如果图像内容与文本匹配则为 1,否则为 0。
- \(\frac{s_{f^{i}}}{s_{o}}\) 是裁剪面积与原始面积的比率。这一项惩罚模型过度放大到无关紧要的像素,鼓励它找到最大的相关区域。
一旦到达叶节点,累积的奖励会向上传播回树中,更新所有父节点的 \(Q\) 值:

3. 多粒度投票
搜索结束后,我们会得到一棵充满不同聚焦区域的树,每个区域都有不同的场景视图。DyFo 不仅仅是挑选单一的“最佳”节点,而是使用投票机制 。
它聚合来自不同节点的答案,并按其奖励 (\(R_f\)) 进行加权。这确保了最终答案既考虑了广泛的上下文 (来自树上层的节点) ,也考虑了精细的细节 (来自树下层的节点) 。

这种投票策略至关重要,因为它防止模型在聚焦局部细节 (“勺子是银色的”) 时丢失全局线索 (“场景是厨房”) 。
实验与结果
研究人员对 DyFo 进行了广泛测试,主要回答两个问题: 它能减少幻觉吗?它能提高细粒度细节识别能力吗?
减少幻觉 (POPE 基准测试)
POPE 基准测试评估模型声称物体存在但实际上不存在的频率。它使用三种设置: 随机 (Random) 、流行 (Popular,数据集中经常出现的物体) 和对抗 (Adversarial,经常与存在的物体共现但实际不存在的物体) 。
结果如下表 1 所示,令人信服。

POPE 关键结论:
- 持续的增益: DyFo 几乎在所有类别中都提高了 LLaVA-1.5 (固定分辨率) 和 Qwen2-VL (动态分辨率) 的性能。
- 精确率与召回率: 看看 LLaVA1.5 的“对抗 (Adversarial) ”设置。准确率从 81.83 跃升至 83.40。这证实了主动搜索视觉证据可以防止模型仅因为物体“应该”在那里就产生幻觉。
我们可以在图 4 中看到一个直观的例子。

在棒球的例子 (右侧) 中,标准模型 (LLaVA 和 Qwen) 未能看到棒球棒,因为它很小且偏离中心。它们回答“No”。然而,DyFo 主动搜索,定位了球棒 (红框) ,并正确回答“Yes”。
细粒度理解 (V* Bench)
V Bench* 是一个专门针对高分辨率图像和小细节设计的困难基准测试。它询问有关属性 (颜色、材质) 和空间关系的问题。

V Bench 关键结论:*
- 击败基线: 查看表 3 中的“Overall (整体) ”列。DyFo-L (使用 LLaVA) 得分 59.16% , 显著高于基础版 LLaVA-1.5 的 48.68% 。
- 超越基于训练的方法: 最令人印象深刻的是,DyFo-Q (使用 Qwen) 达到了 81.15% , 击败了 SEAL (75.39%) 。 请记住,SEAL 需要专门的微调和额外模块。DyFo 基本上通过编排现有模型“开箱即用”地实现了这一结果。
图 5 展示了这在现实场景中为何重要。

在左图中,用户询问手套的材质。手套只是图像的一小部分。标准模型猜测“棉 (Cotton) ” (一个安全、常见的猜测) 。DyFo 放大手部,看到了纹理,并正确识别为“橡胶 (Rubber) ”。在右图中,它正确识别了海报上风格化的“鸽子 (Dove) ”,而其他模型将其误认为是马或狗。
为什么是 MCTS? (消融实验)
你可能会问: 我们真的需要复杂的树搜索吗?难道不能只裁剪一次图像就结束吗?
研究人员对此进行了测试。他们将 MCTS 与其他搜索算法 (如广度优先搜索 BFS、深度优先搜索 DFS 和 A*) 进行了比较。

如表 6 所示, MCTS 是最高效的 , 平均只需要 3.20 个搜索步骤就能找到目标。BFS 和 DFS 浪费时间探索不相关的区域 (高搜索长度) 。这种效率至关重要,因为每一步都需要调用 LMM,这需要时间和计算资源。MCTS 在寻找答案的需求与效率需求之间取得了平衡。
结论
DyFo 论文提出了一个令人信服的观点: 我们并不总是需要更大的模型或更多的训练数据来解决计算机视觉问题。有时,我们只需要改变模型查看数据的方式。
通过模拟人类视觉搜索的认知过程——扫描、聚焦和验证——DyFo 将通用 LMM 转变为敏锐的侦探。
主要启示:
- 即插即用: 最大的优势在于 DyFo 是免训练的。一旦发布了更好的 LMM (如 GPT-5V 或 LLaVA-Next) ,DyFo 可以立即应用于其上以增强其细粒度能力。
- 缓解幻觉: 通过将答案建立在特定的图像裁剪而非整个模糊场景之上,DyFo 为抵御 AI 幻觉提供了强大的防御。
- 模块化 AI: 这项研究强化了“复合 AI 系统”的趋势——结合不同的专业模型 (专家 + 推理者) 以实现单体模型无法达到的结果。
随着 LMM 继续融入医学影像或自动驾驶等高风险领域,可靠地“聚焦”正确细节的能力将与模型的通用智能一样重要。DyFo 迈出了通向这一现实的重要一步。
](https://deep-paper.org/en/paper/2504.14920/images/cover.png)