AI 中的思考快与慢: FOCUS 如何优化视觉问答
想象一下你正看着一张湛蓝天空的照片。如果我问你: “天空是什么颜色的?”,你会立即回答。你不需要眯起眼睛、搜寻或绞尽脑汁。这是直觉。
现在,想象一张拥挤的“威利在哪里? (Where’s Waldo?) ”的图片。如果我问: “威利手里拿着手杖吗?”,你的大脑就会换挡。你停止对整张图片的概览,开始寻找特定的特征——红条纹、帽子、眼镜。你会刻意忽略干扰项,专注于目标。
这种本能与深思熟虑的推理之间的区别被称为双重加工理论 (Dual Process Theory) 。人类天生就会这样做。然而,处理文本和图像的多模态大语言模型 (MLLMs) 历来并非如此。它们倾向于用同样的计算“锤子”对待每一个问题,无论它是一个简单的颜色查询还是一个复杂的推理任务。
在这篇文章中,我们将深入探讨一篇题为 “Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering” (快还是慢?整合快速直觉与深思熟虑以增强视觉问答) 的论文。这项研究介绍了 FOCUS , 一种教 AI 模仿人类认知模式的新方法。通过在快速直觉和深思熟虑的分析之间动态切换,FOCUS 不仅提高了准确性,还显著降低了计算成本。
问题所在: 视觉噪声与算力浪费
视觉问答 (VQA) 是一项给 AI 一张图片并提出相关问题的任务。现代 MLLM (如 LLaVA 或 GPT-4V) 在这方面做得相当不错。然而,它们在需要细粒度感知的复杂场景中仍然面临困难。
为了帮助模型“看”得更清楚,研究人员通常使用视觉提示 (visual prompting) 。 这通常涉及在图像中的对象上叠加边界框或分割掩码,以帮助模型区分不同的物品。目前最先进的方法 Set-of-Mark (SoM) 采取了一种暴力方法: 它检测并标记图像中的每一个对象。
虽然这在某些情况下有所帮助,但它带来了两个主要问题:
- 视觉杂乱: 通过标记所有东西,图像变得嘈杂。不相关的对象被高亮显示,分散了模型对实际答案的注意力。
- 低效: 对每一张图像的每一个对象都运行分割在计算上是非常昂贵的,即使对于不需要这样做的简单问题也是如此。
请看下面的对比:

在 图 1 中,注意面板 (c)。SoM 方法到处放置彩色框。模型被“66”这个干扰项搞混了,回答错误。在面板 (b) 中, FOCUS 方法 (本文的主题) 只高亮了相关的球员,从而得出了正确答案“5”。
研究人员发现,现有方法的失败在于它们不加区分地注释所有检测到的对象。这引出了推动这项研究的核心问题: 是否所有对象都同等重要?是否所有问题实际上都需要视觉提示?
解决方案: 面向 AI 的双重加工理论
作者提出了 FOCUS , 一种受丹尼尔·卡尼曼 《思考,快与慢》 中的双重加工理论启发的即插即用方法。该理论定义了两种思维系统:
- 系统 1 (直觉快思考) : 自动、快速,几乎不需要努力。
- 系统 2 (理性慢思考) : 缓慢、分析性,需要集中注意力。
FOCUS 通过允许 MLLM 首先评估问题的难度来实现这一点。如果是简单的,它使用直觉快思考。如果是复杂的,它切换到理性慢思考。
FOCUS 流程
FOCUS 的架构逻辑优雅。它不需要重新训练庞大的底层 MLLM;相反,它充当一种智能推理策略。

如 图 2 所示,该过程遵循一个决策树:
- 问题复杂度评估: 模型观察图像和问题并决定: “这难吗?”
- 分支 1: 直觉快思考 (Fast Intuition) : 如果置信度高,模型立即回答 (零样本推理) 。
- 分支 2: 理性慢思考 (Deliberate Thinking) : 如果置信度低 (意味着问题复杂或模糊) ,模型将触发 “观察前的概念化 (Conceptualizing before Observation) ” 策略。这涉及识别关键要素,仅 分割这些要素,并重新处理图像。
让我们详细分解这些组件。
第一步: 评估问题复杂度
AI 如何知道一个问题是“难”的?作者利用了模型置信度的概念。
LLM 容易产生幻觉或过度自信,所以简单地问“你确定吗?”是不够的。相反,FOCUS 采用了一种自洽性 (self-consistency) 检查。
系统提示 MLLM (设置较高的温度以引入变化) 生成多个回答——具体来说,是询问模型基于当前的视觉输入,该问题是“可回答的 (Answerable) ”还是“不可回答的 (Unanswerable) ”。
- 如果模型在多次尝试 (\(N=3\)) 中一致表示“可回答”,则该问题被视为简单 。
- 如果模型动摇或将其标记为“不可回答”,则该问题被视为复杂 。
如果问题是简单的,系统会跳过所有繁重的图像处理,直接输出答案。这模仿了我们的“直觉快思考”。
第二步: 观察前的概念化 (理性慢思考)
如果问题被标记为复杂,FOCUS 将启动其理性慢思考模式。这种模式旨在解决我们之前在 SoM 中看到的“杂乱”问题。FOCUS 不会高亮所有内容,而是只高亮重要的内容。
这个过程被称为观察前的概念化 , 它包含三个子步骤:
A. 关键词提取
首先,语言模型分析问题 \(Q\) 的文本以提取关键视觉元素 (关键词) ,记为 \(\{k_i\}\)。例如,如果问题是“投手帽子上的数字是多少?”,模型会提取“投手 (Pitcher) ”和“帽子 (Hat) ”作为关键概念。
B. 定向分割
接下来,系统使用一个分割模型 (具体为 Grounded-SAM) 作为开放集对象检测器。与之前分割所有东西的方法不同,该模型专门在图像 \(I\) 中搜索提取的关键词 \(k_i\)。
在数学上,分割区域 \(s_i\) 生成如下:

这里,\(\mathcal{S}\) 代表分割模型。它接收原始图像和特定关键词以生成精确的视觉掩码。
C. 图像细化
一旦找到特定的分割区域,系统将创建一个新的、处理过的图像 \(I'\)。该图像高亮显示分割区域——通常是通过变暗背景或在目标对象周围绘制明亮的轮廓——同时让图像的其余部分不那么显眼。
这些分割区域的聚合表示为:

最后,这个经过细化的图像 \(I'\) 连同原始问题一起被反馈给 MLLM,以生成最终答案 \(A\):

通过这种方式处理图像,MLLM 的注意力被强制引向相关像素,过滤掉通常导致幻觉的视觉噪声。
可视化影响: 注意力校准
这真的改变了模型“看”图像的方式吗?研究人员可视化了 LLaVA-1.5 模型的注意力权重来一探究竟。

在 图 3 中,我们看到了明显的差异:
- 行 (a) - 原始: 当被问到“他球衣上的号码是多少?”时,模型的注意力 (绿色热力图) 是分散的。它甚至看向了女性的衬衫 (上面有个 ‘C’) ,导致了错误的答案“66”。
- 行 (b) - FOCUS: 有了定向高亮,模型的注意力被紧紧限制在男性的球衣上。干扰被忽略,模型正确回答了“5”。
这证实了 FOCUS 起到了注意力校准机制的作用,物理地引导模型的焦点指向正确的像素。
实验与结果
研究人员在各种基准上测试了 FOCUS,包括标准 MLLM (如 LLaVA 和 InstructBLIP) 和以前的最佳方法 Set-of-Mark (SoM)。他们使用了四个不同的基准测试:
- ScienceQA: 逻辑推理。
- TextVQA: 图像中的文本识别 (OCR) 。
- VizWiz: 现实世界的视觉理解 (通常图像质量较差) 。
- MME: 一个综合的感知和认知套件。
性能提升
结果一致且令人印象深刻。

查看 表 1 , 我们可以看到 FOCUS (粉色高亮) 始终优于基线。
- 对比 SoM: 在 MME 基准测试中,搭载 FOCUS 的 LLaVA-1.5-13B 取得了 1551.0 的分数,超过了 SoM 的 1540.1。它在 ScienceQA 和 VizWiz 中也显示出显著的收益。
- 最先进水平 (SoTA) : 通过将 FOCUS 与开源模型相结合,研究人员在所有四个基准测试中都达到了最先进水平。
值得注意的是,FOCUS 对不同规模的模型都有帮助。即使是较小的 7B 模型在使用该策略时也看到了实质性的改进,有时甚至可以媲美不使用 FOCUS 的更大的 13B 模型的性能。
效率: 既快又准
这篇论文最关键的贡献之一是效率。以前的提示方法对每一张图像都运行缓慢的分割过程。FOCUS 仅在必要时 (系统 2) 才运行它们。

图 4 展示了相对于 SoM 方法 (归一化为 100%) 的推理时间。
- 在 TextVQA 上,FOCUS 仅花费了 SoM 47% 的时间。
- 在 ScienceQA 上,它花费了 53% 的时间。
这创造了一个“两全其美”的局面: 模型是准确的,因为它对难题使用了深度处理;它是快速的,因为它对简单题跳过了该处理。
在黑盒模型上的有效性
研究人员还将 FOCUS 应用于像 GPT-4V 和 Gemini Pro 这样的闭源“黑盒”模型。由于我们无法访问这些模型的内部权重,通过外部提示策略改进它们是非常有价值的。

如 表 3 所示,将 FOCUS 应用于 GPT-4V 后,其在 ScienceQA 样本上的准确率从 79.2% 提高到了 82.4% 。 这证明了 FOCUS 是与模型无关的;无论底层架构如何,它都能工作。
为什么“理性慢思考”比“标记所有东西”更好?
论文包含了一项消融实验,以证明即使应用于相同的图像,“观察前的概念化”策略 (理性慢思考) 也优于“标记所有东西”策略 (SoM) 。

表 5 直接将 SoM 与 FOCUS 进行了比较。即使我们剥离“直觉快思考”部分,仅看高亮策略,FOCUS 也胜出了。这验证了少即是多的假设。通过移除不相关的标记,我们减少了 MLLM 的认知负荷。
结论与启示
“FOCUS” 论文为多模态 AI 迈出了引人注目的一步。通过借鉴人类认知心理学,研究人员创建了一个比以前的暴力方法更准确、更高效的系统。
以下是主要收获:
- 动态推理: 并非所有视觉问题都需要同等水平的处理。在“快”和“慢”模式之间切换可以节省时间。
- 更少噪声: 仅 高亮与特定问题相关的对象远比高亮所有东西要好。
- 通用性: 这种方法同样适用于开源模型 (LLaVA) 和专有巨头 (GPT-4V) 。
这项研究意味着,计算机视觉的未来不仅仅是构建更大的模型,还在于构建更智能的推理策略 。 就像人类不会过度分析我们要看的每一个场景的每一个像素一样,AI 也不应该这样。有时,匆匆一瞥就足够了。但当这还不够时,停下来,思考,并 FOCUS (聚焦) ,是值得的。
](https://deep-paper.org/en/paper/2506.00806/images/cover.png)