AI 中的思考快与慢: FOCUS 如何优化视觉问答

想象一下你正看着一张湛蓝天空的照片。如果我问你: “天空是什么颜色的？”，你会立即回答。你不需要眯起眼睛、搜寻或绞尽脑汁。这是直觉。

现在，想象一张拥挤的“威利在哪里？ (Where’s Waldo?) ”的图片。如果我问: “威利手里拿着手杖吗？”，你的大脑就会换挡。你停止对整张图片的概览，开始寻找特定的特征——红条纹、帽子、眼镜。你会刻意忽略干扰项，专注于目标。

这种本能与深思熟虑的推理之间的区别被称为双重加工理论 (Dual Process Theory) 。人类天生就会这样做。然而，处理文本和图像的多模态大语言模型 (MLLMs) 历来并非如此。它们倾向于用同样的计算“锤子”对待每一个问题，无论它是一个简单的颜色查询还是一个复杂的推理任务。

在这篇文章中，我们将深入探讨一篇题为 “Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering” (快还是慢？整合快速直觉与深思熟虑以增强视觉问答) 的论文。这项研究介绍了 FOCUS , 一种教 AI 模仿人类认知模式的新方法。通过在快速直觉和深思熟虑的分析之间动态切换，FOCUS 不仅提高了准确性，还显著降低了计算成本。

问题所在: 视觉噪声与算力浪费

视觉问答 (VQA) 是一项给 AI 一张图片并提出相关问题的任务。现代 MLLM (如 LLaVA 或 GPT-4V) 在这方面做得相当不错。然而，它们在需要细粒度感知的复杂场景中仍然面临困难。

为了帮助模型“看”得更清楚，研究人员通常使用视觉提示 (visual prompting) 。这通常涉及在图像中的对象上叠加边界框或分割掩码，以帮助模型区分不同的物品。目前最先进的方法 Set-of-Mark (SoM) 采取了一种暴力方法: 它检测并标记图像中的每一个对象。

虽然这在某些情况下有所帮助，但它带来了两个主要问题:

视觉杂乱: 通过标记所有东西，图像变得嘈杂。不相关的对象被高亮显示，分散了模型对实际答案的注意力。
低效: 对每一张图像的每一个对象都运行分割在计算上是非常昂贵的，即使对于不需要这样做的简单问题也是如此。

请看下面的对比:

Comparison of methods: baseline (original image), FOCUS, and SoM.

在 图 1 中，注意面板 (c)。SoM 方法到处放置彩色框。模型被“66”这个干扰项搞混了，回答错误。在面板 (b) 中, FOCUS 方法 (本文的主题) 只高亮了相关的球员，从而得出了正确答案“5”。

研究人员发现，现有方法的失败在于它们不加区分地注释所有检测到的对象。这引出了推动这项研究的核心问题: 是否所有对象都同等重要？是否所有问题实际上都需要视觉提示?

解决方案: 面向 AI 的双重加工理论

作者提出了 FOCUS , 一种受丹尼尔·卡尼曼 《思考，快与慢》 中的双重加工理论启发的即插即用方法。该理论定义了两种思维系统:

系统 1 (直觉快思考) : 自动、快速，几乎不需要努力。
系统 2 (理性慢思考) : 缓慢、分析性，需要集中注意力。

FOCUS 通过允许 MLLM 首先评估问题的难度来实现这一点。如果是简单的，它使用直觉快思考。如果是复杂的，它切换到理性慢思考。

FOCUS 流程

FOCUS 的架构逻辑优雅。它不需要重新训练庞大的底层 MLLM；相反，它充当一种智能推理策略。

Overview of the FOCUS model pipeline showing the decision flow between intuition and deliberate thinking.

如 图 2 所示，该过程遵循一个决策树:

问题复杂度评估: 模型观察图像和问题并决定: “这难吗？”
分支 1: 直觉快思考 (Fast Intuition) : 如果置信度高，模型立即回答 (零样本推理) 。
分支 2: 理性慢思考 (Deliberate Thinking) : 如果置信度低 (意味着问题复杂或模糊) ，模型将触发 “观察前的概念化 (Conceptualizing before Observation) ” 策略。这涉及识别关键要素，仅分割这些要素，并重新处理图像。

让我们详细分解这些组件。

第一步: 评估问题复杂度

AI 如何知道一个问题是“难”的？作者利用了模型置信度的概念。

LLM 容易产生幻觉或过度自信，所以简单地问“你确定吗？”是不够的。相反，FOCUS 采用了一种自洽性 (self-consistency) 检查。

系统提示 MLLM (设置较高的温度以引入变化) 生成多个回答——具体来说，是询问模型基于当前的视觉输入，该问题是“可回答的 (Answerable) ”还是“不可回答的 (Unanswerable) ”。

如果模型在多次尝试 (\(N=3\)) 中一致表示“可回答”，则该问题被视为简单。
如果模型动摇或将其标记为“不可回答”，则该问题被视为复杂。

如果问题是简单的，系统会跳过所有繁重的图像处理，直接输出答案。这模仿了我们的“直觉快思考”。

第二步: 观察前的概念化 (理性慢思考)

如果问题被标记为复杂，FOCUS 将启动其理性慢思考模式。这种模式旨在解决我们之前在 SoM 中看到的“杂乱”问题。FOCUS 不会高亮所有内容，而是只高亮重要的内容。

这个过程被称为观察前的概念化 , 它包含三个子步骤:

A. 关键词提取

首先，语言模型分析问题 \(Q\) 的文本以提取关键视觉元素 (关键词) ，记为 \(\{k_i\}\)。例如，如果问题是“投手帽子上的数字是多少？”，模型会提取“投手 (Pitcher) ”和“帽子 (Hat) ”作为关键概念。

B. 定向分割

接下来，系统使用一个分割模型 (具体为 Grounded-SAM) 作为开放集对象检测器。与之前分割所有东西的方法不同，该模型专门在图像 \(I\) 中搜索提取的关键词 \(k_i\)。

在数学上，分割区域 \(s_i\) 生成如下:

Equation 2: Segmentation function.

这里，\(\mathcal{S}\) 代表分割模型。它接收原始图像和特定关键词以生成精确的视觉掩码。

C. 图像细化

一旦找到特定的分割区域，系统将创建一个新的、处理过的图像 \(I'\)。该图像高亮显示分割区域——通常是通过变暗背景或在目标对象周围绘制明亮的轮廓——同时让图像的其余部分不那么显眼。

这些分割区域的聚合表示为:

Equation 4: Image processing aggregation.

最后，这个经过细化的图像 \(I'\) 连同原始问题一起被反馈给 MLLM，以生成最终答案 \(A\):

Equation 1: The final mapping function.

通过这种方式处理图像，MLLM 的注意力被强制引向相关像素，过滤掉通常导致幻觉的视觉噪声。

可视化影响: 注意力校准

这真的改变了模型“看”图像的方式吗？研究人员可视化了 LLaVA-1.5 模型的注意力权重来一探究竟。

Visual attention visualization comparing original images vs FOCUS.

在 图 3 中，我们看到了明显的差异:

行 (a) - 原始: 当被问到“他球衣上的号码是多少？”时，模型的注意力 (绿色热力图) 是分散的。它甚至看向了女性的衬衫 (上面有个 ‘C’) ，导致了错误的答案“66”。
行 (b) - FOCUS: 有了定向高亮，模型的注意力被紧紧限制在男性的球衣上。干扰被忽略，模型正确回答了“5”。

这证实了 FOCUS 起到了注意力校准机制的作用，物理地引导模型的焦点指向正确的像素。

实验与结果

研究人员在各种基准上测试了 FOCUS，包括标准 MLLM (如 LLaVA 和 InstructBLIP) 和以前的最佳方法 Set-of-Mark (SoM)。他们使用了四个不同的基准测试:

ScienceQA: 逻辑推理。
TextVQA: 图像中的文本识别 (OCR) 。
VizWiz: 现实世界的视觉理解 (通常图像质量较差) 。
MME: 一个综合的感知和认知套件。

性能提升

结果一致且令人印象深刻。

Table 1: Comparison of methods across multiple benchmarks.

查看 表 1 , 我们可以看到 FOCUS (粉色高亮) 始终优于基线。

对比 SoM: 在 MME 基准测试中，搭载 FOCUS 的 LLaVA-1.5-13B 取得了 1551.0 的分数，超过了 SoM 的 1540.1。它在 ScienceQA 和 VizWiz 中也显示出显著的收益。
最先进水平 (SoTA) : 通过将 FOCUS 与开源模型相结合，研究人员在所有四个基准测试中都达到了最先进水平。

值得注意的是，FOCUS 对不同规模的模型都有帮助。即使是较小的 7B 模型在使用该策略时也看到了实质性的改进，有时甚至可以媲美不使用 FOCUS 的更大的 13B 模型的性能。

效率: 既快又准

这篇论文最关键的贡献之一是效率。以前的提示方法对每一张图像都运行缓慢的分割过程。FOCUS 仅在必要时 (系统 2) 才运行它们。

Figure 4: Relative inference time comparison.

图 4 展示了相对于 SoM 方法 (归一化为 100%) 的推理时间。

在 TextVQA 上，FOCUS 仅花费了 SoM 47% 的时间。
在 ScienceQA 上，它花费了 53% 的时间。

这创造了一个“两全其美”的局面: 模型是准确的，因为它对难题使用了深度处理；它是快速的，因为它对简单题跳过了该处理。

在黑盒模型上的有效性

研究人员还将 FOCUS 应用于像 GPT-4V 和 Gemini Pro 这样的闭源“黑盒”模型。由于我们无法访问这些模型的内部权重，通过外部提示策略改进它们是非常有价值的。

Table 3: Performance on Black-Box MLLMs.

如 表 3 所示，将 FOCUS 应用于 GPT-4V 后，其在 ScienceQA 样本上的准确率从 79.2% 提高到了 82.4% 。这证明了 FOCUS 是与模型无关的；无论底层架构如何，它都能工作。

为什么“理性慢思考”比“标记所有东西”更好？

论文包含了一项消融实验，以证明即使应用于相同的图像，“观察前的概念化”策略 (理性慢思考) 也优于“标记所有东西”策略 (SoM) 。

Table 5: Comparison of Deliberate Thinking and SoM.

表 5 直接将 SoM 与 FOCUS 进行了比较。即使我们剥离“直觉快思考”部分，仅看高亮策略，FOCUS 也胜出了。这验证了少即是多的假设。通过移除不相关的标记，我们减少了 MLLM 的认知负荷。

结论与启示

“FOCUS” 论文为多模态 AI 迈出了引人注目的一步。通过借鉴人类认知心理学，研究人员创建了一个比以前的暴力方法更准确、更高效的系统。

以下是主要收获:

动态推理: 并非所有视觉问题都需要同等水平的处理。在“快”和“慢”模式之间切换可以节省时间。
更少噪声: 仅高亮与特定问题相关的对象远比高亮所有东西要好。
通用性: 这种方法同样适用于开源模型 (LLaVA) 和专有巨头 (GPT-4V) 。

这项研究意味着，计算机视觉的未来不仅仅是构建更大的模型，还在于构建更智能的推理策略 。就像人类不会过度分析我们要看的每一个场景的每一个像素一样，AI 也不应该这样。有时，匆匆一瞥就足够了。但当这还不够时，停下来，思考，并 FOCUS (聚焦) ，是值得的。

AI 中的思考快与慢: FOCUS 如何优化视觉问答#

问题所在: 视觉噪声与算力浪费#

解决方案: 面向 AI 的双重加工理论#

FOCUS 流程#

第一步: 评估问题复杂度#

第二步: 观察前的概念化 (理性慢思考)#

A. 关键词提取#

B. 定向分割#

C. 图像细化#

可视化影响: 注意力校准#

实验与结果#

性能提升#

效率: 既快又准#

在黑盒模型上的有效性#

为什么“理性慢思考”比“标记所有东西”更好？#

结论与启示#