想象一下,你正在使用最先进的 AI 来分析医疗 X 光片或为自动驾驶汽车导航。你向模型询问关于图像的问题,它立即给出了一个自信的答案。但这里有一个关键问题: 你怎么知道模型是真正正确的,还是仅仅在自信地产生幻觉?

视觉语言模型 (VLMs) 在理解世界方面取得了巨大的进步,但它们远非完美。它们往往过度自信——即使在出错时,听起来也和正确时一样确信无疑。对于进入多模态 AI 领域的学生和研究人员来说,解决这一可靠性难题是将这些模型部署到现实世界中的最大障碍之一。

在这篇文章中,我们将深入探讨一篇引人入胜的研究论文,题为 “Decompose and Compare Consistency: Measuring VLMs’ Answer Reliability via Task-Decomposition Consistency Comparison” (分解与比较一致性: 通过任务分解一致性比较衡量 VLM 的答案可靠性) 。研究人员提出了一个名为 DeCC (Decompose and Compare Consistency,分解与比较一致性) 的新颖框架,它就像 VLM 的测谎仪,混合使用了“交叉盘问”技术和独立推理来标记不可靠的答案。

问题所在: 幻觉与空洞的自信

在看解决方案之前,我们需要了解为什么现有的衡量可靠性的方法往往会失败。

传统上,如果你想知道一个模型是否自信,你可能会查看:

  1. 答案似然度 (不确定性) : 检查模型分配给其生成的 token 的数学概率 (logits) 。
  2. 提示词引导的置信度: 直接问模型: “你确定吗?给我一个 0 到 100 的置信度分数。”
  3. 自洽性 (Self-Consistency) : 多次询问模型同一个问题 (可能经过改写) ,看答案是否一致。

问题出在哪?VLM 的校准很差 。 它们被训练来预测下一个单词,而不是为了拥有自我意识。它们往往过度自信,给错误的答案分配很高的概率。此外,标准的自洽性检查通常受到确认偏差 (confirmation bias) 的影响。一旦 VLM “决定”了对图像的某种解释,即使受到反复质询,它也倾向于坚持这种解释。

解决方案: 分解与比较 (DeCC)

DeCC 框架的核心洞察是,一个可靠的答案应该由细节支撑。如果一个 VLM 说“那是一个棒球投手”,它也应该知道那个人手里拿着球,站在投球丘上,并且面对着击球手。

如果模型在“整体图景”的答案上是对的,但在基本细节上失败了,那么这个“整体图景”的答案很可能只是蒙对的或者是幻觉。

DeCC 使用两步流程自动化了这一逻辑: 任务分解一致性比较

第一步: 任务分解

DeCC 不直接接受 VLM 的直接回答,而是将原始问题分解为更简单的子问题。这是由一个“分解器” (Decomposer,另一个 VLM) 完成的。

例如,如果问题是“这里所有人现在都在盯着谁看?”,分解器可能会问:

  • “击球手在看谁吗?”
  • “捕手在看投手吗?”
  • “裁判在看投手吗?”

然后,候选 VLM 回答这些子问题。这就创建了一个“子问题/答案对” (Sub-QA pairs) 列表。

第二步: 独立推理 (“智能体”)

这是论文引入的一个巧妙转折。为了检查直接回答是否有意义,系统尝试使用子问答对来重构答案。它使用两个不同的“智能体” (Agents) 来做这件事:

  1. VLM 智能体: 原始模型查看子答案,并尝试再次推理出最终答案。
  2. LLM 智能体: 一个独立的大语言模型 (它看不到图像) ,查看问题和子答案的文本来得出结论。

为什么要使用看不见图的 LLM?因为这强制了客观性 。 VLM 可能会受到图像中视觉特征的干扰而感到困惑。然而,LLM 充当了纯粹的逻辑检查者。如果子答案 (文本) 在逻辑上导向答案 A,但 VLM 的直接视觉印象是答案 B,那么就存在矛盾。

DeCC 框架工作流程,展示了分解和比较过程。

如上方的 Figure 1 所示,流程从原始问题开始分为两条路径。上方路径是直接回答 (Direct Answer) 。 下方路径是分解推理阶段。最后,系统比较这两者的结果。

核心方法: 确定可靠性

DeCC 如何在数学上判定一个答案是否可靠?它比较直接回答 (\(A\)) 与智能体生成的推理回答 (\(A'\))

如果推理回答与直接回答相匹配,系统分配的可靠性分数 (\(\mathcal{R}\)) 为 1 (可靠) 。如果它们不一致,分数为 0 (不可靠) 。

根据直接回答和推理回答之间的一致性确定可靠性的方程。

多智能体策略

研究人员发现,仅依赖 VLM 或仅依赖 LLM 都有局限性。VLM 可能会受到图像的偏见影响 (确认偏差) ,而 LLM 可能缺乏上下文。为了解决这个问题,他们提出了多智能体设置。

在这个高级设置中,系统会检查与两个智能体的一致性。

  • 如果两个智能体都同意答案是一致的 (或不一致的) ,结论就很明确。
  • 但如果他们意见不一怎么办? (例如,VLM 说“一致”,但 LLM 说“不一致”?)

当智能体意见不一致时,DeCC 会触发第二轮迭代 。 它将之前的子问题反馈回系统,生成新的、额外的子问题来澄清混淆。

多智能体一致性比较和两轮迭代过程的图解。

Figure 2 所示,如果第一轮产生冲突 (“Contradiction”) ,系统会进入第二个推理过程。解决这种冲突的逻辑非常复杂:

计算多智能体设置下可靠性的方程,考虑了第二轮迭代的结果。

让我们拆解这个复杂的方程 (Equation 3) :

  1. 情况 1 (第二轮达成一致) : 如果在第二轮提问后,VLM 和 LLM 终于对一致性达成共识,我们就相信这个共识。
  2. 情况 2 (信任 LLM) : 如果两个智能体都很“固执” (他们的第二轮结果与第一轮结果相同) ,我们信任 LLM 。 为什么?因为 LLM 仅依赖分解后的文本逻辑。它不太可能受到可能误导 VLM 的“视觉偏见”的影响。
  3. 情况 3 (VLM 改变) : 如果结果在第二轮发生了变化 (表明新信息改变了推理) ,我们信任 VLM 。 VLM 反应的变化表明,由于有了新的子问题,它成功克服了最初的偏见。

案例研究: DeCC 实战

为了真正理解其工作原理,让我们看看研究人员提供的三个例子。

好的情况: 结果一致

在这个来自 A-OKVQA 数据集的例子中,模型被问及一个教室场景。直接回答与两个智能体的推理回答完全一致。

一致情况的示例,直接回答与推理回答相匹配。

因为 VLM 的内部逻辑和 LLM 的外部逻辑都与初始回答一致,DeCC 将其标记为 Reliable (可靠)

“混合”信号: 捕捉幻觉

这正是 DeCC 大显身手的地方。问题问的是水中的鸟类。

  • 直接回答: “鹅 (Goose)。”
  • VLM 推理回答: “鹅” (VLM 在强化自己的错误) 。
  • LLM 推理回答: “鸭 (Duck)” (基于子答案中提供的文本描述) 。

不一致情况的示例,LLM 标记了 VLM 错过的错误。

在这里,VLM 遭受了确认偏差——即使细节可能暗示其他情况,它仍重复“鹅”。“看不见图”的 LLM 看到子答案 (可能描述了鸭子的特征) 并得出结论“鸭”。这种分歧将答案标记为 Unreliable (不可靠)

坏的情况: 完全困惑

有时,模型只是完全迷失了。在这个 VCR (视觉常识推理) 的例子中,VLM 提供了一个直接回答,但当分解后,子答案是一团糟。

所有答案都不一致且错误的示例。

VLM 的推理回答和 LLM 的推理回答都与直接回答不一致。这是一个强烈的信号,表明模型根本不理解场景。DeCC 正确地将其识别为 Unreliable (不可靠)

实验与结果

研究人员在六个不同的视觉语言基准上测试了 DeCC,包括 SNLI-VE (视觉蕴通过) 、VCR (常识推理) 和 MathVista (数学推理) 。他们评估了三个流行的模型: LLaVA、Idefics2 和 InternVL。

我们如何衡量成功?

他们使用了两个主要指标:

  1. Brier 分数 (BS): 一种衡量概率预测准确性的评分规则。分数越低越好。
  2. 有效可靠性 (ER): 专为模型在不确定时可以“弃权” (拒绝回答) 的场景设计的指标。它会严厉惩罚错误的自信回答。

有效可靠性方程。

有效可靠性方程 (如上所示) 在系统自信且正确时给予奖励 (+1) ,在系统自信且错误时给予惩罚 (-1) ,而在系统正确识别出不可靠答案并选择弃权时给予中性分数 (0) 。

结果

DeCC 与现有方法 (如困惑度和标准自洽性) 的性能对比总结在 Table 1 中。

表格显示 DeCC 在 Brier 分数和有效可靠性方面优于基线。

数据中的关键结论:

  • DeCC 获胜: DeCC 在几乎所有数据集和模型上都取得了最好 (粗体) 或第二好 (下划线) 的结果。
  • 显著提升: 对于 LLaVA 模型,DeCC 将有效可靠性比最佳基线提高了 16.5% 。 对于 Idefics2,提升达到了 25.6%
  • 模型能力至关重要: 研究人员注意到了一个有趣的趋势。对于“较弱”的 VLM (如 LLaVA) , LLM 智能体一致性方法效果最好。这是因为较弱的 VLM 不擅长推理,因此将逻辑检查卸载给外部 LLM 会有所帮助。对于“较强”的 VLM (如 InternVL) ,多智能体或自洽性方法效果良好,因为 VLM 有足够的能力对自己生成的子答案进行推理。

计算成本

对分解方法的一个批评是它们很慢 (你需要多次运行模型) 。研究人员在 Table 6 中对此进行了分析。

显示每个样本耗时的计算成本分析。

虽然 DeCC 确实比简单的困惑度检查慢 (每个样本大约需要 5-7 秒,而前者不到 1 秒) ,但它与其他严格的一致性检查相当。关键在于,DeCC 无需训练 , 这使其成为评估新模型的“即插即用”解决方案,无需昂贵的标注数据集。

结论与启示

“分解与比较一致性”框架代表了在使 AI 系统值得信赖方面迈出的重要一步。通过迫使模型通过子问题“展示其工作过程”,并使用独立的智能体来验证这些工作,我们可以比以往更有效地过滤掉幻觉。

为什么这很重要? 随着我们迈向 代理式 AI (Agentic AI)——即在现实世界中采取行动的系统——可靠性是不可妥协的。如果一个机器人助手“相当确定”它看到了一杯水,但 DeCC 揭示子细节 (形状、透明度) 不匹配,机器人就可以停下来要求澄清,而不是把它打翻。

DeCC 证明,通往可靠 AI 的道路不仅仅在于更大的模型;它还在于更好的元认知——赋予模型架构能力来反思、分解和验证它们自己的想法。


这篇博客文章解释了 Yang 等人在《Decompose and Compare Consistency: Measuring VLMs’ Answer Reliability via Task-Decomposition Consistency Comparison》中提出的概念。