引言
在人工智能飞速发展的世界里,我们达成了一个有趣的递归式里程碑: 我们正越来越多地依赖 AI 模型来评估其他 AI 模型。
随着像 GPT-4o 和 Claude 3.5 Sonnet 这样的大型视觉语言模型 (LVLMs) 能力日益增强,人工评估变得极其昂贵且缓慢。为了解决这个问题,研究人员使用“生成式奖励模型” (GenRMs) ——本质上是利用强大的 LVLM 作为裁判来对回复进行排名、提供反馈,并通过人类反馈强化学习 (RLHF) 来指导新模型的训练。
但这引发了一个关键问题: 谁来监督守望者? 如果我们要信任一个 AI 来批改试卷,我们需要绝对确定这个 AI 阅卷人知道自己在做什么。
这带我们来到了一个显着的瓶颈。目前评估这些“AI 裁判”的方法存在缺陷。它们要么依赖 AI 生成的标签 (这会引入循环偏差) ,要么使用传统的、过于简单的任务,这些任务对于现代最先进的模型来说太容易了。
VL-RewardBench 应运而生。在最近的一篇论文中,研究人员介绍了一个严格的、具有挑战性的基准测试,专门用于对视觉语言 GenRM 进行压力测试。结果令人惊讶: 即使是最先进的商业模型,在被要求评判基本的视觉感知任务时也经常失败。

如上图 1 所示,当被要求判断关于洗手间内水槽和镜子数量的回答时,像 Llama-3.2-90B 和 Claude-3.5-Sonnet 这样的顶级模型未能识别出正确答案,尽管视觉证据对人类来说显而易见。
在这篇文章中,我们将剖析 VL-RewardBench 论文。我们将探讨作者如何构建一个难住巨头的数据集,分析现代多模态模型的具体“盲点”,并讨论这对 AI 对齐的未来意味着什么。
背景: AI 裁判的时代
在深入了解基准测试之前,有必要了解 VL-GenRM (视觉语言生成式奖励模型) 的概念。
在纯文本世界中,像 GPT-4 这样的模型通常用于对摘要或翻译的质量进行评分。这种“大语言模型作为裁判 (LLM-as-a-Judge)”的范式实现了可扩展的评估。现在,这一概念正被应用于多模态任务——即模型必须同时理解图像和文本。
一个可靠的 VL-GenRM 对三件事至关重要:
- 评估: 自动跟踪新模型的进度,无需等待人类。
- 数据生成: 过滤合成训练数据,只保留最好的示例。
- RLHF: 在强化学习过程中提供“奖励”信号,使模型与人类偏好保持一致。
然而,之前的裁判基准测试是不够的。有些使用 GPT-4V 生成“正确”标签,这意味着如果 GPT-4V 有特定的偏见或幻觉习惯,基准测试就会强化它。其他的则使用旧的学术数据集,这些数据集根本不够难,无法区分 7B 参数模型和 90B 参数模型。
核心方法: 构建 VL-RewardBench
这篇论文的主要贡献是构建了一个满足三个标准的基准测试: 它覆盖了现实世界的场景,它是真正困难的,并且它拥有客观的、经人工验证的真实标签。
为了实现这一目标,作者精心策划了 1,250 个高质量的偏好对 。 一个“偏好对”包含一张图像、一个问题、两个可能的答案 (答案 A 和答案 B) ,以及一个指示哪个答案更好的标签。
如下图 2 所示,构建过程涉及两个巧妙的管道,旨在过滤噪声并保留信号。

1. 集成过滤策略
对于通用查询和幻觉任务,研究人员不想只是随机挑选图像。他们想要的是对机器来说很难但对人类来说可解的图像。
他们采用了一种集成过滤技术。他们组建了一个由较小模型 (如 LLaVA 和 Qwen-VL) 组成的委员会,让它们对各种样本进行评判。
- 如果小模型很容易识别出正确答案,则丢弃该样本 (太简单) 。
- 如果小模型猜测不一致或全部失败,则该样本被标记为“具有挑战性”。
假设是,如果一组不同的小模型都在某张图像上挣扎,那么这种困难可能源于根本性的视觉复杂性,而不是某个模型的特定错误。正如我们在结果中将看到的那样,这个假设是成立的: 难住小模型的样本同样难住了巨头模型。
2. 用于推理任务的 AI 辅助偏好标注
对于复杂的推理任务 (如数学问题或图表分析) ,现有的数据集通常缺乏用于对比的“坏”答案。研究人员需要创建偏好对。
他们使用强大的商业模型 (GPT-4o, Claude 3.5 Sonnet) 生成候选解决方案。然后,他们使用 GPT-4o 作为初始裁判来提议哪个答案更好。
至关重要的是, 人类是最后的守门人 。 基准测试中的每一个被选中的配对都经过了多阶段的人工验证过程。这消除了以下情况:
- 两个答案都错了。
- 图像质量太差。
- “更好”的答案仅仅是因为它更长 (冗长偏差) 。
数据集统计与质量控制
最终的数据集涵盖三个领域:
- 通用多模态指令: 日常查询。
- 以幻觉为导向的查询: 专门检查物体是否存在或属性是否正确。
- 多模态推理: 数学、逻辑和知识密集型任务。
表 1 提供了数据集的细分。注意“以幻觉为导向”的查询数量很高 (749) ,这可以作为模型忠实度的压力测试。

训练奖励模型的一个常见问题是“长度偏差”——模型往往偏好较长的答案,而不管质量如何。为了确保他们的基准测试不仅仅是测试哪个模型能写出最多的文字,作者分析了字数分布。

如图 3 所示,被选中和被拒绝回复之间的长度差异形成了一个以零为中心的钟形曲线。这证实了偏好标签是基于内容质量的,而不是冗长程度。
实验与结果
作者评估了 16 个最先进的模型,从开源的 7B 模型到像 GPT-4o 和 Gemini 1.5 Pro 这样的专有巨头。评估设置遵循“LLM-as-a-Judge”协议: 模型获得图像、问题和两个答案,并且必须输出哪个答案更好。
主要排行榜
结果令人发人深省。表 2 (如下) 显示,即使是最强大的模型也远非完美。

结果的关键要点:
- 天花板很低: 表现最好的模型 Gemini-1.5-Pro 仅达到了 62.5% 的宏观平均准确率。GPT-4o 紧随其后,为 62.4% 。 考虑到随机猜测的准确率为 50%,这表明还有巨大的改进空间。
- 开源模型的挣扎: 领先的开源模型如 Llama-3.2-90B 达到了大约 53.9% , 而许多 7B 模型则在随机概率附近徘徊 (33% - 40%) 。
- 幻觉很难: “幻觉”一栏显示的得分明显低于推理。这意味着模型在抽象数学推理方面比简单地看图并验证特定物体是否存在要好。
验证: 这个基准测试重要吗?
怀疑论者可能会问: “也许这个基准测试只是吹毛求疵?在 VL-RewardBench 上得分高真的能转化为现实世界的效用吗?”
为了回答这个问题,研究人员检查了模型在 VL-RewardBench 上的得分与其使用 N 选一 (Best-of-N, BoN) 采样 提高下游性能的能力之间的相关性。
在 BoN 采样中,模型生成 \(N\) 个答案,“裁判”挑选最好的一个。如果 VL-RewardBench 准确地衡量了评判能力,那么在此处的高分应该会导致在像 MMMU-Pro (一个大型多模态理解基准) 这样的困难任务中有更好的 BoN 选择。

图 4 以惊人的高相关性 (Pearson r > 0.9) 证实了这一点。在 VL-RewardBench 上得分较高的模型在复杂推理任务中选择正确答案的能力在统计学上更好。这验证了 VL-RewardBench 是衡量模型作为奖励模型效用的合法代理指标。
分析: 模型为什么会失败?
论文中最具洞察力的部分是对模型失败原因的深入剖析。作者将错误归类为特定类型: 属性、计数、存在性、识别和推理。
1. 感知 vs. 推理
人们普遍认为“推理”是 AI 最难的部分。然而,图 5 反转了这一观念。

看看 存在性 (检查物体是否在图像中) 和 识别 (识别物体是什么) 的错误率。它们明显高于 推理 的错误率。
- GPT-4o 在推理上的错误率约为 29.5%,但在识别上的错误率约为 40%。
- Qwen2-VL-7B 在存在性上的错误率高达约 68%。
这表明目前“AI 裁判”的瓶颈不是高层逻辑,而是基础的 视觉感知 。 模型会幻觉出不存在的物体,或者无法看到实际存在的物体。如果文本描述了数学方程,它们可以解出来,但它们无法可靠地从白板上读取方程。
2. 推理时缩放 (Inference-Time Scaling) 的局限性
在文本 LLM 中,提高性能的一个常见技巧是“多数投票”——问模型同一个问题 5 次或 10 次,然后取最常见的答案。这适用于视觉语言裁判吗?

图 6 显示了分歧。对于像 GPT-4o 这样的强大模型 (绿线) ,增加 \(K\) (投票数) 可以提高准确率。然而,对于像 Qwen2-VL 这样的开源模型 (紫色方块) ,增加 \(K\) 实际上会 损害 性能。
这表明较小的模型不仅仅是在犯随机错误;它们是自信地犯错,或者容易被重复的查询搞糊涂。推理时缩放目前还不是视觉语言任务的银弹。
3. 我们能训练出更好的裁判吗?
最后,作者探讨了我们是否可以专门训练一个模型来成为更好的裁判 (“Critic 训练”) 。他们测试了 LLaVA-Critic , 这是一个在评论数据上微调过的模型。

如图 7 所示,专门针对“Critic”角色进行训练会产生巨大的收益。“逐点 Critic” (Pointwise Critic,对单个答案进行评分) 将宏观准确率从 38.2% 提高到了 52.9%——这一飞跃使得一个 7B 模型能够与更大的模型近在咫尺。这表明“裁判”能力是一种可以通过针对性数据解锁的可学习技能。
结论与启示
VL-RewardBench 为多模态 AI 社区提供了一个现实检验。它强调,虽然我们在生成能力方面取得了巨大进步,但我们要自动 评估 这些生成内容的能力却落后了。
关键要点:
- 盲目的裁判: 当前的 VL-GenRM 在基本的观看 (感知) 方面比思考 (推理) 方面更吃力。未来的研究需要专注于将模型落地于视觉现实,以修复幻觉和存在性错误。
- 规模很重要: 这里有一个明显的缩放定律在起作用。更大的模型是明显更好的裁判,而且它们是目前唯一能从推理时缩放 (投票) 中受益的模型。
- 训练有效: 我们不必等待模型变得更大。我们可以专门训练“Critic”模型来担任裁判,从而显著提高可靠性。
- 新标准: 凭借与下游任务的高相关性,VL-RewardBench 为试图构建下一代对齐多模态模型的研究人员提供了一个强大的“北极星”。
随着我们迈向需要自我修正和自我改进的自主 AI 系统,准确判断现实的能力是不可或缺的。VL-RewardBench 提供了我们需要实现这一目标的衡量标准。
](https://deep-paper.org/en/paper/2411.17451/images/cover.png)