引言

在过去几年中,围绕 GPT-4 和 Claude 等大语言模型 (LLMs) 的热潮无处不在。我们见过它们写诗、调试代码,甚至通过美国律师资格考试。但是,随着这些模型更深入地融入教育和专业工作流程,一个关键问题随之而来: 它们是否真的理解科学概念,还是仅仅非常擅长猜测多项选择题的答案?

目前大多数用于评估 AI 的基准测试——例如 MMLU (大规模多任务语言理解) ——严重依赖多项选择题。虽然这种格式效率很高,但它有一个重大缺陷: 它无法反映人类在现实世界中如何有效运用科学和工程技能。在大学环境中,学生不仅仅是被要求选择选项 A、B 或 C。他们被要求撰写证明、设计算法、用自己的语言解释复杂的理论,或解读图表。

SciEx (科学考试) 登场了,这是卡尔斯鲁厄理工学院 (Karlsruhe Institute of Technology) 的研究人员提出的一个新基准。这篇论文介绍了一个严格的评估框架,由真实的大学水平计算机科学考试组成。与以往的测试不同,SciEx 要求自由形式的文本回答,需要解读图像,并进行深层推理。此外,研究人员并不仅仅使用自动化脚本来给 AI 打分;他们请来了真正的大学讲师,像批改学生试卷一样批改 AI 的答案。

在这篇深度文章中,我们将探讨 SciEx 是如何构建的,最先进的模型在与计算机科学本科生同台竞技时的表现如何,以及一个令人惊讶的发现: 虽然 AI 可能是一个平庸的学生,但它却能成为一名出色的教授。

背景: 多项选择题的局限性

要理解为什么 SciEx 是必要的,我们需要先看看现有基准测试的局限性。

像 SciQ 或 ScienceQA 这样的基准测试在追踪 LLM 的进步方面发挥了重要作用。然而,它们遭受着“多选题鸿沟”的困扰。当一个模型面对四个选项时,它通常可以利用排除策略或统计概率来猜测正确答案,而无需真正推导出解决方案。这在模型的测试分数和其实际效用之间造成了脱节。

现实世界中的科学任务是开放式的。如果你让一名工程师“优化这个数据库查询”,并没有一个选项列表供其选择。他们必须从头开始生成解决方案。此外,科学教育是多模态的。如果不理解图表、绘图和视觉模式,你就不可能通过深度学习或计算机图形学课程。

SciEx 的作者确定了真正的科学基准测试的三个关键要求:

  1. 自由形式回答: 模型必须自己生成文本、证明或代码。
  2. 多模态: 测试必须包含涉及图像的问题。
  3. 高质量评分: 评估自由形式的回答很难。它需要专家的人类判断或高度先进的自动化系统。

SciEx 方法论

这项研究的核心是数据集本身。作者收集了卡尔斯鲁厄理工学院 2022-2024 学期的 10 份真实的计算机科学考试试卷。

1. 课程体系

这些考试涵盖了计算机科学学科的广泛领域,确保 AI 不仅仅是在测试某个利基主题。科目包括:

  • 自然语言处理 (NLP)
  • 深度学习与神经网络
  • 计算机视觉
  • 人机交互 (HCI)
  • 数据库 (SQL, 关系代数)
  • 计算机图形学
  • 理论基础 (图灵机, 证明)
  • 算法

2. 格式

研究人员将这些原本为 PDF 格式的试卷转换为结构化的 JSON 格式。这使得他们能够系统地向 LLM 提供问题,同时保留参考图像。

图 4: 转换为 JSON 格式前后的考试题目。

如上图 4 所示,转换过程保留了问题的复杂性。左边是要求学生分析 BERT 模型图表的原始考题。右边是结构化后的机器可读格式,其中包含了问题文本和图像文件的路径。

由此产生的数据集在多样性上具有统计学意义。它包含从“简单”到“困难”的问题,涵盖英语和德语两种语言。

表 1: SciEx 的问题级统计数据。

表 1 突出显示了详细分类。在 154 个独特问题中,有相当一部分 (33 个) 依赖于图像,且难度偏向于“中等”,这对于旨在区分普通学生和优秀学生的大学考试来说是很典型的。

3. 考生

谁参加了测试?研究人员评估了专有 (闭源) 模型和开源模型的混合阵容。

表 2: 参与评估的 LLM 详情。

如表 2 所示,阵容包括像 GPT-4V (Vision) 和 Claude 3 Opus 这样的重量级选手,以及像 MixtralLlama 这样高效的开源模型。请注意,只有部分模型 (Claude, GPT-4V, Llava) 是多模态的,这意味着它们实际上可以“看到”考试中提供的图像。仅文本模型虽然能获得问题文本,但不得不跳过视觉上下文,这使它们处于天然的劣势——就像一个学生闭着眼睛做图表题一样。

4. 评分过程

这是 SciEx 的亮点所在。对于计算机来说,给自由形式的文本评分是出了名的难。学生写的正确答案可能看起来与标准答案完全不同。

为了解决这个问题,作者采用了人类专家评分 。 他们请设计课程的实际讲师来给 AI 的答案评分。讲师们使用了与评估大学生相同的标准。这提供了评估的“金标准”。

然而,鉴于人类专家评分既昂贵又缓慢,作者还尝试了使用“LLM 即裁判 (LLM-as-a-judge) ”的自动评分 。 他们将问题、参考答案和 AI 的尝试输入到一个强大的模型 (如 GPT-4V) 中,并要求其打分。我们将在结果部分讨论这种方法的可靠性。

实验与结果

那么,AI 通过学期考试了吗?结果描绘了一幅技术令人印象深刻但又存在明显缺陷的图景。

整体表现

最主要的结果是,大学考试对目前的 LLM 来说仍然是一个巨大的挑战。

表 3: LLM 在考试层面的平均表现。

表 3 显示了归一化后的平均成绩。

  • Claude59.4% 拔得头筹,紧随其后的是 GPT-4V , 得分为 58.2%
  • 在德国评分标准 (1.0 分最高,4.0 分及格) 中,这些分数分别对应 2.42.5 。 这基本上是一个扎实的“良好”成绩——大约相当于 B- 或 C+ 的学生。
  • 学生平均分45.3%

这是一个迷人的发现: 最好的 AI 模型表现优于平均水平的学生。 然而,它们远非完美。59% 的分数意味着几乎一半的内容回答错误或不完整。

对于较小的开源模型来说,分数的下降是陡峭的。 Mixtral 获得了 41.1%,而 Llava (一个较小的视觉模型) 仅得分 21.5%,未能通过考试。

难度悖论

人们可能预期随着问题变难,AI 的表现会线性下降。有趣的是,数据表明了一种更复杂的关系。

图 1: 按难度分组的问题级分数。

图 1 提供了两个关键见解:

  1. 图表 (a): 学生表现 (灰色条) 遵循逻辑趋势——他们在“简单”问题上得分高,在“困难”问题上得分低。
  2. 图表 (b): 最强的 AI 模型 (Claude 和 GPT-4V) 实际上在困难问题上超越学生的幅度最大。

为什么会这样?研究人员推测,这些考试中的“简单”问题通常涉及特定的计算或视觉任务 (画图) ,这是 LLM 出了名不擅长的领域。相反,“困难”问题通常涉及综合理论知识或撰写长篇解释——这些是 LLM 擅长的任务,因为它们记住了大量的教科书数据。

模态差距: AI 能看见吗?

这个基准测试的一个主要区分点是图像的包含。

图 2: LLM 分数与学生分数的差异 (问题级,按有/无图像分组) 。只有 Claude、GPT-4V 和 Llava 能处理图像。

图 2 展示了纯文本表现与多模态表现之间的差距。深蓝色条代表图像相关的问题。即使是最好的模型 (Claude 和 GPT-4V) ,当涉及图像时,它们相对于学生的优势也会缩小或消失。

对于不能看图的模型 (如 Mixtral 或 GPT-3.5) ,在图像问题上的表现自然会崩溃。但即使对于具有视觉功能的模型,解读复杂科学图表并对其进行推理的能力仍显着落后于它们处理文本的能力。

语言障碍

SciEx 是多语言的,包含英语和德语的考试。尽管德语在训练数据中属于高资源语言,但模型表现出了明显的偏差。

图 3: LLM 分数与学生分数的差异 (问题级,按语言分组) 。

图 3 显示,总体而言,模型在英语考试 (深蓝色条) 上的表现明显优于德语考试 (绿色条) 。在许多情况下,在英语考试中击败平均学生的模型,在德语考试中却落后于学生平均水平。这凸显了在科学推理方面,教学语言仍然对 AI 的能力起着巨大的作用。

定性失败: “幻觉”般的成功

除了原始数据,专家评分员还指出了 AI 回答中的几个行为怪癖:

  • 冗长 (Verbosity) : AI 倾向于写太多。没有时间限制,模型会输出冗长的解释,希望能命中关键词。
  • 数学盲区 (Math Blindness) : 模型经常在证明所需的如基本算术或计数任务 (例如,计算算法的复杂度) 上失败。
  • 肤浅推理 (Superficial Reasoning) : 在问到“对或错,并解释原因”的问题上,模型有时会猜“对”,但提供的解释却是在论证“错”,这是人类学生很少会犯的自相矛盾。

自动评分: “LLM 即裁判”

这篇论文对未来 AI 研究最具影响力的贡献可能在于对自动评分的评估。

运行像 SciEx 这样的基准测试非常昂贵,因为它需要大学讲师花费数小时进行评分。如果 LLM 能够可靠地自我评分,研究就可以加速。作者通过让 GPT-4V、Llama3 和 Mixtral 对考试答案进行评分,并将这些分数与人类专家的评分进行比较来测试这一点。

结果非常令人鼓舞。

表 9: LLM 评分员与专家评分员在考试层面的皮尔逊相关系数 (分数已归一化) 。注意零样本 (zero-shot) 只有一个分数,因为它们没有不同的样本设置。

表 9 显示了 AI 评分员与人类评分员之间的皮尔逊相关系数 。 1.0 的分数意味着完全一致。

  • GPT-4V 在提供参考答案和示例 (少样本,few-shot) 的情况下,实现了 0.948 的相关性。
  • 这是一个极高的一致性水平,表明虽然 GPT-4V 可能难以完美地回答每个问题,但它对材料的理解足以准确地进行评分

研究还发现,为 AI 评分员提供“金标准”参考答案显著提高了其评分的可靠性。

表 5: 基于专家评分员和 GPT-4V 评分员的 LLM 考生排名。

表 5 通过对“学生”进行排名证实了这种可靠性。左边是基于人类评分的排名;右边是基于 GPT-4V 评分的排名。排名几乎完全相同。这验证了 SciEx 作为一个可持续基准测试的可行性: 未来的研究人员可以使用 GPT-4V 在这个数据集上对新模型进行评分,而无需每次都给 KIT 的教授打电话。

然而,并非所有的评分员都是平等的。

表 7: LLM 评分员在不同难度级别上的表现 (即与专家评分的皮尔逊相关系数) 。

如表 7 所示,准确评分的能力因难度而异。像 Mixtral 这样的较弱模型在给“困难”问题评分时很吃力 (相关性降至 0.224) ,可能是因为它们不能完全理解所需的复杂推理。然而,GPT-4V 即使在困难问题上也保持了很高的准确性 (0.732) ,使其成为大学水平材料自动评分的唯一可行候选者。

结论

SciEx 论文对教育和科学领域的 AI 现状提供了一个既发人深省又令人乐观的视角。

主要结论:

  1. AI 是个“好”学生,但不是天才: 像 Claude 和 GPT-4V 这样的顶级模型可以通过计算机科学考试,甚至击败普通学生,但它们仍然会弄错近 40% 的材料。
  2. 多模态是瓶颈: 虽然文本处理能力很强,但推理图表的能力是阻碍这些模型真正掌握科学的主要弱点。
  3. 评分问题已解决: GPT-4V 与人类教授在评分上的相关性达到 95% 这一发现,意味着我们可以大规模扩展教育基准测试。我们现在可以构建“AI 导师”,其反馈与讲师的反馈难以区分。

SciEx 将目标从“AI 能否猜对选项”转移到了“AI 能否完成工作”。随着模型的发展,像这样基于大学教育中混乱、困难、开放式现实的基准测试,将是衡量通用人工智能 (AGI) 是否即将到来的真正标准。