近年来,关于人工智能的叙事一直被一个响亮的声音所主导: 霸权 。 我们听到大型语言模型 (LLM) 如 GPT-4 通过了律师资格考试,在医学委员会考试中拿高分,并在 SAT 考试中大杀四方。这其中的暗示是,人工智能不仅追上了人类的智力,而且已经开始将其甩在身后。

但这真的是事实吗?还是我们误把记忆当成了推理?

虽然人工智能可能在标准化测试中击败人类,但它解决问题的方式与人类相同吗?为了回答这个问题,我们需要超越简单的准确率分数。我们需要理解回答问题所需的潜在技能,并衡量人类和 AI 在拥有这些技能方面的差异。

在一篇题为*“Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA”* (伟大的头脑所见略同?利用 CAIMIRA 调查问答中的人机互补性) 的精彩论文中,来自马里兰大学和微软研究院的研究人员提出了一个新的框架来剖析这些差异。他们不再将“智力”视为单一的分数,而是将其映射到不同的维度——揭示了虽然 AI 正在成为超人类的百科全书,但在直觉连接的艺术上仍然落后于人类。

当前基准测试的问题

自然语言处理 (NLP) 社区历来专注于模仿——试图让模型达到人类的表现。然而,最近的讨论已经转向模型是否超越了“人类天花板”。

问题在于,标准的基准测试 (如多项选择题) 往往存在缺陷。它们容易受到数据污染 (即模型在训练期间见过测试题) 的影响,或者严重依赖死记硬背。

为了真正比较人类和 AI 的认知,研究人员转向了一个更严格的领域: Quizbowl (竞答碗)

为什么选择 Quizbowl?

Quizbowl 不是普通的智力问答之夜。它是一种竞争形式,问题呈“金字塔式”。它们从晦涩难懂的线索开始,逐渐变得容易,最后以一个“送分题”结束。

QuizBowl 问题在三个不同类别 (宗教、音乐和数学) 中的示例,展示了问题的增量性质。

如上图 11 所示,一个问题包含多个句子。选手 (或 AI) 可以在任何时候抢答。这种结构使我们不仅能衡量智能体是否知道答案,还能衡量他们的知识有多深。在听到第一条线索后就能回答的智能体,与等到最后一句才回答的智能体相比,拥有根本不同水平的技能。

引入 IRT: AI 的心理测量学

为了分析这些比赛的数据,研究人员利用了项目反应理论 (Item Response Theory, IRT) 。 IRT 最初是为心理测量学 (教育测试科学) 开发的,是一种用于设计 GRE or GMAT 等标准化考试的统计框架。

在标准测试中,我们通常只计算正确答案的数量。IRT 则不同。它基于两个因素来模拟特定学生 (或 AI) 正确回答特定问题的概率:

  1. 技能 (\(s_i\)): 智能体的能力水平。
  2. 难度 (\(d_j\)): 问题固有的困难程度。

基本概率使用 Sigmoid 函数建模:

标准 IRT 公式

如果一个智能体的技能显著高于问题的难度 (\(s_i > d_j\)) ,正确回答的概率就会趋近于 1。如果技能较低,概率则趋近于 0。

然而,标准 IRT 是一维的。它假设“智力”是一个单一的标量值。但我们知道事实并非如此;历史爱好者可能会在物理题上不及格,而数学天才可能会在文学上跌跟头。为了解决这个问题,研究人员将模型扩展为多维 IRT (MIRT) , 其中技能和难度都是向量:

MIRT 公式

在这里,\(\boldsymbol{\alpha}_j\) 代表问题的“区分度”——即它在特定维度上区分高技能和低技能智能体的能力。

CAIMIRA: IRT 的神经进化

虽然 MIRT 很强大,但它也有局限性。它将问题视为孤立的 ID 号,忽略了问题的实际文本。这意味着在许多人回答之前,它无法预测一个问题的难度 (即“冷启动”问题) 。

研究人员引入了 CAIMIRA (Content-Aware, Identifiable, and Multidimensional Item Response Analysis,即内容感知、可识别且多维的项目反应分析) 。CAIMIRA 是一个神经框架,它通过阅读问题文本来预测其难度以及回答该问题所需的技能。

图 1: 基于相关潜在因素利用智能体技能和问题难度进行的回答正确性预测。

图 1 展示了核心概念。为了估计一个智能体 (如 GPT-4) 是否能正确回答一个关于帕斯卡定理的问题,模型会分析智能体的技能与问题在特定潜在因素 (如“科学推理”) 上的难度之间的匹配程度。

架构

CAIMIRA 在标准数学模型中引入了三个关键创新:

  1. 内容感知: 它使用预训练语言模型 (SBERT) 来嵌入问题文本。这使得它能够泛化到未见过的问题。
  2. 相关性 (\(\mathbf{r}_j\)): CAIMIRA 不仅仅计算难度,还计算一个“相关性”向量。这告诉我们哪些潜在技能对特定问题至关重要。对于一个化学问题,“科学”维度的相关性应该很高,而“文学”维度的相关性应该接近于零。
  3. 可识别性: 通过将难度参数零中心化,模型解决了困扰先前 MIRT 模型的数学模糊性。

在 CAIMIRA 中,智能体 \(i\) 正确回答问题 \(j\) 的概率定义为:

CAIMIRA 概率公式

这个方程本质上是说: 计算技能与难度之间的差异 (\(\mathbf{s}_i - \mathbf{d}_j\)) ,根据该维度与问题的相关性对该差异进行加权 (\(\mathbf{r}_j\)) ,然后将结果通过 Sigmoid 函数。

模型如何学习

工作流程在下图中直观地进行了总结。该模型接收问题文本,通过 BERT 获得嵌入 (\(\mathbf{E}^q_j\)) ,然后学习线性变换以生成相关性和难度向量。

图 3: CAIMIRA 工作流程。

从 BERT 嵌入进行的变换是可学习的参数:

来自 BERT 嵌入的变换公式

原始输出随后被归一化。相关性使用 softmax 函数 (因此相关性权重之和为 1) ,而难度则被零中心化 :

归一化公式

这种架构使得 CAIMIRA 能够审视一个全新的问题并判断: “这看起来像是一个困难的历史问题”,从而自动为历史维度分配高难度和高相关性。

实验: 人类 vs. 机器

研究人员收集了一个庞大的数据集:

  • 问题: 超过 3,000 个增量式 Quizbowl 问题。
  • 人类智能体: 来自“Protobowl”平台的 155 名不同玩家,被分组为合成智能体以确保统计稳健性。
  • AI 智能体: 大约 70 个不同的系统,包括:
  • 检索器: 如 BM25 和 Contriever 等搜索维基百科的系统。
  • 大型语言模型 (LLMs) : GPT-4, Llama-3, Claude, Gemini 等。
  • RAG (检索增强生成) : 配备搜索工具的 LLM。

他们在响应数据上训练了一个 5 维的 CAIMIRA 模型。为什么是 5 个维度?消融实验 (图 4) 显示,在 \(m=5\) 之后,模型性能趋于平稳。

显示 CAIMIRA 性能随潜在维度变化情况的消融实验。

结果: 问答智力的 5 个维度

CAIMIRA 最引人注目的产出是发现了五个独特的“潜在维度”。这些不仅仅是随机聚类;它们与可解释的认知技能相一致。通过分析每个维度中问题的语言特征,研究人员将它们命名为:

  1. 溯因回忆 (Abductive Recall): 需要连接模糊线索并进行直觉跳跃的问题 (例如,“这个角色做了 X……”) 。
  2. 历史与事件 (History and Events): 关于战争、政治人物和时间线的问题。
  3. 科学事实 (Scientific Facts): 特定领域的概念性知识 (生物学、物理学) 。
  4. 文化记录 (Cultural Records): 关于作者、艺术家和名人的“谁做了什么”的知识。
  5. 复杂语义 (Complex Semantics): 具有复杂句子结构和晦涩关键词的问题。

图 5: CAIMIRA 中五个潜在维度的解释。

人类与 AI 的分歧

当我们在这些维度上映射人类与 AI 智能体的技能时,出现了一种清晰的互补模式。

图 6: 按智能体类型分组的技能在 CAIMIRA 五个潜在维度上的分布。

仔细观察图 6 中的箱线图。

1. 人类的优势: 溯因回忆

看第一列, “Abduce” (溯因) 。 人类 (青色框) 的得分显著高于几乎所有 AI 模型。

  • 为什么? 这些问题通常叙述事件或描述角色,而不使用专有名词。它们需要“横向思维”——将抽象的线索与具体的实体联系起来。
  • 示例: 一个描述虚构角色行为但未点名书名的问题。
  • 发现: 人类擅长这种直觉式的填补空白。即使是 GPT-4 也难以匹敌最优秀的人类。

2. 机器的优势: 历史与科学

现在看看 “Events” (事件)“Science” (科学) 。 在这里,大规模 LLM (蓝色框) 甚至一些基础模型表现出色,经常超越人类。

  • 为什么? 这些问题依赖于“参数化记忆”——存储在模型权重中的海量事实。如果问题询问具体的日期或化合物,AI 就像一本完美的百科全书。
  • 发现: 当信息缺口定义明确且基于事实时,大规模模型获胜。

3. 检索悖论

“Complex Semantics” (复杂语义) 维度揭示了关于检索器 (如搜索引擎) 的一件有趣的事情。这些问题具有很高的“Wiki-Match 分数”,意味着答案明确存在于维基百科文档中。然而,这些问题的措辞带有复杂的句法。

  • 发现: 检索器可以找到文档,但生成模型往往无法提取答案,因为它们被句子结构绊倒了。这把一个检索任务变成了一个困难的阅读理解任务。

性能热图

我们可以在下面的准确率热图中更清楚地看到这种差异。

图 9: 不同数据集切片上的智能体准确率。

  • Abduction (V. Hard) [溯因 (极难) ]: 看左上角的单元格。人类团队达到了很高的准确率 (76.2%) 。大多数基础 LLM 在这里表现糟糕 (个位数) 。即使是强大的模型,与其在其他类别中的表现相比,也显得很挣扎。
  • GeoPol / Science [地缘政治 / 科学]: 移到右边,你会看到 LLM 变成了深绿色 (高准确率) ,有效地解决了这类问题。

结论: 伟大的头脑所见略同吗?

答案是否定的。人类和 AI 的思维方式不同。

CAIMIRA 框架揭示,尽管炒作不断,但 AI 并不是在所有方面都简单地比人类“聪明”。它拥有另一种类型的智力。

  • AI 是一个百科全书式的巨人,在需要检索有关历史、科学和记录的具体、确凿事实的任务中占据主导地位。
  • 人类 是编织大师,擅长溯因回忆——能够获取模糊、间接的叙事线索,并将它们编织成一个连贯的答案。

这一发现对 AI 发展的未来至关重要。研究人员不应只是试图让模型变得更大,而应专注于互补性 。 未来的理想系统可能是一个协作系统: 一个由 AI 充当完美记忆库,并由人类在处理歧义和细微差别方面的卓越能力所引导的系统。

通过使用像 CAIMIRA 这样复杂的测量工具,我们可以停止问“谁更好?”,而开始问“我们如何才能最好地协同工作?”。