引言: “空杯”难题

艾萨克·牛顿曾有一句名言: “如果说我看得更远,那是因为我站在巨人的肩膀上。”他并不是字面意义上站在别人身上;他是在用一个类比来描述科学进步是如何建立在前人发现的基础之上的。

类比推理——即因为共享某种底层结构而识别出情境 A情境 B 的能力——是人类认知的基石。它让我们能够学习新概念、创造性地解决问题并交流复杂的思想。我们做这些事情毫不费力。如果我给你讲一个故事,说一棵树因为树干腐烂而倒塌,然后讲一个故事,说一个人因为没有照顾好自己而因倦怠倒下,你会立刻意识到其中的联系: 内部的忽视导致了外部的崩溃。

但是,大型语言模型 (LLM) 能做到这一点吗?

我们要知道,LLM 很擅长处理表面模式和简单的词汇类比 (比如“国王之于男人,相当于女王之于女人”) 。然而,最近一篇题为 “ANALOBENCH: Benchmarking the Identification of Abstract and Long-context Analogies” 的论文提出了一个更棘手的问题: 当类比隐藏在长篇、复杂的叙述中时,AI 还能识别出来吗?

研究人员推出了 ANALOBENCH , 这是一个新的基准测试,旨在测试模型是否可以从大量信息中回忆起相关经验,并将推理应用于冗长的场景。结果令人惊讶: 虽然模型的规模越来越大,但它们在长文本中“读懂字里行间”的能力并没有像我们希望的那样随之提升。

图 1: 问题设置: 给定一个故事,目标是从故事库中识别出一个类似的故事。在示例中,“Maria”和“橡树”都失去了供养他人的能力。

图 1 所示,问题的核心是认识到 Maria 的精疲力竭 (“你无法从空杯子里倒出水来”) 与倒下的橡树 (“无法提供树荫”) 是类似的。

背景: 超越简单的文字游戏

要理解这项研究的重要性,我们必须回顾 AI 历史上是如何处理类比的。

长期以来,基准测试主要集中在词汇类比上。这些是类似于 SAT 考试中的单词问题。虽然对于测试早期的词嵌入 (如 Word2Vec) 很有用,但它们无法捕捉人类推理的深度。人类不仅仅是匹配单词;我们是在映射结构

根据结构映射理论 (认知科学中的一个概念) ,类比依赖于共享的关系模式,而不是共享的属性。例如,原子像太阳系,并不是因为电子看起来像行星,而是因为电子绕原子核运行的关系反映了行星绕恒星运行的关系。

缺失的一环: 长度与抽象

以前的基准测试试图利用谚语或隐喻来测试这一点。然而,现代 LLM 可能在训练数据中见过所有常见的谚语,这使得它更像是一种记忆测试而不是推理测试。此外,现实世界中的类比往往涉及回忆几天、几周甚至几年前的记忆——这些都是存储在我们长期记忆中的复杂“故事”。

ANALOBENCH 的作者指出了 AI 评估中缺失的两种特定人类能力:

  1. 长上下文推理: 能够指出长时段经历之间的类比 (例如,“写论文就像跑马拉松”) 。
  2. 从记忆中检索: 能够从海量无关记忆的“草堆”中挑出正确的类比。

核心方法: 构建 ANALOBENCH

研究人员构建了一个优先考虑质量和复杂性而非单纯数量的数据集。与许多从网络上抓取的数据集不同,ANALOBENCH 是手工制作的。

1. 创作种子故事

团队首先编写了 340 个高质量的、人工创作的类比。他们采用了一种“聚类”方法。如果故事 A 与故事 B 类比,且故事 B 与故事 C 类比,那么 A 和 C 也是类比关系。这种传递性使他们能够建立稳健的相关叙事集群。

至关重要的是,标注者被指示要避免表面上的相似性。如果一个故事是关于“风暴”的,那么类似的故事就不应该提到“雨”或“风”,除非有必要。这迫使模型关注情节关系,而不仅仅是关键词匹配。

图 3: 数据集创建概览。左: 人工标注者创建成对的类比。右: 成对的故事被分组成类比集群。

2. 扩展上下文

为了测试“长上下文”方面,研究人员并没有止步于单句。他们使用 GPT-4 将这些种子类比扩展为更长的故事。结果是每个类比都有三个版本:

  • 1 句话: 核心概念 (例如,“发光的不一定都是金子”) 。
  • 10 句话: 阐述该概念的短段落。
  • 30 句话: 带有“噪声”的详细叙述——即保留类比但使其更难发现的额外细节。

这种扩展模仿了现实生活。当你将当前情况与过去的记忆进行比较时,你必须过滤掉无关的细节 (你穿的衣服、天气) ,以找到结构上的匹配。

图 2: ANALOBENCH 概览。该基准测试包含两个任务: 从微型故事库中识别类比,以及从大型故事库中识别类比。

3. 两个任务

图 2 所示,该论文在两个不同的任务上评估了模型:

任务 1 (\(T_1\)): 微型故事库

在这里,模型会得到一个目标故事和四个选项 (一个正确的类比,三个干扰项) 。这是标准的多项选择题格式。

  • 目标: 测试纯粹的推理能力。当搜索空间很小时,模型能区分出正确的类比吗?

图 6: 不同模型的类比选择提示词。

图 6 展示了这在实践中的样子。模型看到目标和选项 A、B、C、D。它必须选择最佳匹配。

任务 2 (\(T_2\)): 大型故事库

这是“大海捞针”测试。模型会得到一个目标故事和一个包含 200 个故事的故事库。它必须检索出前 10 个最相似的故事。

  • 目标: 测试检索和长上下文记忆。这模拟了人类从自己的人生历史中回忆相关过往经历的过程。

实验与结果: “规模”陷阱

研究人员测试了广泛的模型,包括 LLaMA-2 等开源选项,以及 GPT-4 和 Claude-v2 等专有巨头。结果揭示了当前 AI 的一些惊人局限性。

结果 1: 长度击溃模型 (\(T_1\))

在多项选择任务中,短 (1 句话) 类比的表现还不错。GPT-4 达到了近 90% 的准确率。然而,一旦故事变长,表现就直线下降。

图 4: LLM 在 T1 上的准确率。左: 对于短故事,扩展规模有效。右: 随着故事长度增加,准确率下降。

请看图 4 的右侧。黑色虚线代表人类的表现。注意它是多么稳定吗?人类在识别 30 句话故事中的类比时,与在 1 句话故事中几乎一样好。事实上,人类标注者报告说,较长的故事实际上更容易,因为额外的细节有助于消除歧义。

现在看看 AI 模型的彩色线条。它们都向下倾斜。 提供的上下文越多,模型的表现就越差。

更令人担忧的是图 4 左侧的“规模”图表。对于短故事,增大模型 (更多参数) 会带来更好的准确率。但对于长故事 (中间和右边的图) ,线条变得平缓。简单地把模型做大似乎并不能解决理解复杂长篇类比的问题。

结果 2: 人类依然更胜一筹

人类与机器之间的差距是显而易见的。

表 2: 各种模型的基准测试。人类甚至优于 GPT-4,特别是在较长文本上。

表 2 突出了这一差距。在 30 句话的故事上,人类达到了 73.3% 的准确率。表现最好的模型 GPT-4 仅达到 60.7% , 而许多开源模型下降到接近随机猜测的水平 (约 25%) 。这表明,虽然模型在“阅读”文本,但它们并没有形成连接两个不同长篇叙事所需的抽象心理模型。

结果 3: 检索噩梦 (\(T_2\))

如果说多项选择题任务很难,那么检索任务 (在 200 个故事库中找到类比) 对模型来说几乎是不可能的。

图 5: LLM 在 T2 上的精确率-召回率图。随着故事长度增加,表现趋近于随机。

图 5 显示了精确率-召回率曲线。在理想世界中,这些线条应该位于右上角。

  • 左 (1 句话) : GPT-4 (蓝线) 表现尚可。它可以找到简短有力的类比。
  • 右 (30 句话) : 线条崩塌到了底部。

对于 30 句话的故事,模型检索正确类比的能力仅比随机挑选故事稍好一点。这表明,当前的上下文窗口技术 (允许模型“阅读”大量文本) 可能处理了单词,但它们难以维持类比检索所需的结构性含义

这为什么重要?

你可能会问: “那么,如果 AI 不能匹配故事,那又怎样?”

这对我们在现实世界中如何使用 AI 有着重大影响。

  1. 法律科技: 律师可能会使用 AI 来寻找“先例”案件。这是一个类比任务。“帮我找一个公司因为第三方供应商而对疏忽负责的案例,类似于我目前客户的情况。”如果 AI 无法处理长上下文,它可能会因为被表面细节分心而错过完美的先例。
  2. 科学创新: 创新往往来自于跨领域的类比 (例如,原子结构类似于太阳系) 。一个无法从长篇科学论文中提取结构的 AI 将很难成为真正的“合作科学家”。
  3. 整体可靠性: “规模扩展”未能解决这个问题 (如实验所示) 表明,我们可能需要新的架构或训练方法,而不仅仅是更大的 GPU,来实现类人推理。

结论

ANALOBENCH 论文为大型语言模型的能力提供了一剂清醒剂。它表明,虽然 AI 已经取得了巨大的进步,但它仍然缺乏“认知核心”——即毫不费力地跨越冗长、复杂的经历映射抽象关系的能力。

研究人员证明了:

  1. 上下文是一把双刃剑: 虽然额外的细节有助于人类更好地理解类比,但它却变成了让 LLM 困惑的“噪声”。
  2. 规模不是灵丹妙药: 简单地把模型做大,对长上下文类比推理的提升微乎其微。
  3. 人类优势: 人类仍然是抽象模式匹配的无可争议的冠军,可以轻松地从记忆的“草堆”中回忆起“针”。

对于 AI 学生来说,这篇论文突显了一个未来研究的肥沃土壤。我们如何教会模型忽略无关细节并看到结构?在我们解决这个问题之前,AI 仍将是一个可以阅读图书馆所有书籍,却可能错过故事寓意的系统。