引言: 智能的幻觉

像 GPT-4 和 Gemini 这样的大型语言模型 (LLM) 以其编写代码、创作诗歌并通过标准化考试的能力迷住了全世界。当你与这些模型聊天时,它们流畅的语言很容易被误认为是深刻的理解力。它们似乎在推理、辩论和演绎。但它们是在真正地进行逻辑推理,还是仅仅作为出色的模式匹配器在模仿论证的结构

这种区别至关重要。真正的人类智能涉及多步逻辑推理——即获取一组前提,应用推理规则,并将它们链接在一起得出新颖结论的能力。如果你知道所有人都会死苏格拉底是人,你不需要死记硬背“苏格拉底会死”这句话就知道它是真的。你是推导出来的。

虽然 LLM 展现出了潜力,但现有的基准测试往往对它们的要求过于宽松。这些测试通常只考察简单的单步逻辑,或专注于非常狭窄的推理类型。为了真正对这些模型进行压力测试,我们需要更严苛的考试。

Multi-LogiEval 应运而生,这是亚利桑那州立大学研究人员提出的一个新基准。该论文介绍了一个综合数据集,旨在评估 LLM 在三种不同逻辑类型上的多步推理能力。结果令人大开眼界: 虽然模型在表面层面表现出色,但随着推理链条的加深,它们的“智能”往往会崩溃。

当前基准测试的缺失

在深入探讨解决方案之前,我们必须了解当前评估方法存在的问题。大多数现有的逻辑推理数据集都有两个主要局限性:

  1. 简单性: 它们通常专注于单步推理 (例如,“A 蕴涵 B,A 为真,因此 B 为真”) 。
  2. 范围有限: 它们通常只局限于一种逻辑类型,往往忽略了现实生活中混乱的非单调推理。

如下面的比较表所示,像 LogicNLIProntoQA 这样的旧数据集缺失了关键组件。有些缺乏多步推理能力,有些则完全忽略了非单调 (NM) 逻辑。

Table 1: Comparison of Multi-LogiEval with existing datasets and benchmarks

Multi-LogiEval 填补了这一空白,涵盖了三种逻辑类型——命题逻辑 (PL) 、一阶逻辑 (FOL) 和非单调 (NM) 推理——并专门测试模型如何处理从 1 到 5 步不断增加的推理深度。

核心方法: 构建逻辑极限测试

研究人员并没有简单地从互联网上抓取逻辑谜题。他们利用两阶段过程从头构建了一个合成的、严谨的数据集: 生成规则组合,然后将其转化为自然语言。

1. 逻辑类型

为了全面起见,该数据集涵盖了三个领域:

  • 命题逻辑 (PL) : 处理命题 (真或假的陈述) 和连接词 (如“与”、“或”和“如果……那么”) 。
  • 一阶逻辑 (FOL) : 增加了量词 (如“对于所有”或“存在”) 和谓词,从而增加了复杂性。
  • 非单调 (NM) 推理: 这更接近人类的思维方式。它处理默认情况和例外。例如,“鸟会飞”通常是真的,但如果你得知这只鸟是企鹅,你会撤回那个结论。

研究人员使用了超过 30 条推理规则。你可以在下方看到 PL 和 FOL 的基础规则。这些是数据集的数学构建块。

Table 2: Inference rules that establish the relationship between premises and their corrsponding conclusions.

2. 链接规则以进行多步推理

Multi-LogiEval 中的“Multi”代表多步。研究人员创建了推理链,其中一条推理规则的结论成为下一条规则的前提。

想象一下多米诺骨牌链。第一条规则可能从 \(P\) 推导出逻辑陈述 \(Q\)。下一条规则获取 \(Q\),将其与新的前提 \(R\) 结合,从而推导出 \(S\)。这种过程一直持续到五层深度 (Depth-5) 。

Figure 2: Process for combining multiple logical inference rules for PL and FOL

如上图所示,这个链接过程是严谨的。系统确保深度 \(D\) 处的结论在逻辑上必然蕴涵所提供的上下文。如果模型得出了正确的最终答案,理论上它必须正确地遍历了整个逻辑链。

3. 从符号到故事

逻辑公式 (如 \(((p \to q) \land p) \vdash q\)) 对计算机来说很完美,但对受过文本训练的 LLM 来说却不自然。研究人员使用了一个“教师”模型 (Claude-2) 将这些符号链翻译成自然语言故事。

他们构建了详尽的提示词,定义了逻辑规则,并要求模型将这些规则包裹在一个涉及现实世界概念 (如“准备考试”或“天气状况”) 的连贯叙述中,而不是使用像 \(X\) 和 \(Y\) 这样的抽象变量。

Figure 3: Data generation prompt for PL and FOL

上图所示的提示词结构确保了多样性和格式的一致性。结果就是一个包含“上下文 (Context) ”和“问题 (Question) ”对的数据集。上下文包含故事 (前提) ,而问题询问从该故事推导出的逻辑结论。

以下是不同逻辑类型的最终数据示例:

Table 4: NL examples of different rule combinations for allthree logic types.

请注意非单调推理示例 (最后一行) 是如何处理“通常 (usually) ”和例外 (Jim 与 Pam 获得免费午餐) 的,这代表了一种比 PL 和 FOL 的严格数学逻辑更微妙的推理类型。

设计实验

生成数据集并进行人工验证 (移除了大约 14% 存在逻辑错误的样本) 后,研究人员对当今的顶尖模型进行了测试。

任务: 一个二分类问题。给定上下文和问题,结论在逻辑上是否成立?模型必须回答“Yes”或“No”。

提示策略: 他们使用了 零样本思维链 (Zero-shot Chain-of-Thought, CoT) 。 这意味着他们没有给模型提供如何解决特定问题的示例 (零样本) ,但确实要求模型在回答之前“一步一步地思考”。这一点至关重要,因为我们要根据模型的预训练来衡量其内在的推理能力,而不是它从几个例子中复制模式的能力。

参赛选手:

  • 专有模型: GPT-4, ChatGPT, Gemini-Pro。
  • 开源模型: Yi-34B, Orca-2-13B, Mistral-7B。

结果: 深度陷阱

结果揭示了当前 LLM 的一个根本弱点: 逻辑耐力。

当推理较浅 (深度-1) 时,大多数模型表现令人钦佩。然而,随着逻辑链变长,性能会下降——有时是灾难性的。

性能悬崖

下方的图表是论文中最能说明问题的可视化数据。请看几乎每个模型向下的斜率。

Figure 1: Performance (avg. accuracy across each depth for PL & FOL) of various LLMs on Multi-LogiEval.

  • GPT-4 (蓝色菱形) : 它是最稳健的,在深度-1 时准确率接近 98%。然而,即使是 GPT-4,随着复杂度的增加也会显着下降,在更深的层级徘徊在 65-70% 左右。
  • Orca-2-13B (紫色星号) : 这个模型说明了较小的开源模型的挣扎。它起步强劲,但在深度-5 时崩溃至接近 10% 的准确率——这比随机猜测还要糟糕得多。
  • “深度效应”: 急剧的下降证明模型难以在多个步骤中维持一条连贯的真理“线索”。第 2 步的错误会传播到第 3、4 和 5 步,使失败复合化。

数值细分

为了更细致地观察准确率,我们可以检查不同逻辑类型的具体数字。

Table 6: Evaluation of LLMs in terms of accuracy on Multi-LogiEval.

从这个表格中可以得出几个关键结论:

  1. 经典逻辑很难: 在一阶逻辑 (FOL) 中,像 Orca 和 Yi-34B 这样的开源模型在深度-5 时的准确率降至个位数或低两位数。
  2. 随机基线: 由于这是一个 Yes/No 任务,随机猜测者将获得大约 50% 的准确率 (取决于类别平衡) 。研究人员计算了一个加权随机基线: Equation for random baseline 深度-5 的计算随机基线大约为 83.33% (由于 Yes/No 答案的分布) 。如表 6 所示, 平均而言,每个模型在深度-5 的表现都低于随机基线 。 这表明对于高度复杂的逻辑,当前的 LLM 可能是由逻辑“幻觉”驱动,而非真正的推理。

非单调逻辑的惊喜

你可能会在表 6 中注意到,对于 非单调 (NM) 逻辑,一些模型的性能随着深度的增加实际上 有所提高 或保持稳定。这似乎违反直觉。

研究人员解释说,构建深度的 NM 链很困难。为了在 NM 中达到深度-5,他们结合了一个非单调规则和几个标准的命题逻辑规则。随着深度的增加,“标准”逻辑与“模糊” NM 逻辑的比例发生了变化。标准逻辑规则的加入有助于为模型提供基础,使其性能优于纯粹、令人困惑且模棱两可的浅层 NM 问题。

定性分析: 它们为何失败?

研究人员不仅关注分数;他们还分析了模型生成的“推理链”。

  1. 映射失败: 在深度-1,模型经常无法将自然语言映射回逻辑规则。例如,未能意识到“John 不在家”满足 \(\neg P\) 条件。
  2. 上下文长度 vs. 信息: 令人惊讶的是,模型在深度-3 的表现有时比深度-2 略好。研究人员推测,稍长的上下文为模型提供了更多可依附的“连接组织”。
  3. 啰嗦陷阱: ChatGPT (相对于 GPT-4) 倾向于在深度-5 生成更长的推理链。然而,长度并不与准确性相关。模型经常会把自己绕进去或完全迷失方向,这凸显了啰嗦并不等同于逻辑。
  4. 开源模型大小: 有趣的是,较小的 Mistral-7B 在更高深度上通常优于较大的 Orca-13B 和 Yi-34B。这表明,在逻辑方面,模型架构和训练质量 (特别是专注于推理的训练) 比单纯的参数数量更重要。

结论与启示

Multi-LogiEval 对 AI 行业来说是一个现实检验。虽然我们称赞 LLM 的语言能力,但它们的逻辑核心仍然脆弱。随着推理深度增加,性能急剧下降表明这些模型是在模仿推理步骤,而不是执行稳健的逻辑算法。

对于学生和研究人员来说,这篇论文强调了未来的关键方向:

  • 神经符号 AI: 纯 LLM 的失败表明,我们可能需要将神经网络与传统的符号求解器 (如 Prover9) 结合起来处理繁重的逻辑,而不是依赖 LLM 在上下文中完成所有工作。
  • 更好的训练数据: 我们需要在预训练中包含更多像 Multi-LogiEval 这样的数据集,以教导模型 如何 推理,而不仅仅是答案看起来像什么。

随着我们迈向通用人工智能 (AGI) ,像 Multi-LogiEval 这样的基准测试将至关重要。它们提醒我们,真正的智能不仅仅是知道答案——还在于你得出答案的路径是否有效。