像 GPT-4、Claude-3 和 Gemini 这样的大型语言模型 (LLM) 的能力已经彻底改变了自然语言理解 (NLU) 领域。我们已经看到它们写诗、总结法律文件,甚至生成代码。看到这些壮举,人们很容易认为这些模型拥有某种形式的强大逻辑推理能力。毕竟,如果一个模型能写出一篇令人信服的哲学论文,那它肯定能解开一个逻辑谜题,对吧?

未必如此。越来越多的证据表明,虽然 LLM 在模式匹配和语言概率方面表现出色,但在多步逻辑演绎方面却非常吃力。

在这篇文章中,我们将深入探讨亚利桑那州立大学和微软研究院的研究人员撰写的一篇精彩论文 “Step-by-Step Reasoning to Solve Grid Puzzles: Where do LLMs Falter?” (解决网格谜题的逐步推理: LLM 在哪里跌倒?) 。这篇论文超越了简单的准确率指标,回答了一个根本性问题: 当 LLM 试图解决逻辑谜题时,它究竟是如何失败的?

为了回答这个问题,研究人员开发了一个包含新数据集、详细错误分类法和自动评估流程的综合框架。让我们一步步揭开他们的工作。

当前评估方法存在的问题

大多数 LLM 基准测试都关注最终答案。如果你问模型一个数学应用题,它给出了正确的数字,我们就标记为“正确”。然而,这种二元的通过/失败指标掩盖了推理过程的混乱。LLM 可能会通过一个幻觉公式得出正确答案 (误报) ,也可能进行了十步完美的推理却在第十一步失败 (关于其一般推理能力的漏报) 。

为了真正测试逻辑能力,我们需要一个纯粹依赖演绎、约束满足和排除法,且没有任何歧义的任务。于是, 逻辑网格谜题 (Logic Grid Puzzle) 登场了。

什么是网格谜题?

你可能在益智杂志上见过这些。你会得到一个场景 (例如,“五个朋友在五天买了五种不同的冰淇淋”) 和一组线索 (例如,“买巧克力的人是在汤姆的前一天买的”) 。你的目标是填充网格以正确匹配每个变量。

网格谜题是 LLM 的完美测试平台,因为:

  1. 自包含: 不需要外部知识。
  2. 严谨: 只有一个正确解。
  3. 需要记忆: 你必须同时在“工作记忆”中保持多个约束条件。

研究人员推出了 GridPuzzle , 这是一个精心策划的数据集,包含 274 个谜题,大小从 \(3 \times 4\) (简单) 到 \(4 \times 6\) (困难) 不等。他们利用这个数据集对 GPT-4、Claude-3、Gemini、Mistral 和 Llama-2 等模型进行了压力测试。

Schematic representation of proposed pipeline. Begins with the data collection of GridPuzzle dataset (top left) and evaluating various LLMs in zero-shot CoT setting (bottom left), then analyzing reasoning chains of LLMs manually to find various error types (top right) and automate this analysis process using LLM to check the correctness of reasoning chain by finding errors (bottom right).

如图 1 所示,该流程非常广泛。它从 GridPuzzle 数据集开始,使用零样本思维链 (Zero-Shot CoT) 提示将其输入 LLM,然后对输出进行人工和自动审查。

解剖推理链

这篇论文的核心贡献不仅是找出模型是否失败,还要找出在哪里失败。为此,作者仔细审查了“推理链 (Reasoning Chains) ”——即模型生成的逐步解释。

他们对 150 条推理链进行了人工分析,将其逐句分解。对于模型输出中的每一个句子,他们确定了前提 (Premise) (模型使用的信息) 和结论 (Conclusion) (模型做出的推论) 。

基于这一分析,他们提出了一种新的错误分类法 (Error Taxonomy) 。 这是一个用于分类逻辑错误的框架,对于任何研究 AI 可解释性的人来说都非常有用。

错误分类法

该分类法分为大类和细粒度的子类。

大类 (Broad Categories) :

  1. WW (前提错,结论错) : 模型从错误的信息开始,得出错误的推论。
  2. WR (前提错,结论对) : 模型运气好。它从错误的信息开始,却意外得出了真实的陈述。
  3. RW (前提对,结论错) : 这是逻辑的严重失败。模型拥有正确的事实,但得出了无效的推论。
  4. RR (前提对,结论对) : 正确的推理步骤。
  5. NC (无结论) : 填充文本或简单重述线索,没有新的推论。

研究人员更进一步,确定了具体的子类来解释为什么前提或结论是错误的。

Table 2: Proposed error taxonomy for sub-categories based on manual analysis. These sub-categories are defined for cases where either the conclusion or premise is incorrect(“RW”or“WR”) or both are incorrect(WW").For “WW",the error sub-categories might appear in any combinations between (1-6)and (a-c) such as‘1a’,‘4b’,or ‘6c’.

表 2 详细列出了这些子类。其中一些值得注意的包括:

  • 幻觉 (Hallucination) : 模型编造了线索中不存在的信息。
  • 错误传播 (Error Propagation) : 某个步骤出错是因为前一个步骤错了 (“雪球效应”) 。
  • 错误排除 (Wrong Elimination) : 网格谜题中的一种特定失误,模型未能正确排除不可能的选项。

这种分类法将评估从简单的“答案错误”转变为诊断报告。例如,如果一个模型总是犯“RW”错误 (前提对,结论错) ,我们就知道它在核心逻辑引擎上很吃力。如果它因为“错误传播”而犯“WW”错误,我们就知道它在保持长上下文一致性方面有困难。

自动化批评家: 自动评估器

人工标注推理链既慢又贵。为了将其扩展到数千个步骤,研究人员创建了一个自动评估器 (Auto-Evaluator) 。 他们向 GPT-4o 提示他们的错误分类法和严格的指令,让其充当评委。

这个自动评估器的提示结构非常稳健。它包括:

  • 系统指令: 评估的规则。
  • 知识库: 错误分类法的定义 (来自表 2) 。
  • 范例: 人工标注推理链的示例。

Figure 9: The top left section of the figure consists of a 3x4 sample puzzle from the GridPuzzle dataset along with the Zero-shot-CoT prompt. Right below the prompt, we have the Gold solution for the corresponding puzzle. In the top right section of the figure, we have the Model-generated Reasoning chain to solve this puzzle along with the Final Answer. In this instance, the reasoning chain was generated by the Llama2-13b model. In the bottom half of the figure, we have the GPT-4o Auto-Evaluated Reasoning chain. The auto-evaluation is done sentence-wise and the output is in a JSON-structured format consisting of 5 components: the Sentence, the Premise, the Conclusion, the Error category and the Sub-category.

图 9 展示了这个过程。你可以看到原始谜题、模型 (Llama-2) 的有缺陷尝试,以及自动评估器的 JSON 输出。评估器分解一个句子,识别前提和结论,解释缺陷 (例如,“结论不正确,因为它在信息不足的情况下假设 Underwood 停留了 2 天”) ,并分配错误代码 (RW - 前提对,结论错) 。

验证显示,自动评估器与人工标注者有约 86% 的一致率,使其成为大规模分析的可靠代理。

PuzzleEval: 衡量推理的新指标

识别错误固然好,但我们也需要量化评分。研究人员引入了 PuzzleEval , 这是一个无参考 (reference-free) 指标。“无参考”意味着你不需要一个“完美”的人类编写的解释来作为对比;你只需要最终的正确答案键 (黄金解) 。

PuzzleEval 如何工作: 该指标通过验证中间推论是否符合基本事实 (Ground Truth) ,来计算推理链的正确性评分 (Correctness Score)

Figure 2: The process of calculating PuzzleEval metrics is described above. The reasoning chains are produced by our five LLMs and the gold solution is taken from our GridPuzzle dataset.

图 2 可视化所示,该过程分为三个阶段:

  1. 结论提取: LLM (作为解析器) 读取推理步骤并提取逻辑主张 (例如,“因此,Sam 被分配到 2013 年”) 。
  2. 成对提取: 将此主张转换为结构化的对 (例如,(Sam, 2013)(Sam, NOT 2014)) 。
  3. 验证: 根据黄金解表格检查这些对。如果该对存在于解中,则得 1 分;否则得 0 分。

最终得分是所有步骤的平均正确率。这允许我们给予部分得分。一个模型可能在 90% 的谜题推理中表现完美,但在最后失败。标准的准确率会给它 0 分,但 PuzzleEval 可能会给它 0.9 分,准确地反映出它能够推理,只是不够稳健以至于无法完成。

实验结果: 残酷的真相

那么,模型的表现如何呢?结果令人清醒。

研究人员在零样本思维链 (Zero-Shot Chain-of-Thought) 设置下测试了主要模型。他们提供了谜题和指令“让我们一步步思考”。

1. 最终答案准确率

如果你只看纯准确率 (模型是否正确填充了网格?) ,表现糟糕透顶。

Figure 3: Performance of five different LLMs in terms of accuracy on the GridPuzzle dataset.

图 3 显示了 274 个谜题中正确解决的数量。

  • GPT-4: 解决 14 个谜题 (~5.1%) 。
  • Claude-3: 10 个谜题。
  • Gemini: 4 个谜题。
  • Llama-2: 1 个谜题。
  • Mistral: 0 个谜题。

对于一项需要严密逻辑的任务,目前的 LLM 基本上是在瞎猜或完全失败。即使是最强大的模型 GPT-4,也有 95% 的时间是失败的。

2. PuzzleEval 评分 vs. 准确率

然而,PuzzleEval 评分讲述了一个更微妙的故事。

Table 4: The results for PuzzleEval on the different grid sizes available in GridPuzzle dataset in terms of ACS.

表 4 显示了平均正确性评分 (ACS) 。虽然准确率接近于零,但 PuzzleEval 的得分范围在 0.27 到 0.59 之间。

这表明存在“逻辑差距 (Logic Gap) ”。像 GPT-4 这样的模型生成了许多正确的推理步骤 (因此得分为 0.59) ,但它们不可避免地会犯一个错误,这个错误会级联,最终毁掉答案。它们有能力进行局部逻辑步骤,但在跨越长链的全局一致性方面很吃力。

3. 它们究竟在哪里失败?

利用分类法和自动评估器,研究人员绘制了错误分布图。

Figure 4: The percentage distribution of the broad error categories across the combined reasoning steps of all five LLMs. The total number of steps generated by each model is provided inside the round brackets below the model names.

图 4 揭示了推理链的构成:

  • NC (无结论) : 生成文本中有很大一部分 (特别是对于 Gemini) 只是填充内容或重述线索。
  • RR (前提对,结论对) : GPT-4 的正确步骤比例最高 (蓝色条) ,这与其较高的 PuzzleEval 得分一致。
  • RW/WW: 这些是致命错误。

研究人员还生成了热力图来查明具体的逻辑失败类型。

Figure 5: The first five sub-figures in the above section show the error Sub-category distribution over five LLMS. The last sub-figure denotes the top 10 error Sub category distribution across all model reasoning steps.

图 5 强调了最主要的错误子类是:

  • 错误推理 (RW-a) : 前提正确,但应用的逻辑有缺陷。
  • 错误排除 (RW-c) : 未能剔除不再可能的选项。
  • 错误传播 (WW-4b) : 最常见的“WW”错误。一旦模型犯了一个错误,它就会将该错误视为后续步骤的事实,从而加剧失败。

这证实了 LLM 表现得像“贪婪的推理者 (greedy reasoners) ”。它们基于当前的概率进行推论,而不去验证这是否与五步前设定的约束相冲突。

4. 提示策略有帮助吗?

AI 研究中一个常见的反驳是,“你只是提示词没写对。”作者预料到了这一点,并在一部分数据上测试了几种先进的提示技术:

  • 计划并求解 (Plan-and-Solve) : 要求模型先制定计划。
  • 自修正 (Self-Correct) : 要求模型验证自己的答案。
  • 自发现 (Self-Discover) : 一个结构化的推理过程。
  • 思维程序 (Program-of-Thought) : 要求模型编写代码来解决谜题。

Table 5: The results for accuracy and PuzzleEval using GPT-4-Turbo, with and without mitigation strategies for the 60 samples of 3x4 grid-size.

表 5 中的结果令人惊讶。 这些策略都没有显著提高性能。

  • 计划并求解实际上将准确率从 12 降到了 9。
  • 自修正将其降到了 10。
  • 自发现仅提供了微小的收益 (12 到 13) 。

这表明逻辑推理的缺陷是模型当前架构的根本性问题,不能简单地通过提示词消除。即使被要求自修正,模型也经常会因为无法从根本上根据网格的严格约束“检查”其逻辑,而幻觉出其错误的答案是正确的。

结论与未来方向

论文 “Step-by-Step Reasoning to Solve Grid Puzzles” 为 AI 社区提供了一个清醒的现实检验。虽然 LLM 语言流畅,但它们进行持续、无误的逻辑演绎的能力目前非常差。

主要结论:

  1. 准确率具有误导性: 模型可能只有 0% 的准确率,但有 60% 的逐步正确性。我们需要像 PuzzleEval 这样的指标来了解部分的成功。
  2. “贪婪”问题: LLM 难以向前看或回溯。一旦它们犯了“错误推理”,随后而来的“错误传播”就注定了失败。
  3. 提示工程不是万灵药: 像思维链或自修正这样的标准技巧无法修复网格谜题语境中的根本逻辑差距。
  4. 分类法很重要: 通过对错误进行分类 (WW, RW, RR) ,我们从知道模型失败转变为理解它为什么失败。

对于学生和研究人员来说,这篇论文凸显了一个巨大的机会。我们不仅需要更大的模型;我们需要能够验证自身逻辑、在发现矛盾时回溯、并在不产生幻觉的情况下处理严格约束的模型。在此之前,虽然 LLM 也许能写一首关于逻辑谜题的诗,但它肯定解不开谜题。