像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 的兴起简直势不可挡。我们已经看到它们通过了律师资格考试、编写代码甚至创作诗歌。然而,生成流畅的文本与进行严谨的逻辑推理之间存在着明显的区别。虽然 LLM 可以解释国际象棋的历史,但它真的能保持高水平下棋吗?它能解开隐晦的填字游戏,或者推断出扫雷游戏中的地雷位置吗?

这些问题不仅仅关乎游戏;它们探索了人工智能的基本认知能力。最近的一篇综述论文《 Puzzle Solving using Reasoning of Large Language Models 》 (利用大型语言模型推理进行谜题求解) 深入探讨了这一领域。研究人员全面审视了 LLM 如何处理谜题——这些问题需要模式识别、战略规划和逻辑演绎。

本文将拆解他们的研究,探索一种新的谜题分类体系、用于解决谜题的高级提示策略,以及 AI 在人类推理面前的真实水平。

推理之谜

要理解为什么谜题是 AI 的绝佳基准测试,请看下图。它展示了一个来自 “RiddleSense” 数据集的谜语。

图 1: 来自 RiddleSense 的谜语 (Lin et al., 2021)。GPT-4、LLaMA2-70B 和 Bard 选择了正确答案。

谜语问道: “I shoot but never kill. What am I?” (我“射击”但从不杀生。我是什么?) 答案需要横向思维——摆脱“shoot”的字面解释 (武器射击) ,转向隐喻解释 (摄影/拍摄) 。

对于人类来说,这是一个独特的认知过程,涉及语言创造力和常识性知识。对于 LLM 来说,这是一个归纳推理的测试。虽然模型已经显示出在演绎推理 (遵循前提得出结论) 方面的熟练程度,但在归纳推理 (从观察中概括) 和溯因推理 (推断一组观察结果的最可能解释) 方面,它们往往表现挣扎。

这篇综述背后的研究人员意识到,要真正测试这些模型,我们不能对所有谜题一视同仁。谜语与数独网格有着本质的区别。因此,他们提出了一个重要的区分: 基于规则的谜题无规则谜题

新的谜题分类体系

这项研究的核心贡献是谜题的层级分类。这种分类法不仅仅根据格式 (例如“多项选择”) 对谜题进行分组,而是根据解决它们所需的认知技能进行分组。

图 2: 包含相应数据集的谜题类别分类体系。

如图 2 所示,研究人员将谜题世界分为两个主要分支。理解这一划分是理解 AI 表现的关键。

1. 基于规则的谜题 (Rule-Based Puzzles)

这些谜题由明确的环境、严格的约束和清晰的胜利条件定义。它们是规则不变的“封闭世界”。

  • 确定性游戏 (Deterministic Games): 在这类谜题中,行动的结果是完全可预测的。如果你移动一个棋子或填入一个数独格子,棋盘的状态会以已知的方式改变。例子包括数独 (Sudoku)魔方 (Rubik’s Cube)八数码问题 (The 8-Puzzle) 。 为了解决这些问题,LLM 必须进行前瞻搜索和战略规划。
  • 随机性游戏 (Stochastic Games): 这些游戏引入了随机性或隐藏信息。在扫雷 (Minesweeper)扑克 (Poker) 中,模型没有棋盘的“上帝视角”。它必须利用概率进行推理并管理风险。这增加了一层复杂性: 不确定性下的决策。

2. 无规则谜题 (Rule-Less Puzzles)

这些谜题依赖于现实世界的知识、灵活的思维和语境解读,而不是形式化的规则集。

  • 谜语 (Riddles): 如开篇图片所示,这需要理解隐喻、双关语和文化指涉。
  • 常识推理 (Commonsense Reasoning): 这些通常是“侦探”风格的谜题。例如: “一个人站在雨中没有戴帽子也没有打伞,但头发没湿。为什么?” 模型必须推断未陈述的事实 (例如,这个人是秃头) 。
  • 编程谜题 (Programming Puzzles): 这要求模型分析代码片段以预测输出或找到满足条件的输入。虽然代码有语法“规则”,但其逻辑通常需要解释程序的意图,这属于更广泛的推理范畴。

方法论: LLM 如何攻克谜题

一旦谜题被分类,下一个问题是: 我们如何让 LLM 解决它们?简单地将数独网格粘贴到 ChatGPT 中通常效果不佳。该综述强调了三大类策略: 提示工程、神经符号翻译和微调。

策略 1: 提示工程与“思维”拓扑结构

最活跃的研究领域涉及通过提示工程引导模型的推理过程。论文详细介绍了多种思维的“拓扑结构”——本质上就是推理过程的形状。

  • 思维链 (Chain-of-Thought, CoT): 这是最著名的方法。提示不要求立即给出答案,而是鼓励模型“一步步地思考”。这已被证明可以通过让模型分解复杂问题,显著提高基于规则和无规则谜题的表现。
  • 思维树 (Tree-of-Thoughts, ToT): 对于像数独或 24 点游戏这样的谜题,线性链条是不够的,因为可能会走进死胡同并需要回溯。ToT 允许模型探索推理的多个“分支”,评估它们,并丢弃看起来没希望的分支。这模仿了人类的试错法。
  • 思维图 (Graph-of-Thoughts, GoT) & 万物思维 (Everything-of-Thoughts, XoT): 这些是更复杂的结构,思维可以结合并循环。例如,XoT 将蒙特卡洛树搜索 (一种经典的 AI 算法) 与 LLM 集成,以在确定性谜题中实现高成功率。
  • 侦探思维 (Detective Thinking): 对于常识性谜题,鼓励模型列出线索并按顺序分析它们的特定提示已被证明优于标准提示。

策略 2: 神经符号方法 (谜题翻译)

这是一种迷人的“混合”方法。大型语言模型擅长语言,但在严谨的逻辑执行方面往往很糟糕。神经符号方法发挥了模型的长处: 翻译。

在这个工作流中,LLM 不直接解决谜题。相反,它将自然语言的谜题描述翻译成形式逻辑编程语言 (如 Answer Set Programming 或 Python) 。然后由一个专门的外部求解器 (它精通逻辑但读不懂英语) 来执行代码。

例如,在数独逻辑网格谜题中,LLM 读取线索并编写代表约束条件的代码。这种方法在 GPT-4 上对逻辑谜题实现了惊人的 92% 准确率 , 而模型尝试原生解决时准确率仅约为 21%。

策略 3: 微调 (Fine-Tuning)

暴力破解的方法是微调——在谜题数据集上专门训练模型。

  • 逻辑陷阱: 虽然微调对特定任务有帮助 (例如,专门训练谜语可以提高解谜表现) ,但它往往难以泛化。一个在扑克上微调过的模型并不会突然变得更擅长还原魔方。
  • “隐晦”挑战: 研究人员尝试在隐晦的填字游戏上微调 T5 等模型。虽然它们优于基本的基线,但与人类相比仍然表现挣扎,这突显出通过训练样本“学习规则”并不总是足以掌握深度推理。

当前研究的全景

为了直观展示科学界目前的努力方向,作者编制了一个应用于不同谜题类别的方法矩阵。

表 1: 根据我们收集的谜题基准测试,我们的分类体系中每个类别使用的方法

表 1 揭示了研究中的一些有趣空白。请注意, 少样本 (Few-shot)思维链 (Chain-of-Thought) 提示在各个领域都被大量依赖。这些是 LLM 交互中“唾手可得的果实”。

然而,看看随机性谜题 (如扫雷或纸牌游戏) ,相关方法却很少。在这些领域很少有使用高级提示 (如思维树) 或神经符号翻译的工作。这表明,解决涉及随机性和隐藏信息的谜题仍然是一个很大程度上未被探索的前沿领域。

同样, 编程谜题主要依赖于基本的提示或微调。缺乏使用“思维图”或其他复杂拓扑结构在谜题背景下调试或分析代码逻辑的研究。

关键发现与表现

那么,这些模型到底有多好?这篇综述给出了冷静的评估。

确定性规则下的挣扎

尽管拥有完全信息,LLM 在空间推理和长程规划方面仍显吃力。

  • 数独: 模型难以维护棋盘的全局状态。虽然思维树 (Tree-of-Thoughts) 有显著帮助,但纯 LLM 的效率仍远低于 90 年代编写的简单 20 行计算机算法。
  • 魔方: GPT-4 可以尝试还原,但经常生成无效移动或丢失魔方方位的跟踪。最成功的方法 (XoT) 依赖于外部修正步骤,实现了 77% 的准确率,但“原始” LLM 的表现很差。

不确定性的挑战

扫雷纸牌游戏中,结果参差不齐。

  • 扫雷: 与 GPT-3.5 相比,GPT-4 在识别地雷方面有所改进,但它难以“完成”整个棋盘。当安全步骤不明显时,它经常无法进行所需的概率推断。
  • 扑克: 有趣的是,LLM 可以掌握规则和一些策略。GPT-4 被发现比 ChatGPT 玩得更“激进”。然而,两者都没有接近“博弈论最优”(GTO) 的打法,那是扑克 AI 的黄金标准。

横向思维的差距

对于谜语常识 , LLM 的能力令人惊讶但也同样脆弱。

  • 提示至关重要: 在“侦探”基准测试中,提供提示或使用“黄金思维链” (向模型展示推理路径) 极大地提高了分数。
  • 人类差距: 在像 “True Detective” 这样的数据集上,GPT-3.5 的表现仅比随机猜测好一点。只有当提供推理步骤时,GPT-4 才能匹配人类的表现。当被要求从头开始推断解决方案时,它就落后了。

结论与未来方向

Giadikiaroglou 等人的综述描绘了一幅处于转型期的技术图景。大型语言模型还不是真正意义上的“推理引擎”。它们是强大的模式匹配器,可以模仿推理,但当面对基于规则的谜题的严格约束或复杂谜语的深度横向思维时,它们就会步履蹒跚。

作者得出的结论是,虽然提示工程 (如 CoT 和 ToT) 推动模型走得更远,但存在一个硬性上限。最有希望的未来方向可能在于神经符号集成——将 LLM 的语言流畅性与传统符号 AI 的逻辑严谨性相结合。

此外,该综述还确定了一个“资源缺口”。数独和简单谜语的数据集很多,但针对随机游戏或复杂编程谜题的稳健基准测试却寥寥无几。要构建下一代推理 AI,我们需要先为它们构建更难解的谜题。

对于 AI 学习者来说,信息很明确: 不要把文本生成误认为是逻辑。写十四行诗的能力并不等同于还原魔方的能力,而缩小这一差距是当今计算机科学中最令人兴奋的挑战之一。