引言
在人工智能领域,像 GPT-4 和 Llama-3 这样的大语言模型 (LLM) 就像是聪明但偶尔不靠谱的学生。问它们一个复杂的问题,它们可能会给你正确的答案。但是,如果你问它们是为什么得出这个结论的,解释有时可能是一团混乱的幻觉,或者是逻辑上的凭空跳跃。
对于日常对话来说,这是可以容忍的。但对于高风险领域——如法律分析、科学发现或复杂的逻辑谜题——我们需要的不仅仅是一个答案。我们需要一个证明 。 我们需要看到中间步骤、所使用的证据,以及将前提与结论联系起来的逻辑结构。
虽然像思维链 (Chain-of-Thought, CoT) 提示这样的技术通过要求模型“一步步思考”改进了推理能力,但它们在很大程度上仍将推理视为一条线性路径。但现实世界的逻辑并不总是一条直线;它是一棵树,或者更准确地说,是一个图。前提结合形成中间结论,中间结论再分叉并合并以支持最终的假设。
这就引出了一篇引人入胜的论文,题为 “Exploring the Role of Reasoning Structures for Constructing Proofs in Multi-Step Natural Language Reasoning with Large Language Models” (探索推理结构在利用大语言模型构建多步自然语言推理证明中的作用) 。研究人员提出了一种超越简单线性推理的新颖框架。他们研究了 LLM 是否可以通过*上下文学习 (in-context learning) *——仅向模型提供少量精心挑选的示例——来学习构建显式的证明图 。
在这篇深度文章中,我们将探讨他们如何赋予 LLM “结构感知 (Structure-Aware) ”能力,使这些模型能够搜索证据、提出逻辑步骤并修剪错误的推理路径,从而有效地将黑盒生成器转变为透明的推理引擎。
问题: 为什么线性推理还不够
要理解这篇论文的贡献,我们首先需要看看当前最先进方法的局限性。
线性链的局限
当 LLM 使用标准的思维链 (CoT) 时,它会生成一系列前后相继的想法。这对于顺序问题 (A \(\rightarrow\) B \(\rightarrow\) C) 很有效。然而,复杂的推理通常需要结合不同的证据片段。你可能需要结合事实 A 和事实 B 来证明点 X,同时利用事实 C 和事实 D 来证明点 Y,最后结合 X 和 Y 来证明答案 Z。
这是一种非顺序 (non-sequential) 结构。如果模型试图将其展平为单个线性链,它通常会丢失逻辑依赖关系,或幻想出不存在的连接。
可解释性差距
此外,仅仅生成文本并不是严格的证明。一个健壮的系统应该输出一个证明图 (Proof Graph) : 一种结构化表示,其中节点是句子 (证据或中间结论) ,边代表逻辑蕴含。这项研究的目标是强迫 LLM 显式地构建这个图。
解决方案: 结构感知框架
研究人员引入了一个无需对模型进行微调 (微调成本高昂且需要海量数据集) 的综合框架。相反,他们使用上下文学习——在提示中给模型提供示例。但他们不仅仅是挑选随机示例;他们挑选的是那些具有相似推理结构的示例。
该框架由两大支柱组成:
- 结构感知演示 (Structure-Aware Demonstration) : 寻找合适的例子展示给模型。
- 结构感知剪枝 (Structure-Aware Pruning) : 引导模型的搜索过程以避免冗余和死胡同。
让我们看看他们提出的系统的完整架构。

如图 1 所示,该过程是迭代的。它从一个问题 (\(q\)) 、一个假设 (\(h\)) 和一个包含潜在证据句子的上下文 (\(C\)) 开始。系统循环进行候选检索、提出推理步骤、评估它们并生成提示,同时维护一个证明图。
让我们一步步拆解这些组件。
第一部分: 结构感知演示
标准的上下文学习通常基于语义相似性选择演示 (示例) 。如果你的问题是关于“猫”的,它会找到关于“动物”的其他例子。
作者认为这还不够。如果你的问题需要一个“发散”的推理结构 (一个事实证明两件不同的事情) ,即使主题相似,向模型展示一个“线性”推理的例子也毫无帮助。你需要一个具有相似逻辑骨架的例子。
鸡生蛋还是蛋生鸡的问题
如果你还没有为当前问题构建证明,你如何找到一个具有相似证明结构的例子呢?
研究人员通过“猜测与优化”策略 (在图 1 中标记为绿色箭头) 解决了这个问题:
- 猜测 (Guess) : 他们要求 LLM 为当前问题生成一个初步的、“猜测”的证明图。
- 编码 (Encode) : 他们使用图注意力网络 (GATv2) 将这个猜测的图编码为数学表示。
- 搜索 (Search) : 他们将此编码与已解决问题的数据库进行比较,以找到证明结构最相似的问题。
- 提示 (Prompt) : 这些结构相似的例子随后被用作实际推理阶段的少样本 (few-shot) 演示。
这确保了 LLM 准备好了它需要执行的那种逻辑,而不仅仅是主题。
第二部分: 推理管道
一旦选择了演示,模型就开始实际的证明构建。这是一个迭代循环 (图 1 中的蓝色箭头) 。
1. 候选检索 (Candidate Retrieval)
上下文 (\(C\)) 通常包含许多不相关的句子 (干扰项) 。第一步是过滤这些句子。模型根据问题 (\(q\)) 、假设 (\(h\)) 和证明的当前状态来检索相关句子的子集,记为 \(C_s\)。

这里,\(z_i\) 代表生成的输出,其中包含模型认为相关的句子 ID。这减少了后续步骤的噪声。
2. 推理步骤提议 (Reasoning Step Proposal)
现在模型必须扮演逻辑学家的角色。它获取检索到的句子并提出一个逻辑步骤。例如,“结合句子 7 和句子 4 推导出中间结论 1。”

输出 \(r_i\) 被解析为结构化格式 (例如,sent7 & sent4 -> int1) 。这很关键,因为它构建了显式的图结构,而不仅仅是非结构化的文本。
3. 推理步骤评估 (Reasoning Step Evaluation)
众所周知,LLM 往往过度自信。为了缓解这个问题,该框架包含了一个自我评估步骤。模型被要求验证它刚刚提出的步骤的有效性。

模型为推理步骤分配一个分数 (\(s_i\)) 。如果分数太低 (例如,逻辑断裂) ,该步骤将被丢弃。
4. 证明提示生成 (Proof Hint Generation)
这是最具创新性的组件之一。在复杂的推理中,模型经常“卡住”或偏离目标。为了防止这种情况,研究人员实现了一个证明提示模块。
在每一步,模型都会比较当前中间结论与最终假设 (\(h\)) 。它显式生成一个自然语言提示,描述缺失了什么。

回顾图 1 的底部,你可以看到这方面的一个例子。
- 当前状态: 我们知道“花依赖蜜蜂”。
- 目标: 证明“蜜蜂帮助授粉”。
- 生成的提示: “缺失的是蜜蜂帮助授粉这一联系。”
这个提示 \(m\) 被反馈到下一次迭代的候选检索步骤中,充当搜索查询,以找到填补空白所需的确切证据。
第三部分: 结构感知剪枝
上述过程生成了一棵可能性之树。如果我们探索句子的每一种可能组合,计算量将会爆炸 (组合爆炸) 。我们需要修剪这棵树。
研究人员发现,标准的搜索方法经常陷入循环或冗余分支。为了解决这个问题,他们引入了结构感知剪枝 。
“多样性”策略
在初步实验中,他们发现当模型被迫使用多样化的证据时,表现会更好。如果一个模型刚刚使用句子 A 证明了结论 B,它不应该立即在同一个分支中再次使用句子 A 来证明其他微不足道的事情。
剪枝算法不鼓励模型从刚刚在前一步生成的节点继续扩展证明图。它强迫模型查看树的其他分支,确保逻辑论证的不同部分在合并之前得到并行发展。这模仿了人类解决拼图的方式: “我已经解决了这个角,现在让我做那个角,稍后再把它们连起来。”
实验与结果
研究人员在三个具有挑战性的基准数据集上测试了他们的框架:
- EntailmentBank: 专门设计用于用蕴含树解释答案的数据集。
- AR-LSAT: 法学院入学考试中的分析推理任务 (非常难的逻辑谜题) 。
- PrOntoQA: 一个具有严格一阶逻辑结构的合成数据集。
他们将自己的方法与强大的基线进行了比较:
- CoT: 思维链 (标准线性推理) 。
- CoT-sc: 自洽性 (运行多次 CoT 并投票) 。
- ToT: 思维树 (探索多个推理分支) 。
- RAP: 通过规划进行推理 (Reasoning-via-Planning) 。
主要表现
结果令人印象深刻。让我们看看 Table 1 。

关键指标解释:
- Ev-F (Evidence F1): 模型是否找到了正确的支持句子?
- Pr-F (Proof F1): 模型是否构建了正确的逻辑步骤 (节点和边) ?
- G Sim (Graph Similarity): 预测图的整体形状与正确证明图的相似度如何?
结论: 提出的方法 (“Ours”) 在所有数据集和模型 (GPT-3.5, GPT-4, Llama-2/3) 上始终优于基线。
- 在 EntailmentBank 上,使用 GPT-4 时,该方法的 G Sim 达到 0.162 , 显著高于 CoT (0.105) 和 ToT (0.140)。
- Evidence F1 的提高表明,“证明提示”机制有效地帮助模型在大海捞针中找到了正确的针。
结构真的重要吗?
为了证明模型的“结构感知”部分发挥了重要作用,作者进行了消融研究 (移除系统的某些部分以查看会有什么破坏) 。

在 Table 2 中,我们看到了细分数据:
- w/o prun: 移除结构感知剪枝会导致性能下降。
- w/o demon: 移除结构感知演示 (仅使用随机或文本相似的演示) 会导致大幅下降 (Ev-F 从 .355 降至 .293) 。
- w/o hint: 移除“证明提示”生成也会显著损害寻找证据的能力。
这证实了仅仅拥有一个聪明的模型是不够的;用基于结构的示例和提示来引导它是至关重要的。
顺序推理与非顺序推理
论文中最有趣的分析之一是模型如何处理复杂性。研究人员将测试问题分类为“顺序” (线性链) 和“非顺序” (分支图) 。

Table 3 揭示了一个关键见解:
- 在顺序问题上,提出的方法与思维树 (ToT) 表现相当。这是合理的;如果逻辑是一条直线,树搜索不会增加太多价值。
- 在非顺序问题上,提出的方法优于 ToT。这验证了结构感知演示有助于模型驾驭标准方法难以应对的复杂、分支逻辑的假设。
进一步分析
论文还对数据进行了更深入的剖析。例如, Table 12 比较了不同的内部策略。

在这里,“Ours (div)” 指的是前面讨论的多样性剪枝策略。你可以看到它优于“Ours (reuse_ic)”,后者允许立即重用中间结论。这一数学确认支持了推理需要广泛和多样化,而不是重复的直觉。
最后, Table 13 提供了定性示例,展示了“证明提示”的实际作用。

在 Case 1 (第一行) 中,没有提示的模型迷失了方向。有提示的模型明确指出: “仍然缺少的是直接联系……即‘摄入二氧化碳’确实是过程的一个步骤……” 这种反思使它能够检索到填补逻辑空白所需的特定句子,而没有提示的版本则无法建立这种联系。
结论与启示
这项研究标志着使大语言模型具有“可解释性”的重要一步。通过强迫模型构建显式的证明图,我们从“相信我,我是 AI”转变为“这是我的工作过程,请验证它”。
关键要点包括:
- 结构很重要: 当演示共享相同的逻辑结构而不仅仅是相同的主题时,上下文学习更有效。
- 引导式搜索: LLM 需要帮助来导航推理空间。诸如“证明提示”和基于多样性的剪枝等机制可以防止模型迷失方向。
- 超越线性: 随着 AI 解决更复杂的现实世界问题 (法律、科学、物流) ,推理将很少是线性的。拥抱基于图的结构的框架对于下一代智能体至关重要。
虽然该方法增加了计算成本 (由于迭代搜索和多次 API 调用) ,但换来的是可靠性和透明度的可衡量提升。对于进入该领域的学生和研究人员来说,这篇论文是一个完美的例子,展示了如何将经典算法 (如图神经网络和搜索) 与现代生成式 AI 相结合来解决难题。
](https://deep-paper.org/en/paper/2410.08436/images/cover.png)