将系统2思维融入大语言模型: 离线模拟如何提升推理能力

像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而，当涉及到严谨的逻辑推理或复杂的多步数学运算时，它们往往会露出马脚。模型可能会产生事实幻觉，进行不合逻辑的跳跃，或者干脆在不理解“为什么”的情况下猜测最终答案。

在认知科学中，这种快速、直觉式的反应通常被称为 系统 1 (System 1) 思维。但在解决复杂问题时，人类使用的是 系统 2 (System 2) 思维——这是一个更慢、更深思熟虑的过程，涉及规划、评估中间步骤，并在必要时进行回溯。

我们如何让 LLM 执行这种“系统 2”推理呢？一种常见的方法是 推理即规划 (Reasoning-as-Planning) , 即模型在推理过程中探索不同的路径 (就像国际象棋机器人在提前思考几步棋一样) 。问题在于？这种方法速度极慢，且每次提问时都会消耗巨大的算力。

在这篇文章中，我们将深入探讨一篇引人入胜的论文: “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” (通过轨迹收集和过程奖励合成学习基于规划的推理) 。该论文提出了一个聪明的解决方案: 将规划过程从推理阶段转移到训练阶段。 通过使用离线模拟来合成“过程奖励”，然后使用直接偏好优化 (DPO) 对模型进行训练，研究人员创建了一个 70 亿参数 (7B) 的模型，该模型在逻辑推理任务上的表现超过了像 GPT-3.5-Turbo 这样的大型模型。

核心问题: 结果与过程

要理解这里的创新点，我们首先需要看看目前是如何教 LLM 进行推理的。

大多数方法依赖于 结果监督 (Outcome Supervision) 。你给模型一道数学题，它生成一个答案，然后你告诉它“正确”或“错误”。这就像只根据最终答案给学生评分一样。如果他们得到了正确的答案但使用了错误的逻辑，他们就学到了错误的经验。如果他们使用了完美的逻辑但最后犯了一个拼写错误，他们就会受到惩罚。

更好的方法是 过程监督 (Process Supervision) 。这涉及对推理的每一个步骤 (即“思维链”) 进行评分。虽然有效，但这通常需要人类手动标注成千上万个推理轨迹的每一步——这个过程极其昂贵且难以扩展。

规划的替代方案

另一种替代方案是将推理视为搜索问题。正如下面的 图 2(a) 所示，在推理过程中，模型生成可能想法的“树”。验证器会对这些中间步骤进行评分，并由蒙特卡洛树搜索 (MCTS) 等算法找到最佳路径。

基于搜索的推理与基于轨迹收集的离线训练之间的比较。

虽然图 2(a) 产生了很好的结果，但它导致了高延迟。想象一下，因为模型在后台运行搜索算法，每生成一句话都要等 30 秒。

这篇论文的作者提出了 图 2(b) 中的方法: 在离线状态下使用该搜索过程来收集数据，为每一步合成奖励，然后对模型进行微调以使其内化这种规划能力。结果如何？一个无需推理延迟即可能够即时进行更好推理的模型。

方法论: 通过模拟合成奖励

研究人员的框架旨在将“结果监督” (廉价/易得) 转化为“过程监督” (有价值) 。让我们拆解一下这个方法，如 图 3 所示。

该方法的整体框架，展示了轨迹收集、奖励合成和优化过程。

第一步: 轨迹收集与部分探索

首先，模型为一组问题生成完整的解决方案 (轨迹) 。

关键的创新在于 离线模拟 (Offline Simulation) 。为了确定某个特定的中间步骤 (比如，一个 10 步数学证明中的第 3 步) 是否良好，研究人员并不询问人类。相反，他们使用 蒙特卡洛估计 (Monte Carlo estimation) 。

他们取那个特定的中间状态，让模型从那个点开始完成问题，并重复多次 (例如，50 次不同的完成过程) 。

如果 50 次完成中有 45 次得出了正确的最终答案，那么这个中间步骤就非常有价值。
如果 50 次中只有 2 次得出了正确答案，那么这一步很可能是幻觉或逻辑错误。

这个过程本质上是在估计特定状态的预期未来奖励或“价值”。

通过模拟估计期望值的公式。

如上式所示，步骤 \(t\) 处轨迹的估计奖励 \(r_e\) 是 \(K\) 次模拟中正确结果 \(r_f\) 的总和。

第二步: 训练过程奖励模型 (PRM)

在最终的训练循环中为每一步运行 50 次模拟太慢了。因此，研究人员使用第一步收集的数据来训练一个 过程奖励模型 (Process Reward Model, PRM) 。

这个 PRM 是一个分类器，它学习直接预测推理步骤的“价值”。它观察一个半完成的解决方案并预测: 如果我们从这里继续，得到正确答案的概率是多少？

PRM 使用从模拟中构建的数据集进行训练:

奖励建模的数据集定义。

通过训练这个模型，他们消除了随机模拟的噪声，并为推理步骤创建了一个快速、高效的评分器。

第三步: 构建偏好

现在研究人员有办法为任何推理路径评分了。他们为同一个问题生成成对的解决方案，并计算每一个的 轨迹级奖励 (trajectory-level reward) 。

完整轨迹的奖励不仅仅是“它是否得到了正确答案？”，而是 PRM 在沿途每一步的累积置信度。

轨迹级奖励计算公式。

在这个公式中，\(f_{\text{prm}}\) 代表来自过程奖励模型的分数。这确保了只有当过程合理时，轨迹才被认为是“好”的，而不仅仅是因为模型侥幸猜对了最终答案。

第四步: 直接偏好优化 (DPO)

最后，策略模型 (LLM 本身) 使用 直接偏好优化 (Direct Preference Optimization, DPO) 进行训练。

DPO 是强化学习 (如 PPO) 的一种稳定且高效的替代方案。它的工作原理是获取成对的输出——一个“胜出” (\(y_w\)) 和一个“失败” (\(y_l\)) ——并调整模型的概率以偏向胜者。

DPO 损失函数。

然而，与只关心最终答案的标准 DPO 不同，这种方法使用 过程奖励 来决定胜者。只有当一个轨迹的累积过程奖励显著高于另一个轨迹时，它才会被选为胜者。这创建了一个高质量推理对的数据集 \(\mathcal{D}_p\):

过程监督偏好数据集定义。

这种方法被称为 pDPO (过程监督 DPO) , 它迫使模型学习良好推理的结构，有效地将“系统 2”的规划能力蒸馏到模型的标准权重中。

实验结果

研究人员在逻辑推理 (LogiQA, ReClor) 和数学推理 (GSM8K) 的标准基准上测试了他们的 Llama-2-7B 模型 (经 pDPO 微调) 。

击败巨头

结果令人瞩目。如 表 1 所示，使用这种方法训练的 7B 参数模型 (Llama2-7B-pDPO) 在 LogiQA-v2 数据集上的表现超过了 GPT-3.5-Turbo 。

逻辑推理基准测试的实验结果表。

查看表格:

Llama2-7B-SFT (标准微调) 在 LogiQA 上达到 45.5 分。
Llama2-7B-DPO (标准 DPO) 将其提升至 53.1 分。
Llama2-7B-pDPO (本方法) 达到了 55.5 分。

这表明，添加合成的过程监督比仅使用结果监督能产生显著的收益。

数据效率

最有希望的发现之一是这种方法的数据效率非常高。因为每一个中间步骤都提供了学习信号 (而不仅仅是生成文本末尾的一个信号) ，模型学习得更快。

图 4 显示，即使仅使用 40% 或 60% 的可用数据进行训练，pDPO (红线) 也始终优于标准 DPO (蓝线) 和 SFT (绿线) 。

准确率对比图表，显示 pDPO 在不同数据比例下均优于 DPO 和 SFT。

推理质量

模型是真的推理得更好了，还是只是在刷分？为了测试这一点，研究人员使用 GPT-4 作为裁判，比较了标准 DPO 与 pDPO 生成的理由。

他们根据三个标准评估输出: 合理 (Reasonable) (有效的推导) 、简洁 (Concise) (无废话) 和 逻辑一致 (Logically Consistent) 。

胜率图表显示 pDPO 在 GPT-4 自动评估中始终击败 DPO。

如 图 6 所示，pDPO 在大多数情况下获胜。它生成的推理痕迹不仅更准确，而且更简洁。通过过程奖励模型惩罚离题、低置信度的步骤，系统学会了直接和逻辑化。

一个具体案例

这在实践中看起来是什么样的？研究人员提供了他们的模型生成的解决方案的可视化示例。

微调模型生成的解决方案示例。

在 图 1 中，我们看到模型使用了清晰的“思考 -> 行动 -> 观察”模式 (ReAct 格式) 。模型分解了一个关于政治候选人的复杂逻辑谜题，逐步评估前提。pDPO 训练使模型能够保持这种结构，而不会迷失方向或产生矛盾的幻觉，这通常是小模型解决逻辑网格谜题时的常见故障模式。

结论与启示

论文 “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” 为小型 LLM 推理能力的未来提供了一个令人信服的蓝图。

主要结论包括:

模拟取代标注: 我们不需要昂贵的人类专家来标记数学题的每一步。我们可以通过模拟结果来估计中间步骤的价值。
训练优于推理: 不必每次用户提问时都运行昂贵的搜索算法，我们可以离线执行该搜索并使用数据来训练模型。这赋予了我们规划的“智慧”以及标准生成的“速度”。
过程胜于结果: 监督推理的过程比仅监督答案能产生更稳健的模型。

这项工作表明，开源模型 (如 Llama) 与专有巨头 (如 GPT-4) 之间的差距不仅可以通过增加参数来缩小，还可以通过改变教模型思考的方式来缩小。通过将“系统 2”思维过程合成为奖励信号，我们实际上是在教模型在写完句子之前先验证自己的工作。

将系统2思维融入大语言模型: 离线模拟如何提升推理能力#

核心问题: 结果与过程#

规划的替代方案#

方法论: 通过模拟合成奖励#

第一步: 轨迹收集与部分探索#

第二步: 训练过程奖励模型 (PRM)#

第三步: 构建偏好#

第四步: 直接偏好优化 (DPO)#

实验结果#

击败巨头#

数据效率#

推理质量#

一个具体案例#

结论与启示#