将系统2思维融入大语言模型: 离线模拟如何提升推理能力
像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而,当涉及到严谨的逻辑推理或复杂的多步数学运算时,它们往往会露出马脚。模型可能会产生事实幻觉,进行不合逻辑的跳跃,或者干脆在不理解“为什么”的情况下猜测最终答案。
在认知科学中,这种快速、直觉式的反应通常被称为 系统 1 (System 1) 思维。但在解决复杂问题时,人类使用的是 系统 2 (System 2) 思维——这是一个更慢、更深思熟虑的过程,涉及规划、评估中间步骤,并在必要时进行回溯。
我们如何让 LLM 执行这种“系统 2”推理呢?一种常见的方法是 推理即规划 (Reasoning-as-Planning) , 即模型在推理过程中探索不同的路径 (就像国际象棋机器人在提前思考几步棋一样) 。问题在于?这种方法速度极慢,且每次提问时都会消耗巨大的算力。
在这篇文章中,我们将深入探讨一篇引人入胜的论文: “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” (通过轨迹收集和过程奖励合成学习基于规划的推理) 。该论文提出了一个聪明的解决方案: 将规划过程从推理阶段转移到训练阶段。 通过使用离线模拟来合成“过程奖励”,然后使用直接偏好优化 (DPO) 对模型进行训练,研究人员创建了一个 70 亿参数 (7B) 的模型,该模型在逻辑推理任务上的表现超过了像 GPT-3.5-Turbo 这样的大型模型。
核心问题: 结果与过程
要理解这里的创新点,我们首先需要看看目前是如何教 LLM 进行推理的。
大多数方法依赖于 结果监督 (Outcome Supervision) 。 你给模型一道数学题,它生成一个答案,然后你告诉它“正确”或“错误”。这就像只根据最终答案给学生评分一样。如果他们得到了正确的答案但使用了错误的逻辑,他们就学到了错误的经验。如果他们使用了完美的逻辑但最后犯了一个拼写错误,他们就会受到惩罚。
更好的方法是 过程监督 (Process Supervision) 。 这涉及对推理的每一个 步骤 (即“思维链”) 进行评分。虽然有效,但这通常需要人类手动标注成千上万个推理轨迹的每一步——这个过程极其昂贵且难以扩展。
规划的替代方案
另一种替代方案是将推理视为搜索问题。正如下面的 图 2(a) 所示,在推理过程中,模型生成可能想法的“树”。验证器会对这些中间步骤进行评分,并由蒙特卡洛树搜索 (MCTS) 等算法找到最佳路径。

虽然图 2(a) 产生了很好的结果,但它导致了高延迟。想象一下,因为模型在后台运行搜索算法,每生成一句话都要等 30 秒。
这篇论文的作者提出了 图 2(b) 中的方法: 在 离线 状态下使用该搜索过程来收集数据,为每一步合成奖励,然后对模型进行微调以使其内化这种规划能力。结果如何?一个无需推理延迟即可能够即时进行更好推理的模型。
方法论: 通过模拟合成奖励
研究人员的框架旨在将“结果监督” (廉价/易得) 转化为“过程监督” (有价值) 。让我们拆解一下这个方法,如 图 3 所示。

第一步: 轨迹收集与部分探索
首先,模型为一组问题生成完整的解决方案 (轨迹) 。
关键的创新在于 离线模拟 (Offline Simulation) 。 为了确定某个特定的中间步骤 (比如,一个 10 步数学证明中的第 3 步) 是否良好,研究人员并不询问人类。相反,他们使用 蒙特卡洛估计 (Monte Carlo estimation) 。
他们取那个特定的中间状态,让模型从那个点开始完成问题,并重复多次 (例如,50 次不同的完成过程) 。
- 如果 50 次完成中有 45 次得出了正确的最终答案,那么这个中间步骤就非常有价值。
- 如果 50 次中只有 2 次得出了正确答案,那么这一步很可能是幻觉或逻辑错误。
这个过程本质上是在估计特定状态的预期未来奖励或“价值”。

如上式所示,步骤 \(t\) 处轨迹的估计奖励 \(r_e\) 是 \(K\) 次模拟中正确结果 \(r_f\) 的总和。
第二步: 训练过程奖励模型 (PRM)
在最终的训练循环中为每一步运行 50 次模拟太慢了。因此,研究人员使用第一步收集的数据来训练一个 过程奖励模型 (Process Reward Model, PRM) 。
这个 PRM 是一个分类器,它学习直接预测推理步骤的“价值”。它观察一个半完成的解决方案并预测: 如果我们从这里继续,得到正确答案的概率是多少?
PRM 使用从模拟中构建的数据集进行训练:

通过训练这个模型,他们消除了随机模拟的噪声,并为推理步骤创建了一个快速、高效的评分器。
第三步: 构建偏好
现在研究人员有办法为任何推理路径评分了。他们为同一个问题生成成对的解决方案,并计算每一个的 轨迹级奖励 (trajectory-level reward) 。
完整轨迹的奖励不仅仅是“它是否得到了正确答案?”,而是 PRM 在沿途每一步的累积置信度。

在这个公式中,\(f_{\text{prm}}\) 代表来自过程奖励模型的分数。这确保了只有当 过程 合理时,轨迹才被认为是“好”的,而不仅仅是因为模型侥幸猜对了最终答案。
第四步: 直接偏好优化 (DPO)
最后,策略模型 (LLM 本身) 使用 直接偏好优化 (Direct Preference Optimization, DPO) 进行训练。
DPO 是强化学习 (如 PPO) 的一种稳定且高效的替代方案。它的工作原理是获取成对的输出——一个“胜出” (\(y_w\)) 和一个“失败” (\(y_l\)) ——并调整模型的概率以偏向胜者。

然而,与只关心最终答案的标准 DPO 不同,这种方法使用 过程奖励 来决定胜者。只有当一个轨迹的累积过程奖励显著高于另一个轨迹时,它才会被选为胜者。这创建了一个高质量推理对的数据集 \(\mathcal{D}_p\):

这种方法被称为 pDPO (过程监督 DPO) , 它迫使模型学习良好推理的 结构,有效地将“系统 2”的规划能力蒸馏到模型的标准权重中。
实验结果
研究人员在逻辑推理 (LogiQA, ReClor) 和数学推理 (GSM8K) 的标准基准上测试了他们的 Llama-2-7B 模型 (经 pDPO 微调) 。
击败巨头
结果令人瞩目。如 表 1 所示,使用这种方法训练的 7B 参数模型 (Llama2-7B-pDPO) 在 LogiQA-v2 数据集上的表现超过了 GPT-3.5-Turbo 。

查看表格:
- Llama2-7B-SFT (标准微调) 在 LogiQA 上达到 45.5 分。
- Llama2-7B-DPO (标准 DPO) 将其提升至 53.1 分。
- Llama2-7B-pDPO (本方法) 达到了 55.5 分。
这表明,添加合成的过程监督比仅使用结果监督能产生显著的收益。
数据效率
最有希望的发现之一是这种方法的数据效率非常高。因为每一个中间步骤都提供了学习信号 (而不仅仅是生成文本末尾的一个信号) ,模型学习得更快。
图 4 显示,即使仅使用 40% 或 60% 的可用数据进行训练,pDPO (红线) 也始终优于标准 DPO (蓝线) 和 SFT (绿线) 。

推理质量
模型是真的推理得更好了,还是只是在刷分?为了测试这一点,研究人员使用 GPT-4 作为裁判,比较了标准 DPO 与 pDPO 生成的理由。
他们根据三个标准评估输出: 合理 (Reasonable) (有效的推导) 、简洁 (Concise) (无废话) 和 逻辑一致 (Logically Consistent) 。

如 图 6 所示,pDPO 在大多数情况下获胜。它生成的推理痕迹不仅更准确,而且更简洁。通过过程奖励模型惩罚离题、低置信度的步骤,系统学会了直接和逻辑化。
一个具体案例
这在实践中看起来是什么样的?研究人员提供了他们的模型生成的解决方案的可视化示例。

在 图 1 中,我们看到模型使用了清晰的“思考 -> 行动 -> 观察”模式 (ReAct 格式) 。模型分解了一个关于政治候选人的复杂逻辑谜题,逐步评估前提。pDPO 训练使模型能够保持这种结构,而不会迷失方向或产生矛盾的幻觉,这通常是小模型解决逻辑网格谜题时的常见故障模式。
结论与启示
论文 “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” 为小型 LLM 推理能力的未来提供了一个令人信服的蓝图。
主要结论包括:
- 模拟取代标注: 我们不需要昂贵的人类专家来标记数学题的每一步。我们可以通过模拟结果来估计中间步骤的价值。
- 训练优于推理: 不必每次用户提问时都运行昂贵的搜索算法,我们可以离线执行该搜索并使用数据来训练模型。这赋予了我们规划的“智慧”以及标准生成的“速度”。
- 过程胜于结果: 监督推理的 过程 比仅监督 答案 能产生更稳健的模型。
这项工作表明,开源模型 (如 Llama) 与专有巨头 (如 GPT-4) 之间的差距不仅可以通过增加参数来缩小,还可以通过改变教模型思考的 方式 来缩小。通过将“系统 2”思维过程合成为奖励信号,我们实际上是在教模型在写完句子之前先验证自己的工作。
](https://deep-paper.org/en/paper/2402.00658/images/cover.png)