将系统2思维融入大语言模型: 离线模拟如何提升推理能力

像 GPT-4 和 Llama 2 这样的大语言模型 (LLMs) 以其写诗、通过代码和撰写论文的能力惊艳了世界。然而,当涉及到严谨的逻辑推理或复杂的多步数学运算时,它们往往会露出马脚。模型可能会产生事实幻觉,进行不合逻辑的跳跃,或者干脆在不理解“为什么”的情况下猜测最终答案。

在认知科学中,这种快速、直觉式的反应通常被称为 系统 1 (System 1) 思维。但在解决复杂问题时,人类使用的是 系统 2 (System 2) 思维——这是一个更慢、更深思熟虑的过程,涉及规划、评估中间步骤,并在必要时进行回溯。

我们如何让 LLM 执行这种“系统 2”推理呢?一种常见的方法是 推理即规划 (Reasoning-as-Planning) , 即模型在推理过程中探索不同的路径 (就像国际象棋机器人在提前思考几步棋一样) 。问题在于?这种方法速度极慢,且每次提问时都会消耗巨大的算力。

在这篇文章中,我们将深入探讨一篇引人入胜的论文: “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” (通过轨迹收集和过程奖励合成学习基于规划的推理) 。该论文提出了一个聪明的解决方案: 将规划过程从推理阶段转移到训练阶段。 通过使用离线模拟来合成“过程奖励”,然后使用直接偏好优化 (DPO) 对模型进行训练,研究人员创建了一个 70 亿参数 (7B) 的模型,该模型在逻辑推理任务上的表现超过了像 GPT-3.5-Turbo 这样的大型模型。

核心问题: 结果与过程

要理解这里的创新点,我们首先需要看看目前是如何教 LLM 进行推理的。

大多数方法依赖于 结果监督 (Outcome Supervision) 。 你给模型一道数学题,它生成一个答案,然后你告诉它“正确”或“错误”。这就像只根据最终答案给学生评分一样。如果他们得到了正确的答案但使用了错误的逻辑,他们就学到了错误的经验。如果他们使用了完美的逻辑但最后犯了一个拼写错误,他们就会受到惩罚。

更好的方法是 过程监督 (Process Supervision) 。 这涉及对推理的每一个 步骤 (即“思维链”) 进行评分。虽然有效,但这通常需要人类手动标注成千上万个推理轨迹的每一步——这个过程极其昂贵且难以扩展。

规划的替代方案

另一种替代方案是将推理视为搜索问题。正如下面的 图 2(a) 所示,在推理过程中,模型生成可能想法的“树”。验证器会对这些中间步骤进行评分,并由蒙特卡洛树搜索 (MCTS) 等算法找到最佳路径。

基于搜索的推理与基于轨迹收集的离线训练之间的比较。

虽然图 2(a) 产生了很好的结果,但它导致了高延迟。想象一下,因为模型在后台运行搜索算法,每生成一句话都要等 30 秒。

这篇论文的作者提出了 图 2(b) 中的方法: 在 离线 状态下使用该搜索过程来收集数据,为每一步合成奖励,然后对模型进行微调以使其内化这种规划能力。结果如何?一个无需推理延迟即可能够即时进行更好推理的模型。

方法论: 通过模拟合成奖励

研究人员的框架旨在将“结果监督” (廉价/易得) 转化为“过程监督” (有价值) 。让我们拆解一下这个方法,如 图 3 所示。

该方法的整体框架,展示了轨迹收集、奖励合成和优化过程。

第一步: 轨迹收集与部分探索

首先,模型为一组问题生成完整的解决方案 (轨迹) 。

关键的创新在于 离线模拟 (Offline Simulation) 。 为了确定某个特定的中间步骤 (比如,一个 10 步数学证明中的第 3 步) 是否良好,研究人员并不询问人类。相反,他们使用 蒙特卡洛估计 (Monte Carlo estimation)

他们取那个特定的中间状态,让模型从那个点开始完成问题,并重复多次 (例如,50 次不同的完成过程) 。

  • 如果 50 次完成中有 45 次得出了正确的最终答案,那么这个中间步骤就非常有价值。
  • 如果 50 次中只有 2 次得出了正确答案,那么这一步很可能是幻觉或逻辑错误。

这个过程本质上是在估计特定状态的预期未来奖励或“价值”。

通过模拟估计期望值的公式。

如上式所示,步骤 \(t\) 处轨迹的估计奖励 \(r_e\) 是 \(K\) 次模拟中正确结果 \(r_f\) 的总和。

第二步: 训练过程奖励模型 (PRM)

在最终的训练循环中为每一步运行 50 次模拟太慢了。因此,研究人员使用第一步收集的数据来训练一个 过程奖励模型 (Process Reward Model, PRM)

这个 PRM 是一个分类器,它学习直接预测推理步骤的“价值”。它观察一个半完成的解决方案并预测: 如果我们从这里继续,得到正确答案的概率是多少?

PRM 使用从模拟中构建的数据集进行训练:

奖励建模的数据集定义。

通过训练这个模型,他们消除了随机模拟的噪声,并为推理步骤创建了一个快速、高效的评分器。

第三步: 构建偏好

现在研究人员有办法为任何推理路径评分了。他们为同一个问题生成成对的解决方案,并计算每一个的 轨迹级奖励 (trajectory-level reward)

完整轨迹的奖励不仅仅是“它是否得到了正确答案?”,而是 PRM 在沿途每一步的累积置信度。

轨迹级奖励计算公式。

在这个公式中,\(f_{\text{prm}}\) 代表来自过程奖励模型的分数。这确保了只有当 过程 合理时,轨迹才被认为是“好”的,而不仅仅是因为模型侥幸猜对了最终答案。

第四步: 直接偏好优化 (DPO)

最后,策略模型 (LLM 本身) 使用 直接偏好优化 (Direct Preference Optimization, DPO) 进行训练。

DPO 是强化学习 (如 PPO) 的一种稳定且高效的替代方案。它的工作原理是获取成对的输出——一个“胜出” (\(y_w\)) 和一个“失败” (\(y_l\)) ——并调整模型的概率以偏向胜者。

DPO 损失函数。

然而,与只关心最终答案的标准 DPO 不同,这种方法使用 过程奖励 来决定胜者。只有当一个轨迹的累积过程奖励显著高于另一个轨迹时,它才会被选为胜者。这创建了一个高质量推理对的数据集 \(\mathcal{D}_p\):

过程监督偏好数据集定义。

这种方法被称为 pDPO (过程监督 DPO) , 它迫使模型学习良好推理的 结构,有效地将“系统 2”的规划能力蒸馏到模型的标准权重中。

实验结果

研究人员在逻辑推理 (LogiQA, ReClor) 和数学推理 (GSM8K) 的标准基准上测试了他们的 Llama-2-7B 模型 (经 pDPO 微调) 。

击败巨头

结果令人瞩目。如 表 1 所示,使用这种方法训练的 7B 参数模型 (Llama2-7B-pDPO) 在 LogiQA-v2 数据集上的表现超过了 GPT-3.5-Turbo

逻辑推理基准测试的实验结果表。

查看表格:

  • Llama2-7B-SFT (标准微调) 在 LogiQA 上达到 45.5 分。
  • Llama2-7B-DPO (标准 DPO) 将其提升至 53.1 分。
  • Llama2-7B-pDPO (本方法) 达到了 55.5 分。

这表明,添加合成的过程监督比仅使用结果监督能产生显著的收益。

数据效率

最有希望的发现之一是这种方法的数据效率非常高。因为每一个中间步骤都提供了学习信号 (而不仅仅是生成文本末尾的一个信号) ,模型学习得更快。

图 4 显示,即使仅使用 40% 或 60% 的可用数据进行训练,pDPO (红线) 也始终优于标准 DPO (蓝线) 和 SFT (绿线) 。

准确率对比图表,显示 pDPO 在不同数据比例下均优于 DPO 和 SFT。

推理质量

模型是真的推理得更好了,还是只是在刷分?为了测试这一点,研究人员使用 GPT-4 作为裁判,比较了标准 DPO 与 pDPO 生成的理由。

他们根据三个标准评估输出: 合理 (Reasonable) (有效的推导) 、简洁 (Concise) (无废话) 和 逻辑一致 (Logically Consistent)

胜率图表显示 pDPO 在 GPT-4 自动评估中始终击败 DPO。

图 6 所示,pDPO 在大多数情况下获胜。它生成的推理痕迹不仅更准确,而且更简洁。通过过程奖励模型惩罚离题、低置信度的步骤,系统学会了直接和逻辑化。

一个具体案例

这在实践中看起来是什么样的?研究人员提供了他们的模型生成的解决方案的可视化示例。

微调模型生成的解决方案示例。

图 1 中,我们看到模型使用了清晰的“思考 -> 行动 -> 观察”模式 (ReAct 格式) 。模型分解了一个关于政治候选人的复杂逻辑谜题,逐步评估前提。pDPO 训练使模型能够保持这种结构,而不会迷失方向或产生矛盾的幻觉,这通常是小模型解决逻辑网格谜题时的常见故障模式。

结论与启示

论文 “Learning Planning-based Reasoning via Trajectories Collection and Process Reward Synthesizing” 为小型 LLM 推理能力的未来提供了一个令人信服的蓝图。

主要结论包括:

  1. 模拟取代标注: 我们不需要昂贵的人类专家来标记数学题的每一步。我们可以通过模拟结果来估计中间步骤的价值。
  2. 训练优于推理: 不必每次用户提问时都运行昂贵的搜索算法,我们可以离线执行该搜索并使用数据来训练模型。这赋予了我们规划的“智慧”以及标准生成的“速度”。
  3. 过程胜于结果: 监督推理的 过程 比仅监督 答案 能产生更稳健的模型。

这项工作表明,开源模型 (如 Llama) 与专有巨头 (如 GPT-4) 之间的差距不仅可以通过增加参数来缩小,还可以通过改变教模型思考的 方式 来缩小。通过将“系统 2”思维过程合成为奖励信号,我们实际上是在教模型在写完句子之前先验证自己的工作。