超越对与错：通过基于树的偏好学习教大模型推理

如果你曾让像 ChatGPT 这样的大型语言模型 (LLM) 解决过复杂的数学问题，你可能已经注意到了一个有趣的怪现象。有时，模型虽然得出了正确的答案，但理由却是错误的。而另一些时候，它开局完美，却在中间某个逻辑环节滑了一跤，随后陷入幻觉。

这种不一致性源于这些模型处理推理的方式。它们是逐个 token 生成文本的，一旦犯错，模型就很难自行纠正。为了解决这个问题，研究人员一直在开发“验证器 (Verifiers) ”——旨在检查 LLM 工作的辅助模型。

传统上，这些验证器的运作方式就像一位给多项选择题打分的严厉老师: 它们将最终答案标记为正确或错误。或者，在更高级的版本中，它们将单个步骤标记为对或错。但是，推理真的非黑即白吗？

在最近的一篇论文中，来自浙江大学的研究人员提出了一种更细致的方法。他们没有使用二元的“正确/错误”标签，而是引入了基于树的偏好学习验证器 (Tree-Based Preference Learning Verifier, Tree-PLV) 。这种方法教导模型理解某些推理步骤比其他步骤更好，即使它们还不是最终答案。

在这篇文章中，我们将深入探讨为什么传统的验证方法会失败，Tree-PLV 如何构建“推理树”来捕捉细微差别，以及为什么这种方法在算术和常识推理方面树立了新的基准。

二元思维的问题

在剖析新的解决方案之前，我们需要了解 LLM 推理的现状。

“Best-of-N” 策略

提高 LLM 性能的一种常用技术是 Best-of-N 策略。我们不要求模型只给出一个答案，而是让它生成 \(N\) 个不同的解 (例如 64 条不同的路径) 。然后，由验证器对这些解进行排名并选出最好的一个。

结果监督 vs. 过程监督

验证器如何知道哪条路径是最好的？通常有两种思想流派，如下图所示:

结果监督 (Outcome Supervision) : 验证器查看最终答案。如果它与标准答案 (Ground Truth) 匹配，则整个路径被标记为“正例”。如果不匹配，则为“负例”。这很容易做到，但充满噪声。模型可能通过侥幸猜测或错误的逻辑得出正确的答案。
过程监督 (Process Supervision) : 验证器检查每一个步骤。这提供了更好的反馈，但需要大量详细的人工标注数据 (非常昂贵) 或启发式检查 (可能不准确) 。

图 1: 不同方法的比较: 传统验证器依赖于结果和过程监督的二元标签，而 Tree-PLV 采用偏好而非标量值。

如图 1 所示，传统方法 (左侧和中间) 依赖于二元标签 。它们问的是: “这正确吗？”

Tree-PLV 论文的作者认为这种二元方法是不够的。推理往往关乎相对质量。步骤 A 可能“技术上正确”但毫无帮助，而步骤 B 可能是一个简化问题的绝妙洞察。二元标签将它们视为同等。此外，二元分类极易受到噪声的影响；如果数据集有错误，验证器就会僵化地学到错误的经验。

解决方案: 基于树的偏好学习

研究人员建议从二元分类转向偏好学习 。他们不是训练模型输出一个“正确性”的概率 (一个标量值) ，而是训练模型比较两条路径，并识别哪一条更好。

为了实现这一目标，他们构建了一个名为 Tree-PLV 的系统。核心创新在于他们如何生成训练数据以及如何计算每一步的“分数”。

1. 构建推理树

大多数 LLM 将推理生成为线性链 (步骤 1 \(\rightarrow\) 步骤 2 \(\rightarrow\) 步骤 3) 。Tree-PLV 将推理可视化为一棵树。根节点是问题陈述。从那里，模型分支出不同的可能的起步步骤。从每个起步步骤，它又分支出第二步，依此类推。

作者使用最佳优先搜索 (Best-First Search, BFS) 算法来构建这棵树。他们不仅是随机探索；他们主动追踪最有希望的分支。

图 2: 推理树的构建过程。最佳优先搜索始终选择奖励最高的子节点进行进一步扩展。为了评估第 i 步的质量，我们从中采样 N 个补全路径。

图 2 清楚地说明了这个过程。

扩展 (Expansion) : 系统获取当前状态 (例如，问题 + 步骤 1) 并生成几个可能的“下一步” (步骤 2 的候选者) 。
评估 (Evaluation) : 它需要知道哪个候选者是最好的。
选择 (Selection) : 它挑选出赢家并从那里继续分支。

但是等等——系统如何在甚至没有完成问题之前就知道哪一步是“有希望的”呢？

2. 前瞻奖励函数

这是最巧妙的部分。为了判断中间步骤 (比方说，步骤 2) 的质量，系统执行“前瞻”模拟。

从那个特定的步骤开始，模型运行 \(N\) 次模拟 (称为补全，completions) ，直到得出最终答案。该步骤的“奖励”仅仅是那些最终得出正确答案的模拟所占的百分比。

步骤 \(y_i\) 的奖励 \(\mathcal{R}(y_i)\) 公式为:

公式 1: 奖励计算

在这个公式中:

\(N\) 是从步骤 \(y_i\) 运行的模拟次数。
\(a[P_i^j] = g\) 检查第 \(j\) 次模拟的结果是否与标准答案 \(g\) 匹配。
本质上，如果你站在步骤 2 并运行 100 次模拟，其中 85 次得出了正确答案，那么步骤 2 的奖励就是 0.85。

这种方法利用模型自身的“直觉” (或潜在知识) 为每一步分配一个细粒度的分数，而不是二元的 0 或 1。

3. 创建训练对

一旦树构建完成且每个节点都有了奖励分数，研究人员就会生成训练数据。他们并不直接将原始分数喂给验证器。相反，他们创建配对 (Pairs) 。

他们查看“兄弟”节点——即从同一个父节点分支出来的两个不同步骤。

路径 A (\(y^+\)): 具有高奖励的步骤 (经常导致正确答案) 。
路径 B (\(y^-\)): 具有低奖励的步骤 (导致错误答案) 。

他们过滤这些配对，以确保它们之间存在显著的差异 (避免用两个同样平庸的步骤混淆模型) 。这产生了一个三元组数据集: {问题, 更好的路径, 更差的路径}。

4. 成对训练

最后，验证器使用排序损失 (Ranking Loss) 进行训练。目标是最大化分配给“更好的路径”和“更差的路径”的分数差异。

公式 2: 排序损失

上面的公式 (\(\mathcal{L}\)) 推动模型给 \(y^+\) 分配比 \(y^-\) 更高的标量值。通过对这些比较进行训练，验证器学会了推理的细微差别。它学会了识别使一个逻辑步骤优于另一个步骤的微妙特征。

实验结果

理论听起来很扎实，但它有效吗？研究人员在四个主要基准上测试了 Tree-PLV:

算术: GSM8K (小学数学) 和 MATH (具有挑战性的竞赛数学) 。
常识: CSQA 和 StrategyQA。

他们将 Tree-PLV 与强基线进行了比较，包括:

自洽性 (Self-Consistency) : 标准的“多数投票”方法。
ORM (结果奖励模型) : 基于二元结果标签训练的验证器。
Math-Shepherd: 最先进的过程验证器。

准确率提升

结果令人印象深刻。Tree-PLV 在所有数据集上都优于所有基线。

表 1: 在算术和常识推理任务上的结果比较 (准确率 %) 。

如表 1 所示，增益是巨大的。例如，在 GSM8K 数据集上使用 Mistral-7B 模型:

自洽性 (Self-Consistency) 达到了 67.55% 。
Tree-PLV 达到了 82.79% 。

仅仅通过改变验证的处理方式，准确率就有了惊人的 15% 的提升 。即使在极其困难的 MATH 数据集上，Tree-PLV 也将性能从 17.00% 提高到了 26.80%。

如下所示，当使用更强大的生成模型 (如 WizardMath) 时，该方法也具有良好的扩展性:

表 2: 使用更强生成器的算术推理任务结果 (准确率 %) 。

效率与鲁棒性

人们可能会担心生成 64 个解 (Best-of-N) 在计算上很昂贵。研究人员分析了验证器随着候选解数量 (\(N\)) 增加时的表现。

图 3: Mistral-7B 生成不同数量的解 (N) 时，不同验证器的性能表现。

图 3 显示 Tree-PLV (紫色线) 不仅在 \(N=64\) 时表现优异，而且效率极高。它仅用 10 个解就能达到比自洽性基线用 64 个解更高的准确率。这表明 Tree-PLV 非常擅长快速识别“大海捞针”。

为什么有效？粒度的力量

为了证明步骤级偏好是成功的关键，作者进行了一项消融研究，比较了不同级别的反馈:

实例级二元 (整条路径成功了吗？)
实例级偏好 (这条整路径比那条好吗？)
步骤级偏好 (Tree-PLV 方法) 。

图 4: 使用不同粒度反馈训练的验证器的性能比较。

图 4 中的结果很清楚。红色条柱 (步骤级偏好) 始终击败其他方法。这证实了粒度信号——确切地教导模型推理在哪里出错或正确——优于宽泛的监督。

区分真理与置信度

LLM 的一个主要问题是，即使它们错了，它们也往往很自信。一个好的验证器需要区分“自信的幻觉”和“自信的正确答案”。

图 6: LLM 生成置信度与验证器评分在正确/错误推理路径上的分布。

图 6 完美地展示了这一点。

左图 (a): 正确 (绿色) 和错误 (橙色) 答案的原始 LLM 置信度分数重叠严重。模型不知道自己什么时候错了。
右图 (b): Tree-PLV 验证器分数显示出明显的区分。绿色峰值 (正确) 位于右侧，而橙色峰值 (错误) 则扁平地分布在左侧。

这种分离能力正是 Tree-PLV 在对候选解进行排名时如此有效的原因。

结论

Tree-PLV 论文代表了使大型语言模型更可靠的重要一步。通过承认推理不仅仅是一个二元的“真/假”游戏，而是一棵由更好和更差的决策组成的分支树，研究人员创建了一个验证系统，它:

更准确: 在数学和常识基准测试中取得了显著收益。
更鲁棒: 对噪声训练数据不太敏感。
更高效: 以更少的尝试找到最佳答案。

对于 AI 领域的学生和从业者来说，这凸显了一个日益增长的趋势: LLM 的改进不仅仅来自于更大的模型或更多的数据，还来自于更好的训练目标 , 这些目标与人类推理的复杂、循序渐进的本质更加一致。从二元标签转向偏好学习正是这种一致性的最佳例证。

二元思维的问题#

“Best-of-N” 策略#

结果监督 vs. 过程监督#

解决方案: 基于树的偏好学习#

1. 构建推理树#

2. 前瞻奖励函数#

3. 创建训练对#

4. 成对训练#

实验结果#

准确率提升#

效率与鲁棒性#

为什么有效？粒度的力量#

区分真理与置信度#

结论#