近年来,大型语言模型 (LLMs) 的能力呈现爆发式增长,尤其是在执行“思维链” (Chain-of-Thought, CoT) 推理方面。我们已经看到模型通过将问题分解为循序渐进的逻辑步骤来解决复杂的微积分问题和编写代码。但在哪里这种推理效果最好方面,存在着明显的差距。
虽然 AI 已经变成了数学奇才,但它在法律、生物学或哲学等领域进行严谨的分步推理的能力却相对滞后。为什么?因为我们要用来验证“良好推理”的机制——特别是过程奖励模型 (Process Reward Models, PRMs) ——几乎完全是在数学数据上训练的。
在这篇深入探讨中,我们将研究一篇名为 VersaPRM 的新论文,它提出了针对这一泛化问题的解决方案。研究人员引入了一个用于生成跨不同领域合成推理数据的管道,训练出了一个“多才多艺”的 PRM,不仅提升了代数表现,还提高了法律论证和生物分类的性能。
问题所在: “仅限数学”的陷阱
要理解 VersaPRM 的贡献,首先需要了解我们目前是如何改进 LLM 推理的。一种流行的技术涉及针对一个问题生成多个潜在的解决方案,然后使用一个独立的模型——奖励模型 (Reward Model) ——来对它们进行评分并选出最好的一个。
主要有两种类型的奖励模型:
- 结果奖励模型 (Outcome Reward Models, ORMs) : 这些模型只看最终答案。模型得出的答案是“42”吗?如果是,就好;如果不是,就不好。
- 过程奖励模型 (Process Reward Models, PRMs) : 这些模型要强大得多。它们会检查推理的每一步。它们可以告诉模型: “第 1 步和第 2 步很棒,但在第 3 步犯了逻辑错误。”
PRM 一直是最近数学推理基准测试 (如 GSM8K 和 MATH) 性能飞跃背后的秘诀。然而,由于人工标记推理链的每一步既昂贵又乏味,研究人员主要依赖现有的数学数据集。
结果就是: 我们拥有了擅长发现计算错误的“数学 PRM”,但当被要求评估法律论证或化学过程时,它们实际上是“盲”的。

如上方的图 1 所示,现有的开源数学 PRM (上半部分) 在数学方面表现良好,但无法泛化。当应用于法律、哲学或生物学时,它们的表现与简单的基准线大致相同——有时甚至更差。除了方程式之外,它们根本不知道“良好的推理”是什么样子的。
图 1 的下半部分预示了解决方案: VersaPRM 。 通过在多领域数据集上进行训练,该模型在所有类别中都实现了持续的性能提升。
背景知识: 评分与搜索
在了解 VersaPRM 如何 构建之前,让我们先建立 PRM 实际如何帮助 LLM 的技术基础。
当 LLM 生成一个思维链 (CoT) 时,假设是一个包含 \(k\) 个步骤的序列 \(S = (s_1, s_2, \dots, s_k)\),PRM 会为每个步骤分配一个分数。1.0 分意味着步骤完美;0.0 分意味着它是幻觉或逻辑错误。
但为了对完整的解决方案进行排名,我们需要将这些步骤分数聚合成一个单一的数字。论文探讨了三种方法:
1. 最小值聚合 (Min-Aggregation) : 这种方法采取“木桶效应 (最短板) ”的思路。整个解决方案的分数由其最差的步骤决定。如果你有 10 个精彩的步骤和 1 个逻辑谬误,整个解决方案都会受到惩罚。

2. 尾部聚合 (Last-Aggregation) : 这种方法仅依赖最后一步的分数,假设如果推理导向了一个自信的最终结论,那么路径可能是正确的。

3. 平均值聚合 (Average-Aggregation) : 这仅仅是对所有步骤的质量取平均值。

研究人员发现, 最小值聚合通常表现最好。在推理中,一个错误的前提通常会使结论无效,这使得“最弱一环”逻辑成为最稳健的度量标准。
推理策略
一旦我们有了这些分数,就可以使用“测试时计算 (Test-Time Compute) ”算法来改善结果。这基本上意味着在回答阶段花费更多的计算能力来确保质量。
- 多数投票 (Majority Voting, MV) : 生成 \(N\) 个解决方案,选择出现次数最多的答案。 (无需 PRM) 。
- 加权多数投票 (Weighted Majority Voting, WMV) : 生成 \(N\) 个解决方案,但根据其 PRM 分数对投票进行“加权”。高质量的推理链拥有更大的投票权。

- N 选一 (Best-of-N, BoN) : 生成 \(N\) 个解决方案,简单地选择聚合 PRM 分数最高的那一个。

VersaPRM 方法: 合成数据管道
创建多领域 PRM 的最大瓶颈是数据。雇佣律师、生物学家和哲学家手动标记数百万个推理步骤的成本高得令人望而却步。
研究人员通过构建一个全自动的合成数据生成管道解决了这个问题。本质上,他们利用 LLM 创建了一个“教师-学生”循环。
管道架构
该过程如图 图 2 所示,包含两个不同的阶段: 生成和自动标注。

1. CoT 生成阶段 (学生) : 团队从 MMLU-Pro 数据集中抽取问题,该数据集涵盖了包括法律、心理学和工程学在内的 14 个不同领域。他们将这些问题输入到一个较小、高效的模型 (Llama-3.1-8B-Instruct) 中,并要求它“一步步思考”。
他们为每个问题生成了 16 个不同的解决方案。由于模型较小,其中一些解决方案是正确的,而另一些则包含微妙的推理错误——这正是 PRM 需要学习区分的内容。
2. 自动标注阶段 (教师) : 接下来,他们使用一个更强大的模型 (Llama-3.1-70B-Instruct) 作为裁判。该模型被给予特定的提示词来审查学生的推理。
“裁判”模型寻找第一个糟糕的步骤 。
- 如果一个步骤符合逻辑且正确,它会得到一个勾选。
- 一旦一个步骤引入了事实错误或逻辑跳跃 (标记为 BAD ),该步骤就被标记为不正确。
- 至关重要的是,如果一个步骤是错的,所有后续步骤都会被丢弃或标记为错误,因为建立在错误前提上的推理是无效的。
这产生了一个大规模的、带标签的数据集,称为 MMLU-Pro-CoT-Train 。 它包含超过 84,000 个思维链示例,其中完全正确的解决方案和包含错误的解决方案大约各占一半。
数据增强
为了使 PRM 更加稳健,研究人员不仅依赖学生模型自然产生的错误。他们还使用反事实增强 (Counterfactual Augmentation) 专门设计了特定类型的错误。

如上方的 图 11 所示,他们提取正确的推理链,并要求强模型 (Llama-70B) 有意插入特定类型的错误,例如:
- 冲突步骤: 与之前的信息相矛盾。
- 不合逻辑的推论 (Non-sequiturs) : 添加不相关的信息。
- 事实错误: 弄错日期或公式。
这确保了 VersaPRM 能够学会识别各种各样的推理失败,而不仅仅是特定模型倾向于犯的那些错误。
实验与结果
建立数据集后,研究人员训练了 VersaPRM (基于 Llama 进行微调) ,并将其与目前最好的开源数学 PRM (如 Math-Shepherd 和 Qwen-2.5-Math-PRM) 进行了比较。
1. 超越数学的泛化能力
主要问题是: 在多领域数据上训练真的有帮助吗?
结果是决定性的。下方的 图 3 比较了 VersaPRM (红线) 与各种数学 PRM 及基准线的性能。

在第一行 (加权多数投票) 和第二行 (N 选一) 中,请看最右侧的列: 非类数学领域 (Non-Math-Adjacent Domains) (如法律和历史) 。
- 数学 PRM (蓝线和橙线) 几乎紧贴基准线。它们几乎没有提供任何帮助。
- VersaPRM (红线) 显示出明显的上升轨迹。随着生成的解决方案增多 (x 轴向右移动) ,VersaPRM 识别正确答案的效率越来越高。
即使在数学列 (最左侧) ,VersaPRM 的表现也优于专用的数学 PRM。这表明学习一般领域的推理实际上可能对数学推理产生正向迁移效应,或者至少多样化的训练数据防止了对特定问题格式的过拟合。
2. 多样性的力量
成功仅仅是因为模型在训练期间见过 MMLU-Pro 的问题吗?还是它学会了推理?
为了验证这一点,研究人员进行了一项消融研究,比较了:
- VersaPRM (数学子集) : 仅使用新数据集中的数学问题进行训练。
- VersaPRM (随机子集) : 使用所有领域的随机混合数据进行训练 (总大小相同) 。

图 4 显示了结果。 随机子集 (紫色/粉色线) 的表现显著优于仅数学子集,即使在数学任务上也是如此 (左上) 。这证实了领域多样性对于训练稳健的 PRM 至关重要。模型不仅仅是在记忆事实;它正在学习有效论证的底层结构,这种结构无论是论证法律先例还是求解 \(x\) 看起来都是相似的。
3. 留出法分析
为了绝对确定模型不仅仅是在记忆特定领域,他们进行了一项“留出 (Hold-out) ”实验。他们在训练 VersaPRM 时特意从训练数据中排除了特定学科 (如法律或生物学) ,然后在这些被排除的学科上测试模型。

图 24 (以及论文中的图 5) 表明,即使模型没有见过特定领域 (如生物学或法律) 的训练数据,它的表现仍然优于基准线和数学 PRM。这是通用推理能力的有力证据。
4. 高级搜索算法
论文还研究了将 VersaPRM 与更复杂的搜索算法 (如束搜索 (Beam Search) 和蒙特卡洛树搜索 (MCTS) )结合使用。
在这些方法中,AI 探索可能性的“树”,使用 PRM 来决定跟随哪个分支。

图 23 强调,在生物学、哲学和计算机科学等不同领域,使用 VersaPRM (MCTS 为红三角,束搜索为绿菱形) 始终比使用基于数学的 PRM (蓝/棕线) 产生更高的准确率。
5. 这对“聪明”的模型有帮助吗?
对 PRM 的一个常见批评是,它们可能只对较小、较弱的模型有帮助。如果我们使用像 DeepSeek-R1 这样最先进的推理模型,VersaPRM 还能增加价值吗?

图 8 显示了使用 DeepSeek-R1 在法律和哲学任务上的结果。即使使用这个强大的模型,VersaPRM (粉线) 的表现也优于简单的多数投票 (黑线) 和数学 PRM (红线) 。这证明了即使生成模型变得更聪明,外部验证仍然具有价值。
结论
VersaPRM 论文标志着在使 AI 推理全面稳健方面迈出了重要一步。通过超越过程奖励模型的“仅限数学”范式,研究人员表明推理是一种可迁移的技能。
给学生和从业者的主要启示:
- 合成数据有效: 你不总是需要人类来标记数据。一个强大的模型 (教师) 可以有效地标记弱模型 (学生) 的工作,以创建高质量的训练集。
- “最短板”聚合: 在对分步解决方案进行评分时,最好的度量标准通常是最差步骤的分数 (
Min-Aggregation) 。 - 多样性至关重要: 在法律和生物学上训练验证器能让它在数学上表现更好。接触多样化的逻辑结构可以防止过拟合,并构建更好的通用推理器。
- 测试时计算: AI 的趋势正朝着“思考更久”而不是仅仅“模型更大”的方向发展。VersaPRM 使模型能够在每个领域 (而不仅仅是 STEM) 更长时间、更有效地思考。
随着 AI 进一步融入法律分析、医疗诊断和科学研究等领域,像 VersaPRM 这样的工具将成为必不可少的保障,以确保答案背后的推理与答案本身一样正确。
](https://deep-paper.org/en/paper/2502.06737/images/cover.png)