超越多数原则：训练大语言模型从多个猜测中综合出最佳答案

当面临难题时，你会怎么做？你可能会构思几种不同的方法，权衡它们的利弊，然后将每种方法的优点结合起来，打造一个最终的、可靠的解决方案。事实证明，我们可以教大语言模型 (LLM) 做类似的事情——这会显著提高它们解决复杂推理任务的能力。

多年来，提升大语言模型在数学或编程等难题上的表现，标准策略是增加“测试时计算”。我们不再只向模型索要一个答案，而是让它给出多个。然后，我们选择最常见的答案——这种技术被称为自洽性 (self-consistency) 或多数投票 (majority voting) 。它简单、通常有效，并且很直观: 如果十种不同的推理思路都指向答案“42”，那么“42”很可能是正确的。

但如果正确答案很微妙、不明显，并且只在模型少数几次的尝试中出现呢？如果多数派是错的呢？在这些情况下，多数投票实际上会放大模型的错误，自信地选择一个不正确的答案。此外，这种简单的投票还错过了一个巨大的机会: 如果几个不正确的解决方案各自包含了部分正确的推理呢？简单的投票无法将这些零散的见解组合起来。

最近，一篇来自 Meta AI 研究人员的论文，题为 《多数派并非总是正确: 用于解决方案聚合的强化学习训练》，引入了一种巧妙的新方法。他们不再依赖多数投票这样的固定规则，而是提出教大语言模型学习聚合这项技能本身。他们的方法 AGGLM 训练一个模型像专家评审员一样行事: 它检查一组候选解决方案，识别其优缺点，调和差异，并综合出一个最终的、完善的答案。结果令人印象深刻——学会对多个解决方案进行推理，远比简单地计票强大得多。

简单投票的问题所在

让我们回顾一下标准方法及其局限性。

基于规则的投票: 最常见的方法仍然是多数投票。你生成，比如说，32 个不同的解决方案 (或“思维链”) ，然后采纳出现频率最高的最终答案。这个基线方法通常效果不错，但当正确解决方案仅出现在少数生成路径中时，它就会失败。这种情况在模型容易陷入常见误解的问题上经常发生。

基于模型的选择: 一种更先进的技术是使用另一个模型——一个“奖励模型”或“验证器”——来为每个候选解决方案打分。你不再选择最频繁的答案，而是选择得分最高的那个。这可能会更好，因为奖励模型在判断质量方面可能优于简单的频率统计。然而，这些模型仍然无法发现非传统但正确的答案，而且它们只能从现有选项中进行选择——无法创造出全新的、更优的答案。

这两种方法都留下了未被挖掘的潜力。它们不能从有缺陷的解决方案中挽救正确的步骤，也不能合并不同尝试中的互补推理。要做到这一点，模型必须能够阅读、理解和推理这些解决方案。

AGGLM: 通过强化学习来学会聚合

这就是 AGGLM 发挥作用的地方。核心思想是: 将聚合视为一项推理任务，而不是一种启发式方法。

一张示意图，展示了一个两阶段的语言建模流程。左侧，一个问题输入到一个大语言模型中，该模型生成多个候选解决方案。这些方案被送入一个聚合大语言模型 (AggLLM) ，该模型对它们进行调和与综合，得出一个最终答案。AggLLM 通过可验证奖励的强化学习进行训练。

图 1: AGGLM 流程。一个标准的大语言模型生成多个候选解决方案。然后，一个专门的聚合大语言模型 (可以是同一个模型，也可以是不同的模型) 审查这些候选方案，以生成一个最终的综合答案。这个聚合器通过强化学习训练而成。

该过程分两个阶段进行:

生成解决方案: 对于一个问题 \(x\)，一个标准的解决方案模型 \(p_{\theta}\) 生成 \(m\) 个独立的候选解决方案:
\[ y_i \sim p_{\theta}(y \mid x), \quad i \in \{1,\dots,m\} \]
聚合解决方案: 这些候选方案和原始问题一起，被送入一个聚合模型 \(p_{\phi}\)，该模型输出一个综合的答案 \(\tilde{y}\):
\[ \tilde{y} \sim p_{\phi}(y \mid x, y_{1:m}) \]

许多推理任务都有可验证的答案，因此作者使用了可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 。奖励很简单:

如果 \(\tilde{y} = y^*\) (真实答案) ，奖励 = 1
否则，奖励 = 0

通过对上千个问题进行训练，模型学会了:

识别并信任一个正确的少数派解决方案
发现并修正推理错误
将多个有缺陷的候选方案中的正确部分组合成一个完整正确的答案

秘诀: 平衡简单和困难的样本

该论文的关键见解在于如何构建训练数据。

如果只在所有解决方案都正确的情况下 (简单样本) 训练，聚合器只会学会照搬。如果只在所有候选方案都错误的情况下 (困难样本) 训练，奖励会非常稀少——难以学习。

因此，作者将样本定义为:

简单: 多数答案是正确的
困难: 多数答案是不正确的

困难样本锻炼了识别少数但正确答案或综合新答案的高难技能，而简单样本提供了必要的正向强化。
他们找到了最佳平衡点:** 所有**困难样本 + 50% 简单样本。这种平衡使训练既贴近实际又保持挑战性。

用于指示 AGGLM 审查、纠正并结合所提供解决方案中想法，以生成最终答案的提示模板。

图 2: 指导 AGGLM 推理的提示: 明确指示模型进行审查、调和与综合。

实验结果: 它有效吗？

作者在四个高水平数学数据集上测试了 AGGLM:** AIME24**、AIME25、HMMT24 和 HMMT25。他们训练了一个 17 亿参数的模型 (AggLM-1.7B) ，并与强基线作比较。

正面交锋的表现

首先，他们在“分布内”数据上进行评估: 候选解决方案来自训练时相同的 Qwen3-1.7B 模型。

表格显示了聚合八个 Qwen3-1.7B 解决方案的结果。AGGLM-1.7B 在所有数据集上都优于多数投票和强大奖励模型方法。

表 1: AggLM-1.7B 在所有数据集上均取得了最高准确率，超越了多数投票与奖励模型。

AggLM-1.7B 在所有基准上都大获全胜。它超越了多数投票，甚至超过了使用大得多模型 (如 AceMath-72B) 的奖励模型选择法。在 AIME25 数据集上:

基础模型: 35.68%
多数投票: 45.89%
AggLM-1.7B:** 50.00%**

这说明综合胜于单纯选择。

泛化到新挑战

团队在两种更难的设定下测试了 AggLM:

更强的解决方案: 使用来自更强大的 Qwen3-8B 模型的解决方案进行聚合。

表格显示了聚合 Qwen3-8B 解决方案的结果。AGGLM-1.7B 依旧领先。

表 2: 即使聚合更强模型产出的解决方案，AggLM-1.7B 依然优于所有基线——展现了鲁棒且可迁移的能力。

不同风格: 没有思维链步骤的解决方案 (“非思考”模式) 。

表格显示了聚合 Qwen3-1.7B 非思考模式解决方案的结果。AGGLM-1.7B 再次领先。

表 3: 即便只有最终答案而无推理过程，AggLM-1.7B 也能适应并保持领先。

在这两种情况下，AggLM-1.7B 都位列榜首，显示其学习到的推理技能能跨越不同输入质量和格式进行泛化。

AGGLM 为何有效: 消融实验与洞察

训练混合比例很重要

表格显示了简单/困难样本混合比例的消融实验结果。5-50% 简单样本效果最佳。

表 4: 平衡的训练 (5-50% 简单样本) 总是胜出。全难或全简单都会削弱性能。

适度比例的简单样本提供了稳定性和频繁的奖励，使模型能够顺利掌握高难推理而不陷入停滞。

最难的情况下收益最大

柱状图显示性能与多数答案比例的关系。当多数规模较小时，AGGLM 优势最大。

图 4: 当无明显共识且正确答案稀有时，AGGLM 优势最明显——多数投票此时常常失利。

当候选多样且不确定时，AGGLM 的推理优势最能发挥作用。如果多数比例很高，这两种方法都能成功——而 AGGLM 会明智地不推翻明显正确的多数结论。

更强的扩展性与效率

折线图比较性能与候选方案数量的关系。随着 k 增加，AGGLM 表现超过多数投票。

图 3: 随着候选数量增加，AggLM 拥有更好的扩展性。往往 8 个 AGGLM 方案可胜过 16 个多数投票方案——且消耗更少 token。

生成方案在计算和 token 上的代价都不低。AggLM 能以更小的 \(k\) 超越多数投票，这意味着用更少的计算换取更高的准确率。

结论: 更聪明的测试时计算策略

AGGLM 改变了我们提升大语言模型推理能力的方式。我们不必再粗暴地增加样本量并用简单投票，而是可以训练模型实现智慧聚合。

AGGLM 的优势:

更准确: 持续击败强大基线。
更鲁棒: 适配不同模型和推理风格。
更高效: 用更少的方案实现更高准确率——节省计算。

关键在于将聚合视作一种一流的推理技能，用强化学习在均衡的样本组合上进行训练。论文的核心观点是: 多数派并非总是正确——但一个学会在多个答案间推理的模型，无论如何都能找到真相。

简单投票的问题所在#

AGGLM: 通过强化学习来学会聚合#

秘诀: 平衡简单和困难的样本#

实验结果: 它有效吗？#

正面交锋的表现#

泛化到新挑战#

AGGLM 为何有效: 消融实验与洞察#

训练混合比例很重要#

最难的情况下收益最大#

更强的扩展性与效率#

结论: 更聪明的测试时计算策略#