当面临难题时,你会怎么做?你可能会构思几种不同的方法,权衡它们的利弊,然后将每种方法的优点结合起来,打造一个最终的、可靠的解决方案。事实证明,我们可以教大语言模型 (LLM) 做类似的事情——这会显著提高它们解决复杂推理任务的能力。
多年来,提升大语言模型在数学或编程等难题上的表现,标准策略是增加“测试时计算”。我们不再只向模型索要一个答案,而是让它给出多个。然后,我们选择最常见的答案——这种技术被称为自洽性 (self-consistency) 或多数投票 (majority voting) 。它简单、通常有效,并且很直观: 如果十种不同的推理思路都指向答案“42”,那么“42”很可能是正确的。
但如果正确答案很微妙、不明显,并且只在模型少数几次的尝试中出现呢?如果多数派是错的呢?在这些情况下,多数投票实际上会放大模型的错误,自信地选择一个不正确的答案。此外,这种简单的投票还错过了一个巨大的机会: 如果几个不正确的解决方案各自包含了部分正确的推理呢?简单的投票无法将这些零散的见解组合起来。
最近,一篇来自 Meta AI 研究人员的论文,题为 《多数派并非总是正确: 用于解决方案聚合的强化学习训练》,引入了一种巧妙的新方法。他们不再依赖多数投票这样的固定规则,而是提出教大语言模型学习聚合这项技能本身。他们的方法 AGGLM 训练一个模型像专家评审员一样行事: 它检查一组候选解决方案,识别其优缺点,调和差异,并综合出一个最终的、完善的答案。结果令人印象深刻——学会对多个解决方案进行推理,远比简单地计票强大得多。
简单投票的问题所在
让我们回顾一下标准方法及其局限性。
基于规则的投票: 最常见的方法仍然是多数投票。你生成,比如说,32 个不同的解决方案 (或“思维链”) ,然后采纳出现频率最高的最终答案。这个基线方法通常效果不错,但当正确解决方案仅出现在少数生成路径中时,它就会失败。这种情况在模型容易陷入常见误解的问题上经常发生。
基于模型的选择: 一种更先进的技术是使用另一个模型——一个“奖励模型”或“验证器”——来为每个候选解决方案打分。你不再选择最频繁的答案,而是选择得分最高的那个。这可能会更好,因为奖励模型在判断质量方面可能优于简单的频率统计。然而,这些模型仍然无法发现非传统但正确的答案,而且它们只能从现有选项中进行选择——无法创造出全新的、更优的答案。
这两种方法都留下了未被挖掘的潜力。它们不能从有缺陷的解决方案中挽救正确的步骤,也不能合并不同尝试中的互补推理。要做到这一点,模型必须能够阅读、理解和推理这些解决方案。
AGGLM: 通过强化学习来学会聚合
这就是 AGGLM 发挥作用的地方。核心思想是: 将聚合视为一项推理任务,而不是一种启发式方法。
图 1: AGGLM 流程。一个标准的大语言模型生成多个候选解决方案。然后,一个专门的聚合大语言模型 (可以是同一个模型,也可以是不同的模型) 审查这些候选方案,以生成一个最终的综合答案。这个聚合器通过强化学习训练而成。
该过程分两个阶段进行:
生成解决方案: 对于一个问题 \(x\),一个标准的解决方案模型 \(p_{\theta}\) 生成 \(m\) 个独立的候选解决方案:
\[ y_i \sim p_{\theta}(y \mid x), \quad i \in \{1,\dots,m\} \]聚合解决方案: 这些候选方案和原始问题一起,被送入一个聚合模型 \(p_{\phi}\),该模型输出一个综合的答案 \(\tilde{y}\):
\[ \tilde{y} \sim p_{\phi}(y \mid x, y_{1:m}) \]
许多推理任务都有可验证的答案,因此作者使用了可验证奖励的强化学习 (Reinforcement Learning from Verifiable Rewards, RLVR) 。奖励很简单:
- 如果 \(\tilde{y} = y^*\) (真实答案) ,奖励 = 1
- 否则,奖励 = 0
通过对上千个问题进行训练,模型学会了:
- 识别并信任一个正确的少数派解决方案
- 发现并修正推理错误
- 将多个有缺陷的候选方案中的正确部分组合成一个完整正确的答案
秘诀: 平衡简单和困难的样本
该论文的关键见解在于如何构建训练数据。
如果只在所有解决方案都正确的情况下 (简单样本) 训练,聚合器只会学会照搬。如果只在所有候选方案都错误的情况下 (困难样本) 训练,奖励会非常稀少——难以学习。
因此,作者将样本定义为:
- 简单: 多数答案是正确的
- 困难: 多数答案是不正确的
困难样本锻炼了识别少数但正确答案或综合新答案的高难技能,而简单样本提供了必要的正向强化。
他们找到了最佳平衡点:** 所有**困难样本 + 50% 简单样本。这种平衡使训练既贴近实际又保持挑战性。
图 2: 指导 AGGLM 推理的提示: 明确指示模型进行审查、调和与综合。
实验结果: 它有效吗?
作者在四个高水平数学数据集上测试了 AGGLM:** AIME24**、AIME25、HMMT24 和 HMMT25。他们训练了一个 17 亿参数的模型 (AggLM-1.7B) ,并与强基线作比较。
正面交锋的表现
首先,他们在“分布内”数据上进行评估: 候选解决方案来自训练时相同的 Qwen3-1.7B 模型。
表 1: AggLM-1.7B 在所有数据集上均取得了最高准确率,超越了多数投票与奖励模型。
AggLM-1.7B 在所有基准上都大获全胜。它超越了多数投票,甚至超过了使用大得多模型 (如 AceMath-72B) 的奖励模型选择法。在 AIME25 数据集上:
- 基础模型: 35.68%
- 多数投票: 45.89%
- AggLM-1.7B:** 50.00%**
这说明综合胜于单纯选择。
泛化到新挑战
团队在两种更难的设定下测试了 AggLM:
- 更强的解决方案: 使用来自更强大的 Qwen3-8B 模型的解决方案进行聚合。
表 2: 即使聚合更强模型产出的解决方案,AggLM-1.7B 依然优于所有基线——展现了鲁棒且可迁移的能力。
- 不同风格: 没有思维链步骤的解决方案 (“非思考”模式) 。
表 3: 即便只有最终答案而无推理过程,AggLM-1.7B 也能适应并保持领先。
在这两种情况下,AggLM-1.7B 都位列榜首,显示其学习到的推理技能能跨越不同输入质量和格式进行泛化。
AGGLM 为何有效: 消融实验与洞察
训练混合比例很重要
表 4: 平衡的训练 (5-50% 简单样本) 总是胜出。全难或全简单都会削弱性能。
适度比例的简单样本提供了稳定性和频繁的奖励,使模型能够顺利掌握高难推理而不陷入停滞。
最难的情况下收益最大
图 4: 当无明显共识且正确答案稀有时,AGGLM 优势最明显——多数投票此时常常失利。
当候选多样且不确定时,AGGLM 的推理优势最能发挥作用。如果多数比例很高,这两种方法都能成功——而 AGGLM 会明智地不推翻明显正确的多数结论。
更强的扩展性与效率
图 3: 随着候选数量增加,AggLM 拥有更好的扩展性。往往 8 个 AGGLM 方案可胜过 16 个多数投票方案——且消耗更少 token。
生成方案在计算和 token 上的代价都不低。AggLM 能以更小的 \(k\) 超越多数投票,这意味着用更少的计算换取更高的准确率。
结论: 更聪明的测试时计算策略
AGGLM 改变了我们提升大语言模型推理能力的方式。我们不必再粗暴地增加样本量并用简单投票,而是可以训练模型实现智慧聚合。
AGGLM 的优势:
- 更准确: 持续击败强大基线。
- 更鲁棒: 适配不同模型和推理风格。
- 更高效: 用更少的方案实现更高准确率——节省计算。
关键在于将聚合视作一种一流的推理技能,用强化学习在均衡的样本组合上进行训练。论文的核心观点是: 多数派并非总是正确——但一个学会在多个答案间推理的模型,无论如何都能找到真相。