大语言模型 (LLM) 的能力已变得惊人,能够解决曾经专属于人类专家的问题——涵盖数学、编程和科学推理等领域。传统上,我们通过扩大模型规模并在更大的数据集上进行再训练来提升模型性能,这一过程需要巨大的计算资源。但如果我们能在完全不重新训练的情况下,让现有模型思考得更好呢?
这个想法正是推理时计算的核心。该技术受人类推理过程的启发,在测试期间给予模型更多的时间和计算资源——让它们在做出决定前能够“暂停并深思熟虑”。这些方法无需触动任何一个模型参数,就能显著提升推理性能。
然而,这个领域仍然相当混乱: 方法各异、设置不一、在不同任务上的成功率也千差万别。由 Fan Liu 等人撰写的论文 《LLM 推理时计算的技巧锦囊》 为此带来了亟需的条理。作者们利用超过 20,000 GPU 小时,系统地探索了一系列简单但影响深远的“技巧”,这些技巧决定了 LLM 在推理时的表现。让我们来解读他们的见解,以及这些见解对提高推理效率意味着什么。
提议者–验证者流水线: 教模型分两步思考
大多数推理时策略都遵循一个两阶段工作流——提议者–验证者流水线:
- 提议: 模型生成多个候选的推理路径或答案。
- 验证: 一个独立的组件评估这些候选方案,并选出最佳方案。
这种方法与人类的思考方式如出一辙: 先集思广益,然后测试并选择最可靠的解决方案。
图 1: 推理时计算概览。该流水线连接了指令提示、推理任务、推理模型、奖励模型,以及诸如 N 中选优采样、自洽性、MCTS 和自我优化等计算策略。
论文剖析了这两个阶段——如何生成更优的候选解决方案,以及如何更有效地在其中进行选择。每个阶段都隐藏着微妙而强大的杠杆。
第一部分: 生成更优候选解决方案的艺术
模型的最终答案质量取决于它所能生成的最佳候选方案。作者们研究了三个影响候选方案多样性和质量的关键因素。
1. 指令提示类型: 引导思维过程
我们提问的方式决定了模型的推理方式。该研究评估了三种常见的提示风格:
- 输入–输出 (IO): 直接要求提供最终答案。
- 思维链 (CoT): 鼓励模型进行逐步推理。
- 反思 CoT: 在 CoT 的基础上扩展,要求模型对每一步进行反思和验证。
图 2: 不同提示类型在各项推理任务上的准确率。CoT 始终优于直接的 IO 提示,而反思 CoT 的结果好坏参半。
研究结果是决定性的。CoT 提示的性能远超 IO——当模型明确地列出其推理链时,它们的表现会更好。然而,反思变体并不能保证性能提升。目前的 LLM 在自我纠正方面表现不佳: “反思错误”往往会放大错误而非修正错误。
要点: 使用思维链提示——它能在不增加额外复杂性的情况下,可靠地提升推理准确率。
2. 温度: 平衡随机性与精确性
在 LLM 中,温度 (τ) 控制输出采样的随机性:
- 低 τ (例如 0.2) : 结果高度确定,探索性极小。
- 高 τ (例如 1.0) : 更具创造性,但连贯性较差。
在生成多个候选方案时,多样性很重要,但过度的随机性会损害推理质量。
图 3: 准确率与温度的关系。大多数模型在各项任务上的性能在 τ = 0.8 附近达到峰值。
在所有测试任务中,准确率在 τ = 0.8 附近达到峰值,显示出置信度与探索之间的最佳平衡。更小或更大的值都会降低性能,证明适度的多样性对推理优化至关重要。
要点: 温度 ≈ 0.8 是实现有效候选方案多样性的默认设置。
3. Top-p: 控制词汇广度以保证连贯性
Top-p (核采样) 从累积概率超过阈值 p 的最小词汇子集中选择词元,从而动态地限制模型的词汇范围。
- 低 p (例如 0.6) : 更专注但刻板。
- 高 p (例如 1.0) : 多样但可能包含不合理的词元。
图 4: 准确率与 Top-p 参数的关系。在不同模型和任务中,性能在 Top-p = 0.9 附近趋于稳定。
性能随 p 值增加而稳步上升,直到 p ≈ 0.9 后趋于平缓。该值在保持推理连贯性的同时也保留了多样性。
要点: 设置 Top-p ≈ 0.9 以获得最佳总体结果。
第二部分: 选择最优解
现在我们有了多个候选方案,如何确定哪一个是最好的?这个“验证者”阶段决定了模型的深思熟虑能多有效地转化为准确答案。作者们探讨了两种核心方法。
1. 自我评估: 模型能为自己的推理评分吗?
一个自然的设想是: 让 LLM 评估自己的工作。例如,“审阅以下解决方案,并判断哪个最可能正确。” 作者将这种方法与随机选择和多数投票进行了对比。
图 5: 自我评估与外部选择策略的比较。自我评估往往无法提高准确率。
结果令人警醒。LLM 不善于评判自己的答案。 自我评估方法的表现通常不比随机选择更好——有时甚至更差。模型倾向于重复同样的推理错误,而非识别它们。
要点: 避免在关键验证环节依赖自我评估,应使用外部评估器或结构化启发式方法。
2. 奖励模型: 为推理质量打分的外部评审
如果模型无法自我评估,就引入一个外部的奖励模型 (RM)——一个专门训练用于为候选输出打分的独立系统。研究比较了几种类型:
- LLM 作为评判者: 要求大型模型逐步验证推理过程。
- RLHF 奖励: 基于人类偏好数据训练而成。
- 证明关键奖励: 专为形式化数学证明设计。
图 6: 不同奖励模型在各类推理任务中展现出不同的有效性。
结果因领域而异:
- 对于知识型推理,RLHF 奖励模型表现最佳。
- 对于数学和代码任务,评估推理过程正确性的 LLM 作为评判者 提升最大。
评估答案的推导过程常比仅判断最终结果更有价值。
要点: 在复杂推理任务中,使用基于过程的奖励模型——它们能更精准地捕捉真正的逻辑质量。
3. 泛化差距: 并非越多越好
直觉上,生成更多候选 (即 N 中选优的 N 值更大) 应提高结果,但事实并非总如此。在某些任务中,性能随 N 增加反而下降。
图 7: 不同奖励模型下的测试时扩展性。更多候选并不一定带来更好结果——尤其在困难的推理任务中。
原因在于奖励模型的泛化能力有限。随着候选空间扩大,奖励模型有时会将看似合理但错误的答案误判为正确,从而导致评分虚高。这造成了“性能幻象”: 计算更多反而导致真实准确率下降。
要点: 奖励模型本身可能成为瓶颈;其跨推理模式的泛化能力仍是需要解决的挑战。
第三部分: 推理时计算方法的基准测试
基于这些洞察,作者们在公平、固定的令牌预算下对六种主流策略进行了基准测试: N 中选优、步级 N 中选优、束搜索、MCTS、自洽性和自我优化。
图 8: 推理时技巧的最优组合依赖于任务类型。性能提升并非总能叠加。
基准测试揭示了关键经验:
- 没有万能赢家: N 中选优和自洽性在事实性推理 (如问答) 中表现突出,而数学密集型任务更偏爱更大、更专门化的模型。
- 更多令牌 ≠ 更高准确率: 束搜索消耗更多令牌但收效有限——凸显其低效性。
- 效率至关重要: 自洽性和自我优化在相同计算成本下达到了更高的准确率。
图 15: 不同推理时策略的效率比较。自洽性和自我优化在适度的令牌预算下实现了更高准确率。
这些基准设立了新标准: 未来方法需依据令牌效率而非仅凭绝对准确率来评估——即每单位计算消耗所带来的性能提升。
核心要点: 更智能推理的备忘单
通过数千次跨模型与任务的实验,作者总结出几条实用见解:
- 提示至关重要: 思维链提示必不可少;自我反思型提示可能适得其反。
- 调参为平衡: 使用 τ ≈ 0.8 和 Top-p ≈ 0.9 可获得稳健的推理多样性。
- 外部验证更优于自评: 奖励模型优于自我评估,尤其是在数学和代码任务中,过程导向的评判效果最佳。
- 警惕泛化差距: 奖励模型可能误判合理但错误的答案。
- 基准测试要公平: 在受控预算下评估计算方法,而非只看最终分数。
更宏大的视角
这项研究重塑了 LLM 优化的思路: 提升推理能力无需再训练或更大的模型,而是可以通过更聪明的推理时配置实现。调整采样参数、提示设计和奖励机制,都能大幅增强模型的推理能力。
掌握这些“技巧锦囊”,从业者即可让现有模型更加深思熟虑、高效且可靠——在不增加任何参数的前提下,将 LLM 推理能力更进一步逼近人类的深度思考。
简而言之: 在推理时进行更智能的思考,是替代无休止再训练的真正可行方案。