引言: 思考的高昂成本

多年以来,让大型语言模型 (LLM) 解决复杂推理问题的首选方法,就是让它们“开口思考”。通过提示它们生成一步一步的*思维链 *(Chain-of-Thought, CoT) ,我们鼓励模型分解复杂问题、探索不同方法,并在此过程中纠正自己的错误。不成文的规则很简单: 模型生成的“思考型 token”越多,最终答案就越好。

但这种方法代价高昂。长思维链会导致:

  • 上下文长度膨胀: 每增加一个 token,序列就会变长,使模型更接近其上下文上限,并导致广为人知的“中间遗忘”问题。
  • 计算成本更高: 越长的推理轨迹需要指数级增长的计算与内存,增加成本和碳足迹。
  • 延迟增加: 顺序生成数千个 token 会使响应时间变慢。

这在准确性、成本和延迟之间造成了不愉快的权衡。然而,如果模型能更高效地思考——在不生成冗长文本的情况下取得更好的结果呢?

Meta 超级智能实验室最近的一篇论文 《重新思考思考型 Token: 将 LLM 视为改进算子》 (Rethinking Thinking Tokens: LLMs as Improvement Operators) 正是提出了这一点。作者们将 LLM 的推理过程重新构想为一个多轮迭代的改进过程,而非单一线性思维流。他们提出了一族推理策略,使模型能够并行生成多样化的想法、提炼最佳洞见并迭代优化答案,同时保持活动上下文的紧凑性。这一思路为推理效率开辟了新的前沿——更高准确率、更小上下文、更低延迟。

让我们来看看它是如何实现的。


从线性链到协作式优化

要理解这种方法的新颖之处,我们需要先回顾 LLM 推理的发展历程。

思维链 (CoT) 提示在测试时的推理中引发了革命,它表明仅仅让模型逐步推理,就能提高复杂任务的准确性。一个常见的扩展方法是*自洽性 *(Self-Consistency) ,通过采样多个独立的推理轨迹并对最佳答案进行投票,从而提升准确率,但计算成本随之成倍增加。

后来的创新使推理更具互动性:

  • 自我改进:Self-RefineReflexion 这样的系统允许模型批评并修改自己的输出。
  • 多智能体辩论: 多个 LLM 进行反复讨论,以审视彼此的推理。
  • 结构化搜索: 如*思维树 (Tree of Thoughts, ToT) 和思维图 *(Graph of Thoughts) 等方法探索多步推理中的分支搜索空间。

这些方法都有效,但也随着上下文增长而复杂化。每条新增的推理路径都会加长提示,使每一轮成本更高,也更易遗忘早期上下文。

这篇论文将这些分散的方法统一在一个视角下:** 将 LLM 视为改进算子**。通过显式建模迭代过程及资源约束 (如延迟与计算) ,它定义了一个能够在多维度上优化推理的原则性空间。


将 LLM 视为改进算子

LLM 不再是静态的生成器,而是一个动态的改进者——将初始猜测不断逼近理想解的算子。

一个形式化的迭代框架

考虑一个问题 \(x\) (例如,一个数学题) 和当前解 \(s_t\)。模型记为 \( \mathcal{M}_{\theta} \),它利用一个工作空间 \(C_t\) 来计算优化后的解 \(s_{t+1}\):

\[ s_{t+1} = \mathcal{M}_{\theta}(x, s_t, C_t) \]

LLM 作为迭代改进算子。每一步都利用问题 x、当前状态 s_t 和工作空间 C_t 来生成一个更优的产物 s_{t+1}。

图: 模型作为改进算子,通过小型工作空间迭代更新解决方案。

工作空间 \(C_t\) 是一个紧凑摘要——长度限制在 \(\kappa\) 个 token 以内——包含关键的中间结果、矛盾点和待完成的目标。

每次迭代都遵循一个读取–写入–压缩循环:

  1. 读取 (Read): 处理问题 \(x\) 及当前摘要 \(C_t\)。
  2. 写入 (Write): 生成新的候选解 \(s_{t+1}\)。
  3. 压缩 (Compress): 将 \(s_{t+1}\) 提炼为新的、有界的工作空间 \(C_{t+1}\):
\[ C_{t+1} = \mathcal{D}(x, s_{t+1}), \quad |C_{t+1}| \leq \kappa \]

蒸馏步骤通过综合算子 D 将知识压缩到 C_{t+1} 中,从而保持上下文紧凑。

图: 综合算子将推理蒸馏为全新紧凑的工作空间。

这一框架让“思考”得以广泛展开,但始终有界——本质上通过在总计算、延迟和上下文长度之间平衡实现效率。


留意预算: 延迟与计算

作者提出了两个 token 预算,用于公平衡量效率:

\[ B_{seq} = \sum (in + out)_{\text{accepted path}}, \quad B_{total} = \sum (in + out)_{\text{all calls}} \]

序列预算 (B_seq) 与总预算 (B_total) 的方程,用于刻画延迟和计算成本。

图: 两个预算指标分别量化延迟和总计算量。

  • 序列预算 (\(B_{seq}\)) 表示沿单一路径处理的 token 数量——延迟的近似指标。
  • 总预算 (\(B_{total}\)) 表示推理中生成的全部 token,包括被弃用的草稿——即计算和成本指标。

这种区分使得方法能够通过并行探索多个短上下文来保持低延迟 (小 \(B_{seq}\)) 。


两种迭代推理策略

在这个算子框架下,有两种主要的推理模式:

不同推理模式的比较: 长思维链 (单一轨迹) 、序列式优化 (SR) 和并行-蒸馏-优化 (PDR) 。

图: 从长链到迭代算子。PDR 框架将总计算量与单次调用的延迟区分开。

1. 序列式优化 (SR)

SR 中,模型在若干轮中迭代地改进单个解:

\[ s_{t+1} = \mathcal{M}_{\theta}(x, s_t, \emptyset) \]

方程展示了 SR 在多轮迭代中的优化过程。

图: 序列式优化通过多个短步连续更新同一解决方案。

可以想象为: “这是你上次的答案——再改进一下。” 模型逐步优化相同的产物,而无需携带不断增长的历史。这种方式注重深度、成本低,但若需多次迭代则可能较慢。

2. 并行-蒸馏-优化 (PDR)

并行-蒸馏-优化 (PDR) 是本文的核心贡献——一种注重广度的方式,它扩大探索范围,同时保持每次迭代简短。

每轮包含三步:

\[ S^{(r)} = \{ s_i^{(r)} = \mathcal{M}_{\theta}(x, C^{(r-1)}) \}_{i=1}^{M_r} \]

\[ C^{(r)} = \mathcal{D}(x, S^{(r)}), \quad |C^{(r)}| \leq \kappa \]

展示 PDR 的并行生成与蒸馏方程。

图: PDR 同时生成多个草稿,蒸馏为简洁工作空间并进一步优化。

并行 (Parallel): 模型同时生成 \(M_r\) 个多样化草稿。

蒸馏 (Distill): 将这些草稿总结成紧凑工作空间,有多种策略:

  • *全局摘要 (Global Summary): * 综合共识与矛盾为文本报告。
  • *Top-k 选择 (Top-k Selection): * 挑选最有潜力的草稿。
  • *随机 k (Random-k): * 随机选取部分以保持多样性。

优化 (Refine): 下一轮基于该蒸馏状态继续生成更优答案。

通过每轮重建摘要,PDR 能防止上下文持续膨胀,并借助并行性将总计算量转化为更高准确率——而不增加延迟。


算子一致性训练: 教模型学会迭代

问题在于: 推理使用了多轮算子,但大多数训练优化的是单一长轨迹。为让训练与推理保持一致,作者提出了算子一致性强化学习 (Operator-Consistent RL)

训练混合两种模式:

  1. 标准长轨迹 RL: 优化传统单链推理。
  2. 算子展开 (Operator Rollouts): 模拟一轮 PDR,包括并行生成、蒸馏与优化,使模型学习迭代接口。

综合目标为两种损失的平均:

\[ \mathcal{J}_{\text{train}}(\theta) = \frac{1}{2}\mathcal{J}_{\text{trace}} + \frac{1}{2}\mathcal{J}_{\text{op}} \]

方程展示了标准损失与算子一致性损失的平均训练目标。

图: 组合训练目标使模型同时掌握长短两类推理过程。

这种训练混合赋予模型迭代所需的元技能——验证、总结、优化和多样性生成——从而弥合训练与部署之间的差距。


实验: 理论落地实践

研究团队在数学推理基准 AIME 2024 与 AIME 2025 上验证了该方法,使用 gpt-o3-minigemini-2.5-flash 等模型,在不同 token 预算下测评性能。

研究问题 1: 短上下文迭代能否胜过长推理轨迹?

答案: 是的——而且优势显著。SR 和 PDR 在匹配延迟预算下均超越长 CoT。

长思维链、SR 和 PDR 在 AIME 2024 上的性能表现 (使用 gemini-2.5-flash 与 gpt-o3-mini) 。PDR 在相似延迟下达成最高准确率。

图 3: PDR 在固定延迟下将并行计算转化为更高准确率。

例如,在 gpt-o3-mini 下的 49k 序列预算中,准确率从 76.9% (长 CoT) → 81.5% (SR) → 86.7% (PDR) 。在 AIME 2025 上结果类似。

AIME 2025 结果显示,在相同延迟预算下 SR 与 PDR 均优于长思维链。

图 9: 短上下文迭代优于长推理轨迹。

从延迟与计算权衡来看,两者展现了互补优势。

散点图展示帕累托前沿。PDR 在固定延迟 (低 B_seq) 下表现最佳,SR 在总计算 (低 B_total) 下更高效。

图 4: PDR 在延迟–准确率权衡前沿上表现突出。

在 90% 准确率下 (图 5) ,SR 需要 442k token 序列预算,而 PDR 仅需 172k——延迟降低 2.6 倍

柱状图对比了 PDR 与 SR 在相同准确率下的延迟表现。

图 5: PDR 以更少的序列 token 达成相同准确率。


研究问题 2: 哪种蒸馏策略效果最佳?

PDR 的效率取决于工作空间综合的质量。实验比较了蒸馏算子 \(\mathcal{D}\) 的多种变体:

比较全局摘要、共享 top-k、单样本 top-k 与随机 k 蒸馏策略的表格。

表 2: 全局摘要与单样本 Top-k consistently 提供最佳结果。

全局摘要单样本 Top-k 成为明显赢家——它们要么聚合所有草稿洞见,要么选取最优的单解。随机 k 的表现较差,表明结构化总结是推动真实改进的关键。


研究问题 3: 自我验证如何影响性能?

接下来的实验探究了 PDR 成功或失败的原因。研究者测试了“神谕” (oracle) 变体: 摘要由人工策划。

  • 神谕 (正确) : 工作空间仅包含正确草稿。
  • 神谕 (错误) : 仅包含错误草稿。
  • 默认: 随机 k 基线。

条形图展示输入正确或错误样本对性能的影响。错误样本会严重降低准确率。

图 6: 当工作空间强化错误推理时,会出现锚定偏差。

结果显著: 输入错误解会显著降低性能,而输入正确解则提升结果。模型容易被错误推理路径“锚定”。更强的自我验证能力——识别并信任正确部分工作的能力——对稳定的迭代改进至关重要。


研究问题 4: 算子一致性训练能否推动帕累托前沿?

最后,团队用算子一致性 RL 训练了一个 8B 模型并进行对比。

表格显示算子一致性 RL 相比基线 RL 提升了 PDR 性能。

表 3: 算子一致性 RL 在 AIME 2024 与 2025 上均取得显著提升。

将标准 RL 与 PDR 特定训练结合,准确率提升最高达 +5 个百分点,证明训练与推理一致能提升推理质量。模型学会了“迭代性思考”,而非单纯输出更长轨迹。


结论: 迈向更智能、更高效的推理

这项研究重新定义了测试时推理的观念。它表明,有界、迭代式的思考超越了冗长的独白

关键要点:

  1. 迭代胜过线性思考: 在同等延迟下,SR 与 PDR 均超越长 CoT 基线。
  2. 并行计算转化为准确率: PDR 将上下文跨度与总推理量解耦,实现更快、更智能的输出。
  3. 紧凑的工作空间至关重要: 成功取决于创建简短且信息丰富的摘要,在保留洞见的同时避免上下文膨胀。
  4. 对齐训练放大收益: 算子一致性 RL 弥合训练与部署之间的差距,使模型掌握迭代推理的元技能。

意义深远。未来的 LLM 可根据问题复杂度与计算资源灵活选取深度 (序列式优化) 或广度 (并行-蒸馏-优化) 。训练可直接优化总结算子,或开发适应用户延迟限制的自适应 token 预算。

超越“更多 token 更好推理”的思维定势,这项研究展现了将 LLM 视为动态改进算子的愿景——这些系统能在有限上下文中高效学习、优化与推理。这是迈向一个更智能而不更慢的推理未来的窗口。