超越思维链：并行思考与自我优化如何解锁更智能的 LLM

引言: 思考的高昂成本

多年以来，让大型语言模型 (LLM) 解决复杂推理问题的首选方法，就是让它们“开口思考”。通过提示它们生成一步一步的*思维链 *(Chain-of-Thought, CoT) ，我们鼓励模型分解复杂问题、探索不同方法，并在此过程中纠正自己的错误。不成文的规则很简单: 模型生成的“思考型 token”越多，最终答案就越好。

但这种方法代价高昂。长思维链会导致:

上下文长度膨胀: 每增加一个 token，序列就会变长，使模型更接近其上下文上限，并导致广为人知的“中间遗忘”问题。
计算成本更高: 越长的推理轨迹需要指数级增长的计算与内存，增加成本和碳足迹。
延迟增加: 顺序生成数千个 token 会使响应时间变慢。

这在准确性、成本和延迟之间造成了不愉快的权衡。然而，如果模型能更高效地思考——在不生成冗长文本的情况下取得更好的结果呢？

Meta 超级智能实验室最近的一篇论文《重新思考思考型 Token: 将 LLM 视为改进算子》 (Rethinking Thinking Tokens: LLMs as Improvement Operators) 正是提出了这一点。作者们将 LLM 的推理过程重新构想为一个多轮迭代的改进过程，而非单一线性思维流。他们提出了一族推理策略，使模型能够并行生成多样化的想法、提炼最佳洞见并迭代优化答案，同时保持活动上下文的紧凑性。这一思路为推理效率开辟了新的前沿——更高准确率、更小上下文、更低延迟。

让我们来看看它是如何实现的。

从线性链到协作式优化

要理解这种方法的新颖之处，我们需要先回顾 LLM 推理的发展历程。

思维链 (CoT) 提示在测试时的推理中引发了革命，它表明仅仅让模型逐步推理，就能提高复杂任务的准确性。一个常见的扩展方法是*自洽性 *(Self-Consistency) ，通过采样多个独立的推理轨迹并对最佳答案进行投票，从而提升准确率，但计算成本随之成倍增加。

后来的创新使推理更具互动性:

自我改进: 像 Self-Refine 和 Reflexion 这样的系统允许模型批评并修改自己的输出。
多智能体辩论: 多个 LLM 进行反复讨论，以审视彼此的推理。
结构化搜索: 如*思维树 (Tree of Thoughts, ToT) 和思维图 *(Graph of Thoughts) 等方法探索多步推理中的分支搜索空间。

这些方法都有效，但也随着上下文增长而复杂化。每条新增的推理路径都会加长提示，使每一轮成本更高，也更易遗忘早期上下文。

这篇论文将这些分散的方法统一在一个视角下:** 将 LLM 视为改进算子**。通过显式建模迭代过程及资源约束 (如延迟与计算) ，它定义了一个能够在多维度上优化推理的原则性空间。

将 LLM 视为改进算子

LLM 不再是静态的生成器，而是一个动态的改进者——将初始猜测不断逼近理想解的算子。

一个形式化的迭代框架

考虑一个问题 $x$ (例如，一个数学题) 和当前解 $s_t$。模型记为 $ \mathcal{M}_{\theta} $，它利用一个工作空间 $C_t$ 来计算优化后的解 $s_{t+1}$:

\[ s_{t+1} = \mathcal{M}_{\theta}(x, s_t, C_t) \]

$LLM 作为迭代改进算子。每一步都利用问题 x、当前状态 s_t 和工作空间 C_t 来生成一个更优的产物 s_{t+1}。$

图: 模型作为改进算子，通过小型工作空间迭代更新解决方案。

工作空间 $C_t$ 是一个紧凑摘要——长度限制在 $\kappa$ 个 token 以内——包含关键的中间结果、矛盾点和待完成的目标。

每次迭代都遵循一个读取–写入–压缩循环:

读取 (Read): 处理问题 $x$ 及当前摘要 $C_t$。
写入 (Write): 生成新的候选解 $s_{t+1}$。
压缩 (Compress): 将 $s_{t+1}$ 提炼为新的、有界的工作空间 $C_{t+1}$:

\[ C_{t+1} = \mathcal{D}(x, s_{t+1}), \quad |C_{t+1}| \leq \kappa \]

$蒸馏步骤通过综合算子 D 将知识压缩到 C_{t+1} 中，从而保持上下文紧凑。$

图: 综合算子将推理蒸馏为全新紧凑的工作空间。

这一框架让“思考”得以广泛展开，但始终有界——本质上通过在总计算、延迟和上下文长度之间平衡实现效率。

留意预算: 延迟与计算

作者提出了两个 token 预算，用于公平衡量效率:

\[ B_{seq} = \sum (in + out)_{\text{accepted path}}, \quad B_{total} = \sum (in + out)_{\text{all calls}} \]

序列预算 (B_seq) 与总预算 (B_total) 的方程，用于刻画延迟和计算成本。

图: 两个预算指标分别量化延迟和总计算量。

序列预算 ($B_{seq}$) 表示沿单一路径处理的 token 数量——延迟的近似指标。
总预算 ($B_{total}$) 表示推理中生成的全部 token，包括被弃用的草稿——即计算和成本指标。

这种区分使得方法能够通过并行探索多个短上下文来保持低延迟 (小 $B_{seq}$) 。

两种迭代推理策略

在这个算子框架下，有两种主要的推理模式:

不同推理模式的比较: 长思维链 (单一轨迹) 、序列式优化 (SR) 和并行-蒸馏-优化 (PDR) 。

图: 从长链到迭代算子。PDR 框架将总计算量与单次调用的延迟区分开。

1. 序列式优化 (SR)

在 SR 中，模型在若干轮中迭代地改进单个解:

\[ s_{t+1} = \mathcal{M}_{\theta}(x, s_t, \emptyset) \]

方程展示了 SR 在多轮迭代中的优化过程。

图: 序列式优化通过多个短步连续更新同一解决方案。

可以想象为: “这是你上次的答案——再改进一下。” 模型逐步优化相同的产物，而无需携带不断增长的历史。这种方式注重深度、成本低，但若需多次迭代则可能较慢。

2. 并行-蒸馏-优化 (PDR)

并行-蒸馏-优化 (PDR) 是本文的核心贡献——一种注重广度的方式，它扩大探索范围，同时保持每次迭代简短。

每轮包含三步:

\[ S^{(r)} = \{ s_i^{(r)} = \mathcal{M}_{\theta}(x, C^{(r-1)}) \}_{i=1}^{M_r} \]

\[ C^{(r)} = \mathcal{D}(x, S^{(r)}), \quad |C^{(r)}| \leq \kappa \]

展示 PDR 的并行生成与蒸馏方程。

图: PDR 同时生成多个草稿，蒸馏为简洁工作空间并进一步优化。

并行 (Parallel): 模型同时生成 $M_r$ 个多样化草稿。

蒸馏 (Distill): 将这些草稿总结成紧凑工作空间，有多种策略:

*全局摘要 (Global Summary): * 综合共识与矛盾为文本报告。
*Top-k 选择 (Top-k Selection): * 挑选最有潜力的草稿。
*随机 k (Random-k): * 随机选取部分以保持多样性。

优化 (Refine): 下一轮基于该蒸馏状态继续生成更优答案。

通过每轮重建摘要，PDR 能防止上下文持续膨胀，并借助并行性将总计算量转化为更高准确率——而不增加延迟。

算子一致性训练: 教模型学会迭代

问题在于: 推理使用了多轮算子，但大多数训练优化的是单一长轨迹。为让训练与推理保持一致，作者提出了算子一致性强化学习 (Operator-Consistent RL)。

训练混合两种模式:

标准长轨迹 RL: 优化传统单链推理。
算子展开 (Operator Rollouts): 模拟一轮 PDR，包括并行生成、蒸馏与优化，使模型学习迭代接口。

综合目标为两种损失的平均:

\[ \mathcal{J}_{\text{train}}(\theta) = \frac{1}{2}\mathcal{J}_{\text{trace}} + \frac{1}{2}\mathcal{J}_{\text{op}} \]

方程展示了标准损失与算子一致性损失的平均训练目标。

图: 组合训练目标使模型同时掌握长短两类推理过程。

这种训练混合赋予模型迭代所需的元技能——验证、总结、优化和多样性生成——从而弥合训练与部署之间的差距。

实验: 理论落地实践

研究团队在数学推理基准 AIME 2024 与 AIME 2025 上验证了该方法，使用 gpt-o3-mini 和 gemini-2.5-flash 等模型，在不同 token 预算下测评性能。

研究问题 1: 短上下文迭代能否胜过长推理轨迹？

答案: 是的——而且优势显著。SR 和 PDR 在匹配延迟预算下均超越长 CoT。

长思维链、SR 和 PDR 在 AIME 2024 上的性能表现 (使用 gemini-2.5-flash 与 gpt-o3-mini) 。PDR 在相似延迟下达成最高准确率。

图 3: PDR 在固定延迟下将并行计算转化为更高准确率。

例如，在 gpt-o3-mini 下的 49k 序列预算中，准确率从 76.9% (长 CoT) → 81.5% (SR) → 86.7% (PDR) 。在 AIME 2025 上结果类似。

AIME 2025 结果显示，在相同延迟预算下 SR 与 PDR 均优于长思维链。

图 9: 短上下文迭代优于长推理轨迹。

从延迟与计算权衡来看，两者展现了互补优势。

散点图展示帕累托前沿。PDR 在固定延迟 (低 B_seq) 下表现最佳，SR 在总计算 (低 B_total) 下更高效。

图 4: PDR 在延迟–准确率权衡前沿上表现突出。

在 90% 准确率下 (图 5) ，SR 需要 442k token 序列预算，而 PDR 仅需 172k——延迟降低 2.6 倍。

柱状图对比了 PDR 与 SR 在相同准确率下的延迟表现。

图 5: PDR 以更少的序列 token 达成相同准确率。

研究问题 2: 哪种蒸馏策略效果最佳？

PDR 的效率取决于工作空间综合的质量。实验比较了蒸馏算子 $\mathcal{D}$ 的多种变体:

比较全局摘要、共享 top-k、单样本 top-k 与随机 k 蒸馏策略的表格。

表 2: 全局摘要与单样本 Top-k consistently 提供最佳结果。

全局摘要和单样本 Top-k 成为明显赢家——它们要么聚合所有草稿洞见，要么选取最优的单解。随机 k 的表现较差，表明结构化总结是推动真实改进的关键。

研究问题 3: 自我验证如何影响性能？

接下来的实验探究了 PDR 成功或失败的原因。研究者测试了“神谕” (oracle) 变体: 摘要由人工策划。

神谕 (正确) : 工作空间仅包含正确草稿。
神谕 (错误) : 仅包含错误草稿。
默认: 随机 k 基线。

条形图展示输入正确或错误样本对性能的影响。错误样本会严重降低准确率。

图 6: 当工作空间强化错误推理时，会出现锚定偏差。

结果显著: 输入错误解会显著降低性能，而输入正确解则提升结果。模型容易被错误推理路径“锚定”。更强的自我验证能力——识别并信任正确部分工作的能力——对稳定的迭代改进至关重要。

研究问题 4: 算子一致性训练能否推动帕累托前沿？

最后，团队用算子一致性 RL 训练了一个 8B 模型并进行对比。

表格显示算子一致性 RL 相比基线 RL 提升了 PDR 性能。

表 3: 算子一致性 RL 在 AIME 2024 与 2025 上均取得显著提升。

将标准 RL 与 PDR 特定训练结合，准确率提升最高达 +5 个百分点，证明训练与推理一致能提升推理质量。模型学会了“迭代性思考”，而非单纯输出更长轨迹。

结论: 迈向更智能、更高效的推理

这项研究重新定义了测试时推理的观念。它表明，有界、迭代式的思考超越了冗长的独白。

关键要点:

迭代胜过线性思考: 在同等延迟下，SR 与 PDR 均超越长 CoT 基线。
并行计算转化为准确率: PDR 将上下文跨度与总推理量解耦，实现更快、更智能的输出。
紧凑的工作空间至关重要: 成功取决于创建简短且信息丰富的摘要，在保留洞见的同时避免上下文膨胀。
对齐训练放大收益: 算子一致性 RL 弥合训练与部署之间的差距，使模型掌握迭代推理的元技能。

意义深远。未来的 LLM 可根据问题复杂度与计算资源灵活选取深度 (序列式优化) 或广度 (并行-蒸馏-优化) 。训练可直接优化总结算子，或开发适应用户延迟限制的自适应 token 预算。

超越“更多 token 更好推理”的思维定势，这项研究展现了将 LLM 视为动态改进算子的愿景——这些系统能在有限上下文中高效学习、优化与推理。这是迈向一个更智能而不更慢的推理未来的窗口。

引言: 思考的高昂成本#

从线性链到协作式优化#

将 LLM 视为改进算子#

一个形式化的迭代框架#

留意预算: 延迟与计算#

两种迭代推理策略#

1. 序列式优化 (SR)#

2. 并行-蒸馏-优化 (PDR)#

算子一致性训练: 教模型学会迭代#

实验: 理论落地实践#

研究问题 1: 短上下文迭代能否胜过长推理轨迹？#

研究问题 2: 哪种蒸馏策略效果最佳？#

研究问题 3: 自我验证如何影响性能？#

研究问题 4: 算子一致性训练能否推动帕累托前沿？#

结论: 迈向更智能、更高效的推理#