大型语言模型 (LLM) 在复杂推理任务上——如解决高等数学问题、编写结构化代码以及回答研究生水平的科学问题——表现得极为出色。支撑这种智能的核心技术之一是 并行扩展,即模型针对同一个问题生成数百条独立的推理路径 (或称 思维链,CoT) ,然后通过多数投票等方法选出最一致的最终答案。

你可以把它想象成一场大型的头脑风暴: 模型探索几十种解决方案,然后决定哪一种看起来最可靠。

然而,这种方法付出了高昂的计算代价。生成数百条长推理迹将消耗大量 GPU 资源与财务成本。但意外的是——其中大多数迹实际上都在做完全相同的工作。

这种惊人的低效率正是新论文 《DeepPrune: 无迹间冗余的并行扩展》 的研究重点。作者发现,**现代 LLM 生成的并行推理迹中,超过 80% 最终得出相同的答案。**换句话说,模型花费了上千个 token,不断重复推导同一个结论。

为了解决这一问题,研究人员开发了 DeepPrune,一个动态剪枝框架,能够在冗余推理路径完成之前识别出它们并提前终止,只保留值得继续探索的多样化路径。

标准并行扩展与 DeepPrune 的对比图。上方面板显示许多推理迹通向一个最终答案,标记为低效。下方面板显示 DeepPrune 提前识别并停止了一条冗余迹,同时允许另一条不同的迹继续,标记为高效。

图 1: 标准并行扩展 (上) 会产生许多通向相同答案的冗余路径。DeepPrune (下) 能及早检测到相似迹并中止重复的轨迹,从而在保持多样性的同时节省 token。

在本文中,我们将逐步解析 DeepPrune 算法——了解什么是迹间冗余,作者如何训练一个“评判模型”来检测它,以及该系统如何在不损失准确率的情况下实现超过 80% 的 token 节省


头脑风暴的隐藏成本: 迹间冗余

自洽性 (Wang et al., 2022) 和 best-of-N 采样 这样的并行扩展技术,通过生成大量候选解来显著提升推理准确率。对于单个查询,一个 LLM 可能生成 512 条不同的推理迹——每一条都是通向最终答案的长篇解释。

此类暴力策略虽增加了找到正确路径的概率,却浪费了巨量计算资源。低效率不仅源自样本数量,更来自样本之间的冗余。

DeepPrune 团队开展了一项大规模迹收集实验: 针对每个推理问题,他们使用四种推理模型各生成 16 条并行迹,并对所有可能的迹对进行比较 (每个问题共有 \( \binom{16}{2} = 120 \) 对) 。问题是: 有多少迹对会导向相同的最终答案?

结果令人震惊。
如图 2(a) 所示,平均有 81.6% 的迹对产生完全相同的答案,在部分模型中冗余度甚至超过 94%

三张分析迹间冗余的图表。(a) 一张柱状图显示超过 80% 的迹对答案相同。(b) SentenceBERT 的 ROC 曲线显示其预测能力较差 (AUROC=0.58)。(c) 零样本大语言模型的 ROC 曲线显示其预测能力中等 (AUROC=0.66)。

图 2: (a) 迹间冗余分析显示,大多数模型的迹会导向相同答案 (>80%) 。(b) 浅层语义相似度 (SentenceBERT) 无法区分冗余迹 (AUROC=0.58) 。(c) 零样本 LLM 评判器略有提升 (AUROC=0.66) ,但仍明显不足。

这意味着并行扩展将大部分 token 浪费在重复已有的推理路径上。如果我们能够及早预测哪些迹会收敛至相同答案,就能提前终止它们,节省大量计算。

但我们能稳定而可靠地做到吗?
作者测试了两种直观方法:

  1. 浅层语义相似度: 使用 SentenceBERT 计算两条迹前 700 个 token 的余弦相似度,结果 AUROC 仅为 0.58——几乎等同随机猜测。
  2. 零样本 LLM 评判: 提示 Qwen3-4B-Instruct 模型比较未完成的迹。这种更深层比较使 AUROC 达到 0.66,有小幅提升,但仍不足以进行实际剪枝。

这些结果表明,要判断推理过程间的冗余,需构建专用模型,而非依靠通用语义相似度量。


DeepPrune 框架: 两阶段解决方案

DeepPrune 提出了一个专门的框架,正面应对冗余问题。其运行分为 两个阶段:

  1. 离线训练: 构建一个 评判模型,预测两条不完整推理迹是否会产出相同答案。
  2. 在线剪枝: 在推理时实时应用此评判模型,对相似迹进行聚类并终止冗余迹。

DeepPrune 框架概览,展示了离线训练阶段和在线剪枝阶段。离线阶段收集迹对来训练评判模型。在线阶段使用该评判器和贪心聚类算法剪枝,并通过多数投票选择最终答案。

图 3: DeepPrune 的两阶段流水线。离线阶段: 使用带标签的迹对和 Focal Loss 训练评判模型。在线阶段: 采用贪心聚类停止冗余迹,并利用多数投票选出最终答案。


阶段 1: 离线训练——教模型评判冗余

核心学习任务是二分类: 给定两条未完成的迹 \( (t_i, t_j) \),预测其最终答案 \( (o_i, o_j) \) 是否等价。

\[ y_{ij} = R(o_i, o_j) \]

其中 \( R(\cdot) \) 是用于检验答案等价性的规则函数。

训练数据由 DeepSeek-R1-Distill-Llama-8B 模型生成: 针对每个查询生成多条推理迹,每对迹构成一个训练样本,若它们导向相同答案标记为 1,否则为 0。

作者测试了两种“未完成迹”截断策略:

  • 固定长度前缀: 取前 500 个 token。
  • 推理步骤对齐: 提取包含相同数量逻辑操作 (如 “thus”、“since”、“therefore”) 的片段,更能体现逻辑进展而非文本长度。

基于 Qwen3-4B-Instruct 的评判模型经过微调后输出:

\[ \hat{y}_{ij} = J_{\theta}(\operatorname{concat}(t_i, t_j)) \]
应对类别不平衡

由于约 80% 的训练对拥有相同答案,作者采用两项技术帮助模型有效学习:

  • Focal Loss 聚焦于困难的少数样本 (不同答案的迹对) :
    \[ L_{focal} = -\alpha_t (1 - p_t)^{\gamma} \log(p_t) \] 以减少“简单”冗余样本的影响。
  • 过采样 (Oversampling) 提高少数类别样本比例,让模型接触更多样的推理模式。

将 Focal Loss 与过采样结合,最终获得了能识别推理差异的高性能评判模型。


阶段 2: 在线剪枝——动态迹聚类

在推理阶段,DeepPrune 会并行生成多个推理迹。不同于让它们全部运行至结束,它采用 贪心聚类 算法主动剪除冗余迹。

每个簇代表一组预测将生成相同答案的迹。当出现新迹 \( t_i \) 时,DeepPrune 计算它与现有簇代表的相似度:

\[ \operatorname{sim}(t_i, c_j) = \frac{1}{p} \sum_{h=1}^p J_{\theta}(t_i, t_h^{(j)}) \]

若最高相似度超过阈值 \( \tau \) (如 0.5) ,该迹加入现有簇并停止继续生成 token;否则建立新簇继续推理。
此过程在动态剪除冗余的同时保持路径多样性。

当所有活动迹完成后,DeepPrune 进行多数投票得出最终答案:

\[ o_{\text{final}} = \mathbf{MajorityVote}\left(\{o_1, o_2, \dots, o_{k^*}\}\right) \]

其中 \( k^* \) 为允许完整推理的最终迹数量。该聚合方式在保持正确性的同时优化了效率。


实验结果: 高效率与高保真并存

1. 评判模型性能

在多个未见过的推理模型上的离线测试中,最佳评判模型配置——采用 25 个推理词并结合 Focal Loss 与过采样——达到了 AUROC = 0.87[email protected] = 0.82

表 1 展示了评判模型的离线评估结果。最佳配置采用“前 25 个推理词”并结合 Focal Loss 和过采样,平均 AUROC 为 0.8701,TNR@0.2 为 0.8186。

表 1: 评判模型的离线评估。使用推理词截断并结合 Focal Loss 与过采样取得了最佳性能。

结论显而易见:

  • 专门训练使性能从 0.66 (零样本) 提升至 0.87 AUROC。
  • 基于推理步骤的特征远优于简单的 token 前缀。
  • 解决类别不平衡至关重要——过采样和损失重加权共同提供了强大的预测能力。

2. 在线剪枝性能

将 DeepPrune 集成至三款顶级推理模型 (DeepSeek-8B、Qwen3-32B、GPT-OSS-20B) ,在 AIME 2024、AIME 2025 和 GPQA 基准上取得了卓越的结果。

表 2 展示了在线实验结果。DeepPrune 相较于 cons@512 始终能实现超过 80% 的 token 节省,同时准确率仅有轻微下降,且在效率上普遍优于 DeepConf。

表 2: 在线实验结果。DeepPrune 相比一致性采样能始终削减超过 80% 的 token 使用量,同时保持强劲的准确率。

关键成果:

  • 巨大效率提升: 超过 80% 的 token 节省,在 Qwen3-32B (AIME25) 上达到 91.4%
  • 极小准确率下降: 与昂贵基线相比准确率下降不超过 3 个百分点,有时甚至更高。
  • 优于置信度剪枝: DeepPrune 全面超越 DeepConf-high/low,在稳定性和节省率上均更优秀。

3. 剪枝应多激进?

调整冗余阈值 \( \tau \) 可控制剪枝激进程度。如下表所示,较低的 \( \tau \) 虽可大幅减少 token 使用,但若过低则可能降低多样性。

表 3 展示了改变冗余阈值 τ 对 token 消耗和准确率的影响。较低阈值能带来更多 token 节省,但若设置过低可能削弱答案多样性。

表 3: 剪枝阈值与性能间的权衡。阈值越低节省越多,但过于激进会损及多样性。

即使在较强剪枝 (τ=0.5) 下,DeepPrune 仍保持可靠性能,实现在成本与正确性之间的最佳平衡。

此外,消融实验显示,500 个 token 或 25 个推理词是评判模型的最佳截断长度。上下文太少会降低准确率,过多则引入噪声。

两张折线图展示了评判模型根据截断使用的 token 或推理词数量不同的 AUROC 性能。性能通常在中间值 (500 个 token 或 25 个推理词) 达到峰值。

图 4: 截断长度的消融研究。最佳性能出现在约 500 个 token 或 25 个推理词处。


结论: 更聪明地思考,而非思考得更多

DeepPrune 论文揭示了并行 CoT 推理的一个根本问题——大部分计算工作都是重复的。通过训练一个评判模型以从部分推理中检测迹间相似性,并结合高效聚类与投票机制,DeepPrune 能在保持准确率的同时实现高达 91% 的 token 使用量减少

这项技术对下一代 AI 系统意义深远。随着模型规模和推理深度不断提升,推理成本成为核心瓶颈。DeepPrune 将暴力式并行推理转化为轻量、智能的推理过程——让模型更高效地思考,而不是无休止地思考。

简而言之,DeepPrune 并不是让 LLM 思考得更辛苦,而是教它们知道 何时停止重复思考同一个问题