大型语言模型 (LLM) 在复杂推理任务上——如解决高等数学问题、编写结构化代码以及回答研究生水平的科学问题——表现得极为出色。支撑这种智能的核心技术之一是 并行扩展,即模型针对同一个问题生成数百条独立的推理路径 (或称 思维链,CoT) ,然后通过多数投票等方法选出最一致的最终答案。
你可以把它想象成一场大型的头脑风暴: 模型探索几十种解决方案,然后决定哪一种看起来最可靠。
然而,这种方法付出了高昂的计算代价。生成数百条长推理迹将消耗大量 GPU 资源与财务成本。但意外的是——其中大多数迹实际上都在做完全相同的工作。
这种惊人的低效率正是新论文 《DeepPrune: 无迹间冗余的并行扩展》 的研究重点。作者发现,**现代 LLM 生成的并行推理迹中,超过 80% 最终得出相同的答案。**换句话说,模型花费了上千个 token,不断重复推导同一个结论。
为了解决这一问题,研究人员开发了 DeepPrune,一个动态剪枝框架,能够在冗余推理路径完成之前识别出它们并提前终止,只保留值得继续探索的多样化路径。
图 1: 标准并行扩展 (上) 会产生许多通向相同答案的冗余路径。DeepPrune (下) 能及早检测到相似迹并中止重复的轨迹,从而在保持多样性的同时节省 token。
在本文中,我们将逐步解析 DeepPrune 算法——了解什么是迹间冗余,作者如何训练一个“评判模型”来检测它,以及该系统如何在不损失准确率的情况下实现超过 80% 的 token 节省。
头脑风暴的隐藏成本: 迹间冗余
像 自洽性 (Wang et al., 2022) 和 best-of-N 采样 这样的并行扩展技术,通过生成大量候选解来显著提升推理准确率。对于单个查询,一个 LLM 可能生成 512 条不同的推理迹——每一条都是通向最终答案的长篇解释。
此类暴力策略虽增加了找到正确路径的概率,却浪费了巨量计算资源。低效率不仅源自样本数量,更来自样本之间的冗余。
DeepPrune 团队开展了一项大规模迹收集实验: 针对每个推理问题,他们使用四种推理模型各生成 16 条并行迹,并对所有可能的迹对进行比较 (每个问题共有 \( \binom{16}{2} = 120 \) 对) 。问题是: 有多少迹对会导向相同的最终答案?
结果令人震惊。
如图 2(a) 所示,平均有 81.6% 的迹对产生完全相同的答案,在部分模型中冗余度甚至超过 94%。
图 2: (a) 迹间冗余分析显示,大多数模型的迹会导向相同答案 (>80%) 。(b) 浅层语义相似度 (SentenceBERT) 无法区分冗余迹 (AUROC=0.58) 。(c) 零样本 LLM 评判器略有提升 (AUROC=0.66) ,但仍明显不足。
这意味着并行扩展将大部分 token 浪费在重复已有的推理路径上。如果我们能够及早预测哪些迹会收敛至相同答案,就能提前终止它们,节省大量计算。
但我们能稳定而可靠地做到吗?
作者测试了两种直观方法:
- 浅层语义相似度: 使用 SentenceBERT 计算两条迹前 700 个 token 的余弦相似度,结果 AUROC 仅为 0.58——几乎等同随机猜测。
- 零样本 LLM 评判: 提示 Qwen3-4B-Instruct 模型比较未完成的迹。这种更深层比较使 AUROC 达到 0.66,有小幅提升,但仍不足以进行实际剪枝。
这些结果表明,要判断推理过程间的冗余,需构建专用模型,而非依靠通用语义相似度量。
DeepPrune 框架: 两阶段解决方案
DeepPrune 提出了一个专门的框架,正面应对冗余问题。其运行分为 两个阶段:
- 离线训练: 构建一个 评判模型,预测两条不完整推理迹是否会产出相同答案。
- 在线剪枝: 在推理时实时应用此评判模型,对相似迹进行聚类并终止冗余迹。
图 3: DeepPrune 的两阶段流水线。离线阶段: 使用带标签的迹对和 Focal Loss 训练评判模型。在线阶段: 采用贪心聚类停止冗余迹,并利用多数投票选出最终答案。
阶段 1: 离线训练——教模型评判冗余
核心学习任务是二分类: 给定两条未完成的迹 \( (t_i, t_j) \),预测其最终答案 \( (o_i, o_j) \) 是否等价。
\[ y_{ij} = R(o_i, o_j) \]其中 \( R(\cdot) \) 是用于检验答案等价性的规则函数。
训练数据由 DeepSeek-R1-Distill-Llama-8B 模型生成: 针对每个查询生成多条推理迹,每对迹构成一个训练样本,若它们导向相同答案标记为 1,否则为 0。
作者测试了两种“未完成迹”截断策略:
- 固定长度前缀: 取前 500 个 token。
- 推理步骤对齐: 提取包含相同数量逻辑操作 (如 “thus”、“since”、“therefore”) 的片段,更能体现逻辑进展而非文本长度。
基于 Qwen3-4B-Instruct 的评判模型经过微调后输出:
\[ \hat{y}_{ij} = J_{\theta}(\operatorname{concat}(t_i, t_j)) \]应对类别不平衡
由于约 80% 的训练对拥有相同答案,作者采用两项技术帮助模型有效学习:
- Focal Loss 聚焦于困难的少数样本 (不同答案的迹对) :
\[ L_{focal} = -\alpha_t (1 - p_t)^{\gamma} \log(p_t) \] 以减少“简单”冗余样本的影响。 - 过采样 (Oversampling) 提高少数类别样本比例,让模型接触更多样的推理模式。
将 Focal Loss 与过采样结合,最终获得了能识别推理差异的高性能评判模型。
阶段 2: 在线剪枝——动态迹聚类
在推理阶段,DeepPrune 会并行生成多个推理迹。不同于让它们全部运行至结束,它采用 贪心聚类 算法主动剪除冗余迹。
每个簇代表一组预测将生成相同答案的迹。当出现新迹 \( t_i \) 时,DeepPrune 计算它与现有簇代表的相似度:
\[ \operatorname{sim}(t_i, c_j) = \frac{1}{p} \sum_{h=1}^p J_{\theta}(t_i, t_h^{(j)}) \]若最高相似度超过阈值 \( \tau \) (如 0.5) ,该迹加入现有簇并停止继续生成 token;否则建立新簇继续推理。
此过程在动态剪除冗余的同时保持路径多样性。
当所有活动迹完成后,DeepPrune 进行多数投票得出最终答案:
\[ o_{\text{final}} = \mathbf{MajorityVote}\left(\{o_1, o_2, \dots, o_{k^*}\}\right) \]其中 \( k^* \) 为允许完整推理的最终迹数量。该聚合方式在保持正确性的同时优化了效率。
实验结果: 高效率与高保真并存
1. 评判模型性能
在多个未见过的推理模型上的离线测试中,最佳评判模型配置——采用 25 个推理词并结合 Focal Loss 与过采样——达到了 AUROC = 0.87 与 [email protected] = 0.82。
表 1: 评判模型的离线评估。使用推理词截断并结合 Focal Loss 与过采样取得了最佳性能。
结论显而易见:
- 专门训练使性能从 0.66 (零样本) 提升至 0.87 AUROC。
- 基于推理步骤的特征远优于简单的 token 前缀。
- 解决类别不平衡至关重要——过采样和损失重加权共同提供了强大的预测能力。
2. 在线剪枝性能
将 DeepPrune 集成至三款顶级推理模型 (DeepSeek-8B、Qwen3-32B、GPT-OSS-20B) ,在 AIME 2024、AIME 2025 和 GPQA 基准上取得了卓越的结果。
表 2: 在线实验结果。DeepPrune 相比一致性采样能始终削减超过 80% 的 token 使用量,同时保持强劲的准确率。
关键成果:
- 巨大效率提升: 超过 80% 的 token 节省,在 Qwen3-32B (AIME25) 上达到 91.4%。
- 极小准确率下降: 与昂贵基线相比准确率下降不超过 3 个百分点,有时甚至更高。
- 优于置信度剪枝: DeepPrune 全面超越 DeepConf-high/low,在稳定性和节省率上均更优秀。
3. 剪枝应多激进?
调整冗余阈值 \( \tau \) 可控制剪枝激进程度。如下表所示,较低的 \( \tau \) 虽可大幅减少 token 使用,但若过低则可能降低多样性。
表 3: 剪枝阈值与性能间的权衡。阈值越低节省越多,但过于激进会损及多样性。
即使在较强剪枝 (τ=0.5) 下,DeepPrune 仍保持可靠性能,实现在成本与正确性之间的最佳平衡。
此外,消融实验显示,500 个 token 或 25 个推理词是评判模型的最佳截断长度。上下文太少会降低准确率,过多则引入噪声。
图 4: 截断长度的消融研究。最佳性能出现在约 500 个 token 或 25 个推理词处。
结论: 更聪明地思考,而非思考得更多
DeepPrune 论文揭示了并行 CoT 推理的一个根本问题——大部分计算工作都是重复的。通过训练一个评判模型以从部分推理中检测迹间相似性,并结合高效聚类与投票机制,DeepPrune 能在保持准确率的同时实现高达 91% 的 token 使用量减少。
这项技术对下一代 AI 系统意义深远。随着模型规模和推理深度不断提升,推理成本成为核心瓶颈。DeepPrune 将暴力式并行推理转化为轻量、智能的推理过程——让模型更高效地思考,而不是无休止地思考。
简而言之,DeepPrune 并不是让 LLM 思考得更辛苦,而是教它们知道 何时停止重复思考同一个问题。