大型语言模型 (LLM) 重塑了我们对自然语言系统的期望。然而,让它们可靠地解决多步骤问题依然困难。思维链 (Chain-of-Thought,CoT) 提示——要求模型“一步步思考”并写下其内部推理链——显著提高了从小学数学到复杂规划等诸多任务的表现。但强迫模型输出每一个中间步骤代价高昂: 解码长序列速度慢、成本高、有时还不稳定。
如果模型能够在隐藏层中静默思考,只输出最终答案呢?这就是隐式推理的愿景: 在潜空间中进行多步计算,而不生成中间文本。隐式推理可减少延迟、降低解码成本,并可能支持更丰富的内部计算,而这些计算无需映射回自然语言。
本文是对一篇近期综述论文《大型语言模型中的隐式推理: 全面综述》的导读。我将总结其核心思想,阐明主要分类体系,重点介绍有说服力的实验证据,并讨论评估实践和未解挑战。在此过程中,我将指向一些代表性方法和图示,帮助描绘这一领域的全貌。
图1直观对比了显式与隐式推理: 左侧,模型写出每一步 (显式CoT) ;右侧,内部层静默地执行这些步骤 (隐式推理) 。注意,隐式推理避免了重复生成词元,而是可利用内部的、并行或压缩的表示来执行多步计算。
图2 (论文中的分类示意图) 宏观展示了该综述的组织结构: 隐式推理的三种技术范式 (潜变量优化、信号引导控制、层循环执行) 、内部推理的证据、评估实践以及挑战。
为什么这篇综述重要: 关于内部“静默”推理的文献发展迅速但较为分散。该论文提出了一个以功能和执行为中心的分类法 (计算如何、在何处展开) ,综合归纳了潜推理存在的机理与行为证据,并回顾了该领域的评估协议与数据集。
以下我将以对学生和实践者都实用的方式解析要点。
- 预备知识——定义显式与隐式推理
- 隐式推理的三种执行范式
- 潜变量优化 (词元级、轨迹级、内部状态级)
- 信号引导控制 (单类型与多类型信号)
- 层循环执行 (循环/迭代架构)
- LLM隐式推理的证据 (结构性、行为性、表征性)
- 隐式推理的评估: 指标与基准
- 挑战与研究方向
如果你用过CoT提示,这些内容在精神上会很熟悉——但隐式推理将工作重心从词元输出转向了模型的连续动态。
1. 预备知识——形式化差异
该综述将LLM推理框架化为两阶段过程。给定输入 \(x\),模型先构建内部轨迹 \(z_{1:M}\),再生成最终答案 \(a\):
\[ z_{1:M} = (z_1, \dots, z_M) \]\[ z_{1:M} \sim \pi_\theta(\cdot \mid x), \qquad a \sim \pi_\theta(\cdot \mid x, z_{1:M}). \]显式与隐式推理的区别在于 \(z_{1:M}\) 的形式:
显式推理: \(z_{1:M}\) 为文本步骤 (思维链)
\[ y_{1:T} \sim \pi_\theta(\cdot\mid x), \qquad a\sim\pi_\theta(\cdot\mid x,y_{1:T}). \]
显式CoT可解释,因为中间步骤可见,但生成成本高。隐式推理: \(z_{1:M}\) (综述符号中记为 \(h_{1:L}\)) 为隐藏状态、潜词元或重复的内部激活,永不显现为文本
\[ h_{1:L}\sim\pi_\theta(\cdot\mid x),\qquad a\sim\pi_\theta(\cdot\mid x,h_{1:L}). \]
计算是静默的,仅输出最终答案。
论文中的表1 (原文以图形式呈现) 从可见性、效率、可解释性、推理多样性、监督粒度和认知对齐等维度比较两种范式。显式推理在可解释性与监督直观性上更优;隐式推理在效率与灵活性上占优势。
2. 隐式推理的三种执行范式
综述按内部计算在何处及如何展开组织方法。这些范式常互补,亦可组合使用。
- 潜变量优化: 直接操作或优化潜变量、潜词元或隐藏状态来编码推理
- 信号引导控制: 插入轻量级控制信号 (特殊词元) 引导内部计算,并按需分配更多算力
- 层循环执行: 迭代复用Transformer模块,模拟多步推理且参数不成比例增加
下文逐一介绍并给出代表性技术。
2.1 潜变量优化
潜变量优化在于直接处理潜表示,而非文本。综述按粒度分为: 词元级、轨迹级、内部状态级。
词元级潜变量优化
在序列中插入特殊潜词元 (连续或离散) 表示压缩的概念或推理原语,可为:
- 提取的概念词元 (如稀疏自编码器提取) 混入输入 (CoCoMix)
- 与模型共同训练的可学习潜词元,引导计算
- 通过向量量化 (码本) 得到的离散潜码,作为紧凑推理步骤或偏好
优势: 轻量级,可不改架构即可引入,为现有LLM注入紧凑推理抽象。
代表方法 (表2) : CoCoMix、Latent Token、LPC、Token Assorted,覆盖常识、阅读理解和数学。
轨迹级潜变量优化
将整条推理轨迹 (CoT) 视作一体压缩为潜轨迹或“潜思路”序列,保留语义结构同时降低解码成本。
类型包括:
- 语义锚定: 压缩显式CoT并对齐语义 (CCoT, HCoT)
- 自适应效率: 测试时动态压缩/扩展轨迹 (LightThinker, CoLaR)
- 渐进精化: 训练中逐步内化CoT (ICoT-SI, Coconut)
- 探索多样化: 同时表示多条潜轨迹 (SoftCoT, LaTRO, COT2等)
常用于复用/蒸馏CoT监督,表3显示其在GSM8K、MATH等多任务上的表现。
内部状态级潜变量优化
直接针对内部激活进行蒸馏或控制:
- 蒸馏显式教师的隐藏状态 (ICoT-KD, System-2→System-1)
- 增加隐式记忆模块 (Beyond Words)
- 路由/适配器机制动态调整深度 (System-1.5 Reasoning)
- 在交叉注意力中插入潜向量 (LTM) 并进行变分推断
适合已有强显式教师,需高效隐式学生场景。
2.2 信号引导控制
插入特殊控制信号 (词元) 引导内部计算,可为单类型 (同类信号) 或多类型 (不同词元区分功能) 。
单类型常见:
- 思考/暂停/填充/规划词元,触发额外内部计算
- 在低置信位置动态插[PAUSE] (DIT) 、或测试时潜优化 (LatentSeek)
多类型信号则分离功能,如<memory>
触发检索、<reason>
触发推理 (Memory & Reasoning, Thinkless) 。常配合RL或GRPO选择时机与类型。
实用价值高: 轻量,适用于推理时干预或小规模微调。
2.3 层循环执行
在前向计算引入循环,复用同一Transformer模块多次,模拟更深推理且参数少。可实现词元自适应计算。
代表设计:
- ITT: 自适应词元深度与残差累积
- Looped Transformer: K层循环L次,加循环正则
- CoTFormer: 词元级自适应重复与预算自适应
- Huginn: 前奏-核心-尾声,核心循环并采样迭代次数训练
- RELAY: 循环结构与CoT对齐,支持长推理链
适用于测试时按需扩展迭代次数 (计算/准确性权衡) 。
3. 隐式推理是真的吗?证据与探测
综述从三方面总结证据:
- 层级结构证据
- 行为特征
- 表征分析
3.1 层级结构证据
- 中间层激活可线性预测最终输出 (Jump to Conclusions)
- 不同层专精不同子问题并顺序执行 (Internal CoT)
- 理论上浅层模型可并行编码多条隐式搜索轨迹 (Reasoning by Superposition)
- CoT与循环架构对比分析 (To CoT or To Loop)
3.2 行为特征
- Grokking实验揭示由记忆到泛化的突变,伴随内部可泛化计算
- 跳步训练: 跳过中间步骤仍保持精度,表明内化
- 推理跳跃: 无显式步骤得对但易受扰动
3.3 表征分析
- 探针: 中层恢复子结果可证明内部计算
- 因果干预: 激活编辑可引导推理或纠错
- 注意力/激活模式揭示潜在树状或顺序结构
4. 评估: 指标与基准
隐式推理评估需结合最终准确率、效率与内部探测。
4.1 指标
- 准确性 (Accuracy, EM, Pass@k等)
- 资源效率 (延迟、长度、显存/FLOPs,ACU等)
- 困惑度 (PPL)
- 探针准确率 (ProbingAcc) 与因果验证
4.2 基准
综述将常用基准分为五类:
- 常识与通识 (CommonsenseQA等)
- 数学推理与编程 (GSM8K等)
- 语言建模与阅读理解 (PTB等)
- 多跳与多学科问答 (HotpotQA等)
- 多模态推理 (LLaVA-CoT等)
5. 挑战与研究方向
综述归纳六大挑战:
- 可解释性与潜空间不透明
- 可控性与可靠性不足
- 与显式CoT表现差距
- 无标准评估
- 架构与泛化限制
- 依赖显式监督
对应研究议程包括: 提升可解释性工具、混合训练、统一评估、架构无关方法、无监督潜推理等。
6. 实践启示与建议
- 隐式推理适用于关注延迟与成本、无需中间文本、可进行模型工程的场景
- 显式CoT适用于研究调试、高风险领域、关注步骤结构的任务
- 混合策略: 隐式默认+低置信退回显式或验证提示;显式教师蒸馏隐式学生
- 评估须同时报告精度与效率,配合探针/干预验证,循环模型需报平均迭代数等
7. 结论
隐式推理将LLM计算范式从可见自然语言链转向内部潜状态序列。该综述提供了清晰的执行中心分类,并综合了隐式计算的存在证据。它的潜力——更快推理、更紧凑表示、更丰富内部搜索——真实可期,但也面临内部动态不透明、可控性与评估缺失等挑战。
短期可行路径是混合模式: 利用显式CoT监督与可解释性,蒸馏为高效隐式表示,并开发探针/干预以在保持效率的同时增强可审计性与可控性。