超越思维链: 揭示大语言模型的静默推理

如果你使用过像 GPT-4 或 Llama 3 这样的大型语言模型 (LLMs) ,你很可能见过“思维链” (Chain-of-Thought,CoT) 提示: 提出一个困难的问题,模型在给出最终答案之前会逐步展示推理过程。这种显式、语言化的推理能够显著提升模型在多步任务上的表现——从数学到常识谜题。

但 CoT 是有代价的: 生成每一个中间词元 (token) 既缓慢又昂贵,且有时并非必要。如果模型能够在内部完成同样的多步推理——即“静默思考”——然后只输出最终答案呢?这正是隐式推理的核心目标: 在保留深度推理能力的同时,降低延迟、成本和冗余。这一方向现已成为活跃的研究热点。

本文将总结并梳理综述论文《大型语言模型中的隐式推理: 全面综述》的主要观点。我会解释显式推理与隐式推理的核心区别,介绍作者提出的以执行为中心的分类体系,重点展示代表性方法,并讨论研究者探究这种静默推理的证据与基准测试。途中,我还将指出开放的挑战及值得期待的研究方向。

视觉速记: 显式推理与隐式推理

显式推理与隐式推理的对比。显式推理展示了一个用文本逐步求解的数学问题。隐式推理展示了模型的内部层在计算后直接得出最终答案。

图1: 大型语言模型中的显式推理与隐式推理比较。显式推理 (左) 通过生成自然语言解释展示每一步;隐式推理 (右) 则在内部跨层或潜空间状态执行多步计算,不写出任何中间步骤,从而实现更快、更紧凑的推理过程。

图1揭示了直觉: 显式推理显式地生成中间思维链;隐式推理则将这些中间状态保持在内部 (例如隐藏激活、潜空间词元或跨层重复计算) ,只输出最终答案。

两种范式共享一个两阶段的推理观点: 模型先在内部构建计算轨迹,再利用该轨迹生成答案。区别在于这一轨迹是否被语言化。

预备知识——我们指的“推理”是什么

该综述将 LLM 的推理形式化为一个两阶段的推断过程。给定输入 \(x\),模型 \(\pi_\theta\) 首先生成一个中间轨迹 \(z_{1:M}\),然后基于 \(x\) 及该轨迹生成最终答案 \(a\):

\[ z_{1:M} = (z_1, \dots, z_M) \]\[ z_{1:M} \sim \pi_{\theta}(\cdot \mid x), \qquad a \sim \pi_{\theta}(\cdot \mid x, z_{1:M}). \]
  • 对于显式推理,\(z_{1:M}\) 是文本词元,即可读的 CoT \(y_{1:T}\):

    \[ y_{1:T} \sim \pi_{\theta}(\cdot \mid x), \qquad a \sim \pi_{\theta}(\cdot \mid x, y_{1:T}). \]
  • 对于隐式推理,\(z_{1:L}\) 是内部隐藏状态或潜变量 \(h_{1:L}\),不可见于用户:

    \[ h_{1:L} \sim \pi_{\theta}(\cdot \mid x), \qquad a \sim \pi_{\theta}(\cdot \mid x, h_{1:L}). \]

这种转变——以内部计算取代显式的词元生成——带来了新的权衡: 效率与紧凑性提升,但可解释性与可控性降低。

表1: 大型语言模型中显式推理与隐式推理的关键区别。比较推理可见性、效率、可解释性、多样性、监督粒度及与人类思维的对齐度等维度。

图2 (表格) : 从可见性、效率、可解释性、轨迹多样性、监督粒度及与人类思维模式的对齐六个维度,对显式与隐式推理进行高层比较。

以执行为中心的分类体系: 三大范式

该综述根据内部计算的执行方式与位置,将隐式推理技术分为三大互补范式:

  1. 潜空间优化 (直接优化或注入潜空间表示) ,
  2. 信号引导控制 (插入词元或信号以引导内部计算) ,
  3. 层循环执行 (重用层或增加循环以迭代计算) 。

它们都旨在在不生成显式词元化 CoT 的前提下执行多步推理,但实现粒度与工程权衡各不相同。

图2: 分类图,展示综述结构。从“LLM 隐式推理”分支到“技术范式”,再细分为“潜空间优化”、“信号引导控制”和“层循环执行”。

图3: 按执行范式组织的隐式推理方法分类。

下面我将逐一介绍各范式,解析代表性方法,并说明它们的核心思想与实用价值。

范式一 —— 潜空间优化

潜空间优化方法直接操纵模型内部表示 (潜空间词元、轨迹或状态) 以编码推理过程。其差异在于优化目标的粒度:

  • 词元级: 学习或插入特殊潜空间词元以增强输入序列。
  • 轨迹级: 将完整 CoT 压缩为紧凑的潜空间轨迹 (“潜思”) 。
  • 内部状态级: 蒸馏或对齐内部激活,使学生模型能进行静默推理。

词元级潜空间词元

词元级方法在序列中添加少量额外嵌入——潜空间词元——供模型进行内部计算。这些词元可来自:

  • 提取的概念向量 (如稀疏自编码器) ,
  • 通过下一个词元预测优化的连续词元,
  • 利用向量量化得到的离散码本词元,
  • 或与常规词元交错的混合组合。

图3: 四种潜空间词元的获取与使用方式: 稀疏自编码器、下一个词元预测、向量量化,以及在输入/输出序列中交错。

图4: 词元级潜空间优化方法。潜空间词元作为紧凑的内部“计算便笺”,供模型在推理中读写而无需生成自然语言。

优势在于: 模型获得了更多内部记账的自由度 (计数、部分结果、计划向量等) ,同时保持原有架构与输出格式。该方法轻量,可通过微调或适配层应用于现有预训练模型。

轨迹级潜思

轨迹级方法将完整 CoT 序列压缩为连续潜空间轨迹——简短嵌入序列,概括多步推理。典型策略包括:

  • 语义锚定: 将潜空间轨迹训练为与显式 CoT 语义对齐,再用压缩后的潜摘要替代文本 CoT。
  • 自适应压缩: 动态确定每个实例所需的潜词元数量。
  • 渐进精炼: 通过课程式训练逐步内化 CoT。
  • 探索多样化: 采样多个潜轨迹并行探索替代推理路径。

图4: 四种轨迹级优化方法 (CCoT、Coconut、CODI、LightThinker) 通过潜空间思维压缩或替换显式 CoT 步骤。

图5: 轨迹级代表方法 (CCoT, Coconut, CODI, LightThinker) ,将显式 CoT 压缩为紧凑潜空间表示。

直觉上,这种方式保持语义信息同时避免逐词解码,可提高训练效率,并启用实例自适应的计算预算。

内部状态蒸馏

内部状态方法通过使学生模型重现教师模型的隐藏激活来传递推理能力:

  1. 教师模型生成显式 CoT 与隐藏状态。
  2. 辅助模块学习根据输入预测教师隐藏状态。
  3. 学生模型训练以产生相似的隐藏状态,并直接从中生成答案,无需文本 CoT。

图5: 展示内部状态优化的知识蒸馏流程,学生模型学习模仿显式推理教师模型的隐藏状态。

图6: 内部状态蒸馏 (ICoT-KD, System-1.5) 将显式教师的推理能力转移到学生模型的潜空间表示。

该方法强大,因为能利用现有显式推理数据集与教师模型,部署时生成高效的静默学生。但它依赖准确的监督 (教师隐藏状态) 及良好的对齐,以防表示坍塌。

范式二 —— 信号引导控制

信号引导方法通过插入控制信号 (特殊词元或动态嵌入) 来引导内部计算,促使模型分配更多推理资源。分为:

  • 单类型信号: 统一控制词元如 [THINK]、[PAUSE] 或学习到的填充符,触发额外计算传递。简便易用,可在训练或推理时插入。
  • 多类型信号: 不同词元对不同功能 (如 <memory> 检索、<reason> 推理、<short> vs <think> 决定推理深度) ,更具结构性和可解释性。

表5: 信号引导控制方法综述,包括“思考词元”、“暂停词元”、“规划词元”等策略。

图7: 信号引导控制提供轻量、兼容性高的内部计算调度方式。

其优势在于无须修改架构,可在测试时自适应插入控制词元 (如模型低置信处插入暂停标记) 。还可实现混合模式: 在简单任务用快速显式输出,复杂任务则“静默思考”。

范式三 —— 层循环执行

层循环执行引入循环机制: 输入不再仅通过每层一次,而是循环复用相同参数多次来迭代精炼隐藏状态,相当于在推理时动态增加深度。

图6: 层循环执行示意图,展示输入通过可重复 T 次的层块进行多次精炼后再解码答案。

图8: 层循环执行 (Looped Transformers, ITT, CoTFormer, Huginn, RELAY) 通过共享权重与自适应循环实现多步隐式推理。

关键思想:

  • 权重共享保证参数高效。
  • 词元或实例级自适应重复让困难词元获得更多推理步。
  • 训练中使用随机迭代与截断反传提升模型应对可变深度的稳健性。

循环模型可内部模拟多步 CoT 式计算,适合测试时扩展 (困难输入更多迭代) 与资源受限场景 (保持参数固定但可调运行计算) 。

表6: 层循环执行方法总结,如 ITT 与 Looped Transformers,通过权重共享和自适应深度完成隐式推理。

图9: 代表性层循环模型及其任务/数据集。

内部是否真的在“思考”

当模型“静默思考”时,它是真正在执行结构化多步推理,还是只是记忆捷径?由于隐式轨迹不可见,研究者依赖三类间接证据:

  1. 逐层结构证据;
  2. 行为特征;
  3. 表示层分析 (探针与干预) 。

逐层结构证据

观察表明,不同层往往专注处理子任务,中间层激活能预测最终输出。例如:

  • 探针分析显示线性分类器可在最终词元生成前恢复答案,暗示计算已在深度内完成。
  • 对循环 Transformer 的研究显示其迭代层可模拟有向无环图计算。
  • 理论研究证实,紧凑 Transformer 可通过连续潜空间表示实现迭代搜索或图可达性。

这些结果表明模型可沿深度分配计算,实现内部多步推理。

行为特征

分析模型训练与推理行为可见:

  • 顿悟现象 (grokking) : 持续训练后突然泛化,表征模型由记忆向算法化转变。
  • 跳步现象: 微调后模型跳过显式步骤仍保持准确,表明已内化中间环节。
  • 实例自适应性: 能响应暂停词元或动态潜压缩的模型在易难任务间表现不同,暗示条件化内部计算。

这些行为为群体层面提供了内部多步处理存在的迹象。

表示分析 (探针与干预)

更直接的方法是研究隐藏状态:

  • 探针 (Probing) : 用轻量分类器预测中间结果,高准确率说明内部编码了子步骤。
  • 干预 (Intervention) : 通过操控激活 (引导向量) 引发或抑制推理行为,观察输出变化。
  • 注意力与电路分析: 部分研究从激活或注意力模式中提取推理树结构。

尽管探针结果非因果,但结合干预实验,可较强地表明隐藏状态中确实编码了有意义的多步计算。

成功的度量标准

评估隐式推理需结合传统指标与针对内部效率的新探针:

  • 答案正确率: 准确率、完全匹配、代码任务的 Pass@k。
  • 资源效率: 解码延迟、输出词元数、FLOPs/FWPs;如每计算单元准确率 (Accuracy per Computation Unit, ACU) 综合考量模型大小与解码长度。
  • 语言建模质量: 困惑度 (Perplexity, PPL) 仍是建模能力基线。
  • 探针准确率: 辅助分类器从隐藏层重建中间子结果。

因为隐式方法无文本轨迹,研究者多借助探针、干预和受控基准来理解与验证内部计算。

研究中使用的基准

综述将数据集分为五类,代表性如下:

  • 常识与通用知识: CommonsenseQA、PIQA、WinoGrande、HellaSwag、TruthfulQA。
    表7: 常识推理基准列表,包括 CommonsenseQA、PIQA 和 TruthfulQA。

    图10: 常识与通用知识基准用于评估日常知识背景下的潜空间推理。

  • 数学与编程推理: GSM8K (小学数学) 、MATH、MATH-500、SVAMP、HumanEval、MBPP。
    表8: 数学与编程基准,包括 GSM8K、MATH、HumanEval。

    图11: 算术、竞赛数学与代码生成数据集考验精确多步推理。

  • 语言建模与阅读理解: PTB、WikiText、LAMBADA、SQuAD、DROP。
    表9: 语言建模与阅读理解基准,如 SQuAD、RACE、TriviaQA。

    图12: 语言理解与阅读理解核心任务。

  • 多跳与跨学科问答: HotpotQA、2WikiMultiHopQA、StrategyQA、MMLU、BIG-Bench Hard。
    表10: 多跳与多学科问答基准,如 HotpotQA、MMLU、BIG-Bench Hard。

    图13: 多跳推理任务需跨多个事实执行组合推断。

  • 多模态推理: LLaVA-CoT-100K、MMStar、MathVista、ScienceQA、TheoremQA。
    表11: 多模态推理基准,如 MMStar、MathVista、ScienceQA。

    图14: 结合视觉与文本输入的跨模态隐式推理基准。

这些基准用于衡量不同类型推理的最终答案质量。配合含中间标注或符号证明的探针数据集,可验证内部计算。

挑战与未来方向

隐式推理潜力巨大,但也面临关键挑战。综述总结如下:

  1. 可解释性低与潜空间不透明: 中间状态难以调试与信任。需发展因果探针、轨迹可视化及干预工具,揭示真实因果路径。
  2. 可控性与可靠性有限: 静默错误风险高。未来模型应输出置信信号、支持可调推理预算,并允许运维干预验证。
  3. 性能落后显式 CoT: 许多隐式方法在复杂任务上准确率较低。结合静默思考与轻量验证的混合策略可能弥合差距。
  4. 评估缺乏标准化: 缺少专用隐式推理基准、探针协议与鲁棒测试。统一评估框架能提升可比性与复现性。
  5. 架构与泛化限制: 部分方法依赖特定架构,不易扩展。开发架构无关技术与潜推理预训练目标可增强跨模型适用性。
  6. 依赖显式监督: 许多隐式方法训练中依赖显式 CoT 或教师隐藏状态。探索无监督或自监督目标可减少高成本标注依赖。

总体而言,未来路径是发展结合静默推理与选择性显式化验证的混合体系,改进探针与干预用以理解潜计算,并建立衡量推理保真度与鲁棒性的专用基准。

核心结论

  • 隐式推理重新定义多步推理: 模型在潜空间中进行内部计算,仅输出最终答案,提升效率与扩展性。
  • 综述划分三类执行范式: 潜空间优化、信号引导控制、层循环执行——各在复杂度、可解释性与灵活性上权衡不同。
  • 多方证据显示内部确有有意义计算,但探针结果需警惕相关性误区,仍需干预验证因果性。
  • 评估是关键开放领域: 亟需标准化基准、探针协议与综合指标,衡量正确性与内部推理质量。
  • 短期混合策略最具实用性: 静默推理结合选择性验证。长期而言,应厘清潜轨迹如何实现算法推理的机制。

隐式推理是一个令人振奋、快速发展的领域,融合工程创新与科学探索。随着 LLM 日益融入现实系统,如何让它们在“静默思考”的同时保持可理解与可控,将成为关键课题。

如果你正探索这一领域——无论是构建更快的推理管线、设计新预训练目标,还是分析内部计算——这份综述都将是宝贵的路线图。它整合广泛文献,阐明核心机制,并指出具体开放问题。我们的模型或许已在静默中思考,但要真正“听见”它们,我们还需要更好的方法。