大型语言模型 (LLM) 重塑了我们对自然语言系统的期望。然而,让它们可靠地解决多步骤问题依然困难。思维链 (Chain-of-Thought,CoT) 提示——要求模型“一步步思考”并写下其内部推理链——显著提高了从小学数学到复杂规划等诸多任务的表现。但强迫模型输出每一个中间步骤代价高昂: 解码长序列速度慢、成本高、有时还不稳定。

如果模型能够在隐藏层中静默思考,只输出最终答案呢?这就是隐式推理的愿景: 在潜空间中进行多步计算,而不生成中间文本。隐式推理可减少延迟、降低解码成本,并可能支持更丰富的内部计算,而这些计算无需映射回自然语言。

本文是对一篇近期综述论文《大型语言模型中的隐式推理: 全面综述》的导读。我将总结其核心思想,阐明主要分类体系,重点介绍有说服力的实验证据,并讨论评估实践和未解挑战。在此过程中,我将指向一些代表性方法和图示,帮助描绘这一领域的全貌。

图1直观对比了显式与隐式推理: 左侧,模型写出每一步 (显式CoT) ;右侧,内部层静默地执行这些步骤 (隐式推理) 。注意,隐式推理避免了重复生成词元,而是可利用内部的、并行或压缩的表示来执行多步计算。

显式推理与隐式推理的对比。左: 显式思维链,逐步写出每一步;右: 隐式推理,在模型层和隐藏状态中静默展开计算。

图2 (论文中的分类示意图) 宏观展示了该综述的组织结构: 隐式推理的三种技术范式 (潜变量优化、信号引导控制、层循环执行) 、内部推理的证据、评估实践以及挑战。

隐式推理方法与本综述所涵盖主题的分类图。

为什么这篇综述重要: 关于内部“静默”推理的文献发展迅速但较为分散。该论文提出了一个以功能和执行为中心的分类法 (计算如何、在何处展开) ,综合归纳了潜推理存在的机理与行为证据,并回顾了该领域的评估协议与数据集。

以下我将以对学生和实践者都实用的方式解析要点。

  1. 预备知识——定义显式与隐式推理
  2. 隐式推理的三种执行范式
    • 潜变量优化 (词元级、轨迹级、内部状态级)
    • 信号引导控制 (单类型与多类型信号)
    • 层循环执行 (循环/迭代架构)
  3. LLM隐式推理的证据 (结构性、行为性、表征性)
  4. 隐式推理的评估: 指标与基准
  5. 挑战与研究方向

如果你用过CoT提示,这些内容在精神上会很熟悉——但隐式推理将工作重心从词元输出转向了模型的连续动态。


1. 预备知识——形式化差异

该综述将LLM推理框架化为两阶段过程。给定输入 \(x\),模型先构建内部轨迹 \(z_{1:M}\),再生成最终答案 \(a\):

\[ z_{1:M} = (z_1, \dots, z_M) \]\[ z_{1:M} \sim \pi_\theta(\cdot \mid x), \qquad a \sim \pi_\theta(\cdot \mid x, z_{1:M}). \]

显式与隐式推理的区别在于 \(z_{1:M}\) 的形式:

  • 显式推理: \(z_{1:M}\) 为文本步骤 (思维链)

    \[ y_{1:T} \sim \pi_\theta(\cdot\mid x), \qquad a\sim\pi_\theta(\cdot\mid x,y_{1:T}). \]


    显式CoT可解释,因为中间步骤可见,但生成成本高。

  • 隐式推理: \(z_{1:M}\) (综述符号中记为 \(h_{1:L}\)) 为隐藏状态、潜词元或重复的内部激活,永不显现为文本

    \[ h_{1:L}\sim\pi_\theta(\cdot\mid x),\qquad a\sim\pi_\theta(\cdot\mid x,h_{1:L}). \]


    计算是静默的,仅输出最终答案。

论文中的表1 (原文以图形式呈现) 从可见性、效率、可解释性、推理多样性、监督粒度和认知对齐等维度比较两种范式。显式推理在可解释性与监督直观性上更优;隐式推理在效率与灵活性上占优势。


2. 隐式推理的三种执行范式

综述按内部计算在何处如何展开组织方法。这些范式常互补,亦可组合使用。

  • 潜变量优化: 直接操作或优化潜变量、潜词元或隐藏状态来编码推理
  • 信号引导控制: 插入轻量级控制信号 (特殊词元) 引导内部计算,并按需分配更多算力
  • 层循环执行: 迭代复用Transformer模块,模拟多步推理且参数不成比例增加

下文逐一介绍并给出代表性技术。


2.1 潜变量优化

潜变量优化在于直接处理潜表示,而非文本。综述按粒度分为: 词元级、轨迹级、内部状态级。

词元级潜变量优化

在序列中插入特殊潜词元 (连续或离散) 表示压缩的概念或推理原语,可为:

  • 提取的概念词元 (如稀疏自编码器提取) 混入输入 (CoCoMix)
  • 与模型共同训练的可学习潜词元,引导计算
  • 通过向量量化 (码本) 得到的离散潜码,作为紧凑推理步骤或偏好

词元级潜变量优化: (a) 稀疏自编码器提取的概念词元,(b) 可学习潜词元,(c) 向量量化得到的离散潜词元,(d) 典型的使用模式。

优势: 轻量级,可不改架构即可引入,为现有LLM注入紧凑推理抽象。
代表方法 (表2) : CoCoMix、Latent Token、LPC、Token Assorted,覆盖常识、阅读理解和数学。

轨迹级潜变量优化

将整条推理轨迹 (CoT) 视作一体压缩为潜轨迹或“潜思路”序列,保留语义结构同时降低解码成本。

轨迹级潜变量优化: 压缩CoT序列为紧凑的潜思路 (CCoT, Coconut, CODI, LightThinker) 。

类型包括:

  • 语义锚定: 压缩显式CoT并对齐语义 (CCoT, HCoT)
  • 自适应效率: 测试时动态压缩/扩展轨迹 (LightThinker, CoLaR)
  • 渐进精化: 训练中逐步内化CoT (ICoT-SI, Coconut)
  • 探索多样化: 同时表示多条潜轨迹 (SoftCoT, LaTRO, COT2等)

常用于复用/蒸馏CoT监督,表3显示其在GSM8K、MATH等多任务上的表现。

内部状态级潜变量优化

直接针对内部激活进行蒸馏或控制:

  • 蒸馏显式教师的隐藏状态 (ICoT-KD, System-2→System-1)
  • 增加隐式记忆模块 (Beyond Words)
  • 路由/适配器机制动态调整深度 (System-1.5 Reasoning)
  • 在交叉注意力中插入潜向量 (LTM) 并进行变分推断

内部状态级优化: 从教师蒸馏隐藏状态;将System-2输出转为System-1训练数据。

适合已有强显式教师,需高效隐式学生场景。


2.2 信号引导控制

插入特殊控制信号 (词元) 引导内部计算,可为单类型 (同类信号) 或多类型 (不同词元区分功能) 。

单类型常见:

  • 思考/暂停/填充/规划词元,触发额外内部计算
  • 在低置信位置动态插[PAUSE] (DIT) 、或测试时潜优化 (LatentSeek)

多类型信号则分离功能,如<memory>触发检索、<reason>触发推理 (Memory & Reasoning, Thinkless) 。常配合RL或GRPO选择时机与类型。

实用价值高: 轻量,适用于推理时干预或小规模微调。


2.3 层循环执行

在前向计算引入循环,复用同一Transformer模块多次,模拟更深推理且参数少。可实现词元自适应计算。

层循环执行: 解码前循环使用共享模块迭代精化表示。

代表设计:

  • ITT: 自适应词元深度与残差累积
  • Looped Transformer: K层循环L次,加循环正则
  • CoTFormer: 词元级自适应重复与预算自适应
  • Huginn: 前奏-核心-尾声,核心循环并采样迭代次数训练
  • RELAY: 循环结构与CoT对齐,支持长推理链

适用于测试时按需扩展迭代次数 (计算/准确性权衡) 。


3. 隐式推理是真的吗?证据与探测

综述从三方面总结证据:

  1. 层级结构证据
  2. 行为特征
  3. 表征分析

3.1 层级结构证据

  • 中间层激活可线性预测最终输出 (Jump to Conclusions)
  • 不同层专精不同子问题并顺序执行 (Internal CoT)
  • 理论上浅层模型可并行编码多条隐式搜索轨迹 (Reasoning by Superposition)
  • CoT与循环架构对比分析 (To CoT or To Loop)

3.2 行为特征

  • Grokking实验揭示由记忆到泛化的突变,伴随内部可泛化计算
  • 跳步训练: 跳过中间步骤仍保持精度,表明内化
  • 推理跳跃: 无显式步骤得对但易受扰动

3.3 表征分析

  • 探针: 中层恢复子结果可证明内部计算
  • 因果干预: 激活编辑可引导推理或纠错
  • 注意力/激活模式揭示潜在树状或顺序结构

4. 评估: 指标与基准

隐式推理评估需结合最终准确率、效率与内部探测。

4.1 指标

  1. 准确性 (Accuracy, EM, Pass@k等)
  2. 资源效率 (延迟、长度、显存/FLOPs,ACU等)
  3. 困惑度 (PPL)
  4. 探针准确率 (ProbingAcc) 与因果验证

4.2 基准

综述将常用基准分为五类:

  1. 常识与通识 (CommonsenseQA等)
    常识与通识知识基准。
  2. 数学推理与编程 (GSM8K等)
    数学推理与编程基准。
  3. 语言建模与阅读理解 (PTB等)
    语言建模与阅读理解基准。
  4. 多跳与多学科问答 (HotpotQA等)
    多跳与多学科问答基准。
  5. 多模态推理 (LLaVA-CoT等)
    用于视觉+文本推理的多模态基准。

5. 挑战与研究方向

综述归纳六大挑战:

  1. 可解释性与潜空间不透明
  2. 可控性与可靠性不足
  3. 与显式CoT表现差距
  4. 无标准评估
  5. 架构与泛化限制
  6. 依赖显式监督

对应研究议程包括: 提升可解释性工具、混合训练、统一评估、架构无关方法、无监督潜推理等。


6. 实践启示与建议

  • 隐式推理适用于关注延迟与成本、无需中间文本、可进行模型工程的场景
  • 显式CoT适用于研究调试、高风险领域、关注步骤结构的任务
  • 混合策略: 隐式默认+低置信退回显式或验证提示;显式教师蒸馏隐式学生
  • 评估须同时报告精度与效率,配合探针/干预验证,循环模型需报平均迭代数等

7. 结论

隐式推理将LLM计算范式从可见自然语言链转向内部潜状态序列。该综述提供了清晰的执行中心分类,并综合了隐式计算的存在证据。它的潜力——更快推理、更紧凑表示、更丰富内部搜索——真实可期,但也面临内部动态不透明、可控性与评估缺失等挑战。

短期可行路径是混合模式: 利用显式CoT监督与可解释性,蒸馏为高效隐式表示,并开发探针/干预以在保持效率的同时增强可审计性与可控性。