沉默的思考：大语言模型如何在内部进行推理

大型语言模型 (LLM) 重塑了我们对自然语言系统的期望。然而，让它们可靠地解决多步骤问题依然困难。思维链 (Chain-of-Thought，CoT) 提示——要求模型“一步步思考”并写下其内部推理链——显著提高了从小学数学到复杂规划等诸多任务的表现。但强迫模型输出每一个中间步骤代价高昂: 解码长序列速度慢、成本高、有时还不稳定。

如果模型能够在隐藏层中静默思考，只输出最终答案呢？这就是隐式推理的愿景: 在潜空间中进行多步计算，而不生成中间文本。隐式推理可减少延迟、降低解码成本，并可能支持更丰富的内部计算，而这些计算无需映射回自然语言。

本文是对一篇近期综述论文《大型语言模型中的隐式推理: 全面综述》的导读。我将总结其核心思想，阐明主要分类体系，重点介绍有说服力的实验证据，并讨论评估实践和未解挑战。在此过程中，我将指向一些代表性方法和图示，帮助描绘这一领域的全貌。

图1直观对比了显式与隐式推理: 左侧，模型写出每一步 (显式CoT) ；右侧，内部层静默地执行这些步骤 (隐式推理) 。注意，隐式推理避免了重复生成词元，而是可利用内部的、并行或压缩的表示来执行多步计算。

显式推理与隐式推理的对比。左: 显式思维链，逐步写出每一步；右: 隐式推理，在模型层和隐藏状态中静默展开计算。

图2 (论文中的分类示意图) 宏观展示了该综述的组织结构: 隐式推理的三种技术范式 (潜变量优化、信号引导控制、层循环执行) 、内部推理的证据、评估实践以及挑战。

隐式推理方法与本综述所涵盖主题的分类图。

为什么这篇综述重要: 关于内部“静默”推理的文献发展迅速但较为分散。该论文提出了一个以功能和执行为中心的分类法 (计算如何、在何处展开) ，综合归纳了潜推理存在的机理与行为证据，并回顾了该领域的评估协议与数据集。

以下我将以对学生和实践者都实用的方式解析要点。

预备知识——定义显式与隐式推理
隐式推理的三种执行范式
- 潜变量优化 (词元级、轨迹级、内部状态级)
- 信号引导控制 (单类型与多类型信号)
- 层循环执行 (循环/迭代架构)
LLM隐式推理的证据 (结构性、行为性、表征性)
隐式推理的评估: 指标与基准
挑战与研究方向

如果你用过CoT提示，这些内容在精神上会很熟悉——但隐式推理将工作重心从词元输出转向了模型的连续动态。

1. 预备知识——形式化差异

该综述将LLM推理框架化为两阶段过程。给定输入 \(x\)，模型先构建内部轨迹 \(z_{1:M}\)，再生成最终答案 \(a\):

\[ z_{1:M} = (z_1, \dots, z_M) \]\[ z_{1:M} \sim \pi_\theta(\cdot \mid x), \qquad a \sim \pi_\theta(\cdot \mid x, z_{1:M}). \]

显式与隐式推理的区别在于 \(z_{1:M}\) 的形式:

显式推理: \(z_{1:M}\) 为文本步骤 (思维链)
\[ y_{1:T} \sim \pi_\theta(\cdot\mid x), \qquad a\sim\pi_\theta(\cdot\mid x,y_{1:T}). \]

显式CoT可解释，因为中间步骤可见，但生成成本高。
隐式推理: \(z_{1:M}\) (综述符号中记为 \(h_{1:L}\)) 为隐藏状态、潜词元或重复的内部激活，永不显现为文本
\[ h_{1:L}\sim\pi_\theta(\cdot\mid x),\qquad a\sim\pi_\theta(\cdot\mid x,h_{1:L}). \]

计算是静默的，仅输出最终答案。

论文中的表1 (原文以图形式呈现) 从可见性、效率、可解释性、推理多样性、监督粒度和认知对齐等维度比较两种范式。显式推理在可解释性与监督直观性上更优；隐式推理在效率与灵活性上占优势。

2. 隐式推理的三种执行范式

综述按内部计算在何处及如何展开组织方法。这些范式常互补，亦可组合使用。

潜变量优化: 直接操作或优化潜变量、潜词元或隐藏状态来编码推理
信号引导控制: 插入轻量级控制信号 (特殊词元) 引导内部计算，并按需分配更多算力
层循环执行: 迭代复用Transformer模块，模拟多步推理且参数不成比例增加

下文逐一介绍并给出代表性技术。

2.1 潜变量优化

潜变量优化在于直接处理潜表示，而非文本。综述按粒度分为: 词元级、轨迹级、内部状态级。

词元级潜变量优化

在序列中插入特殊潜词元 (连续或离散) 表示压缩的概念或推理原语，可为:

提取的概念词元 (如稀疏自编码器提取) 混入输入 (CoCoMix)
与模型共同训练的可学习潜词元，引导计算
通过向量量化 (码本) 得到的离散潜码，作为紧凑推理步骤或偏好

词元级潜变量优化: (a) 稀疏自编码器提取的概念词元，(b) 可学习潜词元，(c) 向量量化得到的离散潜词元，(d) 典型的使用模式。

优势: 轻量级，可不改架构即可引入，为现有LLM注入紧凑推理抽象。
代表方法 (表2) : CoCoMix、Latent Token、LPC、Token Assorted，覆盖常识、阅读理解和数学。

轨迹级潜变量优化

将整条推理轨迹 (CoT) 视作一体压缩为潜轨迹或“潜思路”序列，保留语义结构同时降低解码成本。

轨迹级潜变量优化: 压缩CoT序列为紧凑的潜思路 (CCoT, Coconut, CODI, LightThinker) 。

类型包括:

语义锚定: 压缩显式CoT并对齐语义 (CCoT, HCoT)
自适应效率: 测试时动态压缩/扩展轨迹 (LightThinker, CoLaR)
渐进精化: 训练中逐步内化CoT (ICoT-SI, Coconut)
探索多样化: 同时表示多条潜轨迹 (SoftCoT, LaTRO, COT2等)

常用于复用/蒸馏CoT监督，表3显示其在GSM8K、MATH等多任务上的表现。

内部状态级潜变量优化

直接针对内部激活进行蒸馏或控制:

蒸馏显式教师的隐藏状态 (ICoT-KD, System-2→System-1)
增加隐式记忆模块 (Beyond Words)
路由/适配器机制动态调整深度 (System-1.5 Reasoning)
在交叉注意力中插入潜向量 (LTM) 并进行变分推断

内部状态级优化: 从教师蒸馏隐藏状态；将System-2输出转为System-1训练数据。

适合已有强显式教师，需高效隐式学生场景。

2.2 信号引导控制

插入特殊控制信号 (词元) 引导内部计算，可为单类型 (同类信号) 或多类型 (不同词元区分功能) 。

单类型常见:

思考/暂停/填充/规划词元，触发额外内部计算
在低置信位置动态插[PAUSE] (DIT) 、或测试时潜优化 (LatentSeek)

多类型信号则分离功能，如<memory>触发检索、<reason>触发推理 (Memory & Reasoning, Thinkless) 。常配合RL或GRPO选择时机与类型。

实用价值高: 轻量，适用于推理时干预或小规模微调。

2.3 层循环执行

在前向计算引入循环，复用同一Transformer模块多次，模拟更深推理且参数少。可实现词元自适应计算。

层循环执行: 解码前循环使用共享模块迭代精化表示。

代表设计:

ITT: 自适应词元深度与残差累积
Looped Transformer: K层循环L次，加循环正则
CoTFormer: 词元级自适应重复与预算自适应
Huginn: 前奏-核心-尾声，核心循环并采样迭代次数训练
RELAY: 循环结构与CoT对齐，支持长推理链

适用于测试时按需扩展迭代次数 (计算/准确性权衡) 。

3. 隐式推理是真的吗？证据与探测

综述从三方面总结证据:

层级结构证据
行为特征
表征分析

3.1 层级结构证据

中间层激活可线性预测最终输出 (Jump to Conclusions)
不同层专精不同子问题并顺序执行 (Internal CoT)
理论上浅层模型可并行编码多条隐式搜索轨迹 (Reasoning by Superposition)
CoT与循环架构对比分析 (To CoT or To Loop)

3.2 行为特征

Grokking实验揭示由记忆到泛化的突变，伴随内部可泛化计算
跳步训练: 跳过中间步骤仍保持精度，表明内化
推理跳跃: 无显式步骤得对但易受扰动

3.3 表征分析

探针: 中层恢复子结果可证明内部计算
因果干预: 激活编辑可引导推理或纠错
注意力/激活模式揭示潜在树状或顺序结构

4. 评估: 指标与基准

隐式推理评估需结合最终准确率、效率与内部探测。

4.1 指标

准确性 (Accuracy, EM, Pass@k等)
资源效率 (延迟、长度、显存/FLOPs，ACU等)
困惑度 (PPL)
探针准确率 (ProbingAcc) 与因果验证

4.2 基准

综述将常用基准分为五类:

常识与通识 (CommonsenseQA等)
数学推理与编程 (GSM8K等)
语言建模与阅读理解 (PTB等)
多跳与多学科问答 (HotpotQA等)
多模态推理 (LLaVA-CoT等)

5. 挑战与研究方向

综述归纳六大挑战:

可解释性与潜空间不透明
可控性与可靠性不足
与显式CoT表现差距
无标准评估
架构与泛化限制
依赖显式监督

对应研究议程包括: 提升可解释性工具、混合训练、统一评估、架构无关方法、无监督潜推理等。

6. 实践启示与建议

隐式推理适用于关注延迟与成本、无需中间文本、可进行模型工程的场景
显式CoT适用于研究调试、高风险领域、关注步骤结构的任务
混合策略: 隐式默认+低置信退回显式或验证提示；显式教师蒸馏隐式学生
评估须同时报告精度与效率，配合探针/干预验证，循环模型需报平均迭代数等

7. 结论

隐式推理将LLM计算范式从可见自然语言链转向内部潜状态序列。该综述提供了清晰的执行中心分类，并综合了隐式计算的存在证据。它的潜力——更快推理、更紧凑表示、更丰富内部搜索——真实可期，但也面临内部动态不透明、可控性与评估缺失等挑战。

短期可行路径是混合模式: 利用显式CoT监督与可解释性，蒸馏为高效隐式表示，并开发探针/干预以在保持效率的同时增强可审计性与可控性。

1. 预备知识——形式化差异#

2. 隐式推理的三种执行范式#

2.1 潜变量优化#

词元级潜变量优化#

轨迹级潜变量优化#

内部状态级潜变量优化#

2.2 信号引导控制#

2.3 层循环执行#

3. 隐式推理是真的吗？证据与探测#

3.1 层级结构证据#

3.2 行为特征#

3.3 表征分析#

4. 评估: 指标与基准#

4.1 指标#

4.2 基准#

5. 挑战与研究方向#

6. 实践启示与建议#

7. 结论#