引言: 思考的神秘力量

人类拥有一种非凡的能力。当面对一个无法一蹴而就的复杂问题时——比如一道棘手的数学题、规划一次多站点的旅行,甚至理解一篇艰深的研究论文——我们能够将其分解。我们一步步地思考,将一个个较小、可管理的推断链接起来,直到得出解决方案。这种推理过程感觉如此自然,以至于我们很少停下来问一个根本性的问题: 它究竟为什么会起作用? 毕竟,思考并不会给我们带来新的外部数据——它只是重新组织我们已经知道的信息。

最近,同样的谜团也出现在大型语言模型 (LLM) 的世界中。如果你向一个 LLM 提出复杂的问题,它可能无法给出正确答案。但如果你要求它“一步一步地思考”,或者在回答前生成一个“思维链”,它的表现往往会显著提升。

论文中使用的实验设置概览。A: 贝叶斯网络;B: 训练数据格式;C: 提示方法示意;D: 模型性能随训练时间的变化。

图 1: 论文的整体实验设置。A: 用于生成训练数据的贝叶斯网络。B: 局部“邻域”样本的格式。C: 不同推理方法的提示格式。D: 模型性能随训练时间的变化。

那么,为什么生成中间步骤对人类和人工智能都有帮助呢?斯坦福大学的一篇新论文 《为什么需要逐步思考?推理源于经验的局部性》 (Why think step by step? Reasoning emerges from the locality of experience) 给出了一个优雅的解释。其核心思想是: 逐步推理的力量并非一种神秘的智能特质,而是从我们的学习方式中自然涌现的。人类和 LLM 都是从局部结构化的数据——即相关经验的集群——中学习的。论文认为,推理是一种将这些局部联系串联起来,用以推断那些从未同时出现过的事物之间关系的过程。

本文将探讨该论文的核心理论、实验结果以及它对认知科学和机器学习的启示。


世界是局部的: 构建问题

为了验证他们的假设,研究人员创建了一个可控环境,以便操控训练数据的结构并衡量模型的推理能力。这个“世界”使用贝叶斯网络 (Bayesian Network) 来表示——这是一个由概率关系连接的变量图。

贝叶斯网络就像一张因果地图: 节点代表随机变量 (例如“天阴”、“下雨”、“草地湿了”) ,而边则代表依赖关系 (天阴会提高下雨的概率,下雨又会提高草地湿了的概率) 。

但关键创新不在于图本身,而在于模型如何观察它。研究人员没有在每次训练中展示整个网络 (即世界的完整“状态”) ,而是采用局部邻域的形式进行训练——即从更大的结构中提取出小型、重叠的变量集群。

这种设计模仿了两个重要的现实:

  1. 人类经验: 人类以第一人称的视角体验世界——我们只能感知时间和空间上邻近的事物。我们非常了解自己周围的环境,但必须依靠推理来推断更远的事物。
  2. LLM 的文本数据: 语言数据同样具有局部性。一篇关于巴黎的维基百科文章可能提到它是法国的首都,并描述了它的气候。一篇关于法国的文章会提到其首都,但可能不会提及巴黎的气候。“法国”和“气候”很少直接共现;它们之间通过“巴黎”联系起来。

要将“法国”和“气候”联系起来,你需要这样推理: 法国 → 巴黎 → 气候。


三种提问方式

基于这一设置,研究人员测试了模型如何估计两个在训练中从未同时出现的变量——例如 \(Y_i\) 和 \(Y_j\)——之间的联系。他们比较了三种方法,或称为估计器 :

  1. 直接预测: 基准情况——直接提问: “给定 \(Y_j = y_j\),\(Y_i = y_i\) 的概率是多少?”

直接预测的公式

直接预测: 模型直接根据观测变量输出条件概率。

  1. 支架式生成: “理想的推理路径”。作者确定了连接观测变量与目标变量的最佳中间变量。模型在生成最终目标之前,一步步地生成每个中间变量的值——就像一个有引导的解题过程。

支架式生成的公式

支架式生成: 模型在预测目标之前,显式地生成已知的相关中间变量。

  1. 自由生成: 模型可以自由选择自己的中间步骤——类似于“零样本思维链”。它自行决定在输出目标之前需要定义哪些变量,以测试未经引导的自发推理能力。

关键问题是: 在什么条件下,支架式生成或自由生成会优于直接预测?


理论: 证明“推理差距”

在进入实验之前,作者提供了一个理论证明。设想一个简单的链式结构 \(Y_1 \rightarrow Y_2 \rightarrow Y_3 \rightarrow \dots \rightarrow Y_N\)。

假设模型只见过相邻的变量对——例如 \(Y_1, Y_2\) 和 \(Y_2, Y_3\)——但从未同时见过 \(Y_1, Y_3\)。现在要求它估计 \(P(Y_3 | Y_1)\):

  • 直接预测: 由于模型从未同时见过 \(Y_1\) 和 \(Y_3\),它会猜测得很差,只能使用 \(Y_3\) 的边际 (平均) 概率。
  • 支架式生成: 模型可以利用已知的局部关系——先推断 \(P(Y_2 | Y_1)\),再推断 \(P(Y_3 | Y_2)\),并将两者串联起来以获得更好的估计。

作者将这一思想形式化为定理 3.1 , 证明了当训练数据具有这种局部性时, 通过中间变量进行推理比直接预测具有更低的偏差

公式表明,支架式估计器的偏差小于直接估计器的偏差。

定理 3.1: 对于非相邻变量,通过中间变量进行推理相比于直接预测,能严格减小估计偏差。

这个“推理差距”从数学上解释了为何逐步推理有帮助——推理是一种将局部知识片段拼接成全局联系的机制。


实验: 将理论付诸实践

在理论证明的基础上,作者进行了实验,利用合成数据和 Transformer 模型。他们从头开始训练 GPT-2 风格的自回归 Transformer,训练数据来源于包含 100 个变量的大型贝叶斯网络。他们仔细调整了训练数据的观测结构 :

  • 局部 (正确结构) : 训练样本包含来自贝叶斯网络的真实局部邻域。
  • 完全观测: 每个样本几乎包含所有变量——没有局部性。
  • 错误局部: 样本同样是局部的——但来自一个不同的图结构,共现关系与实际依赖关系不匹配。

他们随后在留出的变量对上评估模型——这些变量彼此相关,但在训练中从未同时出现过。


结果: 推理何时以及为何有效

核心结果 (图 2) 直观地验证了理论预期。

条形图显示了五种训练条件下不同估计器的均方误差。

图 2: 在局部训练条件下出现了“推理差距”,其中支架式生成 (绿色) 和自由生成 (粉色) 的表现优于直接预测 (蓝色) 。在完全观测或错误局部结构下,该差距消失。

  • 推理差距出现: 在局部训练条件下,支架式生成和自由生成都显著优于直接预测。当数据具有局部结构时,生成中间步骤能带来显著提升。自由生成甚至表明模型能够产生自身的推理步骤。
  • 何时无需推理: 在完全观测条件下,所有估计器的表现几乎一致。如果模型在训练中已经同时见过目标与输入,推理就无关紧要——它已直接学习了该联系。

表格显示了非留存对的均方误差。

表 1: 对于模型在训练中已见过的变量对,直接预测几乎完全准确——无需推理。

  • 何时推理失败: 在错误局部训练条件下,所有估计器表现都很差。局部样本无法反映真实依赖关系,因此推理链失去了意义。

表格显示了模型估计值与边际概率之间的均方误差。

表 2: 在失败的情况下,模型的预测会收敛到边际概率——当条件关系未知时,模型默认使用基准概率。

有趣的是,中间步骤的数量并未显著影响准确性——真正重要的是这些步骤的语义相关性

散点图显示了中间变量数量与目标概率距离之间的关系。

图 3: 在局部结构化训练中 (蓝点) ,更多的中间变量并不一定能提高准确性——模型学会了生成有用的 d-分离路径,而与路径长度无关。


推理的数据效率

除了准确率之外,推理还提升了数据效率 。 在局部数据上训练并采用自由生成的模型,在大约 1.2 亿个 token 后即可达到近乎完美的性能。而在完全观测的数据上训练的模型,要达到类似精度则需要多出约三倍的 token

这意味着推理能够弥补数据覆盖不足的问题。通过从狭窄的局部经验中学习,并在推理阶段加以推理,可以实现原本需要海量数据才能达到的效果。

简而言之: 局部性 + 推理 = 效率。


结论: 推理是桥梁,而非魔法

这项研究以清晰的第一性原理视角解释了思维链推理为何有效。

核心要点:

  1. 推理源于局部性: 逐步推理并非独立技能——它自然产生于学习者的局部化经验。
  2. 推理是桥梁: 其作用是通过串联局部、重叠的关系来连接遥远的概念。
  3. 局部性提升数据效率: 在局部集群上训练并在推理阶段进行推理,与直接“看到全部”相比,能大幅降低数据需求。

对机器学习研究者来说,这一发现提出了新的设计原则: 与其盲目扩大数据规模,不如精心构建局部连贯的训练集,并利用推理机制连接其余部分。对认知科学家来说,这为人类智能与日常经验之间建立了计算层面的联系——我们学习近处的事物,并通过思考来理解远处的事物。

在理解“逐步思考”为何奏效的过程中,这篇论文提醒我们: 推理并非神秘的能力——它只是我们生活在一个局部化世界中的统计结果。