AI 真的会推理吗？从基础到策略解构 LLM 的知识

像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 在回答复杂的科学和数学问题方面已经变得出奇地擅长。如果你问一个 LLM: “为什么 ReLU 激活函数的训练速度比 Sigmoid 快？”，它很可能会给你一段连贯且具有教科书质量的回答，谈论梯度和饱和问题。

但这种能力给研究人员和学生带来了一个挥之不去的问题: 模型是真的在进行推理，还是仅仅在鹦鹉学舌般复述一段记忆下来的文本?

模型是否理解构建该答案所需的底层概念——比如什么是梯度或反向传播是如何工作的？还是它仅仅是在训练数据中见过足够多次“ReLU 对比 Sigmoid”的比较，从而自动补全了回复？

在一篇题为 Hierarchical Deconstruction of LLM Reasoning 的精彩论文中，来自 KAIST 和 NAVER AI Lab 的研究人员提出了一种新的框架来审查 LLM 的“大脑”。通过将复杂问题解构为更简单、更基础的子问题图谱，他们准确地揭示了模型在何处推理失败 (前向差异) ，以及在何处可能只是通过记忆产生的幻觉能力 (后向差异) 。

在这篇文章中，我们将剖析他们的框架、DEPTHQA 数据集，以及他们的实验揭示了机器推理本质上是多么脆弱。

推理的黑盒

为了了解学生是否真正理解一个复杂的主题，老师很少只接受一个简单的正确答案。他们会问: “展示你的推导过程”或“为什么是这样？”

LLM 的标准基准测试通常忽略了这种细微差别。它们检查最终答案是否正确，但不检查模型是否拥有推导该答案所需的前置知识 。

研究人员通过采用Webb 的知识深度 (Depth of Knowledge, DOK) 来解决这个问题，这是一个在教育评估中广泛使用的框架。他们将知识分为三个不同的深度:

\(D_1\) (概念性知识) : 基础回忆。信息是什么？ (例如，“什么是梯度？”)
\(D_2\) (程序性知识) : 应用。知识如何使用？ (例如，“梯度如何影响训练速度？”)
\(D_3\) (策略性知识) : 推理与分析。为什么这适用？ (例如，“为什么 ReLU 训练耗时比 Sigmoid 少？”)

核心假设很简单: 要真正回答 \(D_3\) 问题，必须掌握底层的 \(D_2\) 过程和 \(D_1\) 概念。

基于图的框架

研究人员开发了一种方法，将复杂的“目标”问题 (\(D_3\)) 解构为更简单问题的依赖图。

想象一下，将目标问题视为树的顶部节点。要回答它，你需要其下方的支持节点 (\(D_2\)) ，而要回答这些节点，你需要叶节点 (\(D_1\)) 。

图 1: 跨深度推理的示例，显示了从 D1 到 D3 的一系列问题。

如图 1 所示，回答关于 ReLU 与 Sigmoid 的复杂问题 (在顶部) 依赖于理解关于梯度影响的程序性问题，而这又依赖于定义“反向传播”和“梯度消失”等术语。

构建 DEPTHQA 数据集

为了大规模测试这一点，团队创建了 DEPTHQA 。他们选取了高质量、复杂的科学问题 (来自 TutorEval 数据集) ，并使用 GPT-4 递归地对其进行解构。

然而，仅仅生成子问题是不够的。团队对连接这些节点的边强制执行了三个关键标准:

全面性 (Comprehensiveness) : 低层级问题必须覆盖高层级所需的所有背景信息。不能有缺失环节。
隐晦性 (Implicitness) : 低层级问题不能泄露高层级问题的答案。它们应该提供食材，而不是蛋糕。
非二元提问 (Non-binary Questioning) : 没有“是/否”类问题。这迫使模型生成解释，防止它靠运气 (或偏见) 猜对答案。

这产生了一个数据集，其中每个复杂问题都由基础知识的“推理图”支持。

表 2: D3 和 D2 中所需推理技能的代表性示例。

如上表所示，这些问题需要多种推理类型——从深度 3 的比较和因果分析到深度 2 的程序步骤。

衡量“推理差距”

有了这个层级结构，研究人员可以衡量 LLM 中两种特定类型的失败模式。这些被定义为差异 (Discrepancies) 。

1. 前向差异 (推理失败)

这发生在模型正确回答了更简单的子问题，但未能回答复杂的目标问题时。

场景: 模型知道什么是梯度 (\(D_1\)) 以及它是如何工作的 (\(D_2\)) ，但它仍然无法解释为什么 ReLU 更快 (\(D_3\)) 。
意味着: 模型拥有知识，但缺乏将其综合成复杂结论的推理能力 。

研究人员使用以下公式量化这一点:

前向差异公式。

本质上，这衡量了“父级” (前驱) 问题的平均得分与目标问题之间的差距。

2. 后向差异 (记忆/幻觉指标)

这是一个更令人惊讶的现象。它发生在模型正确回答了复杂问题，但未能回答更简单的子问题时。

场景: 模型给出了关于 ReLU 与 Sigmoid 的完美解释 (\(D_3\)) ，但当被问及“什么是梯度消失？” (\(D_1\)) 时，它产生了幻觉或回答错误。
意味着: 模型并非通过推理得出答案。它很可能从训练数据中死记硬背了复杂的答案，而不理解其组成部分。

其计算公式为:

后向差异公式。

在这里，我们要看的是“子级” (后继) 问题的得分低于复杂目标节点的情况。

下图很好地总结了这两个概念:

图 2: 显示前向和后向差异的层次结构。

在图 2 中，红箭头代表前向差异 (食材具备，蛋糕做坏了) ，蓝箭头代表后向差异 (蛋糕有了，食材却不见了) 。

实验结果: 模型揭示了什么？

研究人员测试了几个开源模型，包括 LLaMA 2、LLaMA 3、Mistral 和 Mixtral，参数范围从 7B 到 70B。

1. 模型规模影响一致性

不出所料，较大的模型 (如 LLaMA 3 70B) 通常比较小的模型具有更高的准确率和更低的差异。小模型 (7B) 非常不稳定——它们经常无法连接各个知识点 (前向差异) ，或者侥幸答对它们无法支持的高层级问题 (后向差异) 。

然而，即使是最好的模型也无法幸免。虽然 LLaMA 3 70B 显示出最低的差异，但“知道复杂的却不知道简单的”现象仍然存在。

2. 记忆因素

为了证明后向差异是由记忆引起的，研究人员使用了一种称为 Min-K% 概率的指标。简单来说，较低的 Min-K% 表明文本可能存在于训练数据中 (记忆) ，而较高的值表明模型正在生成新的文本。

图 3: 使用 Min-K% 概率进行的记忆分析。

请看图 3 的顶行。注意随着深度增加 (\(D_1 \to D_3\)) ，曲线向右移动。这表明与简单 (\(D_1\)) 问题相比，模型在回答复杂 (\(D_3\)) 问题时较少依赖记忆。

然而，底行讲述了一个关于差距的微妙故事。

前向差异 (负值) : 这些通常出现在较少被记忆的样本中。当模型不能依靠死记硬背时，它必须进行推理，而它经常无法跨越从 \(D_2\) 到 \(D_3\) 的鸿沟。
后向差异 (正值) : 这些与记忆力强相关。模型已经看过很多次复杂问题的“教科书答案”，可以背诵出来，但具体的、独立的程序性问题 (\(D_2\)) 可能在训练集中不常见，或者需要模型无法伪造的变量操作。

3. 定性失败案例

论文提供了非常有启发性的定性示例。在一个后向差异的案例中，LLaMA 3 70B 正确回顾了一个特定数学问题的复杂公式 (\(D_3\)) 。然而，当被要求解释求解该方程的程序步骤时 (\(D_2\)) ，它产生了一些不存在的方法和错误的步骤。

这就好比一个学生背下了“答案是 42”，但在被问到“你是怎么算出来的？”时却写了一堆胡言乱语。

我们能修复它吗？结构化交互的力量

如果模型难以将简单的概念与复杂的答案联系起来，我们可以帮助它们吗？研究人员测试了为模型搭建“脚手架”。他们没有直接问 \(D_3\) 问题，而是引导模型通过图谱: 先问 \(D_1\)，然后 \(D_2\)，最后 \(D_3\)。

他们测试了三种方法:

提示 (标准答案) : 在提示中给模型提供子问题及其正确答案。
提示 (预测答案) : 在提示中给模型提供子问题及其自己预测的答案。
多轮对话: 以对话形式按顺序提问。

图 4: 提供更浅层问题后的性能变化。

图 4 展示了这种干预的结果。Y 轴显示了与标准零样本 (zero-shot) 尝试相比的分数提升。

小模型 (7B): 它们受益匪浅 (高高的蓝色柱状图) 。引导小模型完成推理步骤显著帮助它回答复杂问题。它需要这种“手把手”引导。
大模型 (70B): 效果参差不齐。有时，强迫大模型先回答简单的子问题实际上会损害性能 (负条形图) 。
为什么？ 大模型通常有其自己的内部推理路径。强迫它们遵循外部的、可能僵化的结构可能会扰乱其优越的内部表征。
多轮对话胜出: 多轮对话方法 (蓝色柱状图) 通常是所有情况下最稳定和有效的方法。通过在对话历史中建立上下文，模型自然地建立了准确回答最终问题所需的“状态”。

结论

这篇关于“层级解构”的论文为我们提供了一个关于 LLM 发人深省但乐观的视角。它让我们摆脱了二元的“正确/错误”评估，转向一种关于知识如何构建的诊断视角。

关键要点:

推理是分层级的: 现实世界的问题是图谱，而不是点。评估它们需要考察依赖关系。
警惕“鹦鹉学舌”: 困难问题的正确答案并不意味着精通。后向差异表明，模型经常在不理解过程的情况下死记硬背结果。
脚手架引导均有帮助: 对于更小、更高效的模型，结构化的思维链 (Chain-of-Thought) 或多轮交互不仅仅是一个提示工程技巧——它是连接概念性知识与策略性推理的必要桥梁。

随着我们迈向 Agent 和自主 AI，这种差异分析将至关重要。我们不仅需要模型得出正确的答案；我们还需要它们基于正确的理由得出正确的答案。

推理的黑盒#

基于图的框架#

构建 DEPTHQA 数据集#

衡量“推理差距”#

1. 前向差异 (推理失败)#

2. 后向差异 (记忆/幻觉指标)#

实验结果: 模型揭示了什么？#

1. 模型规模影响一致性#

2. 记忆因素#

3. 定性失败案例#

我们能修复它吗？结构化交互的力量#

结论#