像 GPT-4 和 LLaMA 这样的大型语言模型 (LLM) 在回答复杂的科学和数学问题方面已经变得出奇地擅长。如果你问一个 LLM: “为什么 ReLU 激活函数的训练速度比 Sigmoid 快?”,它很可能会给你一段连贯且具有教科书质量的回答,谈论梯度和饱和问题。

但这种能力给研究人员和学生带来了一个挥之不去的问题: 模型是真的在进行推理,还是仅仅在鹦鹉学舌般复述一段记忆下来的文本?

模型是否理解构建该答案所需的底层概念——比如什么是梯度或反向传播是如何工作的?还是它仅仅是在训练数据中见过足够多次“ReLU 对比 Sigmoid”的比较,从而自动补全了回复?

在一篇题为 Hierarchical Deconstruction of LLM Reasoning 的精彩论文中,来自 KAIST 和 NAVER AI Lab 的研究人员提出了一种新的框架来审查 LLM 的“大脑”。通过将复杂问题解构为更简单、更基础的子问题图谱,他们准确地揭示了模型在何处推理失败 (前向差异) ,以及在何处可能只是通过记忆产生的幻觉能力 (后向差异) 。

在这篇文章中,我们将剖析他们的框架、DEPTHQA 数据集,以及他们的实验揭示了机器推理本质上是多么脆弱。

推理的黑盒

为了了解学生是否真正理解一个复杂的主题,老师很少只接受一个简单的正确答案。他们会问: “展示你的推导过程”或“为什么是这样?”

LLM 的标准基准测试通常忽略了这种细微差别。它们检查最终答案是否正确,但不检查模型是否拥有推导该答案所需的前置知识

研究人员通过采用Webb 的知识深度 (Depth of Knowledge, DOK) 来解决这个问题,这是一个在教育评估中广泛使用的框架。他们将知识分为三个不同的深度:

  1. \(D_1\) (概念性知识) : 基础回忆。信息是什么? (例如,“什么是梯度?”)
  2. \(D_2\) (程序性知识) : 应用。知识如何使用? (例如,“梯度如何影响训练速度?”)
  3. \(D_3\) (策略性知识) : 推理与分析。为什么这适用? (例如,“为什么 ReLU 训练耗时比 Sigmoid 少?”)

核心假设很简单: 要真正回答 \(D_3\) 问题,必须掌握底层的 \(D_2\) 过程和 \(D_1\) 概念。

基于图的框架

研究人员开发了一种方法,将复杂的“目标”问题 (\(D_3\)) 解构为更简单问题的依赖图。

想象一下,将目标问题视为树的顶部节点。要回答它,你需要其下方的支持节点 (\(D_2\)) ,而要回答这些节点,你需要叶节点 (\(D_1\)) 。

图 1: 跨深度推理的示例,显示了从 D1 到 D3 的一系列问题。

如图 1 所示,回答关于 ReLU 与 Sigmoid 的复杂问题 (在顶部) 依赖于理解关于梯度影响的程序性问题,而这又依赖于定义“反向传播”和“梯度消失”等术语。

构建 DEPTHQA 数据集

为了大规模测试这一点,团队创建了 DEPTHQA 。 他们选取了高质量、复杂的科学问题 (来自 TutorEval 数据集) ,并使用 GPT-4 递归地对其进行解构。

然而,仅仅生成子问题是不够的。团队对连接这些节点的边强制执行了三个关键标准:

  1. 全面性 (Comprehensiveness) : 低层级问题必须覆盖高层级所需的所有背景信息。不能有缺失环节。
  2. 隐晦性 (Implicitness) : 低层级问题不能泄露高层级问题的答案。它们应该提供食材,而不是蛋糕
  3. 非二元提问 (Non-binary Questioning) : 没有“是/否”类问题。这迫使模型生成解释,防止它靠运气 (或偏见) 猜对答案。

这产生了一个数据集,其中每个复杂问题都由基础知识的“推理图”支持。

表 2: D3 和 D2 中所需推理技能的代表性示例。

如上表所示,这些问题需要多种推理类型——从深度 3 的比较和因果分析到深度 2 的程序步骤。

衡量“推理差距”

有了这个层级结构,研究人员可以衡量 LLM 中两种特定类型的失败模式。这些被定义为差异 (Discrepancies)

1. 前向差异 (推理失败)

这发生在模型正确回答了更简单的子问题,但未能回答复杂的目标问题时。

  • 场景: 模型知道什么是梯度 (\(D_1\)) 以及它是如何工作的 (\(D_2\)) ,但它仍然无法解释为什么 ReLU 更快 (\(D_3\)) 。
  • 意味着: 模型拥有知识,但缺乏将其综合成复杂结论的推理能力

研究人员使用以下公式量化这一点:

前向差异公式。

本质上,这衡量了“父级” (前驱) 问题的平均得分与目标问题之间的差距。

2. 后向差异 (记忆/幻觉指标)

这是一个更令人惊讶的现象。它发生在模型正确回答了复杂问题,但未能回答更简单的子问题时。

  • 场景: 模型给出了关于 ReLU 与 Sigmoid 的完美解释 (\(D_3\)) ,但当被问及“什么是梯度消失?” (\(D_1\)) 时,它产生了幻觉或回答错误。
  • 意味着: 模型并非通过推理得出答案。它很可能从训练数据中死记硬背了复杂的答案,而不理解其组成部分。

其计算公式为:

后向差异公式。

在这里,我们要看的是“子级” (后继) 问题的得分低于复杂目标节点的情况。

下图很好地总结了这两个概念:

图 2: 显示前向和后向差异的层次结构。

图 2 中,红箭头代表前向差异 (食材具备,蛋糕做坏了) ,蓝箭头代表后向差异 (蛋糕有了,食材却不见了) 。

实验结果: 模型揭示了什么?

研究人员测试了几个开源模型,包括 LLaMA 2、LLaMA 3、Mistral 和 Mixtral,参数范围从 7B 到 70B。

1. 模型规模影响一致性

不出所料,较大的模型 (如 LLaMA 3 70B) 通常比较小的模型具有更高的准确率和更低的差异。小模型 (7B) 非常不稳定——它们经常无法连接各个知识点 (前向差异) ,或者侥幸答对它们无法支持的高层级问题 (后向差异) 。

然而,即使是最好的模型也无法幸免。虽然 LLaMA 3 70B 显示出最低的差异,但“知道复杂的却不知道简单的”现象仍然存在。

2. 记忆因素

为了证明后向差异是由记忆引起的,研究人员使用了一种称为 Min-K% 概率的指标。简单来说,较低的 Min-K% 表明文本可能存在于训练数据中 (记忆) ,而较高的值表明模型正在生成新的文本。

图 3: 使用 Min-K% 概率进行的记忆分析。

请看图 3 的顶行。注意随着深度增加 (\(D_1 \to D_3\)) ,曲线向右移动。这表明与简单 (\(D_1\)) 问题相比,模型在回答复杂 (\(D_3\)) 问题时较少依赖记忆。

然而,底行讲述了一个关于差距的微妙故事。

  • 前向差异 (负值) : 这些通常出现在较少被记忆的样本中。当模型不能依靠死记硬背时,它必须进行推理,而它经常无法跨越从 \(D_2\) 到 \(D_3\) 的鸿沟。
  • 后向差异 (正值) : 这些与记忆力强相关。模型已经看过很多次复杂问题的“教科书答案”,可以背诵出来,但具体的、独立的程序性问题 (\(D_2\)) 可能在训练集中不常见,或者需要模型无法伪造的变量操作。

3. 定性失败案例

论文提供了非常有启发性的定性示例。在一个后向差异的案例中,LLaMA 3 70B 正确回顾了一个特定数学问题的复杂公式 (\(D_3\)) 。然而,当被要求解释求解该方程的程序步骤时 (\(D_2\)) ,它产生了一些不存在的方法和错误的步骤。

这就好比一个学生背下了“答案是 42”,但在被问到“你是怎么算出来的?”时却写了一堆胡言乱语。

我们能修复它吗?结构化交互的力量

如果模型难以将简单的概念与复杂的答案联系起来,我们可以帮助它们吗?研究人员测试了为模型搭建“脚手架”。他们没有直接问 \(D_3\) 问题,而是引导模型通过图谱: 先问 \(D_1\),然后 \(D_2\),最后 \(D_3\)。

他们测试了三种方法:

  1. 提示 (标准答案) : 在提示中给模型提供子问题及其正确答案。
  2. 提示 (预测答案) : 在提示中给模型提供子问题及其自己预测的答案。
  3. 多轮对话: 以对话形式按顺序提问。

图 4: 提供更浅层问题后的性能变化。

图 4 展示了这种干预的结果。Y 轴显示了与标准零样本 (zero-shot) 尝试相比的分数提升。

  • 小模型 (7B): 它们受益匪浅 (高高的蓝色柱状图) 。引导小模型完成推理步骤显著帮助它回答复杂问题。它需要这种“手把手”引导。
  • 大模型 (70B): 效果参差不齐。有时,强迫大模型先回答简单的子问题实际上会损害性能 (负条形图) 。
  • 为什么? 大模型通常有其自己的内部推理路径。强迫它们遵循外部的、可能僵化的结构可能会扰乱其优越的内部表征。
  • 多轮对话胜出: 多轮对话方法 (蓝色柱状图) 通常是所有情况下最稳定和有效的方法。通过在对话历史中建立上下文,模型自然地建立了准确回答最终问题所需的“状态”。

结论

这篇关于“层级解构”的论文为我们提供了一个关于 LLM 发人深省但乐观的视角。它让我们摆脱了二元的“正确/错误”评估,转向一种关于知识如何构建的诊断视角。

关键要点:

  1. 推理是分层级的: 现实世界的问题是图谱,而不是点。评估它们需要考察依赖关系。
  2. 警惕“鹦鹉学舌”: 困难问题的正确答案并不意味着精通。后向差异表明,模型经常在不理解过程的情况下死记硬背结果。
  3. 脚手架引导均有帮助: 对于更小、更高效的模型,结构化的思维链 (Chain-of-Thought) 或多轮交互不仅仅是一个提示工程技巧——它是连接概念性知识与策略性推理的必要桥梁。

随着我们迈向 Agent 和自主 AI,这种差异分析将至关重要。我们不仅需要模型得出正确的答案;我们还需要它们基于正确的理由得出正确的答案。