引言

自 Transformer 和 GPT-4、LLaMA 等大语言模型 (LLM) 问世以来,一个核心问题一直主导着自然语言处理 (NLP) 领域: 这些模型是真的在推理,还只是老练的“鹦鹉学舌”?

我们知道 LLM 在语言方面非常精通。它们可以写诗、总结邮件,甚至编写代码。但语言的精通并不自动等同于逻辑的精通。当人类解决数学问题或逻辑谜题时,他们 (通常) 应用的是严格的演绎规则。当 LLM 这样做时,它们是在做同样的事情吗?还是它们作为“软推理者 (soft reasoners) ”——基于统计模式和表面语义来模仿推理的外表?

这种区别至关重要。如果我们想在法律、医学或编程等关键领域信任 AI,我们需要知道它们是否能将形式与意义剥离,从而得出有效的结论。

在一篇引人入胜的研究论文 《大语言模型作为软推理者的系统分析: 以三段论推理为例》 (A Systematic Analysis of Large Language Models as Soft Reasoners) 中,研究人员 Leonardo Bertolazzi、Albert Gatt 和 Raffaella Bernardi 利用逻辑史上最古老的工具之一: 亚里士多德三段论,深入探讨了这个问题。

他们的工作全面展示了 LLM 如何处理演绎推理,识别了类人的偏差,并测试了我们是否可以“教导”这些模型忽略词义而专注于纯粹的逻辑。

图 1 展示了三个三段论: 一个无效推理,一个有效但不可信,还有一个使用了生造词。这突显了 LLM 面临的核心困难: 无效推理、内容效应和多步推理。

如上图所示,研究人员确定了预训练 LLM 的三个关键弱点:

  1. 难以处理无效推理: 它们很难承认“无法得出结论 (nothing follows) ”。
  2. 内容效应 (Content Effects) : 它们更倾向于那些在现实世界中“听起来”正确的结论,即使逻辑是有缺陷的。
  3. 复杂链条: 当逻辑需要多个步骤时,它们会感到吃力。

在这篇文章中,我们将剖析他们的方法论,他们使用“无意义”词汇进行的实验,以及关于 LLM 实际上如何“思考”的惊人发现。

背景: 三段论的逻辑

要理解这篇论文,我们首先需要快速重温一下三段论。认知心理学中对此类逻辑谜题进行了广泛的研究,使其成为比较 AI “大脑”与人类大脑的完美基准。

一个三段论由两个前提和一个结论组成。它们共享一种特定的结构,涉及诸如“所有 (All) ”、“没有 (No) ”、“有些 (Some) ”和“有些……不 (Some… not) ”等量词。

这种结构由 式 (Moods)格 (Figures) 定义。

  • 式 (Moods) : 定义陈述的类型 (例如,全称肯定“所有 A 都是 B”) 。
  • 格 (Figures) : 定义术语的排列方式。

图 2 展示了三段论的构建模块: 式 (Moods: A, E, I, O) 和格 (Figures: 1-4) 。图中展示了它们的组合 (如 AE2 模式) 如何创造出特定的逻辑结构。

共有 64 种可能的前提组合。根据亚里士多德逻辑,其中只有 27 种能得出有效结论。其余 37 种代表“无效”模式——意味着仅根据所提供的前提, 无法得出结论

人类因素: 内容偏差

为什么要用三段论来测试 AI?因为人类在特定的方面非常不擅长三段论。心理学告诉我们,人类受困于 内容效应偏差 (content effect bias) 。 如果一个结论符合我们的世界知识,我们往往会接受它,即使它在逻辑上不能从前提中推导出来。

例如:

  • *前提 1: * 所有花都需要水。
  • *前提 2: * 玫瑰需要水。
  • *结论: * 玫瑰是花。

这感觉是正确的,因为玫瑰在现实世界中确实是花。然而,从逻辑上讲,这是 无效 的。前提并不能证明玫瑰是花 (玫瑰可能是一个同样需要水的独立类别) 。

研究人员旨在观察 LLM 是否表现出这些相同的人类偏差,或者它们是否能充当纯粹的“逻辑机器”。

核心方法: 探究学习策略

研究人员不仅测试了一个模型;他们使用开源模型 (Pythia 和 LLaMA) 对不同的学习策略进行了系统分析。他们想看看推理能力是否可以被诱发或教授。

他们比较了三种截然不同的方法:

1. 零样本思维链 (ZS-CoT)

这是基准线。模型被给予三段论和一个提示,要求在回答之前“一步一步地思考”。不提供任何示例。这测试了模型先天的、预训练的能力。

2. 上下文学习 (ICL)

在这个设置中,模型在实际测试问题之前的提示中,会看到几个已解决的三段论示例 (演示) 。研究人员将其巧妙地分为两个子类:

  • \(ICL_{in}\) (同模式): 提供的示例使用与测试问题 完全相同 的逻辑结构 (模式) 。
  • \(ICL_{out}\) (异模式): 提供的示例使用与测试问题 不同 的逻辑结构。

这种区别至关重要,因为它测试了模型是真正在从示例中学习逻辑,还是仅仅在模仿答案的模式。

3. 监督微调 (SFT)

在这里,研究人员更进一步。他们采用了预训练模型,并在特定的三段论数据集上对其进行了微调 (轻微的重新训练) 。

反转: 伪词 (Pseudo-Words) 为了迫使模型学习 逻辑 (形式) 而不是依赖 意义 (内容) ,研究人员使用 伪词——由计算机生成的无意义单词——创建了一个数据集。

模型看到的不是“所有猫都是哺乳动物”,可能是“所有 glorps 都是 smeefs”。

如果模型能用 glorpssmeefs 解决谜题,就证明它没有通过利用关于猫的知识来作弊。它必须理解变量之间的逻辑关系。

图 3 展示了两个主要的流程。左侧的上下文学习 (In-Context Learning) 显示模型接收示例 (相同或不同模式) 。右侧的监督学习 (Supervised Learning) 显示模型直接在任务上进行训练。

实验与结果

研究人员通过一系列严苛的测试来运行这些模型,包括可信三段论 (符合现实) 、不可信三段论 (违反现实) 和复杂的多步链条。

以下是他们的发现。

1. 预训练 LLM 表现得像人类 (贬义)

在零样本设置 (ZS-CoT) 中,模型的表现与没学过逻辑学的本科生非常相似。

  • 内容偏差: 如果结论在现实世界中“可信”,模型更有可能选择该结论,而不管逻辑如何。
  • “无法得出结论”问题: 模型极难处理无效三段论。它们几乎总是试图强行得出一个结论,而不是承认前提毫无结果。

这表明开箱即用的 LLM 确实是“软推理者”。它们不是在运行逻辑引擎;它们是在基于概率和“感觉”预测下一个单词。

2. 上下文学习 (ICL) 还不够

给模型提供示例 (ICL) 确实有助于提高有效推理的准确性,但它引入了一个新问题: 不一致性

研究人员不仅分析了模型是否得到了正确答案,还分析了它生成的 所有 答案 (因为文本生成可以产生多个句子) 。他们寻找矛盾之处。例如,一个模型可能会说“所有 A 都是 B”,紧接着又说“有些 A 不是 B”。

ICL 让模型更频繁地产生逻辑“幻觉”,生成相互矛盾的结论。即使给出了 完全相同 逻辑模式的示例 (\(ICL_{in}\)) ,模型仍然无法一致地识别无效三段论。

3. 监督微调 (SFT) 是赢家

在无意义的伪词上微调过的模型显示出了巨大的进步。

  • 准确性: 它们在有效三段论上达到了近乎完美的表现。
  • 消除偏差: 因为它们是在无意义的词上训练的,它们学会了忽略“内容偏差”。当在真实单词上测试时,它们不再偏向“可信”的结论,而是坚持逻辑结论。
  • 一致性: 与 ICL 模型不同,SFT 模型不再自相矛盾。

这是一个强有力的发现: 你可以教 LLM 进行逻辑推理,但你必须专门针对逻辑的 形式 进行训练,并将其与词义剥离。

4. “气氛”启发式 (Atmosphere Heuristic)

分析中最有趣的部分或许是 为什么 模型在零样本设置中会失败。研究人员将模型的错误与认知科学的理论进行了比较。

他们发现模型的行为与 气氛理论 (Atmosphere Theory) 密切相关。该理论认为推理者只是简单地匹配前提的“情绪 (mood) ”。

  • 如果前提使用“所有 (All) ” (全称) ,模型就会猜测带有“所有”的结论。
  • 如果前提使用“没有 (No) ” (否定) ,模型就会猜测带有“没有”的结论。

下面的热力图说明了这一分析。它显示了由各种启发式理论预测的模型结论的比例。

图 10 展示了比较模型预测与气氛 (Atmosphere) 、匹配 (Matching) 和换位 (Conversion) 等启发式理论的热力图。气氛理论 (左上角) 的高数值表明 LLM 依赖前提的情绪来猜测答案。

请看 Atmosphere 列下的 LLaMA-3-8b ZS-CoT 行 (顶部) 。这个简单的启发式理论高度预测了该模型的行为。这证实了在没有微调的情况下,模型并没有真正在“思考”——它只是在匹配量词的语言模式。

5. 泛化的局限性

虽然微调 (SFT) 是最有效的策略,但它并非魔法。研究人员测试了模型在“更长”推理上的表现——需要 3 或 4 个前提而不是标准的 2 个前提的逻辑链。

表 3 比较了模型在未见过的也就是前提数量上的表现。它显示虽然 SFT 总体表现最好,但随着推理链变长 (从 2 到 3 再到 4 个前提) ,其性能显著下降。

如上表所示,即使是监督微调模型 (Pythia 和 LLaMA 的底部行) ,在从 2 个前提变为 4 个前提时,性能也出现了下降。这表明虽然它们学会了标准三段论的 形式,但它们很难将这种逻辑泛化到更长的、未见过的序列中。它们还没有完全掌握逻辑的递归性质;它们只是变得非常擅长 2 前提三段论的特定模式。

一致性与完整性

最后,研究人员可视化了不一致性 (自相矛盾) 和不完整性 (遗漏有效结论) 之间的权衡。

图 9 绘制了不一致性与不完整性的关系图。LLaMA (绿点) 通常是一致的,而 Pythia (紫/粉色) 则更吃力。图表显示 SFT 相比 ICL 显著提高了一致性。

这张图表有助于可视化模型的“个性”。

  • Pythia (粉色/紫色): 往往高度不一致 (X 轴右侧) ,意味着它经常自相矛盾。
  • LLaMA (绿色): 一致性要好得多 (X 轴左侧) 。
  • SFT 的影响: 注意 SFT 的点 (圆形) 通常比 ICL 的点 (三角形/方形) 更靠近原点 (0,0) 或左轴,尤其是对于 Pythia。SFT 驾驭了模型生成过程中的混乱。

结论与启示

那么,LLM 是推理者吗?正如科学中常见的那样,答案是“视情况而定”。

这篇论文表明,预训练 LLM 是 软推理者 。 它们依赖像气氛理论这样的启发式方法——匹配提示的语言“氛围”而不是执行逻辑运算。它们很容易受到内容偏差的影响,更喜欢“听起来正确”的答案,而不是逻辑上有效的答案。

然而,这项研究也提供了解决这个问题的路线图。通过在抽象、无意义的数据 (伪词) 上利用 监督微调 (SFT) , 我们可以有效地教导这些模型 重形式轻内容 。 这个过程:

  1. 减轻了内容效应偏差。
  2. 帮助模型识别无效推理 (“无法得出结论”) 。
  3. 大幅减少了逻辑矛盾。

对于学生和未来的 AI 研究人员来说,这突显了一个关键的设计原则: 不要仅仅因为 LLM 懂语言就假设它懂逻辑。 推理似乎是一项独特的技能,需要特定的、形式化的训练将其与语言生成的统计概率解耦。

虽然我们还没有达到完美的“硅基亚里士多德”的程度——这由它们在更长推理链上的挣扎所证明——但这项工作表明,有了正确的课程,我们可以教导我们的软推理者变得更“硬”一点。