引言
自 Transformer 和 GPT-4、LLaMA 等大语言模型 (LLM) 问世以来,一个核心问题一直主导着自然语言处理 (NLP) 领域: 这些模型是真的在推理,还只是老练的“鹦鹉学舌”?
我们知道 LLM 在语言方面非常精通。它们可以写诗、总结邮件,甚至编写代码。但语言的精通并不自动等同于逻辑的精通。当人类解决数学问题或逻辑谜题时,他们 (通常) 应用的是严格的演绎规则。当 LLM 这样做时,它们是在做同样的事情吗?还是它们作为“软推理者 (soft reasoners) ”——基于统计模式和表面语义来模仿推理的外表?
这种区别至关重要。如果我们想在法律、医学或编程等关键领域信任 AI,我们需要知道它们是否能将形式与意义剥离,从而得出有效的结论。
在一篇引人入胜的研究论文 《大语言模型作为软推理者的系统分析: 以三段论推理为例》 (A Systematic Analysis of Large Language Models as Soft Reasoners) 中,研究人员 Leonardo Bertolazzi、Albert Gatt 和 Raffaella Bernardi 利用逻辑史上最古老的工具之一: 亚里士多德三段论,深入探讨了这个问题。
他们的工作全面展示了 LLM 如何处理演绎推理,识别了类人的偏差,并测试了我们是否可以“教导”这些模型忽略词义而专注于纯粹的逻辑。

如上图所示,研究人员确定了预训练 LLM 的三个关键弱点:
- 难以处理无效推理: 它们很难承认“无法得出结论 (nothing follows) ”。
- 内容效应 (Content Effects) : 它们更倾向于那些在现实世界中“听起来”正确的结论,即使逻辑是有缺陷的。
- 复杂链条: 当逻辑需要多个步骤时,它们会感到吃力。
在这篇文章中,我们将剖析他们的方法论,他们使用“无意义”词汇进行的实验,以及关于 LLM 实际上如何“思考”的惊人发现。
背景: 三段论的逻辑
要理解这篇论文,我们首先需要快速重温一下三段论。认知心理学中对此类逻辑谜题进行了广泛的研究,使其成为比较 AI “大脑”与人类大脑的完美基准。
一个三段论由两个前提和一个结论组成。它们共享一种特定的结构,涉及诸如“所有 (All) ”、“没有 (No) ”、“有些 (Some) ”和“有些……不 (Some… not) ”等量词。
这种结构由 式 (Moods) 和 格 (Figures) 定义。
- 式 (Moods) : 定义陈述的类型 (例如,全称肯定“所有 A 都是 B”) 。
- 格 (Figures) : 定义术语的排列方式。

共有 64 种可能的前提组合。根据亚里士多德逻辑,其中只有 27 种能得出有效结论。其余 37 种代表“无效”模式——意味着仅根据所提供的前提, 无法得出结论 。
人类因素: 内容偏差
为什么要用三段论来测试 AI?因为人类在特定的方面非常不擅长三段论。心理学告诉我们,人类受困于 内容效应偏差 (content effect bias) 。 如果一个结论符合我们的世界知识,我们往往会接受它,即使它在逻辑上不能从前提中推导出来。
例如:
- *前提 1: * 所有花都需要水。
- *前提 2: * 玫瑰需要水。
- *结论: * 玫瑰是花。
这感觉是正确的,因为玫瑰在现实世界中确实是花。然而,从逻辑上讲,这是 无效 的。前提并不能证明玫瑰是花 (玫瑰可能是一个同样需要水的独立类别) 。
研究人员旨在观察 LLM 是否表现出这些相同的人类偏差,或者它们是否能充当纯粹的“逻辑机器”。
核心方法: 探究学习策略
研究人员不仅测试了一个模型;他们使用开源模型 (Pythia 和 LLaMA) 对不同的学习策略进行了系统分析。他们想看看推理能力是否可以被诱发或教授。
他们比较了三种截然不同的方法:
1. 零样本思维链 (ZS-CoT)
这是基准线。模型被给予三段论和一个提示,要求在回答之前“一步一步地思考”。不提供任何示例。这测试了模型先天的、预训练的能力。
2. 上下文学习 (ICL)
在这个设置中,模型在实际测试问题之前的提示中,会看到几个已解决的三段论示例 (演示) 。研究人员将其巧妙地分为两个子类:
- \(ICL_{in}\) (同模式): 提供的示例使用与测试问题 完全相同 的逻辑结构 (模式) 。
- \(ICL_{out}\) (异模式): 提供的示例使用与测试问题 不同 的逻辑结构。
这种区别至关重要,因为它测试了模型是真正在从示例中学习逻辑,还是仅仅在模仿答案的模式。
3. 监督微调 (SFT)
在这里,研究人员更进一步。他们采用了预训练模型,并在特定的三段论数据集上对其进行了微调 (轻微的重新训练) 。
反转: 伪词 (Pseudo-Words) 为了迫使模型学习 逻辑 (形式) 而不是依赖 意义 (内容) ,研究人员使用 伪词——由计算机生成的无意义单词——创建了一个数据集。
模型看到的不是“所有猫都是哺乳动物”,可能是“所有 glorps 都是 smeefs”。
如果模型能用 glorps 和 smeefs 解决谜题,就证明它没有通过利用关于猫的知识来作弊。它必须理解变量之间的逻辑关系。

实验与结果
研究人员通过一系列严苛的测试来运行这些模型,包括可信三段论 (符合现实) 、不可信三段论 (违反现实) 和复杂的多步链条。
以下是他们的发现。
1. 预训练 LLM 表现得像人类 (贬义)
在零样本设置 (ZS-CoT) 中,模型的表现与没学过逻辑学的本科生非常相似。
- 内容偏差: 如果结论在现实世界中“可信”,模型更有可能选择该结论,而不管逻辑如何。
- “无法得出结论”问题: 模型极难处理无效三段论。它们几乎总是试图强行得出一个结论,而不是承认前提毫无结果。
这表明开箱即用的 LLM 确实是“软推理者”。它们不是在运行逻辑引擎;它们是在基于概率和“感觉”预测下一个单词。
2. 上下文学习 (ICL) 还不够
给模型提供示例 (ICL) 确实有助于提高有效推理的准确性,但它引入了一个新问题: 不一致性 。
研究人员不仅分析了模型是否得到了正确答案,还分析了它生成的 所有 答案 (因为文本生成可以产生多个句子) 。他们寻找矛盾之处。例如,一个模型可能会说“所有 A 都是 B”,紧接着又说“有些 A 不是 B”。
ICL 让模型更频繁地产生逻辑“幻觉”,生成相互矛盾的结论。即使给出了 完全相同 逻辑模式的示例 (\(ICL_{in}\)) ,模型仍然无法一致地识别无效三段论。
3. 监督微调 (SFT) 是赢家
在无意义的伪词上微调过的模型显示出了巨大的进步。
- 准确性: 它们在有效三段论上达到了近乎完美的表现。
- 消除偏差: 因为它们是在无意义的词上训练的,它们学会了忽略“内容偏差”。当在真实单词上测试时,它们不再偏向“可信”的结论,而是坚持逻辑结论。
- 一致性: 与 ICL 模型不同,SFT 模型不再自相矛盾。
这是一个强有力的发现: 你可以教 LLM 进行逻辑推理,但你必须专门针对逻辑的 形式 进行训练,并将其与词义剥离。
4. “气氛”启发式 (Atmosphere Heuristic)
分析中最有趣的部分或许是 为什么 模型在零样本设置中会失败。研究人员将模型的错误与认知科学的理论进行了比较。
他们发现模型的行为与 气氛理论 (Atmosphere Theory) 密切相关。该理论认为推理者只是简单地匹配前提的“情绪 (mood) ”。
- 如果前提使用“所有 (All) ” (全称) ,模型就会猜测带有“所有”的结论。
- 如果前提使用“没有 (No) ” (否定) ,模型就会猜测带有“没有”的结论。
下面的热力图说明了这一分析。它显示了由各种启发式理论预测的模型结论的比例。

请看 Atmosphere 列下的 LLaMA-3-8b ZS-CoT 行 (顶部) 。这个简单的启发式理论高度预测了该模型的行为。这证实了在没有微调的情况下,模型并没有真正在“思考”——它只是在匹配量词的语言模式。
5. 泛化的局限性
虽然微调 (SFT) 是最有效的策略,但它并非魔法。研究人员测试了模型在“更长”推理上的表现——需要 3 或 4 个前提而不是标准的 2 个前提的逻辑链。

如上表所示,即使是监督微调模型 (Pythia 和 LLaMA 的底部行) ,在从 2 个前提变为 4 个前提时,性能也出现了下降。这表明虽然它们学会了标准三段论的 形式,但它们很难将这种逻辑泛化到更长的、未见过的序列中。它们还没有完全掌握逻辑的递归性质;它们只是变得非常擅长 2 前提三段论的特定模式。
一致性与完整性
最后,研究人员可视化了不一致性 (自相矛盾) 和不完整性 (遗漏有效结论) 之间的权衡。

这张图表有助于可视化模型的“个性”。
- Pythia (粉色/紫色): 往往高度不一致 (X 轴右侧) ,意味着它经常自相矛盾。
- LLaMA (绿色): 一致性要好得多 (X 轴左侧) 。
- SFT 的影响: 注意 SFT 的点 (圆形) 通常比 ICL 的点 (三角形/方形) 更靠近原点 (0,0) 或左轴,尤其是对于 Pythia。SFT 驾驭了模型生成过程中的混乱。
结论与启示
那么,LLM 是推理者吗?正如科学中常见的那样,答案是“视情况而定”。
这篇论文表明,预训练 LLM 是 软推理者 。 它们依赖像气氛理论这样的启发式方法——匹配提示的语言“氛围”而不是执行逻辑运算。它们很容易受到内容偏差的影响,更喜欢“听起来正确”的答案,而不是逻辑上有效的答案。
然而,这项研究也提供了解决这个问题的路线图。通过在抽象、无意义的数据 (伪词) 上利用 监督微调 (SFT) , 我们可以有效地教导这些模型 重形式轻内容 。 这个过程:
- 减轻了内容效应偏差。
- 帮助模型识别无效推理 (“无法得出结论”) 。
- 大幅减少了逻辑矛盾。
对于学生和未来的 AI 研究人员来说,这突显了一个关键的设计原则: 不要仅仅因为 LLM 懂语言就假设它懂逻辑。 推理似乎是一项独特的技能,需要特定的、形式化的训练将其与语言生成的统计概率解耦。
虽然我们还没有达到完美的“硅基亚里士多德”的程度——这由它们在更长推理链上的挣扎所证明——但这项工作表明,有了正确的课程,我们可以教导我们的软推理者变得更“硬”一点。
](https://deep-paper.org/en/paper/2406.11341/images/cover.png)