引言
我们经常谈论大语言模型 (LLMs) 如何“智能”,能够通过律师资格考试、编写代码并总结历史。但当我们剥离海量的百科知识,审视推理的本质时,它们到底有多聪明?具体来说,它们是否理解支撑人类语言的基础逻辑?
加州大学伯克利分校、纽约大学和麻省理工学院的研究人员最近发表了一篇名为 “Conditional and Modal Reasoning in Large Language Models” (大语言模型中的条件与模态推理) 的论文,用放大镜审视了这个问题。研究人员没有测试数学应用题或冷知识,而是探讨了一个微妙但可能更为根本的能力: 关于可能性的推理能力。
这涉及两个语言学概念:
- 条件句 (Conditionals) : “如果 \(p\),那么 \(q\)。”
- 认识模态词 (Epistemic Modals) : 像“可能 (might) ”、“必须 (must) ”或“也许 (possibly) ”这样的词。
这些是规划和因果推理的基石。当你因为可能下雨而决定带伞,或者当医生根据症状推断病人肯定感染时,都在使用条件和模态逻辑。
研究人员测试了 29 种不同的 LLM,包括 GPT-4、Claude、Llama 和 Mistral。结果描绘了一幅引人入胜的画面: 虽然模型已经掌握了基础知识,但在面对自然语言的细微逻辑时,它们往往会崩溃,经常犯下基本的谬误并自相矛盾。

如上图 1 所示,即使是 Llama 3.1 405B 和 GPT-4 这样的顶级模型,在基本任务上的准确率也就在 80-90% 左右徘徊,而较小的模型则表现挣扎。但总分掩盖了真实的故事,真正的关键在于它们是如何失败的。
逻辑推理的版图
要理解这项研究,我们首先需要定义我们所说的“逻辑推理”。在这篇论文的语境中,作者谈论的不是“常识”推理 (例如,“如果我掉落玻璃杯,它会碎”) 。他们谈论的是形式有效性 (Formal Validity) 。 如果结论在前提为真时必然为真,无论具体的词语含义如何,那么这个推理就是有效的。
“如果”的问题
在经典逻辑 (就像你在计算机科学入门课上可能学到的那样) 中,陈述“如果 \(p\),那么 \(q\)”被视为实质条件句 (Material Conditional) 。 实质条件句只有在 \(p\) 为真且 \(q\) 为假时才为假。
这个定义对计算机来说很有效,但对人类语言来说却很糟糕。例如,根据实质条件句的定义,陈述*“如果我是法国国王,那么月亮就是奶酪做的”*在技术上是真的,仅仅因为第一部分 (我是国王) 是假的。
人类不是这样思考的。当我们说“如果”时,我们通常意味着我们要看一组第一部分为真的可能世界,并检查第二部分是否成立。这就是模态词 (Modals) (可能/必须) 登场的地方。
研究人员策划了一套推理模式——有些有效,有些无效——来测试 LLM 是否符合人类的逻辑直觉,还是被困在僵化 (且通常不正确) 的实质条件句中。

表 1 提供了研究中使用的逻辑谜题菜单。让我们分解几个你将在本文中看到的关键缩写:
- MP (肯定前件,Modus Ponens) : 如果 \(p\) 那么 \(q\);\(p\) 为真;因此 \(q\)。 (有效)
- MT (否定后件,Modus Tollens) : 如果 \(p\) 那么 \(q\);\(q\) 不为真;因此 \(p\) 不为真。 (有效)
- AC (肯定后件,Affirming the Consequent) : 如果 \(p\) 那么 \(q\);\(q\) 为真;因此 \(p\)。 (无效谬误) 。
研究人员不只是使用标准的句子。为了确保模型不是在背诵事实,他们使用了“无意义”的谓词 (例如,“If the flugel was blimmed…”) 以及“可能”和“必须”的复杂组合。
方法论
该研究评估了 29 个模型,范围从 Llama 和 Mistral 等开放权重模型到 GPT-4 和 Claude 3 等专有巨头。他们使用了三种提示设置:
- 零样本 (Zero-shot) : 直接问问题。
- 少样本 (Few-shot) : 先给模型几个逻辑任务的例子。
- 思维链 (Chain-of-Thought, CoT) : 要求模型在回答之前“一步一步地思考”。
目的是看模型能否区分有效的推理和无效的推理。
结果: 好的、坏的与不一致的
1. “思考”的力量
第一个主要发现是提示策略很重要。当要求模型逐步推理 (思维链) 时,与零样本或少样本尝试相比,它们的逻辑准确性显著提高。

如图 7 所示,观察思维链 (CoT) 的条形图,最佳模型在“无争议”推理上的准确率接近 90%。这表明逻辑的潜在能力是存在的,但需要通过强迫模型用语言表达其步骤来“解锁”。然而,即使有了 CoT,巨大的差距依然存在。
2. 过度泛化的陷阱
这是研究变得真正有趣的地方。当句子很简单时,模型通常擅长标准逻辑 (如否定后件 MT) 。
标准否定后件 (有效) :
- 前提 1: 如果逻辑推理很简单,那么我很开心。
- 前提 2: 我不开心。
- 结论: 逻辑推理不简单。
LLM 能搞定这个。但是当我们引入像“必须 (must) ”和“可能 (might) ”这样的模态词时会发生什么呢?
带“必须”的否定后件 (MTmu) :
- 前提 1: 如果 Fido 在玩,他必须在花园里。
- 前提 2: Fido 必须在花园里并非事实 (也许他在花园里,也许不在;我们只是不确定) 。
- 结论: Fido 没在玩。
对于人类逻辑学家 (以及普通说话者) 来说,这种推理是无效的。仅仅因为我们不确定他在花园里,并不意味着他没在玩。我们只是缺乏信息。
然而,LLM 在这里很挣扎。它们“过度泛化”了。它们看到了否定后件的结构,就盲目地套用规则,忽略了“必须”这个词的含义。

在图 2 中,我们看到了冲突。在上图( MTmu )中,许多模型 (向右延伸的橙色条) 错误地回答“是”,验证了这个谬误。
但看看下图( MTmi )。这测试了一个逻辑上等价的场景,使用了“可能不 (might not) ”而不是“并非必须 (not must) ”。
- 前提: 如果 Fido 在玩,他必须在花园里。
- 前提: Fido 可能不在花园里。
- 结论: Fido 没在玩。
在逻辑上,“并非必须”和“可能不”的意思大致相同。然而,模型对它们的处理却截然不同。这揭示了一个深层的逻辑不一致性 。 模型不是在针对世界或意义进行推理;它们是在对句子的特定语法做出反应。
3. 上下文的脆弱性
研究人员更深入地挖掘了这种不一致性。他们在同一个上下文窗口中向模型询问这些相关的逻辑谜题,看看模型能否保持连贯的世界观。

图 4 可能是论文中最令人震惊的可视化图表。它显示了模型在三个相关问题上保持“联合一致”的时间百分比。圆点代表提问的不仅仅是不同顺序。
点的分布表明提问顺序很重要 。 如果你按某种顺序问问题,模型可能看起来是一致的。按另一种顺序问,模型就会自相矛盾。对于一个旨在成为可靠推理者的系统来说,这种对顺序的敏感性是非常不可取的。
4. 复杂条件句的失败 (CMP)
最复杂的测试之一涉及一种称为 CMP (条件肯定前件,Conditional Modus Ponens) 的模式,基于哲学家 Vann McGee 的一个著名反例。
想象一个有三支球队的体育锦标赛: 湖人队 (夺冠热门) 、勇士队 (亚军) 和凯尔特人队 (黑马) 。
- 我们知道: 如果湖人队没赢,且勇士队没赢,那么凯尔特人队会赢。
- 我们知道: 湖人队很可能会赢 (所以勇士队很可能不会赢) 。
这是否意味着: 如果湖人队没赢,凯尔特人队会赢?
不!如果湖人队没赢,勇士队是最可能的逻辑替代者,而不是凯尔特人队。
人类专家拒绝这种推论。但是 LLM 呢?它们全盘接受,深信不疑。

图 5 显示,几乎所有模型 (高高的橙色条) 在零样本设置中都错误地接受了这种推论。虽然思维链 (下图) 对 Claude 3 Opus 和 GPT-4 略有帮助,但绝大多数模型仍然无法掌握嵌套条件句的概率细微差别。它们看到“如果 X 那么 Y”,就假设它一定成立,忽略了使其变得不可能的上下文。
为什么这很重要?
你可能会想,“如果 ChatGPT 解不开体育博彩逻辑题,谁在乎呢?”
其影响超出了逻辑谜题。研究发现,在这些条件推理任务上的表现与更广泛的基准测试表现密切相关。

如图 6 所示,模型处理这种逻辑的能力与其以下能力之间存在很强的线性相关性:
- LMSYS Elo: 人类认为聊天机器人在一般对话中的帮助程度。
- MMLU: 跨越逻辑和科学领域的大规模知识测试。
- GSM8k: 数学推理。
这表明逻辑推理不仅仅是一项利基技能;它是通用智能和能力的代表。如果一个模型不能理解“可能”和“必须”之间的区别,那么它进行可靠的因果推理、调试或战略规划的能力就是可疑的。
结论
论文 “Conditional and Modal Reasoning in Large Language Models” 给我们敲响了警钟。LLM 已经取得了令人难以置信的进步,它们进行标准逻辑演绎的能力令人印象深刻。然而,它们仍然容易出现以下问题:
- 过度泛化: 将简单的逻辑规则套用到复杂的模态句子上,而这些规则并不适用。
- 不一致性: 基于措辞或提问顺序而自相矛盾。
- 概率盲区: 未能跟踪现实世界场景中“如果”语句与可能性的关系。
作者的结论是,虽然像思维链这样的技术有所帮助,但我们还没有达到 LLM 拥有强大的、类似人类的逻辑推论能力的阶段。它们在模仿逻辑的形式,而没有完全掌握可能性的内容。
对于使用这些模型的学生和开发人员来说,结论很明确: LLM 是强大的工具,但在涉及歧义、可能性或必要性的高风险推理时,我们必须极其小心地验证它们的“逻辑”。它们听起来可能像史波克 (Spock) ,但有时,它们只是在瞎猜。
](https://deep-paper.org/en/paper/2401.17169/images/cover.png)