引言

我们经常谈论大语言模型 (LLMs) 如何“智能”,能够通过律师资格考试、编写代码并总结历史。但当我们剥离海量的百科知识,审视推理的本质时,它们到底有多聪明?具体来说,它们是否理解支撑人类语言的基础逻辑?

加州大学伯克利分校、纽约大学和麻省理工学院的研究人员最近发表了一篇名为 “Conditional and Modal Reasoning in Large Language Models” (大语言模型中的条件与模态推理) 的论文,用放大镜审视了这个问题。研究人员没有测试数学应用题或冷知识,而是探讨了一个微妙但可能更为根本的能力: 关于可能性的推理能力。

这涉及两个语言学概念:

  1. 条件句 (Conditionals) : “如果 \(p\),那么 \(q\)。”
  2. 认识模态词 (Epistemic Modals) : 像“可能 (might) ”、“必须 (must) ”或“也许 (possibly) ”这样的词。

这些是规划和因果推理的基石。当你因为可能下雨而决定带伞,或者当医生根据症状推断病人肯定感染时,都在使用条件和模态逻辑。

研究人员测试了 29 种不同的 LLM,包括 GPT-4、Claude、Llama 和 Mistral。结果描绘了一幅引人入胜的画面: 虽然模型已经掌握了基础知识,但在面对自然语言的细微逻辑时,它们往往会崩溃,经常犯下基本的谬误并自相矛盾。

一些简单推理任务的表现汇总。较大的模型通常表现更好,且大多数模型在此任务上显示出明显的弱点。

如上图 1 所示,即使是 Llama 3.1 405B 和 GPT-4 这样的顶级模型,在基本任务上的准确率也就在 80-90% 左右徘徊,而较小的模型则表现挣扎。但总分掩盖了真实的故事,真正的关键在于它们是如何失败的。

逻辑推理的版图

要理解这项研究,我们首先需要定义我们所说的“逻辑推理”。在这篇论文的语境中,作者谈论的不是“常识”推理 (例如,“如果我掉落玻璃杯,它会碎”) 。他们谈论的是形式有效性 (Formal Validity) 。 如果结论在前提为真时必然为真,无论具体的词语含义如何,那么这个推理就是有效的。

“如果”的问题

在经典逻辑 (就像你在计算机科学入门课上可能学到的那样) 中,陈述“如果 \(p\),那么 \(q\)”被视为实质条件句 (Material Conditional) 。 实质条件句只有在 \(p\) 为真且 \(q\) 为假时才为假。

这个定义对计算机来说很有效,但对人类语言来说却很糟糕。例如,根据实质条件句的定义,陈述*“如果我是法国国王,那么月亮就是奶酪做的”*在技术上是的,仅仅因为第一部分 (我是国王) 是假的。

人类不是这样思考的。当我们说“如果”时,我们通常意味着我们要看一组第一部分为真的可能世界,并检查第二部分是否成立。这就是模态词 (Modals) (可能/必须) 登场的地方。

研究人员策划了一套推理模式——有些有效,有些无效——来测试 LLM 是否符合人类的逻辑直觉,还是被困在僵化 (且通常不正确) 的实质条件句中。

表1: 测试的关键推理,展示了涉及条件句和模态词的有效、无效及有争议的模式。

表 1 提供了研究中使用的逻辑谜题菜单。让我们分解几个你将在本文中看到的关键缩写:

  • MP (肯定前件,Modus Ponens) : 如果 \(p\) 那么 \(q\);\(p\) 为真;因此 \(q\)。 (有效)
  • MT (否定后件,Modus Tollens) : 如果 \(p\) 那么 \(q\);\(q\) 不为真;因此 \(p\) 不为真。 (有效)
  • AC (肯定后件,Affirming the Consequent) : 如果 \(p\) 那么 \(q\);\(q\) 为真;因此 \(p\)。 (无效谬误) 。

研究人员不只是使用标准的句子。为了确保模型不是在背诵事实,他们使用了“无意义”的谓词 (例如,“If the flugel was blimmed…”) 以及“可能”和“必须”的复杂组合。

方法论

该研究评估了 29 个模型,范围从 Llama 和 Mistral 等开放权重模型到 GPT-4 和 Claude 3 等专有巨头。他们使用了三种提示设置:

  1. 零样本 (Zero-shot) : 直接问问题。
  2. 少样本 (Few-shot) : 先给模型几个逻辑任务的例子。
  3. 思维链 (Chain-of-Thought, CoT) : 要求模型在回答之前“一步一步地思考”。

目的是看模型能否区分有效的推理和无效的推理。

结果: 好的、坏的与不一致的

1. “思考”的力量

第一个主要发现是提示策略很重要。当要求模型逐步推理 (思维链) 时,与零样本或少样本尝试相比,它们的逻辑准确性显著提高。

不同条件和温度0下无争议逻辑推理模式的表现汇总。思维链显示出显著的改进。

如图 7 所示,观察思维链 (CoT) 的条形图,最佳模型在“无争议”推理上的准确率接近 90%。这表明逻辑的潜在能力是存在的,但需要通过强迫模型用语言表达其步骤来“解锁”。然而,即使有了 CoT,巨大的差距依然存在。

2. 过度泛化的陷阱

这是研究变得真正有趣的地方。当句子很简单时,模型通常擅长标准逻辑 (如否定后件 MT) 。

标准否定后件 (有效) :

  • 前提 1: 如果逻辑推理很简单,那么我很开心。
  • 前提 2: 我不开心。
  • 结论: 逻辑推理不简单。

LLM 能搞定这个。但是当我们引入像“必须 (must) ”和“可能 (might) ”这样的模态词时会发生什么呢?

带“必须”的否定后件 (MTmu) :

  • 前提 1: 如果 Fido 在玩,他必须在花园里。
  • 前提 2: Fido 必须在花园里并非事实 (也许他在花园里,也许不在;我们只是不确定) 。
  • 结论: Fido 没在玩。

对于人类逻辑学家 (以及普通说话者) 来说,这种推理是无效的。仅仅因为我们不确定他在花园里,并不意味着他没在玩。我们只是缺乏信息。

然而,LLM 在这里很挣扎。它们“过度泛化”了。它们看到了否定后件的结构,就盲目地套用规则,忽略了“必须”这个词的含义。

图2: MTmu (上) 和 MTmi (下) 的零样本回答显示许多模型存在不一致性。

在图 2 中,我们看到了冲突。在上图( MTmu )中,许多模型 (向右延伸的橙色条) 错误地回答“是”,验证了这个谬误。

但看看下图( MTmi )。这测试了一个逻辑上等价的场景,使用了“可能不 (might not) ”而不是“并非必须 (not must) ”。

  • 前提: 如果 Fido 在玩,他必须在花园里。
  • 前提: Fido 可能不在花园里。
  • 结论: Fido 没在玩。

在逻辑上,“并非必须”和“可能不”的意思大致相同。然而,模型对它们的处理却截然不同。这揭示了一个深层的逻辑不一致性 。 模型不是在针对世界意义进行推理;它们是在对句子的特定语法做出反应。

3. 上下文的脆弱性

研究人员更深入地挖掘了这种不一致性。他们在同一个上下文窗口中向模型询问这些相关的逻辑谜题,看看模型能否保持连贯的世界观。

图4: 当我们在同一上下文窗口中以六种可能的顺序之一询问领先模型关于 DSmu、MiN 和 DSmi 时,联合一致回答的百分比。

图 4 可能是论文中最令人震惊的可视化图表。它显示了模型在三个相关问题上保持“联合一致”的时间百分比。圆点代表提问的不仅仅是不同顺序

点的分布表明提问顺序很重要 。 如果你按某种顺序问问题,模型可能看起来是一致的。按另一种顺序问,模型就会自相矛盾。对于一个旨在成为可靠推理者的系统来说,这种对顺序的敏感性是非常不可取的。

4. 复杂条件句的失败 (CMP)

最复杂的测试之一涉及一种称为 CMP (条件肯定前件,Conditional Modus Ponens) 的模式,基于哲学家 Vann McGee 的一个著名反例。

想象一个有三支球队的体育锦标赛: 湖人队 (夺冠热门) 、勇士队 (亚军) 和凯尔特人队 (黑马) 。

  1. 我们知道: 如果湖人队没赢,且勇士队没赢,那么凯尔特人队会赢。
  2. 我们知道: 湖人队很可能会赢 (所以勇士队很可能不会赢) 。

这是否意味着: 如果湖人队没赢,凯尔特人队会赢?

不!如果湖人队没赢,勇士队是最可能的逻辑替代者,而不是凯尔特人队。

人类专家拒绝这种推论。但是 LLM 呢?它们全盘接受,深信不疑。

图5: CMP 的回答,零样本 (上) 和思维链 (下) ;LLM 被问及该推理是否保留了可能性。

图 5 显示,几乎所有模型 (高高的橙色条) 在零样本设置中都错误地接受了这种推论。虽然思维链 (下图) 对 Claude 3 Opus 和 GPT-4 略有帮助,但绝大多数模型仍然无法掌握嵌套条件句的概率细微差别。它们看到“如果 X 那么 Y”,就假设它一定成立,忽略了使其变得不可能的上下文。

为什么这很重要?

你可能会想,“如果 ChatGPT 解不开体育博彩逻辑题,谁在乎呢?”

其影响超出了逻辑谜题。研究发现,在这些条件推理任务上的表现与更广泛的基准测试表现密切相关。

图6: 我们的评估结果 (零样本) 与 LMSYS Elo 评分、MMLU 分数和 GSM8k 分数的相关性。

如图 6 所示,模型处理这种逻辑的能力与其以下能力之间存在很强的线性相关性:

  1. LMSYS Elo: 人类认为聊天机器人在一般对话中的帮助程度。
  2. MMLU: 跨越逻辑和科学领域的大规模知识测试。
  3. GSM8k: 数学推理。

这表明逻辑推理不仅仅是一项利基技能;它是通用智能和能力的代表。如果一个模型不能理解“可能”和“必须”之间的区别,那么它进行可靠的因果推理、调试或战略规划的能力就是可疑的。

结论

论文 “Conditional and Modal Reasoning in Large Language Models” 给我们敲响了警钟。LLM 已经取得了令人难以置信的进步,它们进行标准逻辑演绎的能力令人印象深刻。然而,它们仍然容易出现以下问题:

  • 过度泛化: 将简单的逻辑规则套用到复杂的模态句子上,而这些规则并不适用。
  • 不一致性: 基于措辞或提问顺序而自相矛盾。
  • 概率盲区: 未能跟踪现实世界场景中“如果”语句与可能性的关系。

作者的结论是,虽然像思维链这样的技术有所帮助,但我们还没有达到 LLM 拥有强大的、类似人类的逻辑推论能力的阶段。它们在模仿逻辑的形式,而没有完全掌握可能性的内容

对于使用这些模型的学生和开发人员来说,结论很明确: LLM 是强大的工具,但在涉及歧义、可能性或必要性的高风险推理时,我们必须极其小心地验证它们的“逻辑”。它们听起来可能像史波克 (Spock) ,但有时,它们只是在瞎猜。