想象一下,有人告诉你“翠儿 (Tweety) 是一只鸟”。根据你的常识,你逻辑地推断出“翠儿会飞”。但片刻之后,你收到了一个新的信息: “翠儿是一只企鹅”。
你的大脑里发生了什么?你立即修正了你的信念。你撤回了翠儿会飞的结论,但你保留了它是一只鸟的前提。你刚刚完成了信念修正 (Belief Revision) ——这是一种当新证据与你之前认为的事实相矛盾或提供新语境时,更新你认知的认知能力。
这种能力对人类智能至关重要,因为现实世界很少是静态的。信息在演变,语境在转换,规则的例外情况不断出现。但是,我们目前最先进的人工智能系统是否拥有同样的适应性呢?
在论文 《Belief Revision: The Adaptability of Large Language Models Reasoning》 中,来自香港科技大学的研究人员调查了这个问题。他们提出了一个新的框架来测试大型语言模型 (LLM) 是否能够理性地更新其信念,或者它们是否只是“顽固”的静态推理者。

如图 1 所示,人类能够自然地处理不断变化的约束条件。当机器人面对一个使先前规则复杂化的条件 (“本只有在做饭时才在家吃”) 时,它很难确定结果。这篇博文将深入探讨研究人员如何量化这种挣扎、他们构建的新数据集,以及他们在现代 AI 中发现的令人惊讶的局限性。
静态基准测试的问题
要理解为什么这项研究是必要的,我们首先需要看看目前我们是如何测试 AI 推理能力的。
大多数针对 LLM 的逻辑推理基准测试都在一个“封闭世界”中运行。模型被给予一组事实 (前提) 并被要求得出一个结论。其假设是所提供的信息是完整且一致的。
然而,现实世界的 NLP 应用——如聊天机器人、法律助手或医疗诊断工具——是在开放、演变的环境中运行的。AI 可能会阅读一份陈述政策的文件,得出一个结论,然后阅读第二份为该政策增加例外情况的文件。
如果我们只在静态的数据快照上测试模型,就会忽略智能的一个关键组成部分: 非单调推理 (Non-monotonic reasoning) 。 这是一个逻辑学术语,意味着增加新的前提可能会使之前的结论无效。
研究人员将他们的新数据集 Belief-R 与现有的流行基准进行了比较:

如表 1 所示,虽然其他数据集处理了不完整或矛盾的信息,但它们并没有明确测试信念修正——即根据新信息的重要性来决定是保留还是抛弃先前结论的具体行为。
解决方案: Delta 推理 (\(\Delta R\)) 框架
这篇论文的核心贡献是一个名为 Delta 推理 (\(\Delta R\)) 的新评估框架。
“Delta” (\(\Delta\)) 代表变化。研究人员没有只问模型一个问题,而是在两个不同的时间步 (\(t\) 和 \(t+1\)) 探测模型。这使他们能够测量模型推理状态的变化。
以下是该框架逐步运作的方式。
第一步: 建立先验信念 (时间 \(t\))
首先,模型被赋予两个满足基本逻辑规则的前提 (\(\gamma_1, \gamma_2\)) ,例如肯定前件 (Modus Ponens) (如果 \(P\) 那么 \(Q\);\(P\) 发生;因此 \(Q\)) 。
- 前提 1: 如果她有一篇论文要完成,她就会在图书馆学习到很晚。 (\(P \to Q\))
- 前提 2: 她有一篇论文要完成。 (\(P\))
- 预期结论: 她会在图书馆学习到很晚。 (\(Q\))
研究人员称此为 Basic @t 阶段。如果一个模型连这一步都做不到,那它就不理解基本逻辑,测试其信念修正也就毫无意义了。
第二步: 引入新证据 (时间 \(t+1\))
接下来,模型会获得第三个前提 (\(\gamma_3\)) ——一条新的信息。模型现在必须决定这条新信息是否与原始结论 (\(Q\)) 相冲突。
\(\Delta R\) 框架的精妙之处在于引入新信息的类型。受认知科学中“抑制任务 (Suppression Task) ”的启发,研究人员利用了两类特定的新前提:
场景 A: 信念更新 (Belief Update, BU) - “附加”条件
在这种场景下,新前提引入了一个必要条件,使人对原始结论产生怀疑。
- 新证据: “如果图书馆开门,她就会在图书馆学习到很晚。”
- 逻辑: 即使她有论文要写 (\(P\)) ,如果图书馆关门了,她也没法在那里学习。图书馆开门是一个附加要求。
- 正确行动: 模型应该更新 (Update) 其信念。它应该撤回确定的结论“她会学习到很晚”,并转变为“她可能会也可能不会学习到很晚”。
场景 B: 信念保持 (Belief Maintain, BM) - “替代”条件
在这种场景下,新前提引入了导致结果发生的另一种方式,这不应影响原始路径。
- 新证据: “如果她有教科书要读,她就会在图书馆学习到很晚。”
- 逻辑: 她仍然有一篇论文要完成 (\(P\)) 。教科书 (\(R\)) 也能让她学习这一事实,并不妨碍 \(P\) 导致 \(Q\)。这只是一条替代路径。
- 正确行动: 模型应该保持 (Maintain) 其信念。结论“她会学习到很晚”仍然有效,因为论文的原因依然存在。
挑战
模型并没有被告知它正面临哪种情况。它必须使用常识推理来理解论文、图书馆开放时间和教科书之间的关系。它必须确定新信息是一个阻碍因素 (需要更新) 还是仅仅是额外的点缀 (需要保持) 。
构建 “Belief-R”: 为动态思维设计的数据集
为了大规模测试这个框架,作者创建了 Belief-R 。 他们不仅仅是编写随机的句子;他们使用了一个严格的半自动化流程来确保高质量。
- 种子数据: 他们从 ATOMIC 开始,这是一个巨大的机器常识图谱 (例如,“如果 X 赞美了 Y,Y 会感到高兴”) 。这提供了扎实、现实的因果关系。
- 生成: 他们使用 GPT-4 基于 ATOMIC 种子生成前提 (\(P, Q, R\)) ,严格指示其创建“替代”或“附加”条件。
- 人工验证: 这是关键的质量控制步骤。众包工作者分析了生成的逻辑问题。研究人员只保留了 5 位人工标注者中至少有 4 位对正确逻辑结果达成一致的样本。

如表 2 详细所示,最终的数据集包含大约 2,000 个高质量样本,在肯定前件 (Modus Ponens) 和否定后件 (Modus Tollens) 之间取得平衡,并分为“事件”起因和“心理状态”起因。
实验: LLM 到底有多聪明?
研究人员测试了广泛的模型,从较小的开源模型 (如 Phi-2 和 Llama-2) 到大型专有模型 (如 GPT-4 和 Claude 3) 。
结果 1: 只有达到此高度才能乘坐
在测试信念修正之前,模型必须通过时间 \(t\) 的基本逻辑测试 (Basic @t) 。

图 3 显示了一个清晰的趋势: 小型预训练模型在基本逻辑上表现糟糕。然而, 指令微调模型 (绿色条形) 和更大的模型 (生成式 API) 表现非常好,准确率通常超过 90%。这证实了现代 LLM 拥有实验所需的基线逻辑能力。
结果 2: 适应失败
一旦研究人员确定大模型可以进行基本逻辑推理,他们就对其进行了信念修正任务测试。他们使用了一个名为 BREU (Belief Revision Evaluation Understudy,信念修正评估替补) 的指标,该指标平均了更新信念 (BU) 和保持信念 (BM) 的准确率。
结果令人震惊。

请看图 4 。 明显的彩色条形 (代表修正准确率) 明显低于条形的总高度 (代表基本准确率) 。
- 差距: 即使是像 GPT-4 Turbo 这样在基本逻辑上表现出色 (接近 100%) 的强大模型,其 BREU 分数也下降到了 50-60% 左右。
- 随机猜测: 约 50% 的 BREU 分数在二元决策框架中极其接近随机猜测。这表明 LLM 在辨别何时改变主意方面存在严重困难。
结果 3: 权衡
研究人员发现了一种迷人的“反比关系”行为。
- 擅长更新 (意识到新前提阻碍了结论) 的模型往往变得过于多疑——即使在应该保持信念时,它们也会进行更新。
- 擅长保持信念 (忽略不相关的替代方案) 的模型往往过于顽固——当阻碍因素被引入时,它们未能进行更新。
目前没有模型能完美平衡这两个对立的认知需求。
结果 4: 提示工程不是灵丹妙药
当前 AI 研究中一个常见的辩护是,“你试过思维链 (Chain-of-Thought, CoT) 提示吗?” (即要求模型“一步一步地思考”) 。
作者尝试了直接提示 (DP) 、思维链 (CoT) 和计划并求解 (PS) 。

图 5(c) (最右侧) 揭示了一个令人失望的现实: 更好的提示方法并没有显着解决这个问题。 虽然 CoT 和 PS 在某些特定配置中有轻微帮助,但它们并没有弥合差距。在某些情况下,如下面的表 A1 所示,复杂的提示实际上损害了性能 (某些模型从 DP 到 PS 分数下降) 。这表明缺陷不仅仅在于“思考得更努力”,而在于这些模型如何表示和更新知识状态的根本差距。

为什么会发生这种情况?
论文就为什么信念修正对 LLM 来说如此困难提供了几个见解:
- 否定后件 (Modus Tollens) 更难: 如图 5(a) 所示,模型在处理否定后件 (因为结果没有发生从而推断原因为假) 时比肯定前件更吃力。这种逆向推理结合信念修正是一种沉重的认知负担。
- 抽象概念: 图 5(b) 显示,当结果是心理状态而不是物理事件时,模型更有可能“保持” (拒绝更新) 信念。心理状态是抽象的且观察性较差,使得模型在推翻其先前的预测时信心不足。
- 对噪声的敏感性: 与基线相比,模型在信念保持任务上的表现更差。这意味着仅仅增加任何额外的句子 (即使是不应该改变结果的句子) 也会让模型感到困惑。这种“易分心性”对于经常检索嘈杂文档的检索增强生成 (RAG) 系统来说是一个主要弱点。
结论与启示
Belief-R 和 \(\Delta R\) 框架的引入凸显了当前 AI 评估中的一个关键“盲点”。我们构建了擅长静态推理的模型——即对文本进行快照并回答相关问题。但我们尚未掌握动态推理——构建能够优雅地摄取新的、相互冲突的信息并相应调整其世界观的智能体。
对于学生和未来的研究人员来说,这篇论文开启了一个新的前沿。提高模型在静态基准上的分数可能只是收益递减。真正的挑战在于适应性 : 创建知道何时坚持信念、何时放手的系统。
正如作者总结的那样,迈向可靠的 AI 系统需要我们要解决这种权衡。直到 LLM 能够在复杂、现实的场景中可靠地通过“企鹅翠儿”测试之前,在这个不断变化的世界中,它们仍然是脆弱的推理者。
](https://deep-paper.org/en/paper/2406.19764/images/cover.png)