AI 能改变主意吗？探索大型语言模型中的信念修正

想象一下，有人告诉你“翠儿 (Tweety) 是一只鸟”。根据你的常识，你逻辑地推断出“翠儿会飞”。但片刻之后，你收到了一个新的信息: “翠儿是一只企鹅”。

你的大脑里发生了什么？你立即修正了你的信念。你撤回了翠儿会飞的结论，但你保留了它是一只鸟的前提。你刚刚完成了信念修正 (Belief Revision) ——这是一种当新证据与你之前认为的事实相矛盾或提供新语境时，更新你认知的认知能力。

这种能力对人类智能至关重要，因为现实世界很少是静态的。信息在演变，语境在转换，规则的例外情况不断出现。但是，我们目前最先进的人工智能系统是否拥有同样的适应性呢？

在论文 《Belief Revision: The Adaptability of Large Language Models Reasoning》 中，来自香港科技大学的研究人员调查了这个问题。他们提出了一个新的框架来测试大型语言模型 (LLM) 是否能够理性地更新其信念，或者它们是否只是“顽固”的静态推理者。

两个场景展示了人类推理与机器人推理的对比。上方场景中，机器人推断本 (Ben) 在家吃饭。下方场景中，关于做饭的新信息让机器人感到困惑。

如图 1 所示，人类能够自然地处理不断变化的约束条件。当机器人面对一个使先前规则复杂化的条件 (“本只有在做饭时才在家吃”) 时，它很难确定结果。这篇博文将深入探讨研究人员如何量化这种挣扎、他们构建的新数据集，以及他们在现代 AI 中发现的令人惊讶的局限性。

静态基准测试的问题

要理解为什么这项研究是必要的，我们首先需要看看目前我们是如何测试 AI 推理能力的。

大多数针对 LLM 的逻辑推理基准测试都在一个“封闭世界”中运行。模型被给予一组事实 (前提) 并被要求得出一个结论。其假设是所提供的信息是完整且一致的。

然而，现实世界的 NLP 应用——如聊天机器人、法律助手或医疗诊断工具——是在开放、演变的环境中运行的。AI 可能会阅读一份陈述政策的文件，得出一个结论，然后阅读第二份为该政策增加例外情况的文件。

如果我们只在静态的数据快照上测试模型，就会忽略智能的一个关键组成部分: 非单调推理 (Non-monotonic reasoning) 。这是一个逻辑学术语，意味着增加新的前提可能会使之前的结论无效。

研究人员将他们的新数据集 Belief-R 与现有的流行基准进行了比较:

一张表格比较了 Belief-R 与 bAbI 和 BoardgameQA 等其他数据集的特性。Belief-R 是唯一检查信念修正的数据集。

如表 1 所示，虽然其他数据集处理了不完整或矛盾的信息，但它们并没有明确测试信念修正——即根据新信息的重要性来决定是保留还是抛弃先前结论的具体行为。

解决方案: Delta 推理 (\(\Delta R\)) 框架

这篇论文的核心贡献是一个名为 Delta 推理 (\(\Delta R\)) 的新评估框架。

“Delta” (\(\Delta\)) 代表变化。研究人员没有只问模型一个问题，而是在两个不同的时间步 (\(t\) 和 \(t+1\)) 探测模型。这使他们能够测量模型推理状态的变化。

以下是该框架逐步运作的方式。

第一步: 建立先验信念 (时间 \(t\))

首先，模型被赋予两个满足基本逻辑规则的前提 (\(\gamma_1, \gamma_2\)) ，例如肯定前件 (Modus Ponens) (如果 \(P\) 那么 \(Q\)；\(P\) 发生；因此 \(Q\)) 。

前提 1: 如果她有一篇论文要完成，她就会在图书馆学习到很晚。 (\(P \to Q\))
前提 2: 她有一篇论文要完成。 (\(P\))
预期结论: 她会在图书馆学习到很晚。 (\(Q\))

研究人员称此为 Basic @t 阶段。如果一个模型连这一步都做不到，那它就不理解基本逻辑，测试其信念修正也就毫无意义了。

第二步: 引入新证据 (时间 \(t+1\))

接下来，模型会获得第三个前提 (\(\gamma_3\)) ——一条新的信息。模型现在必须决定这条新信息是否与原始结论 (\(Q\)) 相冲突。

\(\Delta R\) 框架的精妙之处在于引入新信息的类型。受认知科学中“抑制任务 (Suppression Task) ”的启发，研究人员利用了两类特定的新前提:

场景 A: 信念更新 (Belief Update, BU) - “附加”条件

在这种场景下，新前提引入了一个必要条件，使人对原始结论产生怀疑。

新证据: “如果图书馆开门，她就会在图书馆学习到很晚。”
逻辑: 即使她有论文要写 (\(P\)) ，如果图书馆关门了，她也没法在那里学习。图书馆开门是一个附加要求。
正确行动: 模型应该更新 (Update) 其信念。它应该撤回确定的结论“她会学习到很晚”，并转变为“她可能会也可能不会学习到很晚”。

场景 B: 信念保持 (Belief Maintain, BM) - “替代”条件

在这种场景下，新前提引入了导致结果发生的另一种方式，这不应影响原始路径。

新证据: “如果她有教科书要读，她就会在图书馆学习到很晚。”
逻辑: 她仍然有一篇论文要完成 (\(P\)) 。教科书 (\(R\)) 也能让她学习这一事实，并不妨碍 \(P\) 导致 \(Q\)。这只是一条替代路径。
正确行动: 模型应该保持 (Maintain) 其信念。结论“她会学习到很晚”仍然有效，因为论文的原因依然存在。

挑战

模型并没有被告知它正面临哪种情况。它必须使用常识推理来理解论文、图书馆开放时间和教科书之间的关系。它必须确定新信息是一个阻碍因素 (需要更新) 还是仅仅是额外的点缀 (需要保持) 。

构建 “Belief-R”: 为动态思维设计的数据集

为了大规模测试这个框架，作者创建了 Belief-R 。他们不仅仅是编写随机的句子；他们使用了一个严格的半自动化流程来确保高质量。

种子数据: 他们从 ATOMIC 开始，这是一个巨大的机器常识图谱 (例如，“如果 X 赞美了 Y，Y 会感到高兴”) 。这提供了扎实、现实的因果关系。
生成: 他们使用 GPT-4 基于 ATOMIC 种子生成前提 (\(P, Q, R\)) ，严格指示其创建“替代”或“附加”条件。
人工验证: 这是关键的质量控制步骤。众包工作者分析了生成的逻辑问题。研究人员只保留了 5 位人工标注者中至少有 4 位对正确逻辑结果达成一致的样本。

表格展示了 Belief-R 数据集的统计数据，按推理规则和前提类型分类。

如表 2 详细所示，最终的数据集包含大约 2,000 个高质量样本，在肯定前件 (Modus Ponens) 和否定后件 (Modus Tollens) 之间取得平衡，并分为“事件”起因和“心理状态”起因。

实验: LLM 到底有多聪明？

研究人员测试了广泛的模型，从较小的开源模型 (如 Phi-2 和 Llama-2) 到大型专有模型 (如 GPT-4 和 Claude 3) 。

结果 1: 只有达到此高度才能乘坐

在测试信念修正之前，模型必须通过时间 \(t\) 的基本逻辑测试 (Basic @t) 。

条形图显示基本逻辑推理准确率。只有参数大于 6B 或经过指令微调的模型表现良好。

图 3 显示了一个清晰的趋势: 小型预训练模型在基本逻辑上表现糟糕。然而, 指令微调模型 (绿色条形) 和更大的模型 (生成式 API) 表现非常好，准确率通常超过 90%。这证实了现代 LLM 拥有实验所需的基线逻辑能力。

结果 2: 适应失败

一旦研究人员确定大模型可以进行基本逻辑推理，他们就对其进行了信念修正任务测试。他们使用了一个名为 BREU (Belief Revision Evaluation Understudy，信念修正评估替补) 的指标，该指标平均了更新信念 (BU) 和保持信念 (BM) 的准确率。

结果令人震惊。

按 BREU 分数排序的模型图表。即使是最好的模型，在基本准确率 (灰色/蓝色条) 和信念修正能力之间也存在巨大差距。

请看图 4 。明显的彩色条形 (代表修正准确率) 明显低于条形的总高度 (代表基本准确率) 。

差距: 即使是像 GPT-4 Turbo 这样在基本逻辑上表现出色 (接近 100%) 的强大模型，其 BREU 分数也下降到了 50-60% 左右。
随机猜测: 约 50% 的 BREU 分数在二元决策框架中极其接近随机猜测。这表明 LLM 在辨别何时改变主意方面存在严重困难。

结果 3: 权衡

研究人员发现了一种迷人的“反比关系”行为。

擅长更新 (意识到新前提阻碍了结论) 的模型往往变得过于多疑——即使在应该保持信念时，它们也会进行更新。
擅长保持信念 (忽略不相关的替代方案) 的模型往往过于顽固——当阻碍因素被引入时，它们未能进行更新。

目前没有模型能完美平衡这两个对立的认知需求。

结果 4: 提示工程不是灵丹妙药

当前 AI 研究中一个常见的辩护是，“你试过思维链 (Chain-of-Thought, CoT) 提示吗？” (即要求模型“一步一步地思考”) 。

作者尝试了直接提示 (DP) 、思维链 (CoT) 和计划并求解 (PS) 。

跨肯定前件/否定后件、语义领域和提示方法的准确率比较。

图 5(c) (最右侧) 揭示了一个令人失望的现实: 更好的提示方法并没有显着解决这个问题。 虽然 CoT 和 PS 在某些特定配置中有轻微帮助，但它们并没有弥合差距。在某些情况下，如下面的表 A1 所示，复杂的提示实际上损害了性能 (某些模型从 DP 到 PS 分数下降) 。这表明缺陷不仅仅在于“思考得更努力”，而在于这些模型如何表示和更新知识状态的根本差距。

表格显示了不同提示方法在 Llama-3、Mixtral 和 GPT-4 等模型上的具体百分比细分。

为什么会发生这种情况？

论文就为什么信念修正对 LLM 来说如此困难提供了几个见解:

否定后件 (Modus Tollens) 更难: 如图 5(a) 所示，模型在处理否定后件 (因为结果没有发生从而推断原因为假) 时比肯定前件更吃力。这种逆向推理结合信念修正是一种沉重的认知负担。
抽象概念: 图 5(b) 显示，当结果是心理状态而不是物理事件时，模型更有可能“保持” (拒绝更新) 信念。心理状态是抽象的且观察性较差，使得模型在推翻其先前的预测时信心不足。
对噪声的敏感性: 与基线相比，模型在信念保持任务上的表现更差。这意味着仅仅增加任何额外的句子 (即使是不应该改变结果的句子) 也会让模型感到困惑。这种“易分心性”对于经常检索嘈杂文档的检索增强生成 (RAG) 系统来说是一个主要弱点。

结论与启示

Belief-R 和 \(\Delta R\) 框架的引入凸显了当前 AI 评估中的一个关键“盲点”。我们构建了擅长静态推理的模型——即对文本进行快照并回答相关问题。但我们尚未掌握动态推理——构建能够优雅地摄取新的、相互冲突的信息并相应调整其世界观的智能体。

对于学生和未来的研究人员来说，这篇论文开启了一个新的前沿。提高模型在静态基准上的分数可能只是收益递减。真正的挑战在于适应性 : 创建知道何时坚持信念、何时放手的系统。

正如作者总结的那样，迈向可靠的 AI 系统需要我们要解决这种权衡。直到 LLM 能够在复杂、现实的场景中可靠地通过“企鹅翠儿”测试之前，在这个不断变化的世界中，它们仍然是脆弱的推理者。

静态基准测试的问题#

解决方案: Delta 推理 (\(\Delta R\)) 框架#

第一步: 建立先验信念 (时间 \(t\))#

第二步: 引入新证据 (时间 \(t+1\))#

场景 A: 信念更新 (Belief Update, BU) - “附加”条件#

场景 B: 信念保持 (Belief Maintain, BM) - “替代”条件#

挑战#

构建 “Belief-R”: 为动态思维设计的数据集#

实验: LLM 到底有多聪明？#

结果 1: 只有达到此高度才能乘坐#

结果 2: 适应失败#

结果 3: 权衡#

结果 4: 提示工程不是灵丹妙药#

为什么会发生这种情况？#

结论与启示#