理由正当方为正解: 利用非形式逻辑教 AI 像人类一样论证

试想一下,你问一个学生为什么重力能让月球保持在轨道上。如果他们回答: “因为月球是用奶酪做的”,然后莫名其妙地在选择题试卷上圈出了正确答案“重力”,那么虽然他们答对了题,但他们的推理过程却是灾难性的。

在人工智能领域,大型语言模型 (LLMs) 就像那个学生。它们非常擅长选择正确答案,但当被要求展示它们的解题过程——即生成通向该答案的推理链条时——它们往往会产生幻觉,使用无关事实,或者陷入循环论证。

为了让 AI 真正变得可靠,特别是在科学和医学领域,它需要做到理由正当,结果才正确 (right for the right reasons) 。 这引出了一篇引人入胜的论文,题为 “Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic” (利用非形式逻辑增强系统性分解式自然语言推理) 。研究人员解决了 AI 领域的一个巨大瓶颈: 无法可靠地判断一个解释是否真正讲得通。

通过借鉴哲学概念 (特别是非形式逻辑 )并创建一种新的模型训练方法,他们构建了一个系统,不仅能回答问题,还能构建有效的、循序渐进的证明。

问题所在: 推理的黑盒

要理解这篇论文的贡献,我们首先需要了解蕴涵树 (Entailment Trees)

在可解释 AI 中,我们不仅仅想要一个输出;我们想要一个证明。蕴涵树是一种结构化的解释,其中复杂的假设 (结论) 被分解为更简单的原子事实 (前提) 。如果前提为真,并且它们在逻辑上导向结论,那么这个结构就是可靠的。

然而,当前的 AI 模型在分解式文本蕴涵 (Decompositional Textual Entailment) 方面举步维艰。这是一项特定的任务,即审视一个假设,并将其分解为支持它的更小部分。

请看下面的图片,它完美地阐释了这个问题。

图 1: 有效与无效分解及标注协议的比较。

图 1 (上部) 中,我们看到两个试图解释为什么重力能让月球保持在轨道上的尝试。

  1. 分解 1 是符合逻辑的: 它将概念分解为“月球在轨道上运行”和“重力使物体保持在轨道上”。这是一个有效的论证。
  2. 分解 2 是一团糟。它声称“重力导致物体绕轨道运行” (并不总是真的) 和“人在月球上体重更轻” (是真的,但与轨道稳定性问题完全无关) 。

问题在于,标准的 AI 训练数据集将蕴涵视为一个二元开关: 。如图 1 (下部 A) 所示,对于一个混乱的分解是否“足够好”,两位不同的人类标注员可能会有分歧,从而导致数据充满噪声。如果没有关于什么是“好的论证”的清晰定义,模型就无法学会区分逻辑严密的分解和无关紧要的胡扯。

解决方案: 非形式逻辑与 RDTE 协议

研究人员认为,严格的数学逻辑对于自然语言来说过于脆弱,但“凭感觉”的二元标签又过于模糊。中间地带是非形式逻辑 (Informal Logic) ——即研究自然语言中的论证。

他们引入了一种名为 RDTE (识别分解式文本蕴涵) 的新协议。RDTE 不是简单地问“这正确吗?”,而是基于源自非形式逻辑 RAS 标准的特定维度来评估论证:

  1. 相关性 (Relevance) : 前提对结论真的重要吗? (例如,月球的重量与重力相关;月球的颜色则无关) 。
  2. 可接受性/事实性 (Acceptability/Factuality) : 在现实世界的背景下,前提是真的吗?
  3. 充分性 (Sufficiency) : 这些前提结合起来,是否提供了足够的理由来相信结论?
  4. 冗余性 (Redundancy) : (由作者添加) 我们是否只是换个说法重复同样的信息?

超越二元标签

通过使用这四个标准,研究人员从二元标签转变为 5 点序数标度。这允许细微差别的存在。一个分解可能是符合事实但不相关的,或者是相关但不充分的。

图 2: RDTE 数据集中充分性得分的分布。

图 2 展示了他们新数据集中分数的分布。注意这里捕捉到了多少细微差别。如果我们只接受完美的“5/5”分,我们的数据将非常少。通过设定一个阈值 (例如,分数 \(\ge\) 4 被视为有效) ,模型可以学会区分“基本正确”的论证和“完全失败”的论证。

这种多维度的方法使得人类标注员之间的一致性大大提高,因为他们遵循的是严格的评分准则,而不是直觉。

图 5: ARC 中针对特定前提属性的 RDTE 标注指南。

图 5 让我们看到了用于 ARC (科学) 领域的实际指南。注意像冗余性这样的严格定义。如果一个事实只是重述结论,它的冗余性得分为 1。这种粒度使得 AI 能够学会如何推理,而不仅仅是死记硬背答案。

方法: 知识蒸馏

对人类来说,如此详细地标注数据既昂贵又缓慢。对于像 GPT-4 这样的大型模型来说,这也是缓慢的。为了解决这个问题,作者使用了一种称为知识蒸馏 (Knowledge Distillation) 的技术。

流程如下:

  1. 专家 (人类) : 作者创建了一个包含 1,000 个高度精选示例的“金标准”数据集 (RDTE) 。
  2. 教师 (GPT-4) : 他们用严格的 RDTE 指南提示 GPT-4。他们发现,当给出这些具体指令时,GPT-4 是一个出色的推理裁判。他们使用 GPT-4 标注了数万个推理轨迹 (银标准数据) 。
  3. 学生 (RoBERTa / ChatGPT) : 他们采用更小、更快的模型,并在 GPT-4 生成的数据上对其进行训练。

目标是什么?创建一个小巧、快速的模型,使其像 GPT-4 一样擅长判断论证,然后将其用于复杂的推理引擎中,既不会耗尽预算,也不会运行太久。

表 1: 显示蒸馏性能的 RDTE 蕴涵结果。

表 1 展示了这种方法的成功。请看“Knowledge Distillation (知识蒸馏) ”下的底部部分。在 ARC 数据集上, RoBERTa 学生模型 (在银数据上训练) 实际上取得了比教师 GPT-4 (58-59) 更高的 F-score (66) 。

这意味着,在发现糟糕逻辑这一特定任务上,一个在高质量、注重逻辑的数据上训练出来的专用小模型,可以胜过一个庞大的通用模型。

TREEWISE: 推理引擎

有了新的“推理法官” (蒸馏模型) ,作者构建了一个新的推理引擎,名为 TREEWISE (Textual Reasoning Engine with Enriched Ways to Intelligently Search for Entailment,具有丰富智能蕴涵搜索方式的文本推理引擎) 。

TREEWISE 旨在通过构建一个植根于可信语料库 (如维基百科) 的证明树来回答问题。

TREEWISE 如何工作

该引擎使用反向链式 (Backward Chaining) 搜索策略。想象一下从终点反向走到起点的迷宫游戏。

  1. 从假设开始: 引擎查看潜在的答案 (例如,“月球通过重力保持在轨道上”) 。
  2. 分解: 它要求 LLM 将其分解为前提。
  3. 过滤 (关键步骤) : 这是 RDTE 训练模型大显身手的地方。它审视提出的前提。如果它们不相关、冗余或不合逻辑,它会立即将其丢弃。
  4. 接地 (Grounding) : 它检查剩余的前提是否可以在知识库 (维基百科) 中找到。
  5. 递归: 如果一个前提尚未在维基百科中找到,它就成为一个新的子假设,重复上述过程。

图 4: TREEWISE 搜索算法逻辑。

图 4 可视化了这个流程。

  • 自然语言假设 (NL Hypothesis) 位于顶部。
  • 系统生成候选分解 (Candidate Decompositions) (右侧分支) 。
  • 一些分支失败 (红色 X) ,因为逻辑糟糕。
  • 一些分支成功 (绿色对勾) ,并植根于语料库文档 (Corpus Documents) (橙色图标) 。

通过使用 RDTE 模型尽早严格过滤掉糟糕的逻辑,TREEWISE 避免了陷入幻觉推理的“兔子洞”。它节省了计算预算,并产生了一个更清晰的最终树。

结果: 它真的有效吗?

研究人员在 EntailmentBank (科学问题) 和 HotpotQA (多跳推理) 等困难数据集上,将 TREEWISE 与其他生成树的基准模型进行了测试。

他们测量了两件事:

  1. QA 准确率: 它得到的答案对吗?
  2. 树的完整性: 解释在逻辑上真的成立吗? (通过让 GPT-4 为最终的树评分来衡量) 。

表 3: 不同方法在蕴涵任务上的比较。

虽然表 3 侧重于过滤性能,但论文中更广泛的结果证实 TREEWISE 显著优于基准模型

  • 准确率: 它实现了更高的问答准确率,因为它构建了更好的证明。
  • 质量: 它生成的树更加连贯。

让我们看看一棵“好”的树长什么样。

图 15: TREEWISE 对 ARC 科学问题的输出示例。

图 15 展示了 TREEWISE 回答关于相变 (“一个装满水的气球……”) 的科学问题。

  • 图表 A: 注意清晰的逻辑流。
  • *前提: * 水结冰变成固体。
  • *前提: * 水在冰箱里。
  • *结论: * 水的状态发生改变。
  • 系统将这些事实植根于维基百科。它不仅仅是猜测;它构建了一个人类可以验证的结构。

图 16: TREEWISE 对 HotpotQA 的输出示例。

图 16 展示了系统处理 HotpotQA 中的一个复杂历史问题。它成功地将“纽约市消防局长”与“Rhinelander Waldo”联系起来,并将“Providenza Panno 之死”的时间线与“三角女式衬衫厂火灾”联系起来。

  • 这就是多跳推理 (Multi-hop Reasoning) : 连接事实 A 到事实 B 以证明结论 C。
  • 如果没有 RDTE 过滤器,模型可能会产生幻觉建立错误的联系,或使用关于火灾的无关事实。

结论: 为什么这很重要

这篇论文代表了我们处理 AI 推理方式的一个重大成熟。我们正在从“聪明的汉斯 (Clever Hans) ”时代——即模型通过统计模式选择正确答案而显得聪明——迈向负责任推理 (accountable reasoning) 的时代。

主要的收获是:

  1. 逻辑是微妙的: 推理不是非黑即白的。使用非形式逻辑 (相关性、可接受性、充分性) 为 AI 提供了理解论证所需的词汇。
  2. 小模型可以很聪明: 你并不总是需要在推理时使用最大的模型。你可以将巨型模型 (GPT-4) 的推理能力“蒸馏”到一个更小、更高效的过滤器中。
  3. 结构很重要: 像 TREEWISE 这样的系统证明,强制 LLM 展示其工作过程——并逐步对该工作进行评分——可以带来更好的答案,更重要的是,带来我们可以信任的答案。

通过教 AI 不仅知道答案是什么,而且知道什么是好的论证,我们为 AI 智能体在法律、科学和教育领域成为可靠助手铺平了道路。