理由正当方为正解: 利用非形式逻辑教 AI 像人类一样论证

试想一下，你问一个学生为什么重力能让月球保持在轨道上。如果他们回答: “因为月球是用奶酪做的”，然后莫名其妙地在选择题试卷上圈出了正确答案“重力”，那么虽然他们答对了题，但他们的推理过程却是灾难性的。

在人工智能领域，大型语言模型 (LLMs) 就像那个学生。它们非常擅长选择正确答案，但当被要求展示它们的解题过程——即生成通向该答案的推理链条时——它们往往会产生幻觉，使用无关事实，或者陷入循环论证。

为了让 AI 真正变得可靠，特别是在科学和医学领域，它需要做到理由正当，结果才正确 (right for the right reasons) 。这引出了一篇引人入胜的论文，题为 “Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic” (利用非形式逻辑增强系统性分解式自然语言推理) 。研究人员解决了 AI 领域的一个巨大瓶颈: 无法可靠地判断一个解释是否真正讲得通。

通过借鉴哲学概念 (特别是非形式逻辑 )并创建一种新的模型训练方法，他们构建了一个系统，不仅能回答问题，还能构建有效的、循序渐进的证明。

问题所在: 推理的黑盒

要理解这篇论文的贡献，我们首先需要了解蕴涵树 (Entailment Trees) 。

在可解释 AI 中，我们不仅仅想要一个输出；我们想要一个证明。蕴涵树是一种结构化的解释，其中复杂的假设 (结论) 被分解为更简单的原子事实 (前提) 。如果前提为真，并且它们在逻辑上导向结论，那么这个结构就是可靠的。

然而，当前的 AI 模型在分解式文本蕴涵 (Decompositional Textual Entailment) 方面举步维艰。这是一项特定的任务，即审视一个假设，并将其分解为支持它的更小部分。

请看下面的图片，它完美地阐释了这个问题。

图 1: 有效与无效分解及标注协议的比较。

在图 1 (上部) 中，我们看到两个试图解释为什么重力能让月球保持在轨道上的尝试。

分解 1 是符合逻辑的: 它将概念分解为“月球在轨道上运行”和“重力使物体保持在轨道上”。这是一个有效的论证。
分解 2 是一团糟。它声称“重力导致物体绕轨道运行” (并不总是真的) 和“人在月球上体重更轻” (是真的，但与轨道稳定性问题完全无关) 。

问题在于，标准的 AI 训练数据集将蕴涵视为一个二元开关: 是或否。如图 1 (下部 A) 所示，对于一个混乱的分解是否“足够好”，两位不同的人类标注员可能会有分歧，从而导致数据充满噪声。如果没有关于什么是“好的论证”的清晰定义，模型就无法学会区分逻辑严密的分解和无关紧要的胡扯。

解决方案: 非形式逻辑与 RDTE 协议

研究人员认为，严格的数学逻辑对于自然语言来说过于脆弱，但“凭感觉”的二元标签又过于模糊。中间地带是非形式逻辑 (Informal Logic) ——即研究自然语言中的论证。

他们引入了一种名为 RDTE (识别分解式文本蕴涵) 的新协议。RDTE 不是简单地问“这正确吗？”，而是基于源自非形式逻辑 RAS 标准的特定维度来评估论证:

相关性 (Relevance) : 前提对结论真的重要吗？ (例如，月球的重量与重力相关；月球的颜色则无关) 。
可接受性/事实性 (Acceptability/Factuality) : 在现实世界的背景下，前提是真的吗？
充分性 (Sufficiency) : 这些前提结合起来，是否提供了足够的理由来相信结论？
冗余性 (Redundancy) : (由作者添加) 我们是否只是换个说法重复同样的信息？

超越二元标签

通过使用这四个标准，研究人员从二元标签转变为 5 点序数标度。这允许细微差别的存在。一个分解可能是符合事实但不相关的，或者是相关但不充分的。

图 2: RDTE 数据集中充分性得分的分布。

图 2 展示了他们新数据集中分数的分布。注意这里捕捉到了多少细微差别。如果我们只接受完美的“5/5”分，我们的数据将非常少。通过设定一个阈值 (例如，分数 \(\ge\) 4 被视为有效) ，模型可以学会区分“基本正确”的论证和“完全失败”的论证。

这种多维度的方法使得人类标注员之间的一致性大大提高，因为他们遵循的是严格的评分准则，而不是直觉。

图 5: ARC 中针对特定前提属性的 RDTE 标注指南。

图 5 让我们看到了用于 ARC (科学) 领域的实际指南。注意像冗余性这样的严格定义。如果一个事实只是重述结论，它的冗余性得分为 1。这种粒度使得 AI 能够学会如何推理，而不仅仅是死记硬背答案。

方法: 知识蒸馏

对人类来说，如此详细地标注数据既昂贵又缓慢。对于像 GPT-4 这样的大型模型来说，这也是缓慢的。为了解决这个问题，作者使用了一种称为知识蒸馏 (Knowledge Distillation) 的技术。

流程如下:

专家 (人类) : 作者创建了一个包含 1,000 个高度精选示例的“金标准”数据集 (RDTE) 。
教师 (GPT-4) : 他们用严格的 RDTE 指南提示 GPT-4。他们发现，当给出这些具体指令时，GPT-4 是一个出色的推理裁判。他们使用 GPT-4 标注了数万个推理轨迹 (银标准数据) 。
学生 (RoBERTa / ChatGPT) : 他们采用更小、更快的模型，并在 GPT-4 生成的数据上对其进行训练。

目标是什么？创建一个小巧、快速的模型，使其像 GPT-4 一样擅长判断论证，然后将其用于复杂的推理引擎中，既不会耗尽预算，也不会运行太久。

表 1: 显示蒸馏性能的 RDTE 蕴涵结果。

表 1 展示了这种方法的成功。请看“Knowledge Distillation (知识蒸馏) ”下的底部部分。在 ARC 数据集上, RoBERTa 学生模型 (在银数据上训练) 实际上取得了比教师 GPT-4 (58-59) 更高的 F-score (66) 。

这意味着，在发现糟糕逻辑这一特定任务上，一个在高质量、注重逻辑的数据上训练出来的专用小模型，可以胜过一个庞大的通用模型。

TREEWISE: 推理引擎

有了新的“推理法官” (蒸馏模型) ，作者构建了一个新的推理引擎，名为 TREEWISE (Textual Reasoning Engine with Enriched Ways to Intelligently Search for Entailment，具有丰富智能蕴涵搜索方式的文本推理引擎) 。

TREEWISE 旨在通过构建一个植根于可信语料库 (如维基百科) 的证明树来回答问题。

TREEWISE 如何工作

该引擎使用反向链式 (Backward Chaining) 搜索策略。想象一下从终点反向走到起点的迷宫游戏。

从假设开始: 引擎查看潜在的答案 (例如，“月球通过重力保持在轨道上”) 。
分解: 它要求 LLM 将其分解为前提。
过滤 (关键步骤) : 这是 RDTE 训练模型大显身手的地方。它审视提出的前提。如果它们不相关、冗余或不合逻辑，它会立即将其丢弃。
接地 (Grounding) : 它检查剩余的前提是否可以在知识库 (维基百科) 中找到。
递归: 如果一个前提尚未在维基百科中找到，它就成为一个新的子假设，重复上述过程。

图 4: TREEWISE 搜索算法逻辑。

图 4 可视化了这个流程。

自然语言假设 (NL Hypothesis) 位于顶部。
系统生成候选分解 (Candidate Decompositions) (右侧分支) 。
一些分支失败 (红色 X) ，因为逻辑糟糕。
一些分支成功 (绿色对勾) ，并植根于语料库文档 (Corpus Documents) (橙色图标) 。

通过使用 RDTE 模型尽早严格过滤掉糟糕的逻辑，TREEWISE 避免了陷入幻觉推理的“兔子洞”。它节省了计算预算，并产生了一个更清晰的最终树。

结果: 它真的有效吗？

研究人员在 EntailmentBank (科学问题) 和 HotpotQA (多跳推理) 等困难数据集上，将 TREEWISE 与其他生成树的基准模型进行了测试。

他们测量了两件事:

QA 准确率: 它得到的答案对吗？
树的完整性: 解释在逻辑上真的成立吗？ (通过让 GPT-4 为最终的树评分来衡量) 。

表 3: 不同方法在蕴涵任务上的比较。

虽然表 3 侧重于过滤性能，但论文中更广泛的结果证实 TREEWISE 显著优于基准模型 。

准确率: 它实现了更高的问答准确率，因为它构建了更好的证明。
质量: 它生成的树更加连贯。

让我们看看一棵“好”的树长什么样。

图 15: TREEWISE 对 ARC 科学问题的输出示例。

图 15 展示了 TREEWISE 回答关于相变 (“一个装满水的气球……”) 的科学问题。

图表 A: 注意清晰的逻辑流。
*前提: * 水结冰变成固体。
*前提: * 水在冰箱里。
*结论: * 水的状态发生改变。
系统将这些事实植根于维基百科。它不仅仅是猜测；它构建了一个人类可以验证的结构。

图 16: TREEWISE 对 HotpotQA 的输出示例。

图 16 展示了系统处理 HotpotQA 中的一个复杂历史问题。它成功地将“纽约市消防局长”与“Rhinelander Waldo”联系起来，并将“Providenza Panno 之死”的时间线与“三角女式衬衫厂火灾”联系起来。

这就是多跳推理 (Multi-hop Reasoning) : 连接事实 A 到事实 B 以证明结论 C。
如果没有 RDTE 过滤器，模型可能会产生幻觉建立错误的联系，或使用关于火灾的无关事实。

结论: 为什么这很重要

这篇论文代表了我们处理 AI 推理方式的一个重大成熟。我们正在从“聪明的汉斯 (Clever Hans) ”时代——即模型通过统计模式选择正确答案而显得聪明——迈向负责任推理 (accountable reasoning) 的时代。

主要的收获是:

逻辑是微妙的: 推理不是非黑即白的。使用非形式逻辑 (相关性、可接受性、充分性) 为 AI 提供了理解论证所需的词汇。
小模型可以很聪明: 你并不总是需要在推理时使用最大的模型。你可以将巨型模型 (GPT-4) 的推理能力“蒸馏”到一个更小、更高效的过滤器中。
结构很重要: 像 TREEWISE 这样的系统证明，强制 LLM 展示其工作过程——并逐步对该工作进行评分——可以带来更好的答案，更重要的是，带来我们可以信任的答案。

通过教 AI 不仅知道答案是什么，而且知道什么是好的论证，我们为 AI 智能体在法律、科学和教育领域成为可靠助手铺平了道路。

理由正当方为正解: 利用非形式逻辑教 AI 像人类一样论证#

问题所在: 推理的黑盒#

解决方案: 非形式逻辑与 RDTE 协议#

超越二元标签#

方法: 知识蒸馏#

TREEWISE: 推理引擎#

TREEWISE 如何工作#

结果: 它真的有效吗？#

结论: 为什么这很重要#