像 GPT-4 这样的大型语言模型 (LLM) 令人印象深刻。它们可以写诗、调试代码并总结历史。但是,如果你曾将其用于研究或关键决策,你可能知道它们的阿喀琉斯之踵: 幻觉 (hallucination) 。 它们在完全错误的同时,听起来却充满自信。
当我们从“主流”知识 (如“谁是美国总统?”) 转向“长尾”知识 (冷门事实、近期事件或特定的数据库条目) 时,这个问题变得更加尖锐。
研究人员试图通过将 LLM 连接到知识图谱 (KGs) ——即存储事实的结构化数据库——来解决这个问题。这个领域被称为知识图谱问答 (KGQA) 。 虽然这对于简单的琐事很有效,但当问题需要结合事实进行常识推理时,这种方法往往会失效。
在这篇文章中,我们将深入探讨一篇题为 “Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering” 的精彩论文。研究人员引入了一个名为 \(R^3\) (Right for Right Reasons) 的框架。这是一种旨在强迫 LLM 首先解释其逻辑,然后使用确凿数据证明其答案的方法,从而使推理过程可验证并显著减少幻觉。
问题所在: 当事实不够用时
要理解为什么 \(R^3\) 是必要的,我们需要区分两种类型的问题: 事实型 (Factoid) 和常识型 (Commonsense) 。
- 事实型问题: “西尔维奥·贝卢斯科尼的第一任妻子出生在哪个城市?”
- 这是一个查找任务。如果你的数据库 (知识图谱) 中有链接
(西尔维奥·贝卢斯科尼) -> (配偶) -> (某人A)和(某人A) -> (出生地) -> (城市B),你就可以回答它。
- 常识型问题: “今年夏天去看法尔兹的维纳斯 (Venus of Willendorf) 和参加奥运会需要单独的签证吗?”
- 简单的数据库查找在这里会失败。知识图谱 (KG) 没有一个三元组会说
(维纳斯雕像, 签证关系, 奥运会)。 - 要回答这个问题,你需要事实 (维纳斯雕像在哪里?奥运会在哪里?) 以及常识 (如果两个地点都在申根区,我需要两个签证吗?) 。
目前的基于 LLM 的方法在这里很难奏效。如果你直接问 LLM,它可能会产生幻觉,说维纳斯雕像在另一个国家,或者可能会应用错误的签证规则。它就像一个“黑盒”——你得到了一个答案,但无法验证其背后的逻辑是否站得住脚。
解决方案: \(R^3\) 框架
Right for Right Reasons (\(R^3\)) 背后的核心思想简单而强大: 不要让 LLM 瞎猜。 相反,强迫它:
- 陈述它认为适用于该情况的一般“规则” (公理) 。
- 进入数据库 (KG) 并寻找具体的证据来支持该规则。
- 如果缺少证据,弄清楚到底缺少什么并去寻找它。
这将 QA 过程变成了一个可验证的树搜索。让我们分解一下其架构。
工作流程概览
下图展示了 \(R^3\) 的流程。它从一个问题开始,提取实体,然后进入推理循环。

如图 1 所示,系统不只是直接跳到答案。它将问题拆分为多个分支。在提供的例子中 (“我需要单独的签证吗……?”) ,系统探索不同的推理路径 (公理) 。一条路径可能会检查特定的签证是否涵盖这两个活动。另一条路径检查东道国是否有开放的边界 (申根区) 。只有当系统在知识图谱中找到满足这些逻辑路径之一的确凿事实时,它才会“成功”。
让我们逐步了解实现这一点的具体步骤。
第 1 步: 获取正确的实体
在推理之前,我们需要知道我们在谈论什么。标准的“实体链接器” (在文本中查找关键字并将其与数据库 ID 匹配的工具) 在处理模糊或复杂的查询时经常失败。
\(R^3\) 使用了一种混合方法。它结合了传统的实体链接器和 LLM 本身。系统要求 LLM 识别链接器可能错过的相关实体。

这个公式仅仅意味着实体集合 (\(\mathcal{E}^q\)) 是标准工具发现的结果 (\(\text{EL}\)) 和 LLM 识别的结果 (\(\text{LLM}_E\)) 的组合 (\(\cup\))。一旦找到实体,系统就会从知识图谱中提取“一跳邻域” (所有直接连接) 。

这为我们提供了与问题相关的“原始事实堆” (\(\mathcal{K}^q\))。
第 2 步: 挖掘常识公理
这是论文中最具创新性的部分。大多数系统让 LLM 在其隐藏层内进行隐式推理。\(R^3\) 强迫 LLM 输出一个常识公理 (Commonsense Axiom) 。
公理是一个逻辑模板,它说: “如果条件 X、Y 和 Z 为真,那么答案是 A。”
例如,对于关于意大利政治家 Virginia Raggi 要求举办 quinceañera (成人礼) 的问题:
- 公理: “如果 Virginia Raggi 是来自拉丁美洲的女孩,且她的年龄接近 15 岁,那么这是合理的。”
系统将其形式化为一个看起来像一阶逻辑的结构:

这里,\(P_i\) 代表谓词 (如“是女孩”的属性) ,\(F_i\) 代表函数 (如年龄比较) 。通过让 LLM 明确写下这一点,我们可以检查它的工作。如果 LLM 有错误的假设 (例如,认为 quinceañera 是为 30 岁的人举办的) ,我们可以立即在公理中看到这个错误。
第 3 步: 子图剪枝
我们在第 1 步中提取的原始子图可能包含数百个不相关的事实 (例如,政治家的鞋码) 。将所有这些都喂给 LLM 可能会让它感到困惑或超出其上下文窗口。
\(R^3\) 使用“子图剪枝” (SGP) 模块。它寻找与第 2 步中生成的公理在语义上相似的事实。

它根据向量相似度 (\(sim\)) 保留前 k 个事实,并要求 LLM 挑选出任何其他相关事实 (\(\text{LLM}_T\)) 。这确保了我们拥有一组干净、集中的证据。
第 4 步: 基于事实的答案选择
现在系统尝试让公理“落地”。它对照公理中的条件检查知识图谱的事实。
- *公理条件: * “Virginia Raggi 来自拉丁美洲吗?”
- *KG 事实: *
(Virginia Raggi, 出生地, 罗马, 意大利)
系统比较这两者。由于罗马不在拉丁美洲,前提不成立。答案严格源于这种比较。

答案可以是“是”、“否”,或者重要的是, “我不知道。” 如果事实不存在,系统会承认无知,而不是产生幻觉。
第 5 步: 迭代式多跳推理
如果答案是“我不知道”,这通常意味着我们在链条中缺少一个环节。也许我们需要知道“意大利”在哪个洲。
\(R^3\) 采用“缺失证据识别” (MEI) 模块。它查看未满足的条件,并找出需要搜索的新实体。然后它扩展图谱并重复该过程。

这创建了一个可验证的循环。系统在常识公理的指导下从一个实体跳到另一个实体,直到它证明/反驳该主张或用尽步数。
实验结果
研究人员将 \(R^3\) 与几个强基线模型进行了测试,包括 KAPING (一种检索增强生成模型) 、KGR (将主张改装到 KG) 以及使用 GPT-3.5 的标准思维链 (CoT) 提示。
他们使用了三个不同的任务来评估性能:
- 问答 (Question Answering) : 是/否问题。
- 主张验证 (Claim Verification) : 检查陈述是否为真。
- 偏好匹配 (Preference Matching) : 个性化推荐任务。
“长尾”压力测试
这就论文的一个关键贡献是他们如何对模型进行压力测试。他们采用了标准数据集 (如 StrategyQA 和 Creak) 并对其进行了修改。他们将著名实体换成了模糊的、“长尾”实体。
例如,他们可能不问亚伯拉罕·林肯,而是问一个次要的历史人物。

这种修改 (表 3) 至关重要,因为 LLM 经常在预训练期间记住关于著名人物 (林肯) 的事实,掩盖了它们实际上无法使用知识图谱进行推理的事实。通过使用模糊实体,研究人员强迫模型依赖所提供的数据。
准确性和幻觉
结果令人信服。下面的表 2 显示了问答和主张验证的比较结果。

数据的主要结论:
- FActScore (事实精确度) : 查看 FActScore 列。\(R^3\) 获得了近乎完美的分数 (0.97 - 0.98) ,明显高于基线 (徘徊在 0.60 - 0.70 左右) 。这意味着 \(R^3\) 几乎从不对事实产生幻觉。
- 长尾鲁棒性: 当从“原始” (著名) 查询转向“长尾” (模糊) 查询时,标准 CoT (思维链) 的性能急剧下降。然而,\(R^3\) 保持了其高准确性。这证明 \(R^3\) 实际上是在阅读知识图谱,而其他模型很大程度上依赖于死记硬背。
- 推理得分: 人类评估员发现,\(R^3\) 的推理步骤比竞争对手更符合逻辑且更忠实于数据。
个性化偏好匹配
团队还在“偏好匹配”任务上测试了 \(R^3\)——想象一下用户要求一个符合其口味但不违反存储在个人知识图谱中的特定医疗过敏史的食谱。

如表 4 所示,\(R^3\) 达到了 57% 的准确率 , 而 KAPING 仅为 44% 。 更能说明问题的是“理由的准确性”——\(R^3\) 在 70% 的情况下提供了正确的理由,而 KAPING 只有 31.8% 的情况是有意义的。这凸显了显式公理生成的价值。
为什么每个组件都很重要
研究人员并没有止步于最终结果;他们分析了为什么它有效。他们进行了消融研究 (移除系统的部分组件以查看什么会崩溃) 。
1. 实体提取: 他们发现仅使用标准实体链接器或仅使用 LLM 是不够的。\(R^3\) 中使用的组合 (并集) 确保了他们不会错过搜索的起点。

2. 迭代的力量: 树搜索真的有帮助吗?下表显示了随着搜索深度增加的准确性。

在深度 0 (无多跳搜索) 时,准确性很差。随着允许模型“跳跃” (深度 1 和 2) ,准确性显著提高。这证实了迭代的“缺失证据识别”对于复杂问题至关重要。
3. 剪枝: 最后,他们表明智能剪枝 (语义相似度) 比仅仅截断文本要好。如果你盲目地切断事实以适应上下文窗口,你就会失去答案。

结论: 弥合差距
“Right for Right Reasons” (\(R^3\)) 框架代表了使人工智能变得可靠的重要一步。通过结合知识图谱的结构化、事实性质与 LLM 灵活的常识推理能力,我们获得了两全其美的效果。
\(R^3\) 的可验证性是其最强的资产。在医疗保健、法律或金融等领域,我们无法承受黑盒猜测。我们需要系统能够说: “我认为答案是肯定的,因为规则 X 适用,并且我在数据库中找到了事实 Y 来证明这一点。”
虽然 \(R^3\) 比简单的提示词计算量更大 (由于迭代搜索和多次 LLM 调用) ,但它为鲁棒人工智能的未来提供了一个蓝图: 系统不仅知道答案,而且理解答案为什么是这样。
](https://deep-paper.org/en/paper/2403.01390/images/cover.png)