引言
在人工智能不断演变的版图中,我们经常发现自己需要管理两种截然不同的“大脑”。一方面,我们有 知识图谱 (Knowledge Graphs, KGs) 。 它们是将世界映射为实体 (节点) 和关系 (边) 的结构化逻辑数据库。它们精确且基于事实,但往往很脆弱;如果缺少连接,系统就无法看到其中的关系。另一方面,我们有 大型语言模型 (Large Language Models, LLMs) , 如 GPT-4 或 Llama 3。它们拥有广博的通用世界知识,可以生成类似人类的文本,但它们容易产生“幻觉”,且更新或微调的计算成本高昂。
多年来,研究人员一直试图融合这两个世界。特别是在 知识图谱推理 (Knowledge Graph Reasoning, KGR) 领域,目标是预测图中缺失的链接。例如,如果我们知道 史蒂夫·乔布斯创立了苹果公司 且 苹果公司制造了 iPhone,KGR 模型应该能推断出 史蒂夫·乔布斯与 iPhone 有关。
然而,当图谱稀疏或不完整时,传统的 KGR 模型就会陷入困境。最近的趋势是“微调” LLM 以理解图结构,本质上是强迫 LLM 成为图推理器。但这伴随着显著的缺点: 它需要大量的计算资源,而且对于我们无法访问权重的闭源模型 (如 ChatGPT) 来说是不可能的。
今天,我们将深入探讨一篇新的研究论文,该论文提出了一个巧妙的解决方案。研究人员开发了一个三阶段流水线,利用 LLM 的能力来增强知识图谱推理,而 无需任何微调步骤 。 通过将 LLM 视为知识顾问而不是可训练的网络,他们在不完整数据集上取得了最先进的结果。
背景: 不完整性问题
在剖析新方法之前,让我们先建立背景。知识图谱以三元组的形式存储事实: (头实体, 关系, 尾实体)。例如: (巴黎, 是_首都_于, 法国)。
传统的 KGR 模型主要分为两大类:
- 基于嵌入的模型 (如 RotatE) : 这些模型将实体和关系映射到向量空间。它们使用数学运算 (如复空间中的旋转) 来计算连接的可能性。
- 基于路径的模型 (如 MultiHopKG) : 这些模型使用强化学习在图上“行走”,从一个节点跳到另一个节点以寻找目标。
这两类模型的致命弱点都是 不完整性 。 如果 KG 缺失太多的边 (在现实世界数据中几乎总是如此) ,嵌入模型就无法学习准确的表示,基于路径的模型也会走进死胡同。
理论上,LLM 拥有填补这些空白的知识。如果你问 ChatGPT,“巴黎和法国是什么关系?”,它立刻就知道答案。挑战在于如何将这种文本知识整合到 KGR 模型的结构化数学框架中,而无需对 LLM 进行昂贵的微调过程。
核心方法: 三阶段流水线
研究人员提出的流水线充当了 LLM 的文本世界与 KG 的结构化世界之间的桥梁。该过程分为三个不同的阶段: 知识对齐、KG 推理 和 实体重排序 。

如图 1 所示,该流水线在执行推理之前将稀疏图转换为丰富的图,然后优化结果。让我们分解每个阶段。
第一阶段: 知识对齐
第一个也是最关键的阶段是 知识对齐 (Knowledge Alignment) 。 这里的目标是利用 LLM 为不完整的 KG “填空”。研究人员选取图中当前未连接的实体对,并询问 LLM: “这里是否存在关系?”
然而,LLM 说的是自然语言,而 KG 说的是特定的模式 (预定义的关系) 。为了弥合这一差距,论文介绍了三种不同的策略来从 LLM 中提取知识。
1. 封闭域策略 (Closed Domain Strategy)
在这个策略中,LLM 被限制在知识图谱中已有的特定关系内。它就像一个在做多项选择题的学生。
提供给 LLM 的提示词列出了可用的关系 (模式) ,并要求模型为一对实体选择最合适的拟合。这对于具有具体、定义明确关系的 KG 非常有效,例如关于国家或电影的事实。

如图 7 所示 (应用于 FB15K-237 数据集) ,LLM 获得上下文和选项列表 (A 到 K) ,并且必须输出相应的字母。这确保了添加到图中的新边与现有结构完美匹配。
2. 开放域策略 (Open Domain Strategy)
有时,两个实体之间的关系太过微妙,无法通过预定义的选项来概括。在开放域策略中,研究人员移除了限制。他们要求 LLM 用自然语言描述这种关系。

在图 6 中 (应用于 WN18RR 数据集) ,提示词只是简单地问,“…是什么关系?” LLM 会生成一个简短的句子或短语。
这如何在图中使用? 由于“自然语言”不是图关系,研究人员使用一种称为 Word2Vec 的技术将 LLM 的文本答案转换为向量嵌入。当 KGR 模型稍后进行训练时,它使用此向量作为关系边的表示。这使得图能够包含丰富的、细粒度的语义信息,而这仅靠预定义的模式是不可能实现的。
3. 半封闭域策略 (Semi-Closed Domain Strategy)
这个策略试图两全其美。LLM 以开放域格式 (生成自由文本) 被查询,但随后的步骤将该文本映射回 KG 模式中最接近的预定义关系。
他们使用 Sentence-BERT 计算 LLM 输出与有效 KG 关系列表之间的语义相似度。选择具有最高相似度分数的关系。这既保持了图的结构完整性 (像封闭域一样) ,又允许对为何选择该关系进行可解释的分析。
第二阶段: KG 推理
一旦知识对齐阶段完成,我们就不再拥有一个稀疏的、充满漏洞的图。我们拥有了一个 丰富后的 KG , 其中包含原始事实和 LLM 生成的新事实 (或语义向量) 。
现在,流水线引入了标准的、结构感知型 KGR 模型。在本文中,他们使用了:
- RotatE: 基于丰富后的结构学习嵌入。
- MultiHopKG: 在丰富后的连接上学习推理路径。
由于图现在更密集并且包含了 LLM 提供的“常识”知识,这些传统模型可以学习到更好的实体表示。它们不再是在黑暗中猜测;它们是在一张由专家更新过的地图上进行推理。
第三阶段: 实体重排序
KGR 模型运行后,它会输出查询的潜在答案列表,并按概率排序。例如,对于查询 (史蒂夫·乔布斯, 创立了, ?),KGR 模型可能会输出:
- 微软 (得分: 0.9)
- 苹果 (得分: 0.8)
- NeXT (得分: 0.7)
结构模型有时会被相似的图模式混淆 (史蒂夫·乔布斯和比尔·盖茨在图中看起来结构相似) 。这就是 LLM 再次介入进行最终质量检查的地方。
流水线获取 KGR 模型提出的前 K 个候选者 (例如前 10 或 20 个) ,并将它们反馈给 LLM。

如图 9 所示,提示词扮演了“语言学专家”或逻辑检查器的角色。它要求 LLM 根据其内部的世界知识重新排序候选列表。LLM 可能会识别出,虽然微软在结构上是可能的,但“苹果”才是“创立了”这一关系的正确答案。这个重排序步骤显著提高了最终预测的精度 (Hits@1) 。
实验与结果
为了验证该流水线,研究人员在两个标准数据集上进行了测试:
- WN18RR: 基于 WordNet,专注于语言关系 (例如,上位词、同义词) 。
- FB15K-237: 基于 Freebase,专注于现实世界事实 (例如,电影、体育、地理) 。
至关重要的是,他们创建了这些数据集的 稀疏版本 (仅保留 10%、40% 或 70% 的数据) 来模拟“不完整 KG”的问题。
性能分析
结果表明,该流水线始终优于基线,包括以零样本 (zero-shot) 能力使用的 LLM 和独立的标准 KGR 模型。

在表 2 (WN18RR 的结果) 中,我们可以看到改进的进程。
- RotatE (基线): 在低稀疏度 (10%) 下表现挣扎。
- 对齐 + 推理: MRR (平均倒数排名) 显著提升。
- 对齐 + 推理 + 重排序: 完整的流水线取得了全面的最佳性能。
数据证实,LLM 的 输入 (对齐) 和 输出 (重排序) 干预都是有价值的。
对齐的准确性
人们可能会想: “如果 LLM 添加了错误的边怎么办?” 研究人员分析了 LLM 在对齐阶段生成的边的准确性。

图 2 揭示了一个有趣的差异:
- 左侧 (WN18RR): 开放域 策略 (绿色柱) 通常表现最好。由于 WordNet 关系是抽象的 (语言概念) ,自由文本的灵活性使得 LLM 比僵化的类别更能捕捉细微差别。
- 右侧 (FB15K-237): 封闭域 策略 (蓝色柱) 更优。Freebase 关系是具体的事实 (例如,特定的电影类型) 。当被迫从特定选项列表中进行选择时,LLM 的表现更好。
知识稳定性
向图中注入外部知识时的一个主要担忧是“知识稳定性” (Knowledge Stability, KS) 。添加新边是否会混淆模型对它 已经 知道的事实的认知?

研究人员将稳定性 (KS@k) 定义为在对齐 之后 正确预测的实体与 之前 相比的比率。
图 3 显示了稳定性趋势。 封闭域 和 半封闭域 策略 (遵循模式) 保持高度稳定 (接近 1.0) ,这意味着它们没有破坏现有的知识。 开放域 策略随着更多边的添加显示出轻微的稳定性下降。这是合理的: 开放域引入了新的词汇和语义,这有效地稀释了原始图结构,需要模型进行更大幅度的适应。
可视化语义
最后,为了证明开放域策略实际上是在学习有意义的概念,研究人员可视化了由 RotatE 模型训练的嵌入。

图 4 展示了嵌入空间。红星代表原始 KG 中的预定义关系。蓝点是 LLM 在开放域策略中生成的关键词。
你可以看到,LLM 生成的术语紧密聚集在相关的预定义关系周围。例如,“derived from (派生自) ”、“cause (导致) ”和“form (形式) ”等术语聚集在派生关系附近。这证明即使没有被告知模式,LLM 生成的语义概念在数学上也与图的基本真值保持一致。
结论与启示
这项研究为知识图谱推理迈出了令人信服的一步。通过接受微调大型 LLM 通常不切实际这一事实,作者设计了一个模块化流水线,将 LLM 视为“即插即用”的知识增强器。
主要结论:
- 无需微调: 该方法通过简单的 API 调用即可适用于 ChatGPT 等闭源模型。
- 通用性: 三种对齐策略 (封闭、开放、半封闭) 允许流水线适应不同类型的数据——具体事实倾向于封闭域,而抽象概念倾向于开放域。
- 全面改进: 在训练 之前 改进图 (对齐) 并在训练 之后 过滤结果 (重排序) 产生了最佳性能。
对于学生和从业者来说,这突显了 AI 领域的一个重要趋势: 我们并不总是需要重新训练巨型模型来解决特定问题。有时,关于我们 如何 与这些模型交互的巧妙工程——引导它们的输入并策划它们的输出——可以以一小部分计算成本产生最先进的结果。这种结合结构化逻辑 (KGs) 与概率知识 (LLMs) 的“混合”方法很可能是鲁棒 AI 推理的未来。
](https://deep-paper.org/en/paper/file-2675/images/cover.png)