引言

在人工智能不断演变的版图中，我们经常发现自己需要管理两种截然不同的“大脑”。一方面，我们有 知识图谱 (Knowledge Graphs, KGs) 。它们是将世界映射为实体 (节点) 和关系 (边) 的结构化逻辑数据库。它们精确且基于事实，但往往很脆弱；如果缺少连接，系统就无法看到其中的关系。另一方面，我们有 大型语言模型 (Large Language Models, LLMs) , 如 GPT-4 或 Llama 3。它们拥有广博的通用世界知识，可以生成类似人类的文本，但它们容易产生“幻觉”，且更新或微调的计算成本高昂。

多年来，研究人员一直试图融合这两个世界。特别是在 知识图谱推理 (Knowledge Graph Reasoning, KGR) 领域，目标是预测图中缺失的链接。例如，如果我们知道 史蒂夫·乔布斯创立了苹果公司 且 苹果公司制造了 iPhone，KGR 模型应该能推断出 史蒂夫·乔布斯与 iPhone 有关。

然而，当图谱稀疏或不完整时，传统的 KGR 模型就会陷入困境。最近的趋势是“微调” LLM 以理解图结构，本质上是强迫 LLM 成为图推理器。但这伴随着显著的缺点: 它需要大量的计算资源，而且对于我们无法访问权重的闭源模型 (如 ChatGPT) 来说是不可能的。

今天，我们将深入探讨一篇新的研究论文，该论文提出了一个巧妙的解决方案。研究人员开发了一个三阶段流水线，利用 LLM 的能力来增强知识图谱推理，而 无需任何微调步骤 。通过将 LLM 视为知识顾问而不是可训练的网络，他们在不完整数据集上取得了最先进的结果。

背景: 不完整性问题

在剖析新方法之前，让我们先建立背景。知识图谱以三元组的形式存储事实: (头实体, 关系, 尾实体)。例如: (巴黎, 是_首都_于, 法国)。

传统的 KGR 模型主要分为两大类:

基于嵌入的模型 (如 RotatE) : 这些模型将实体和关系映射到向量空间。它们使用数学运算 (如复空间中的旋转) 来计算连接的可能性。
基于路径的模型 (如 MultiHopKG) : 这些模型使用强化学习在图上“行走”，从一个节点跳到另一个节点以寻找目标。

这两类模型的致命弱点都是 不完整性 。如果 KG 缺失太多的边 (在现实世界数据中几乎总是如此) ，嵌入模型就无法学习准确的表示，基于路径的模型也会走进死胡同。

理论上，LLM 拥有填补这些空白的知识。如果你问 ChatGPT，“巴黎和法国是什么关系？”，它立刻就知道答案。挑战在于如何将这种文本知识整合到 KGR 模型的结构化数学框架中，而无需对 LLM 进行昂贵的微调过程。

核心方法: 三阶段流水线

研究人员提出的流水线充当了 LLM 的文本世界与 KG 的结构化世界之间的桥梁。该过程分为三个不同的阶段: 知识对齐、KG 推理 和 实体重排序 。

图 1: (a) 传统的 KGR 模型在原始 KG 上进行推理，受限于不完整性。(b) 我们提出的无需微调的流水线包含三个步骤: 将 LLM 与 KG 模式对齐 (对齐的边为红色) ，在丰富后的 KG 上进行推理，并利用 LLM 对结果进行重排序。我们的流水线取得了更好的结果。

如图 1 所示，该流水线在执行推理之前将稀疏图转换为丰富的图，然后优化结果。让我们分解每个阶段。

第一阶段: 知识对齐

第一个也是最关键的阶段是 知识对齐 (Knowledge Alignment) 。这里的目标是利用 LLM 为不完整的 KG “填空”。研究人员选取图中当前未连接的实体对，并询问 LLM: “这里是否存在关系？”

然而，LLM 说的是自然语言，而 KG 说的是特定的模式 (预定义的关系) 。为了弥合这一差距，论文介绍了三种不同的策略来从 LLM 中提取知识。

1. 封闭域策略 (Closed Domain Strategy)

在这个策略中，LLM 被限制在知识图谱中已有的特定关系内。它就像一个在做多项选择题的学生。

提供给 LLM 的提示词列出了可用的关系 (模式) ，并要求模型为一对实体选择最合适的拟合。这对于具有具体、定义明确关系的 KG 非常有效，例如关于国家或电影的事实。

图 7: FB15K-237 封闭域知识对齐设置下的提示词。

如图 7 所示 (应用于 FB15K-237 数据集) ，LLM 获得上下文和选项列表 (A 到 K) ，并且必须输出相应的字母。这确保了添加到图中的新边与现有结构完美匹配。

2. 开放域策略 (Open Domain Strategy)

有时，两个实体之间的关系太过微妙，无法通过预定义的选项来概括。在开放域策略中，研究人员移除了限制。他们要求 LLM 用自然语言描述这种关系。

图 6: WN18RR 开放域知识对齐设置下的提示词。

在图 6 中 (应用于 WN18RR 数据集) ，提示词只是简单地问，“…是什么关系？” LLM 会生成一个简短的句子或短语。

这如何在图中使用? 由于“自然语言”不是图关系，研究人员使用一种称为 Word2Vec 的技术将 LLM 的文本答案转换为向量嵌入。当 KGR 模型稍后进行训练时，它使用此向量作为关系边的表示。这使得图能够包含丰富的、细粒度的语义信息，而这仅靠预定义的模式是不可能实现的。

3. 半封闭域策略 (Semi-Closed Domain Strategy)

这个策略试图两全其美。LLM 以开放域格式 (生成自由文本) 被查询，但随后的步骤将该文本映射回 KG 模式中最接近的预定义关系。

他们使用 Sentence-BERT 计算 LLM 输出与有效 KG 关系列表之间的语义相似度。选择具有最高相似度分数的关系。这既保持了图的结构完整性 (像封闭域一样) ，又允许对为何选择该关系进行可解释的分析。

第二阶段: KG 推理

一旦知识对齐阶段完成，我们就不再拥有一个稀疏的、充满漏洞的图。我们拥有了一个 丰富后的 KG , 其中包含原始事实和 LLM 生成的新事实 (或语义向量) 。

现在，流水线引入了标准的、结构感知型 KGR 模型。在本文中，他们使用了:

RotatE: 基于丰富后的结构学习嵌入。
MultiHopKG: 在丰富后的连接上学习推理路径。

由于图现在更密集并且包含了 LLM 提供的“常识”知识，这些传统模型可以学习到更好的实体表示。它们不再是在黑暗中猜测；它们是在一张由专家更新过的地图上进行推理。

第三阶段: 实体重排序

KGR 模型运行后，它会输出查询的潜在答案列表，并按概率排序。例如，对于查询 (史蒂夫·乔布斯, 创立了, ?)，KGR 模型可能会输出:

微软 (得分: 0.9)
苹果 (得分: 0.8)
NeXT (得分: 0.7)

结构模型有时会被相似的图模式混淆 (史蒂夫·乔布斯和比尔·盖茨在图中看起来结构相似) 。这就是 LLM 再次介入进行最终质量检查的地方。

流水线获取 KGR 模型提出的前 K 个候选者 (例如前 10 或 20 个) ，并将它们反馈给 LLM。

图 9: 针对 WN18RR 的 LLM 重排序提示词。图 10: 针对 FB15K237 的 LLM 重排序提示词。

如图 9 所示，提示词扮演了“语言学专家”或逻辑检查器的角色。它要求 LLM 根据其内部的世界知识重新排序候选列表。LLM 可能会识别出，虽然微软在结构上是可能的，但“苹果”才是“创立了”这一关系的正确答案。这个重排序步骤显著提高了最终预测的精度 (Hits@1) 。

实验与结果

为了验证该流水线，研究人员在两个标准数据集上进行了测试:

WN18RR: 基于 WordNet，专注于语言关系 (例如，上位词、同义词) 。
FB15K-237: 基于 Freebase，专注于现实世界事实 (例如，电影、体育、地理) 。

至关重要的是，他们创建了这些数据集的 稀疏版本 (仅保留 10%、40% 或 70% 的数据) 来模拟“不完整 KG”的问题。

性能分析

结果表明，该流水线始终优于基线，包括以零样本 (zero-shot) 能力使用的 LLM 和独立的标准 KGR 模型。

表 2: 我们的流水线在 WN18RR 最佳设置下的总体结果。最好的结果加粗显示。

在表 2 (WN18RR 的结果) 中，我们可以看到改进的进程。

RotatE (基线): 在低稀疏度 (10%) 下表现挣扎。
对齐 + 推理: MRR (平均倒数排名) 显著提升。
对齐 + 推理 + 重排序: 完整的流水线取得了全面的最佳性能。

数据证实，LLM 的输入 (对齐) 和输出 (重排序) 干预都是有价值的。

对齐的准确性

人们可能会想: “如果 LLM 添加了错误的边怎么办？” 研究人员分析了 LLM 在对齐阶段生成的边的准确性。

图 2: ChatGPT 在两个数据集不同稀疏度水平下的三种对齐策略中正确输出实体间关系的准确率。

图 2 揭示了一个有趣的差异:

左侧 (WN18RR): 开放域 策略 (绿色柱) 通常表现最好。由于 WordNet 关系是抽象的 (语言概念) ，自由文本的灵活性使得 LLM 比僵化的类别更能捕捉细微差别。
右侧 (FB15K-237): 封闭域 策略 (蓝色柱) 更优。Freebase 关系是具体的事实 (例如，特定的电影类型) 。当被迫从特定选项列表中进行选择时，LLM 的表现更好。

知识稳定性

向图中注入外部知识时的一个主要担忧是“知识稳定性” (Knowledge Stability, KS) 。添加新边是否会混淆模型对它已经知道的事实的认知？

图 3: 对齐边的数量对三种知识对齐策略稳定性的影响。

\[ K S @ k = \frac { \sum r a n k \left( A l i g n m e n t , R e a s o n i n g \right) \leq k } { \sum r a n k \left( R e a s o n i n g \right) \leq k } , \]

研究人员将稳定性 (KS@k) 定义为在对齐之后正确预测的实体与之前相比的比率。

图 3 显示了稳定性趋势。 封闭域 和 半封闭域 策略 (遵循模式) 保持高度稳定 (接近 1.0) ，这意味着它们没有破坏现有的知识。 开放域 策略随着更多边的添加显示出轻微的稳定性下降。这是合理的: 开放域引入了新的词汇和语义，这有效地稀释了原始图结构，需要模型进行更大幅度的适应。

可视化语义

最后，为了证明开放域策略实际上是在学习有意义的概念，研究人员可视化了由 RotatE 模型训练的嵌入。

图 4: WN18RR 中预定义关系的位置与 ChatGPT 在开放域对齐策略中生成的关键词在嵌入空间中的位置。我们可以看到预定义关系具有重叠且更微妙的语义，LLM 意识到了这一点。

图 4 展示了嵌入空间。红星代表原始 KG 中的预定义关系。蓝点是 LLM 在开放域策略中生成的关键词。

你可以看到，LLM 生成的术语紧密聚集在相关的预定义关系周围。例如，“derived from (派生自) ”、“cause (导致) ”和“form (形式) ”等术语聚集在派生关系附近。这证明即使没有被告知模式，LLM 生成的语义概念在数学上也与图的基本真值保持一致。

结论与启示

这项研究为知识图谱推理迈出了令人信服的一步。通过接受微调大型 LLM 通常不切实际这一事实，作者设计了一个模块化流水线，将 LLM 视为“即插即用”的知识增强器。

主要结论:

无需微调: 该方法通过简单的 API 调用即可适用于 ChatGPT 等闭源模型。
通用性: 三种对齐策略 (封闭、开放、半封闭) 允许流水线适应不同类型的数据——具体事实倾向于封闭域，而抽象概念倾向于开放域。
全面改进: 在训练之前改进图 (对齐) 并在训练之后过滤结果 (重排序) 产生了最佳性能。

对于学生和从业者来说，这突显了 AI 领域的一个重要趋势: 我们并不总是需要重新训练巨型模型来解决特定问题。有时，关于我们如何与这些模型交互的巧妙工程——引导它们的输入并策划它们的输出——可以以一小部分计算成本产生最先进的结果。这种结合结构化逻辑 (KGs) 与概率知识 (LLMs) 的“混合”方法很可能是鲁棒 AI 推理的未来。

引言#

背景: 不完整性问题#

核心方法: 三阶段流水线#

第一阶段: 知识对齐#

1. 封闭域策略 (Closed Domain Strategy)#

2. 开放域策略 (Open Domain Strategy)#

3. 半封闭域策略 (Semi-Closed Domain Strategy)#

第二阶段: KG 推理#

第三阶段: 实体重排序#

实验与结果#

性能分析#

对齐的准确性#

知识稳定性#

可视化语义#

结论与启示#

引言