引言

想象一下教计算机“雨伞是用来挡雨的”。对人类来说，这显而易见——这是常识。但对计算机来说，这种关系必须被明确教授或推断出来。我们通常将这类信息存储在常识知识图谱 (Commonsense Knowledge Graphs, CKGs) 中，它将数据结构化为类似 (雨伞, UsedFor, 雨) 的三元组。

虽然这些图谱功能强大，但它们本质上是不完整的。潜在的常识事实数以百万计，手动对它们进行编目是不可能的。这就引出了常识知识图谱补全 (Commonsense Knowledge Graph Completion, CKGC) 的挑战: 给定一个头实体和一个关系 (例如 俄勒冈州, AtLocation, ?) ，模型能否预测出缺失的尾实体 (美国) ？

传统方法往往在处理“长尾”实体 (即在数据图中出现频率很低的概念) 时举步维艰。最近，研究人员转向了像 BERT 或 GPT 这样的预训练语言模型 (PLMs) ，因为它们从训练数据中拥有大量的隐式知识。然而，要有效地提取这些知识，通常需要手动编写“提示 (prompts) ” (例如“俄勒冈州位于_____”这样的句子) ，这种方法既僵化、耗时，又往往不是最优的。

在这篇文章中，我们将深入探讨 ATAP (通过预训练语言模型实现的自动模板增强常识知识图谱补全) 。这个新颖的框架通过学习“连续”向量模板来自动生成提示，而不是使用单词。ATAP 通过结合知识图谱的结构化逻辑和语言模型的灵活推理能力，在无需人工设计句子的情况下取得了最先进的结果。

背景: 知识补全的演变

要理解为什么需要 ATAP，我们首先需要看看机器过去是如何处理知识图谱补全的。

基于三元组的方法

早期的方法将知识图谱严格视为几何结构。像 TransE 或 RotatE 这样的模型将实体 (节点) 和关系 (边) 映射到向量空间。如果 国王 - 男人 + 女人 = 女王，则模型理解了这种关系。

局限性: 这些模型完全依赖于图结构。如果一个实体 (如一种稀有的水果或特定的事件) 在图中只出现一两次 (“长尾”问题) ，模型几乎没有任何信息可供使用，导致预测效果差。

基于文本的方法与提示 (Prompting)

随着 PLM 的兴起，研究人员意识到可以将实体视为文本。不仅仅是一个节点 ID，“苹果”变成了一个富含语义的词嵌入。这使得模型能够更好地泛化到未见过或稀有的实体。

利用 PLM 的标准方法是通过提示 (Prompting) 。你将一个三元组 (头实体, 关系, 尾实体) 转换为一个带有掩码 (mask) 的自然语言句子。

人工模板: 人类编写“头实体位于 [MASK]。”
离散模板: 算法搜索具体的最佳单词来构成问题。

然而，这两种方法都有缺陷。人工模板是劳动密集型的，并且可能无法激发模型的最佳性能。离散模板则受限于人类语言的词汇量。

ATAP 解决方案: 连续模板

ATAP 引入了第三种范式。它不再搜索单词，而是搜索连续向量 。

人工模板、离散模板和连续模板的比较。人工模板使用固定的词语；离散模板搜索最佳词语；连续模板使用可学习的伪标签。

如图 1 所示，连续模板使用伪标记 (\(p_1, \dots, p_k\)) 。这些不对应于像 “the” 或 “is” 这样的英语单词；它们是专门优化过的数学向量，用于引导 PLM 找到正确答案。这使得模型能够在连续的数学空间中找到“最优”提示，这比人类词汇的离散空间要灵活得多。

ATAP: 核心方法

ATAP 框架旨在弥合 CKG 中的结构化信息与 PLM 的语义能力之间的鸿沟。该架构包含两个主要模块: 连续提示自动生成 (CPAG) 和预测。

让我们直观地分解一下这个架构:

ATAP 架构。它展示了从 CKG 三元组处理，到使用 RNN 编码器进行连续提示训练，再到最终预测任务的流程。

如图 2 所示，该过程从原始三元组开始，以一个能够填补空白的训练好的模型结束。

1. CKG 三元组处理

第一个挑战是处理各种各样的关系。适用于 IsA (例如，“狗是一种动物”) 的提示并不适用于 AtLocation (例如，“巴黎位于法国”) 。

ATAP 通过根据关系对三元组进行分组来解决这个问题。如果一个数据集有 \(N\) 种关系，训练数据 \(\mathcal{T}\) 被分成多个子集:

公式 1: 根据关系将三元组分类为子集。

对于每一个关系 \(r\)，模型将学习一个独特的、专门的提示模板。

一旦分组完成，三元组的头实体 (\(h\)) 和尾实体 (\(t\)) 将使用 PLM 的分词器 (如 BERT 的分词器) 进行分词。这将文本字符串转换为 ID 序列:

公式 2 和 3: 对头实体和尾实体进行分词。

然后将这些 ID 传入 PLM 以获取它们的初始向量嵌入:

公式 4 和 5: 获取头实体和尾实体的嵌入。

2. 连续提示训练

这是 ATAP 最具创新性的部分。目标是创建一个包裹在头实体周围的模板来预测尾实体。

伪标签 (Pseudo-Labels) 和伪标记 (Pseudo-Marks)

ATAP 不是使用固定的单词，而是初始化一系列随机的可训练向量，称为伪标签 (\(p_i\)) 。然而，仅仅拥有随机向量是不够的；语言具有结构和顺序。为了模拟这种顺序依赖性，ATAP 将这些伪标签输入到一个提示编码器 (Prompt Encoder) 中。

作者使用双向 RNN (循环神经网络) 作为编码器。这确保了每个提示标记的表示都考虑了其上下文 (它前后的标记) 。

为了进一步细化这些表示并防止模型陷入局部最优 (离散类数据的常见问题) ，输出通过一个多层感知机 (MLP) 进行处理。最终的输出向量被称为伪标记 (\(v_i\)) 。

公式 7: 使用 MLP 和双向 RNN 计算伪标记。

构建模板

现在，模型构建 PLM 的最终输入。它将学习到的伪标记 (\(v\)) 、头实体的嵌入 (\(\mathbf{E}_h\)) 和 [MASK] 标记的嵌入拼接在一起。

结构如下所示:

公式 6: 结合伪标记、头实体和 MASK 的连续提示模板结构。

这里，\(v_1 \dots v_i\) 充当“前缀”，\(v_{i+1} \dots v_k\) 充当“后缀”或中间连接词。PLM 必须利用这个上下文来确定 [MASK] 位置属于哪个隐藏实体。

3. 训练与预测

整个系统是端到端训练的。构建好的模板被输入到 PLM 中，PLM 输出掩码位置在词汇表上的概率分布。

公式 8: 从 PLM 获取预测 logits。

模型使用交叉熵损失将此预测与实际尾实体进行比较。

公式 9: 计算预测与目标之间的损失。

目标是通过更新“连续提示”向量 (伪标记) 来最小化这个损失。本质上，模型是在“学习如何向自己提问”以获得正确答案。

公式 10: 寻找最佳伪标记的优化目标。

实验与结果

研究人员在两个基准数据集上评估了 ATAP: ConceptNet-100k (通用常识) 和 ATOMIC (基于事件的推理，例如，“如果 X 想要吃东西，那么 X 需要买食物”) 。

与基线的比较

ATAP 与三类方法进行了比较:

传统 KGC: (DistMult, RotatE) - 由于稀疏性，通常表现不佳。
基于 PLM 的 KGC: (KG-BERT, COMET) - 更好，但通常计算量大或僵化。
高级 CKGC: (InductivE, Bi-CoRPe) - 当前最强的竞争对手。

结论: ATAP 在两个数据集的几乎所有指标 (MRR, Hits@3, Hits@10) 上都达到了最先进 (SOTA) 的性能。例如，在 ConceptNet-100k 上，ATAP 在排名准确性方面显著超过了之前的最佳模型 (Bi-CoRPe) 。

消融实验: 连续提示重要吗？

为了证明这种复杂的架构是必要的，作者进行了消融实验。他们通过移除关键组件来测试模型:

w/o classification (无分类) : 对所有关系使用一个通用提示。
w/o fine-tuning (无微调) : 冻结 PLM 参数。
w/o continuous template (无连续模板) : 用人工编写的模板 (例如 “is a kind of”) 替换学习到的向量。

结果说明了一切:

表 2: 显示移除分类、微调或连续模板后性能下降的消融研究。

如表 2 所示，移除连续模板 (“w/o continuous template”) 导致准确率大幅下降 (CN-100K 上的 MRR 从 59.13 降至 45.07) 。这从经验上证明了自动、连续的提示优于人工设计的提示。 模型能够找到人类无法表达的最佳向量模式。

分析: 提示的“长度”

研究人员探讨的一个有趣问题是: 我们需要多少个伪标记 (\(k\)) ？

一个关系是需要一个长而复杂的提示，还是一个短的提示？他们针对不同的关系测试了各种长度。

图 4: 提示长度 (k) 对不同关系 MRR 的影响。

图 4 显示了随着提示标记数量的变化，不同关系 (IsA, AtLocation, UsedFor) 的平均倒数排名 (MRR) 。结果表明，不同的关系需要不同的提示复杂度:

IsA 在 \((4,4)\) 达到峰值 (前 4 个标记，后 4 个) 。
AtLocation 偏好较短的提示 \((3,3)\)。
UsedFor 受益于较长的提示 \((6,6)\)。

这突显了 ATAP 的灵活性——它允许为每种特定类型的关系调整推理路径的“复杂度”。

为了进一步可视化这种特异性，让我们看看 IsA 关系的详细细分:

图 6: 显示最佳模板分割的 IsA 关系详细性能曲线。

图 6 中的曲线表明，平衡的模板 (头实体前后的标记数量相等) 往往表现最好。

效率与收敛

之前基于文本的方法的一个主要缺点是训练缓慢。然而，ATAP 证明是非常高效的。

图 5: 训练时间比较。ATAP 明显快于 SGBC 和 InductivE 等基线。

如图 5 所示，ATAP 的训练时间 (右侧最短的柱状图) 大约是 ConceptNet 上领先竞争对手的一半。

此外，它的学习速度很快。下面的图 9 追踪了训练周期的验证分数。ATAP (红线) 比基线更快地达到了高准确率，并迅速稳定下来。

图 9: CN-100K 上的收敛速度。ATAP (红线) 比其他模型收敛得快得多。

结论与启示

ATAP 框架代表了我们将结构化知识图谱与预训练语言模型相结合的方式向前迈出了重要一步。通过从人工工程 (手写提示) 和离散搜索 (寻找特定单词) 转向连续、自动的提示生成 , ATAP 允许模型在进行常识推理时“说自己的语言”。

主要要点:

自动化制胜: 学习到的连续提示显著优于人工模板。
关系特定性: 不同类型的知识 (IsA 与 AtLocation) 需要不同的提示结构，ATAP 能自动处理这一点。
高效率: 尽管使用了强大的 PLM，但该方法的训练速度和收敛速度都比以前的最先进方法更快。

对于 AI 领域的学生和研究人员来说，ATAP 展示了深度学习的一个更广泛的趋势: 从僵化的、人类定义的规则 (如人工提示) 转向灵活的、可学习的参数，使神经网络能够优化其内部推理过程。随着知识图谱继续支撑搜索引擎和推荐系统，像 ATAP 这样的技术对于使它们更加完整和具备“常识”将至关重要。

引言#

背景: 知识补全的演变#

基于三元组的方法#

基于文本的方法与提示 (Prompting)#

ATAP 解决方案: 连续模板#

ATAP: 核心方法#

1. CKG 三元组处理#

2. 连续提示训练#

伪标签 (Pseudo-Labels) 和伪标记 (Pseudo-Marks)#

构建模板#

3. 训练与预测#

实验与结果#

与基线的比较#

消融实验: 连续提示重要吗？#

分析: 提示的“长度”#

效率与收敛#

结论与启示#

引言