知识图谱 (Knowledge Graphs, KGs) 是我们日常使用的许多 AI 应用背后的幕后引擎。从搜索引擎到推荐系统,KG 将现实世界的事实结构化为三元组: (头实体, 关系, 尾实体)。例如,(达·芬奇, 绘制了, 蒙娜丽莎)。
然而,KG 长期受到一个问题的困扰: 不完整性。虽然像“出生于”这样的常见关系有数百万个示例,但许多特定的或新出现的关系——例如特定的生物相互作用或新型的企业收购——只有很少的记录实例。这就是小样本关系学习 (Few-Shot Relation Learning, FSRL) 发挥作用的地方。FSRL 旨在仅通过极少数示例 (“样本”) 来预测关系的新事实。
多年来,FSRL 的主流方法一直是元学习 (meta-learning) 。 像 MAML (模型无关元学习) 这样的模型试图学习一个“全局先验”——即对关系如何运作的一般理解——以便能够快速适应新任务。
但在这种标准方法中存在一个隐藏的缺陷。传统的元学习假设用于训练的任务和测试中遇到的新任务是独立同分布 (Independently and Identically Distributed, i.i.d.) 的。通俗地说,它假设所有关系的行为方式都有些相似。
在这篇文章中,我们将深入探讨一篇挑战这一假设的研究论文。我们将探索 RelAdapter , 这是一个新颖的框架,它承认并非所有关系都是生而平等的。通过使用上下文感知适配器,RelAdapter 为每个特定关系定制学习过程,在不需要巨额计算成本训练庞大模型的情况下实现了最先进的结果。
问题所在: “一刀切”的陷阱
要理解为什么需要 RelAdapter,我们首先需要看看先前工作的局限性。大多数 FSRL 方法将从元训练 (从基础关系中学习) 到元测试 (预测新关系) 的过渡视为在相似任务之间的无缝跳转。
RelAdapter 背后的研究人员对这一假设进行了实证测试。他们分析了标准数据集 (WIKI、FB15K-237 和 UMLS) 中不同关系的嵌入,并计算了关系对之间的余弦相似度。

如图 1 所示,相似度存在巨大的差异。有些关系非常相似,而另一些则截然不同 (分布偏移) 。
- 如果你看一下 WIKI 图表 (a),你会看到相似度范围从负值一直到高正值。
- 这产生了一个问题: 在训练期间学到的全局先验可能对于与训练集相似的关系是完美的,但对于测试集中的“分布外 (out-of-distribution) ”关系可能会失败。
研究人员确定了解决这个问题的两个具体挑战:
- 模型层面: 我们如何设计一个模块,既能针对特定关系进行积极适应,又不会遗忘有用的全局知识?
- 数据层面: 当我们只有 1 或 3 个示例 (样本) 时,我们如何获得足够的数据来做出好的决策?
解决方案: RelAdapter
提出的解决方案是 RelAdapter 。 它创建了一个位于元学习框架内的“上下文感知适配器”。RelAdapter 不是对每个关系应用完全相同的逻辑,而是插入了一个小型的、可调的神经网络 (适配器) ,根据手头关系的具体上下文来调整模型的预测。
这是该系统的高层架构:

让我们分解上面显示的两个主要组件: 实体上下文 (数据层面) 和适配器 (模型层面) 。
1. 上下文: 无需标签即可丰富数据
在小样本场景中,数据是稀缺的。如果你试图基于三个示例来学习一种关系,你需要尽可能利用每一比特的信息。
RelAdapter 引入了上下文感知能力 。 模型不再孤立地看待一个实体 (如“鸟”) ,而是查看该实体在图中的邻居 (如“羽毛”、“喙”或“产卵”) 。这是基于这样一种直觉: 一个实体是由它的连接所定义的。
该模型通过聚合其预训练邻居的嵌入来增强实体的嵌入。增强后的实体嵌入 \(\mathbf{e}^c\) 的公式结合了原始实体嵌入及其邻居的均值:

在这里,\(\mu\) 是一个超参数,用于控制上下文相对于原始嵌入的权重。
一旦实体被上下文丰富,模型就会生成一个上下文感知关系元信息 (Context-Aware Relation Meta, \(R^c\)) 。在元学习中,“关系元信息”本质上是代表该关系的向量原型。它是通过平均编码后的支持集 (少数已知示例) 来计算的:

通过这样做,模型的输入不再只是一个静态 ID;它是相关实体的一个丰富的、重上下文的表示。
2. 适配器: 参数高效微调
这是论文的核心创新。在标准元学习中,模型试图找到一组对所有任务来说都“接近”好解的参数。
RelAdapter 认为: “让我们保留全局知识,但添加一个小的、灵活的模块,我们可以针对每个新关系从头开始重新训练它。”
适配器是一个带有残差连接的轻量级前馈网络 (FFN) 。它接收关系元信息 (由全局先验生成) 并将其转换为针对当前任务专门调整的版本。

在这个公式中:
- \(R_{\mathcal{T}_r}\) 是原始的关系元信息。
- \(\Theta_r\) 是适配器的参数,特定于关系 \(r\)。
- \(\alpha\) 是一个融合比例 (超参数) ,决定了适配器在多大程度上改变原始表示。
为什么这很高效?
适配器使用“瓶颈”架构。它将输入投影到较小的维度,然后再投影回来。这意味着与完整模型相比,它的参数非常少。在测试阶段 (元测试) ,巨大的预训练嵌入和全局先验被冻结 。 模型只更新微小的适配器参数。
元学习工作流
这些部分是如何组合在一起的?该过程遵循标准的小样本学习流程,分为支持步骤 (Support Step) 和查询步骤 (Query Step) 。
支持步骤 (学习)
- 模型接收一个带有少量示例的任务 (支持集 \(S_r\)) 。
- 它计算上下文感知的实体嵌入。
- 它生成关系原型 (\(R^c\)) 。
- 这个原型通过适配器传递。
- 适配器参数 \(\Theta_r\) 使用支持集的损失进行优化。
适配器的梯度更新如下所示:

至关重要的是,在元测试阶段,适配器针对每个新关系进行随机初始化 。 这确保了适配器不会受到训练关系的偏见影响;它使用全局先验作为坚实的基础,专门为新关系进行学习。
查询步骤 (预测)
一旦适配器被调整 (发生得非常快) ,模型就使用适应后的关系元信息对查询集中的候选者进行评分。
评分函数测量头实体加上关系向量与尾实体之间的距离。目标是使真实事实的距离最小化。

实验结果
研究人员将 RelAdapter 与多个基线模型进行了比较,包括:
- 监督学习: TransE, DistMult, RGCN (图卷积网络) 。
- 小样本关系学习 (FSRL) : GMatching, MetaR, GANA, 和 HiRe。
实验在三个基准数据集上进行: WIKI (维基百科) 、FB15K-237 (Freebase) 和 UMLS (医学) 。
性能对比
下表显示了 3-shot 学习 (模型只看 3 个示例) 的结果。使用的指标是 MRR (平均倒数排名 - 越高越好) 和 Hit@10 (前 10 名命中率) 。

关键要点:
- 优势: RelAdapter (最后一行) 在几乎所有指标和数据集上都取得了最佳性能。
- 与 MetaR 比较: 由于 RelAdapter 建立在 MetaR 框架之上,直接比较非常有说明力。在 WIKI 数据集上,RelAdapter 将 MRR 从 0.314 提高到 0.347。在困难的 UMLS 数据集上,它从 0.435 跃升至 0.608——这是一个巨大的提升。
- 超越复杂模型: 它甚至在平均 MRR 上比 HiRe (一种复杂的分层模型) 高出近 10%。
效率
人们可能会担心添加适配器会使模型变得沉重或缓慢。实验证明并非如此。因为适配器是一个瓶颈网络,它添加的参数数量可以忽略不计。

如表 4 所示,适配器仅增加了大约 5,000 个参数 。 在拥有超过 2.4 亿参数的 WIKI 数据集完整模型上,适配器仅占总大小的 0.002% 。 这证实了该方法是非常参数高效的。
敏感性分析
最后,作者分析了模型对超参数变化的鲁棒性。

- (a) 小样本大小 (\(K\)): 正如预期的那样,提供更多的样本 (训练示例) 可以提高性能,但在大约 5-6 个样本后增益趋于平稳。
- (b) 适配器比例 (\(\alpha\)): 这控制了适配器的影响力有多“强”。最佳点似乎在 0.1 到 0.3 之间。如果 \(\alpha\) 太高,适配器对先验的改变太大,可能会对仅有的几个样本过拟合。
- (c) 上下文比例 (\(\mu\)): 与适配器比例类似,适量的上下文 (0.1 - 0.3) 是有益的。来自邻居的太多噪声可能会损害性能。
结论
RelAdapter 论文提出了令人信服的论点,主张放弃所有知识图谱关系行为方式相同的假设。通过承认元训练和元测试任务之间的分布偏移,作者设计了一个既具备上下文感知又具备自适应能力的系统。
基于图的上下文丰富 (使用邻居) 与轻量级、可调适配器的结合,使得模型能够为新的、未见过的关系“量身定制”其预测。最令人印象深刻的是,它以极小的参数占用实现了这一点,使其成为数据稀疏且动态变化的现实世界知识图谱补全的实用解决方案。
对于图学习的学生和研究人员来说,RelAdapter 展示了参数高效微调 (PEFT) 技术——这些概念通常借用于大型语言模型 (LLM) ——在结构化图数据上的成功应用。
](https://deep-paper.org/en/paper/2410.09123/images/cover.png)