图结构数据无处不在。从连接数十亿用户的社交网络,到复杂的分子结构以及庞大的知识图谱,我们的世界建立在各种关系之上。图神经网络 (GNNs) 已成为从这种数据中学习的首选工具,为推荐系统、药物开发等各种应用提供动力。
但这些强大的模型有一个永不满足的“胃口”——它们依赖于数据,尤其是有标签的数据。只有在获得大量带标签的样本时,它们才能实现最优性能。那么,当这些标签稀缺时会怎样?如果你面对的是新兴类别、罕见疾病,或者平台上的新用户,又该怎么办?
在这些情况下,模型性能会急剧下降。这个被称为数据稀缺性的挑战,是现实世界中应用图机器学习的主要障碍。最近一篇全面的综述——《图上少样本学习综述: 从元学习到预训练与提示学习》,深入探讨了研究人员如何通过一个快速发展的领域来克服这一限制:** 图上少样本学习**。
本文将带你解读这篇综述——阐明相关问题、关键方法,以及那些让机器仅凭少量样本便能高效学习的突破性进展。
图上数据稀缺性的两种表现
该综述指出,图上存在两种主要的数据稀缺性类型: 标签稀缺性和结构稀缺性——如下图所示。
图 1: 图上少样本学习挑战概览,展示了标签稀缺性、结构稀缺性及其应用。
标签稀缺性 (Label Scarcity):
这是经典的少样本问题。获取标签可能成本高昂,甚至无法实现——例如,当只有少数蛋白质的性质被验证时,你需要对它们进行分类;或是在社交网络中检测新的欺诈行为。你拥有原始数据,但带标签的样本很少。结构稀缺性 (Structure Scarcity):
这是图数据独有的问题。GNNs 依赖于丰富的连接性进行节点间的消息传递。然而,许多图中的大部分节点连接稀少 (即长尾分布中的“尾部”节点) ,或者在冷启动场景中,新增节点没有任何连接。缺乏足够的邻近信息时,模型难以学习出有意义的表示。
为了解决这些问题,研究人员逐步形成了三种主要范式——元学习 (Meta-Learning)、预训练 (Pre-Training),以及结合两者的混合方法 (Hybrid)。
图 2: 实现图上少样本学习的主要技术范式。
快速回顾: GNNs 如何学习
在深入解决方案前,先回顾 GNNs 的原理。其目标是为节点、边或整个图学习*表示 *(embedding) ——以紧凑向量的形式编码局部特征和全局结构。
形式上,图编码器 \( f_g \) 将节点 \( v \) 映射为其表示 \( \mathbf{h}_v \):
\[ \mathbf{h}_v = f_g(v, G; \theta_g) \]现代 GNNs 遵循消息传递框架: 在每一层中,每个节点聚合邻居节点的特征,并更新自身嵌入:
\[ \mathbf{h}_{v}^{l} = \operatorname{AGGR}(\mathbf{h}_{v}^{l-1}, \{\mathbf{h}_{u}^{l-1} : u \in \mathcal{N}_v\}; \theta_{g}^{l}) \]经过多层迭代后,节点嵌入编码了多跳邻域信息。随后,读出函数生成全局图级嵌入:
\[ \mathbf{h}_G = \mathsf{READOUT}(\mathbf{h}_v : v \in V) \]当数据稀缺时,挑战在于如何在缺少足够标签或连接的情况下高效训练或调整该编码器。
问题全景: “少样本”究竟意味着什么
为了梳理这一复杂领域,该综述提出了图上少样本学习问题的分类体系。
图 3: 图上少样本学习问题的分类体系。
标签稀缺性 – 少量带标签样本
当标注样本有限时,就会出现此类问题。综述将其分为以下两种类型:
基于类别的稀缺性 (Class-based scarcity):
数据集被划分为拥有充足标签的“基类”和仅有少量标签的“新类”。经典的 N-way K-shot 设置便是在基类上训练,以便泛化到新类。基于实例的稀缺性 (Instance-based scarcity):
稀缺性呈现在不同层级的图上:- 节点级别: 用少量样本分类用户或论文。
- 边级别: 在稀疏连接数据下预测关系或交互。
- 图级别: 对分子或蛋白质仅凭几个样本进行属性预测。
结构稀缺性 – 连接稀疏
结构稀缺性源于图的拓扑结构:
长尾分布 (Long-tail distribution):
少数节点 (“头部”) 拥有大量边,而多数节点 (“尾部”) 只拥有少量边。尾部节点缺乏足够的邻域信息,难以学习丰富表示。冷启动 (Cold-start):
新增节点通常是孤立的或连接较弱的,例如平台上的新商品或新用户。模型必须在缺乏结构线索的前提下推断其属性。
技术 #1: 元学习 — 学习如何学习
元学习教模型如何学习。它不是解决单一任务,而是跨多个小任务 (“episodes”) 进行训练,使模型能在面对新任务时快速适应。
一个元训练任务包含:
- 支持集 (support set): 少量带标签样本;
- 查询集 (query set): 用于评估的样本。
模型旨在学习跨任务的元知识 \( \omega^* \):
\[ \omega^{*} = \arg\min_{\omega} \mathbb{E}_{\mathcal{T}^{i}_{\text{train}} \in \mathcal{T}_{\text{train}}} \mathcal{L}(\mathcal{T}^{i}_{\text{train}}; \omega) \]在元测试阶段,这些知识帮助模型基于少量样本快速微调:
\[ \theta_i^{*} = \arg\min_{\theta} \mathcal{L}(\mathcal{S}_{\text{test}}^{i}, \omega^{*}; \theta) \]图 5: 图上元学习示意图——从基类任务中学习可迁移的先验并应用于新类任务。
图特定增强
两种主要改进使元学习更适用于图数据:
基于结构的增强 (Structure-based Enhancement):
利用图拓扑结构获取更丰富的先验:- 节点级别: 按结构重要性调整支持集中节点权重 (如 GPN 学习上下文感知原型) 。
- 边/路径级别: 通过边或路径建模关系与依赖 (如 RALE 利用路径推理增强适应性) 。
- 子图级别: 使用邻域作为上下文子图 (如 G-Meta 从子图特征构建原型) 。
基于适应的增强 (Adaptation-based Enhancement):
优化模型的适应方式:- 图级别: 针对每个图的拓扑结构定制全局先验 (如 GFL) 。
- 任务级别: 根据任务差异调整特征及嵌入空间,以处理多样性 (如 AMM-GNN) 。
元学习具备优雅的适应性,但它依赖大量带标签的基类,并假设新任务分布相似——这些限制正是预训练方法欲突破的。
技术 #2: 预训练 — 构建图基础模型
受 BERT、GPT 等语言模型突破的启发,图学习采用了预训练–微调范式。
- 预训练阶段: 使用自监督“代理任务”在未标记图上学习。
- 适应阶段: 将学到的图编码器迁移到标签有限的下游任务中。
图 6: 图上少样本学习的预训练与适应流程概览。
预训练策略
综述强调两大类主要代理任务:
1. 对比式 (Contrastive):
通过比较学习——最大化正样本对相似性,最小化负样本对相似性。
不同变体通过随机采样、扩散、学习视图等增强方式对节点、子图或整图进行对比。
形式化的对比损失为:
\[ -\sum_{o\in\mathcal{T}_{\text{pre}}}\ln\frac{\sum_{a\in\mathcal{P}_o}\exp(\frac{sim(\mathbf{h}_a,\mathbf{h}_o)}{\tau})}{\sum_{a\in\mathcal{P}_o}\exp(\frac{sim(\mathbf{h}_a,\mathbf{h}_o)}{\tau})+\sum_{b\in\mathcal{N}_o}\exp(\frac{sim(\mathbf{h}_b,\mathbf{h}_o)}{\tau})} \]如 GRACE、GraphCL、DGI 等方法能在不同类型的图中提取鲁棒结构特征。
2. 生成式 (Generative):
通过重建学习——破坏图后训练模型恢复原结构。
典型方法包括 GraphMAE (掩码节点特征预测) 与 GPT-GNN (掩码边重构) ,鼓励模型学习图的固有结构与语义。
3. 融合大语言模型 (LLMs):
对于文本属性图,节点常包含丰富文本描述。将图编码器与 LLM 结合 (如受 CLIP 启发的对比学习) ,可对齐文本语义嵌入与节点结构嵌入,从而连接 NLP 与图学习领域。
适应技术
完成预训练后,模型需高效进行迁移:
微调 (Fine-tuning):
标准方式——添加任务头并更新全部参数。效果好,但在少样本场景中成本高且易过拟合。参数高效适应 (Parameter-efficient adaptation):
仅更新少量参数,方式包括:- 提示调优 (Prompt Tuning): 冻结模型;学习少量提示向量以修改输入或图结构,使下游任务与预训练目标对齐。GraphPrompt、MultiGPrompt 等方法通过子图相似性模板统一了多任务。
- 适配器调优 / LoRA (Adapter Tuning / LoRA): 在网络中插入微型可训练模块或应用低秩参数更新。如 AdapterGNN、G-Adapter 等,在无需大规模重新训练的情况下提升了可迁移性。
预训练开启了从大规模未标记图实现稳健泛化的可能——是少样本适应的理想方案。
技术 #3: 混合方法 — 结合元学习与预训练
近期研究不再选择单一范式,而是融合两者。混合策略首先在未标记数据上预训练强编码器,随后通过有限的带标签基类任务在元学习阶段进行适应。
图 7: 混合少样本学习结合了预训练图编码器与元适应。
该方法将预训练的结构理解与元学习的快速适应性相结合。诸如 VNT、ProG 等方法利用结构提示或元网络来调整预训练嵌入,以适应节点、边及图级任务——在复杂或跨域图上展示了显著改进。
前路展望: 机遇与挑战
该综述指出了图上少样本学习的若干未来方向:
解决结构稀缺性:
当前研究多集中于标签稀缺性。针对稀疏或冷启动结构的专门预训练仍处初期,是重要的研究机遇。扩展到大规模图:
现有少样本方法多基于小型基准数据。要应用于拥有数十亿节点的网络级图,需要在采样、分布式处理及高效适应上实现突破。复杂图与跨领域迁移:
未来研究应能无缝处理 3D、多模态、动态、异构图,并实现跨社会、生物、知识图谱等领域的学习。图基础模型:
终极目标是构建类似于 NLP 基础模型的通用图模型,能跨多类图与任务进行预训练。实现广泛迁移需克服领域漂移与结构异质性。可解释性:
少样本方法,尤其涉及提示或学习嵌入的,往往表现为黑箱。提升透明度、解释决策过程将是落地应用的关键。
结论
图上少样本学习解决了现代深度学习的根本瓶颈: 对带标签数据的依赖。从元学习的“学习如何学习”策略,到预训练的“构建坚实基础”理念,再到融合两者的混合范式——这一研究前沿正快速重塑图智能的未来。
随着提示等参数高效技术的成熟,以及图基础模型的崛起,让模型从零星数据——仅有几样本中有效学习的梦想,正日益走向现实。