引言

在自然语言处理 (NLP) 的世界里,理解做了什么是至高无上的目标。这一过程被称为信息抽取 (Information Extraction, IE) , 它将非结构化文本——如新闻文章或医疗报告——转化为结构化的数据表。

多年来,标准的方法是在原始文本上训练大规模语言模型。虽然像 BERT 或 RoBERTa 这样的模型在预测下一个词方面表现出色,但它们通常将句子视为线性序列。它们遗漏了语言隐藏的“骨架”: 概念之间的结构关系。为了解决这个问题,研究人员通常依赖大量的人工标注数据集,手动标记实体和关系。但这不仅昂贵、缓慢,而且难以扩展。

如果模型能够在没有人类监督的情况下自学语言结构,那会怎样?

SKIE (Structural semantic Knowledge for IE , 面向信息抽取的结构化语义知识) 应运而生,这是一个新颖的预训练框架,正是为了实现这一目标。通过利用抽象语义表示 (Abstract Meaning Representation, AMR) , SKIE 将文本可视化为逻辑和关系的图谱。它利用这些图谱在训练过程中“构想”结构,使模型能够在不需要数千小时人工标注的情况下学习深层的语义连接。

在这篇文章中,我们将解构 SKIE 的工作原理,从生成内聚的语义图到利用对比学习将其与文本对齐,并探讨它如何在零样本 (Zero-Shot) 和小样本 (Few-Shot) 场景下超越最先进的模型。

背景: 为什么结构很重要

要理解 SKIE,我们首先需要了解当前方法的局限性。大多数“通用”IE 框架 (如 UIE 或 USM) 仅在纯文本任务上进行预训练,或依赖有限的监督数据。它们主要将句子 “The driver came out of the house” 处理为标记 (token) 序列。

然而,在这个句子中存在着明显的语义结构。“Driver (司机) ”是“come out (出来) ”这个动作的*施事者 (agent) ,而“house (房子) ”是来源 (source) *。

抽象语义表示 (AMR)

研究人员利用 AMR 来捕捉这种结构。AMR 是一种语义形式体系,它将句子的含义表示为一个有根有向图。

图 1: 来自 WikiEvents 数据集的一个示例,展示了一个 AMR 图。

如图 1 所示,左侧的 AMR 图剥离了句法上的“冗余”,只留下了核心逻辑。节点代表概念 (如 person, house, come-out) ,边代表特定的关系 (如 :source:ARG1) 。

SKIE 的精妙之处在于,它使用自动解析器从大量未标记文本中生成这些图。这创造了一个“免费”的结构化监督源。

SKIE 框架

SKIE 旨在弥合线性文本与结构化图之间的鸿沟。该框架由三个主要模块组成:

  1. 拓扑增强 (Topology Enhancement) : 优化原始 AMR 图,以找到最重要的“内聚”子图。
  2. 编码内聚性 (Encoding Cohesion) : 一个专门的图编码器 (T-GSN) ,用于保留节点之间特定类型的关系。
  3. 对比学习 (Contrastive Learning) : 教导模型特定的文本与其对应的语义图意味着同一件事。

图 2: SKIE 的整体框架。

让我们逐步拆解这些模块。

1. 拓扑增强模块

原始的 AMR 图可能包含噪声或过于复杂。为了使它们对训练有用,研究人员引入了内聚子图 (Cohesive Subgraphs) 的概念。这些是图中代表核心含义的密集互连部分。

团队使用 \(k\)-core 算法,该算法通过迭代剥离连接较少的节点,留下图的密集中心。为了进一步增强这一点,他们采用了两种策略。

A. 确定性策略 (图扩散)

该策略使用数学规则来识别最关键的节点和边。首先,他们根据节点在不同 \(k\)-core 子图中出现的频率来计算节点 \(v_i\) 的重要性权重:

公式 1: 节点权重计算。

利用这些节点权重,他们更新边的权重。如果两个重要节点相连,它们之间的边就会变得更强:

公式 2: 边权重更新。

最后,他们应用扩散过程 (类似于 PageRank) 在整个图中平滑这些权重,确保持续的“内聚性”传播到邻居节点:

公式 3: 使用 PageRank 进行图扩散。

这样就产生了一个图,其中语义最相关的部分在数学上得到了凸显。

B. 概率策略 (随机性增强鲁棒性)

为了防止模型死记硬背固定的模式,SKIE 还引入了概率元素。它随机丢弃边或节点,类似于神经网络中的“Dropout”。然而,丢弃节点的概率并不是均匀的;它与节点的重要性成反比。重要节点 (高权重 \(w'_v\)) 被丢弃的可能性较小。

丢弃节点 \(v_i\) 的概率 \(P'\) 计算如下:

公式 4: 概率性节点丢弃。

边的概率也随之计算:

公式 5: 概率性边丢弃。

这种双重方法确保模型能看到结构化表示的多样化变体,使其更加稳健。

2. 编码内聚性模块

一旦我们拥有了这些高质量的子图,我们需要将它们转换为数学向量 (嵌入) 。标准的图神经网络 (GNN) 在这里往往会失败,因为它们在聚合邻居信息时,没有给予连接方式 (边标签) 足够的关注。

SKIE 引入了拓扑感知图子结构网络 (Topology-aware Graph Substructure Network, T-GSN)

与基本的图卷积网络 (GCN) 不同,T-GSN 根据关系类型应用特定的变换。第 \(l+1\) 层节点特征 \(h\) 的更新规则为:

公式 6: T-GSN 更新规则。

简单来说: 当更新一个节点时,模型会查看它的邻居。如果一个邻居通过“Agent (施事者) ”关系连接,它就使用特定于“Agent”的权重。如果是通过“Location (位置) ”连接,它就使用“Location”的权重。

最后,系统聚合这些特征以获得整个内聚子图的表示:

公式 7: T-GSN 聚合函数。

这确保了最终的向量包含丰富的、具有关系感知能力的结构信息。

3. 对比学习模块

在这个阶段,SKIE 对同一条数据有两种表示:

  1. 文本表示: 由标准语言模型 (RoBERTa) 编码。
  2. 图表示: 由上述 T-GSN 编码。

预训练的目标是对齐这两者。SKIE 使用带有三元组损失 (triplet loss) 的对比学习

对于给定的句子 (锚点 \(s\)) ,对应的 AMR 图是“正”样本 (\(g_+\)) ,而来自不同句子的图是“负”样本 (\(g_-\)) 。模型试图最小化与正样本图的距离,并最大化与负样本图的距离:

公式 8: 三元组损失函数。

通过最小化这种损失,文本编码器学会像图一样“思考”。即使后来它只看到纯文本,它也隐式地理解了它从 AMR 图中学到的结构连接。

特定任务微调

在大型无监督数据集上进行预训练后,模型会针对特定任务进行微调,如命名实体识别 (NER) 或关系抽取 (RE) 。

研究人员将 IE 视为一个统一的任务。他们输入文本和一个模式指令 (例如,“提取人物和位置”) 。然后,他们使用双仿射注意力 (Biaffine Attention) 来预测标记之间的关系。这创建了一个矩阵,表示哪些词与哪些词相连:

公式 9: 用于连接概率的双仿射注意力。

为了在微调过程中优化这一点,他们利用了 Circle Loss,它有效地处理了正样本 (实际实体) 和负样本 (其他所有内容) 之间的类别不平衡:

公式 10: 用于微调的 Circle Loss。

实验与结果

研究人员在涵盖 NER、关系抽取和事件抽取的 8 个标准基准上评估了 SKIE。

小样本学习 (Few-Shot Learning)

SKIE 最令人印象深刻的结果之一是其在数据稀缺时的表现。在“小样本”设置中 (模型仅看到 1、5 或 10 个示例) ,SKIE 显著优于 UIE 和 MetaRetriever 等竞争对手。

表 2: IE 任务上的小样本结果。

如表 2 所示,在 NER (CoNLL03) 的 1-shot 设置中,SKIE 达到了 77.50 的 F1 分数,而 UIE 仅为 57.53。这表明预训练期间学到的结构知识起到了强大的先验作用,使模型能够快速掌握任务,而不需要数千个示例。

零样本学习 (Zero-Shot Learning)

如果模型看到一个从未训练过的数据集会怎样?研究人员在 5 个未参与训练的 NER 数据集 (如文学、音乐和政治) 上测试了 SKIE。

表 3: 5 个 NER 数据集上的零样本结果。 表 12: 与其他模型相比的补充零样本结果。

SKIE 始终击败基线模型。在表 3 中,SKIE 取得了 58.03 的平均 F1 分数,显著高于 USM 的 41.98。这证明了 SKIE 获取的语义知识具有可泛化性——它广泛地学习了“实体”和“关系”的概念,而不仅仅是针对特定领域。

语言适应性

也许最令人惊讶的是,SKIE 展现了强大的跨语言能力。尽管 AMR 解析器和预训练数据主要是英文的,但“施事者”和“动作”的结构逻辑是通用的。

表 6: Multiconel 上的语言适应性结果。

表 6 显示,SKIE 在多种语言上优于 ChatGPT 和 GLiNER,特别是在德语和英语上,这表明结构化预训练增强了模型对语言机制的基本理解,这种理解可以跨越语言障碍进行迁移。

消融实验

引擎的每个部分都重要吗?研究人员进行了消融实验来找出答案。

  • 移除内聚子图: 性能显著下降。原始 AMR 图噪声太大;找到密集的“核心”至关重要。
  • 用 GCN 替换 T-GSN: 切换到标准的图卷积网络导致性能大幅下降 (例如,RE 分数从 72.36 降至 47.75) 。这证实了通过 T-GSN 保留边关系是至关重要的。

图 4: 不同图编码器层数设置下的预训练损失趋势。

他们还分析了超参数。图 4 显示,与 2 层或 4 层相比,为图编码器使用 3 层 (红线) 提供了学习效率和损失降低之间的最佳平衡。

结论

SKIE 代表了信息抽取领域向前迈出的重要一步。通过跨越“纯文本”并通过 AMR 图集成结构化语义知识 , 模型学会了看清语言中隐藏的连接。

主要收获如下:

  1. 无监督结构: 我们不需要昂贵的人工标签来教授结构;自动 AMR 解析可以生成大量的训练信号。
  2. 拓扑很重要: 提取内聚子图 (图的“精华”) 比使用整个充满噪声的图更好。
  3. 关系感知编码: 不能一视同仁地对待所有边。T-GSN 允许模型尊重不同连接的特定语义角色。

SKIE 证明,当机器不仅阅读文字,而且理解连接文字的关系网时,它们的学习效果会更好。随着这种方法的成熟,我们可以期待 IE 模型变得更加数据高效,并能适应复杂、现实世界的任务。