想象一下,你正在编辑一篇关于 20 世纪 50 年代女演员的维基百科文章。你想添加一个指向“私立学校 (Private School) ”页面的链接,因为这与她的早年生活相关。你浏览了全文,发现“私立学校”这几个字并未出现在文章中。

你会怎么做?你不会就此放弃。你会写一个新的句子——也许是,“她也曾在私立学校工作过”——并将它插入到传记中。

这个具体的动作代表了自然语言处理 (NLP) 中一个巨大且常被忽视的挑战。多年来,研究人员一直专注于实体链接 (Entity Linking) (将文本中现有的名称连接到数据库条目) 。但现实世界的知识构建往往需要实体插入 (Entity Insertion) : 在文本中找到最佳位置来引入一个尚未提及的新概念。

在这篇深度文章中,我们将探讨一篇引人入胜的论文,题为 *“Entity Insertion in Multilingual Linked Corpora: The Case of Wikipedia” (多语言链接语料库中的实体插入: 以维基百科为例) *。研究人员介绍了一种名为 LOCEI 的新颖框架 (及其多语言版本 xLOCEI ),该框架在这一特定任务上的表现甚至超过了 GPT-4 等强大的大型语言模型 (LLM) 。

问题: 知识孤岛

互联网不仅仅是文档的集合,它是一个网络。超链接是将孤立页面转变为连贯大脑的突触。在维基百科中,链接对于导航和上下文至关重要。然而,添加这些链接出奇地困难。

维基百科上有数百万个“孤立条目 (orphan articles) ”——即很少或没有传入链接的页面。为了解决这个问题,人类编辑必须手动阅读潜在的源文章,以找到插入链接的位置。

实体链接 vs. 实体插入

目前大多数自动化工具都依赖于实体链接 。 这假设文本中已经提到了该实体。例如,如果文本说“她主演了《The Archers》”,算法可以很容易地将“The Archers”链接到其维基百科页面。

实体插入则更难。它假设文本目前没有提到该实体,但该概念在上下文中是合适的。算法必须充分理解文本的含义,才能断定: “句子 A 和句子 B 之间的这个确切位置是我们应该提及这个新话题的地方。”

图 1: 实体链接 vs. 实体插入。左侧 (链接) 中,文本“Margaret Peggy Woolley”已经存在。右侧 (插入) 中,概念“Private school”完全缺失,必须通过新句子添加。

如上方的 图 1 所示,这种差异是结构性的。在右侧的“After”面板中,编辑不仅仅是给一个词加了超链接;他们修改了文本结构以容纳新知识。

挑战的规模

你可能会想,这种情况实际发生的频率有多高?这是一个边缘情况吗?

研究人员分析了数百万次编辑,发现了一些惊人的事实。在维基百科添加链接的案例中,有 60-70% 的情况是该链接对应的文本此前并不存在。

图 2: 实体插入的挑战。左图显示,对于大多数语言,“Absent (缺失) ”类别 (橙色) 占主导地位,这意味着在添加链接之前文本并不存在。右图显示了认知负荷: 编辑必须从数百个候选句子中进行选择。

图 2 展示了这一现实。橙色条 (Absent) 代表提及缺失的情况。这意味着如果我们只构建实体链接工具 (蓝色条) ,我们就忽略了问题的大部分。此外,右侧的图表显示了认知负荷: 编辑必须在长篇文章的数百个候选句子中选择正确的插入点。

数据: 如何训练一个编辑

为了解决这个问题,研究人员首先需要一个数据集。目前没有针对“将知识插入文本”的标准基准。因此,他们利用维基百科本身的编辑历史建立了一个。

团队查看了连续几个月 (例如 2023 年 9 月与 10 月) 的维基百科快照。通过计算链接的“集合差”,他们准确地识别出了人类编辑在该月内添加了哪些链接。

图 3: 数据处理流程。系统比较两个月之间的链接。如果链接出现在第二个月但没有出现在第一个月,它会追溯修订历史以找到确切的编辑操作并对插入类型进行分类。

图 3 所示,该流程非常严谨:

  1. 识别新链接: 找到存在于新版本 (\(v_M\)) 但不存在于旧版本 (\(v_0\)) 中的链接。
  2. 追溯修订历史: 查看确切的 HTML 差异,了解文本是如何变化的。
  3. 分类: 编辑只是链接了一个现有的词吗?他们增加了一个词吗?还是加了一整句话?

这个过程产生了一个覆盖 105 种语言的庞大数据集,从英语、法语到科萨语 (Xhosa) 和瓜拉尼语 (Guarani) 等低资源语言。

缺失信息的层级

并非所有的插入都是一样的。研究人员根据编辑需要编写多少文本来对任务难度进行分类:

  • 文本存在 (Text Present) : 最简单的情况。词已经在那里 (例如“奶酪”) ,只是没加链接。
  • 提及缺失 (Missing Mention) : 编辑添加了几个词 (例如在关于莱卡 (Laika) 的句子中添加“苏联太空犬”) 。
  • 句子缺失 (Missing Sentence) : 编辑写了一个完整的句子来填补空白。
  • 片段缺失 (Missing Span) : 编辑添加了多个句子。

图 5: 20 种语言中实体插入类别的分布。注意,与文本缺失的组合类别相比,“文本存在” (蓝色) 通常只占少数。

图 5 可视化了这种分布。在英语 (en) 或法语 (fr) 等语言中,“文本存在”的比例出奇地小。文本缺失是一个普遍存在的问题。

解决方案: LOCEI

研究人员提出了 LOCEI (Localized Entity Insertion,本地化实体插入) 。与试图立即编写文本的生成式 LLM 不同,LOCEI 将此框架化为一个排序问题

给定一个目标实体 (Target Entity) (我们要链接到的事物) 和一个源文章 (Source Article) (我们想放置链接的地方) ,模型将源文章分解为候选文本片段 (句子或段落) 。然后,它根据每个候选片段与目标实体的相关性对其进行评分。

架构

该架构依赖于 Transformer 编码器 (多语言版本具体使用的是 XLM-RoBERTa) 。

图 4: LOCEI 架构概览。模型获取目标实体和候选片段,将它们连接起来,并输入到 Transformer 中。然后 MLP 预测相关性得分。

图 4 所示,输入结合了:

  1. 目标实体 (\(E_{tgt}\)) : 由其标题和导语段落表示。
  2. 候选片段 (\(x\)) : 源文章中的一个句子。

这些被连接成一个单一的序列。Transformer 处理该序列以理解两者之间的语义关系。[CLS] 令牌 (代表整个序列的特殊令牌) 随后被输入到多层感知机 (MLP) 中,输出一个单一的标量: 相关性评分 (Relevance Score)

输入表示的数学公式为:

输入表示 phi 的公式,它是目标标题、目标导语和候选文本片段 t 的标记化序列。

优化: 学习排序

模型不仅被问“这是个好位置吗?是/否”,它是通过列表级排序目标 (List-wise Ranking Objective) 进行训练的。

对于每一个正确的插入点 (正样本) ,系统会选择 \(N\) 个负样本 (文章中没有添加链接的位置) 。模型必须学会给正样本打分高于所有负样本。

排序损失函数的公式。它最大化正确候选者相对于所有候选者总和的概率。

这种基于 Softmax 的损失函数迫使模型区分“有点相关”和“完美插入点”。

秘诀: 两阶段训练

LOCEI 框架的精妙之处在于此。现实世界中“添加链接”的数据质量很高,但相对稀缺 (编辑们不会每天在每种语言中添加数百万个链接) 。然而,现有的链接非常丰富。

研究人员使用了两阶段训练流程 :

  1. 第一阶段 (热启动) : 在现有的数百万个链接上进行训练。
  2. 第二阶段 (扩展) : 在实际“添加链接” (编辑操作) 的较小数据集上进行微调。

动态上下文移除

第一阶段有一个问题。现有链接总是属于“文本存在”类别。如果模型只在现有链接上训练,它将学会只寻找实体名称 (字符串匹配) ,并在名称缺失时失效。

为了解决这个问题,研究人员发明了动态上下文移除 (Dynamic Context Removal) 。 在训练期间,他们获取一个现有链接,并人为地“破坏”文本以模拟更难的场景。

表 10: 动态上下文移除策略示例。‘rm_mention’ 删除特定名称。‘rm_sent’ 删除包含链接的整个句子。

表 10 所示,他们应用了不同的策略:

  • rm_mention: 删除“Perthes-lès-Brienne”这几个字,但保留句子。模型必须学会剩余的上下文暗示了该特定市镇。
  • rm_sent: 删除整个句子。模型必须学会周围的句子创造了一个该实体可以填补的上下文空洞。

这迫使模型学习深层的语义上下文,而不仅仅是简单的关键词匹配。

知识注入

为了进一步提高性能,研究人员注入了额外的元数据。他们包含了候选片段的章节标题 (\(s\)) 以及目标实体的已知别名/提及列表 (\(M_{tgt}\)) 。

显示包含章节标题 ’s’ 和提及 ‘M_tgt’ 的增强输入表示的公式。

这有助于模型理解指向“1984” (书) 的链接属于“文学”部分,而指向“1984” (年份) 的链接属于“历史”部分。

多语言能力: xLOCEI

维基百科有 300 多种语言版本。为每种语言训练一个单独的模型效率低下,且不利于数据不足的低资源语言。

团队开发了 xLOCEI (跨语言 LOCEI) 。通过在混合了 20 种语言的数据上同时训练一个单一的 XLM-RoBERTa 模型,该模型学会了通用的逻辑和上下文模式。

它有效吗?让我们看看结果。

实验结果

研究人员将 xLOCEI 与几个基线进行了比较:

  • 字符串匹配 (String Match) : 简单的关键词搜索。
  • BM25: 经典的信息检索算法 (类似于 TF-IDF) 。
  • GPT-3.5 和 GPT-4: 使用最先进的 LLM 对句子进行排序 (零样本) 。

整体表现

图 6: 20 种语言的 Hits@1 表现。xLOCEI 模型 (棕色) 始终优于 BM25 (橙色) 和字符串匹配 (绿色) 等基线,尤其是在困难语言中。

图 6 显示了“Hits@1”指标 (模型是否将完全正确的句子选为第一名?) 。棕色点 (xLOCEI) 始终位于顶部。

数值细分更具启示性:

表 2: 20 种语言的聚合结果。xLOCEI 总体准确率达到 72.6%,而 BM25 为 50.8%。在“缺失”场景中,xLOCEI 得分为 57.9%,而字符串匹配仅为 27.0%。

表 2 中,请看“Missing (缺失) ”一栏。这是最难的任务 (文本不存在) 。

  • 字符串匹配 得分 27.0%
  • BM25 得分 28.0%
  • xLOCEI 达到 57.9%

这是一个巨大的飞跃。通过“解读字里行间”,它的表现是传统搜索方法的两倍。

击败 GPT-4

你可能期望 GPT-4 能主宰这项任务。有趣的是,xLOCEI 稳住了阵脚并且经常获胜,主要是因为它针对这种特定的维基百科结构理解进行了微调。

表 3: 英语的表现。xLOCEI (0.677) 在总体 Hits@1 上显著优于 GPT-3.5 (0.160) 和 GPT-4 (0.370)。

表 3 聚焦于英语。虽然 GPT-4 在“Present (存在) ”类别上表现良好 (0.833) ,但与专门的 xLOCEI 模型相比,它在完整的排序任务上很吃力 (总体 0.370 对比 0.677) 。这证明巨大的规模并不是唯一的答案;专门的训练流程至关重要。

零样本迁移的力量

也许最令人印象深刻的发现是 xLOCEI 在它从未见过的语言上的表现。

研究人员在仅 11 种语言上训练了一个名为 xLOCEI\(_{11}\) 的版本。然后,他们在训练期间完全未使用的其他 9 种语言上对其进行了测试。

图 8: 零样本表现。橙色三角形 (xLOCEI_11) 代表在未见语言上的表现。它几乎与蓝色方块 (在所有语言上训练的模型) 相匹配。

图 8 显示性能下降微乎其微。模型在英语、法语和日语中非常好地学习了“插入”的概念,以至于无需特定微调就能将其应用于葡萄牙语或斯洛伐克语。

表 4: 零样本结果。xLOCEI_11 保留了全训练模型 90% 以上的性能,并且在零样本设置中仍然击败了 GPT-4。

表 4 定量地证实了这一点。零样本模型 (\(xLOCEI_{11}\)) 达到了 0.690 Hits@1 , 大大超过了 GPT-4 (0.571),并且非常接近全监督模型 (0.709)。这对于迫切需要更好连接性但缺乏定制模型训练数据的维基百科低资源语言来说,是一个游戏规则改变者。

结论: 跨越鸿沟

这篇“实体插入”论文将视角从简单的单词链接转变为思想连接。通过认识到 65% 的链接编辑需要添加新文本 , 作者指出了当前 NLP 工具中的一个主要盲点。

他们的解决方案 LOCEI 结合了智能排序架构和创造性的训练策略 (动态上下文移除) 来解决这个问题。由此产生的模型不仅准确,而且在跨语言方面具有令人难以置信的鲁棒性,为 300 多种语言版本的维基百科中数百万篇文章的“去孤立化”提供了一条途径。

对于 AI 和 NLP 的学生来说,这项工作强调了一个至关重要的教训: 数据准备往往与模型架构同等重要。 通过从现有链接中合成生成“缺失文本”场景,研究人员教会了机器去构想信息应该在哪里,而不仅仅是看那里有什么

这项技术为 AI 助手铺平了道路,它们不仅能校对我们的写作,还能积极帮助我们将孤立的想法编织进人类知识的更广泛网络中。