语言是鲜活的、呼吸着的。它时刻都在变化,往往比我们的数字系统跟进的速度还要快。想想棒球巨星大谷翔平 (Shohei Ohtani) 。几年前,称他为“天使队的王牌 (The Angels’ Ace) ”是准确的。而今天,提及他则需要像“道奇队的17号 (The Dodgers’ number 17) ”这样的新语言。

对于人类来说,这种认知更新是自动完成的。但对于大型语言模型 (LLM) 和检索增强生成 (RAG) 系统而言,这是一个重大的故障点。如果用户询问“道奇队的17号”,但知识库只认定大谷是天使队的球员,检索系统就会无法找到相关文档。结果呢?LLM 要么产生幻觉,要么提供过时的信息。

在这篇文章中,我们将深入探讨 DynamicER , 这是来自首尔国立大学的一篇引人入胜的研究论文。研究人员指出了当前 AI 系统中的一个关键缺陷: 无法将 新出现的提及 (emerging mentions) (新的昵称或描述) 链接到 动态实体 (dynamic entities) (随时间变化的人或物) 上。我们将探索他们的新基准测试 DYNAMICER,以及他们提出的解决方案 TempCCA , 该方案允许模型适应不断变化的语言沙场,而无需进行全面的重新训练。

问题所在: 当语言跑在了知识前面

在自然语言处理 (NLP) 领域, 实体链接 (Entity Linking, EL) 是一项将文本中的提及 (例如“特斯拉 CEO”) 连接到知识库中唯一条目 (例如埃隆·马斯克的维基百科页面) 的任务。

传统的 EL 假设世界是静态的。它假设我们指代实体的方式相对恒定。但在现实中,属性是会变化的。埃隆·马斯克曾经是“PayPal 联合创始人”,后来是“特斯拉 CEO”,最近又变成了“推特拥有者”或“X 拥有者”。

这种动态特性给 RAG 系统带来了两个具体的障碍:

  1. 词汇变异 (Lexical Variation) : 新的提及往往看起来与实体名称毫无关系 (例如“布朗克斯轰炸机” vs. “纽约洋基队”) 。
  2. 时间歧义 (Temporal Ambiguity) : 像“英国首相”这样的短语,取决于文本撰写的年份,指代的是不同的人。

如下图所示,这项研究的动机源于一种认识: 随着时间的推移,新的提及不断涌现,以前的模型根本无法解析它们。

图 1: 我们 DYNAMICER 基准测试的动机。指代同一实体的新提及随着时间的推移不断被创造出来: 随着大谷翔平从洛杉矶天使队转会到洛杉矶道奇队,人们用诸如“道奇队的17号”这样的新提及来指代他。我们贡献了一个动态实体解析数据集,以及两个基准测试: 传统的实体链接和 RAG 语境下的以实体为中心的问答。

在上面的例子中,一个试图回答“道奇队的17号来自哪里?”的 RAG 系统可能会失败,如果它没有将那个特定的新短语链接到大谷翔平。

介绍 DYNAMICER: 针对演变实体的基准测试

为了解决这个问题,研究人员首先需要一种衡量它的方法。他们推出了 DYNAMICER (Dynamic Entity Resolution for Emerging Mentions,针对新出现提及的动态实体解析) ,这是一个专门设计用来测试模型如何处理随时间变化的新表达方式的数据集。

他们选择了体育领域 (足球和棒球) 进行数据收集。为什么是体育?因为它本质上是不稳定的。球员转会、基于表现每周都会诞生新昵称,角色也会发生变化 (例如,球员变成教练) 。

该数据集是通过按时间线抓取社交媒体 (Tumblr) ,使用 GPT-4 识别潜在提及,然后由人工标注员进行严格验证而构建的。结果是一个与以往实体链接数据集截然不同的基准。

表 1: DYNAMICER 与现有实体链接基准测试的比较。

如表 1 所示,虽然像 MedMentions 或 Reddit EL 这样的现有数据集涵盖了变体,但它们缺乏 时间动态性 (Temporal Dynamics) ——即实体随时间演变的方面。DYNAMICER 的独特之处在于它跟踪了跨连续时间段出现的提及。

核心方法: TempCCA

该论文的核心是其提出的方法: 具有持续适应性的时间分段聚类 (Temporal Segmented Clustering with Continual Adaptation, TempCCA)

标准方法可能试图将提及直接链接到静态的实体嵌入 (embedding) 。然而,如果实体发生了变化 (例如,大谷现在是道奇队的一员) ,静态嵌入可能与新的提及差异太大。

TempCCA 采取了一种不同的方法。它主张我们不应仅仅关注实体的原始定义。相反,我们应该关注最近指代该实体的提及 聚类 (cluster) 。 如果我们知道上个月人们开始称大谷为“七亿美元先生”,我们就可以利用这些信息来帮助识别这个月的“道奇队新星”。

1. 架构

该方法使用了双编码器架构。它将问题视为一个聚类任务,其中提及和实体都是图中的节点。

图 2: TempCCA 的说明性示例。

如上图 2 可视化所示:

  • 左侧 (0506): 在第一个时间步,我们有像 Declan Rice (西汉姆联) 和 Mason Mount (切尔西) 这样的球员聚类。
  • 右侧 (0708): 在下一个时间步,实体已经演变。Declan Rice 现在与阿森纳关联。TempCCA 使用 前一步骤中已解析的提及 来更新当前步骤的实体表示。

2. 衡量亲和度 (Affinity)

为了将提及与实体聚类,模型需要计算它们有多“相似”。研究人员使用嵌入的点积定义了两个亲和度函数。

实体与提及之间,以及提及与提及之间的亲和度函数方程。

  • \(\phi(e, m_i)\): 衡量实体聚类 \(e\) 和提及 \(m_i\) 之间的相似度。
  • \(\psi(m_i, m_j)\): 衡量两个提及之间的相似度。

这使得模型可以说: “这个新提及与这个实体很相似”,或者“这个新提及与我们已经链接到这个实体的另一个提及很相似”。

3. 持续适应 (更新规则)

这是最关键的创新。在每个时间步,实体的表示都会更新。它不再仅仅是静态的维基百科嵌入;它变成了原始实体定义与最近链接到它的所有提及的混合体。

更新实体聚类表示的方程。

在这个方程中:

  • \(\mathbf{Enc}_E(e)\) 是实体的静态编码 (例如,来自其名称和描述) 。
  • 求和部分是对在前一个时间步 \(\mathcal{C}(e)\) 中链接到该实体的所有提及 \(m_i\) 的编码进行平均。
  • \(\alpha\) 是一个超参数,用于平衡我们对静态定义与近期趋势的信任程度。

通过不断更新 \(\mathbf{u}_C(e)\),模型随着实体一起“漂移”。当大谷加入道奇队时,聚类吸收了与“道奇队”相关的提及,移动了嵌入空间,使得未来与道奇队相关的提及更容易被链接。

实验与结果

研究人员将 TempCCA 与几个最先进的基准进行了对比测试,包括 ArboEL (一种强大的静态实体链接器) 和 SpEL 。 他们将数据集按时间段划分,以模拟真实的流式场景。

实体链接性能

结果表明,考虑时间动态性优于静态方法。

表 3: 按词汇相似度和时间段划分的实体链接任务结果。

在表 3 中, TempCCA (Ours) 在不同的时间集中始终保持最高的准确率。

一个关键的发现与 词汇相似度 有关。研究人员根据提及文本与实体名称的相似程度对性能进行了细分。不出所料,当提及看起来与名称毫无关系 (低 Jaccard 相似度) 时,所有模型都会遇到困难。然而,TempCCA 在这些困难案例中表现出了显著的收益,因为它可以利用最近相似提及的上下文,而不仅仅依赖于名称匹配。

对检索增强生成 (RAG) 的影响

这项工作的最终目标不仅仅是链接实体,还要改进像问答 (QA) 这样的下游任务。研究人员建立了一个 以实体为中心的 QA (Entity-Centric QA) 任务,其中的问题使用了棘手的新出现提及 (例如,“道奇队的17号之前效力于谁?”) 。

他们比较了几种设置:

  • LLM: 标准 Llama-3。
  • RaLM: 检索增强语言模型 (标准 RAG) 。
  • RaLM-ER: 增强了 TempCCA 实体解析功能的 RAG。

表 5: 每个时间段以实体为中心的 QA 的 F1 分数结果。

表 5 展示了一个清晰的层级:

  1. RaLM-ER (Ours) 表现最好。通过在检索 之前 解析提及,系统可以搜索“大谷翔平”而不是模棱两可的“17号”,从而找到更好的文档。
  2. 标准 RaLM 对基础 LLM 有显著帮助,但落后于 RaLM-ER,因为当查询包含新的俚语或昵称时,它经常会错过文档。
  3. LLM-ER (解析实体但不使用检索) 比基础 LLM 有所改进,证明仅仅知道谈论的是谁就有助于模型减少幻觉。

减少幻觉

LLM 最危险的行为之一是自信地产生幻觉。研究表明,正确解析实体可以作为一种护栏。

表 6: RaLM 和 RaLM-ER 在检索命中和未命中时的性能比较。

表 6 揭示了一个有趣的细节。当检索失败 (Retrieval Miss) 时,RaLM-ER 仍然优于标准 RaLM。为什么?因为明确告诉 LLM“这个提及指的是实体 X”,可以让模型依靠其关于实体 X 的内部参数化知识,即使没有找到外部文档。这为生成提供了依据。

案例研究: 眼见为实

为了具体说明这一点,让我们看一个模型产生分歧的具体例子。

表 19: 案例研究显示 RaLM-ER 正确识别了特伦特·亚历山大-阿诺德。

在这个例子 (表 19) 中,问题询问的是由 “Trentnation” (特伦特·亚历山大-阿诺德的昵称) 创造的记录。

  • 标准 RaLM 无法检索到相关信息,因为它可能在搜索 “Trentnation”,结果什么也没找到或者只找到无关的噪音。它回答“None (无) ”。
  • RaLM-ER 成功地将 “Trentnation” 链接到 “Trent Alexander-Arnold”。然后它检索到了关于他赢得足总杯的正确文档,并正确回答说他成为了举起该奖杯的最年轻球员。

结论与启示

DynamicER 论文强调了关于 AI 和语言的一个基本事实: 在动态的世界中,模型不能保持静止。随着文化的变迁,语言在转移,“常识”也在改变。

通过引入 TempCCA , 作者提供了一种跟上这些变化的稳健方法。根据最近提及的“聚类”来更新实体嵌入的技术模仿了人类的学习方式——我们根据今天听到的关于某人的信息来更新我们对他的心理模型,而不仅仅基于一年前我们对他的了解。

对于从事 RAG 流程开发的学生和从业者来说,结论很清楚: 检索的好坏取决于你的查询理解能力。 如果你的用户使用了一个你的向量数据库没有索引的新术语,你就会失败。动态实体解析是添加到你的技术栈中以弥合这一差距的一个有前途的层级。

关键要点

  • 新出现的提及 会导致 RAG 失败,因为标准检索器会错过与新昵称不匹配的文档。
  • DYNAMICER 是一个新的基准,用于测试模型如何处理体育领域中时间敏感的实体变化。
  • TempCCA 使用持续聚类来更新实体表示,允许模型在无需全面重新训练的情况下适应新词汇。
  • 实体解析 作为 RAG 中的关键预处理步骤,可以提高检索准确性并减少幻觉。