AI 能仅凭定义学会关系抽取吗？深入解析 REPAL 框架

在自然语言处理 (NLP) 的世界里，教会机器阅读文本是一回事；教会它们理解实体之间的联系完全是另一回事。这项任务被称为关系抽取 (Relation Extraction, RE) 。

想象一下，你正在构建一个分析新闻文章的系统。你不只是希望计算机识别出“史蒂夫·乔布斯 (Steve Jobs) ”和“苹果 (Apple) ”这两个词。你希望它能提取出两者之间具体的关系: *FounderOf (创始人) *。

传统上，这需要在海量的人工标注数据集上训练模型，其中成千上万的句子都标记了特定的关系。但是，当你需要寻找一种从未标记过的新型关系时会发生什么？收集新数据既昂贵又缓慢。

这就引出了零样本关系抽取 (Zero-Shot Relation Extraction) ——这是该领域的“圣杯”，即模型可以通过仅仅被告知“是什么”，就能识别出它从未见过的关系。

在这篇文章中，我们将剖析一篇引人入胜的研究论文 《Grasping the Essentials》 , 该论文提出了一个名为 REPAL 的新框架。这种方法不再依赖昂贵的标注样本，而是利用*定义 (definitions) *以及大语言模型 (LLM) 与更小、更专业的模型之间巧妙的反馈循环来教 AI 学习关系。

问题所在: 为什么少样本学习还不够

在深入解决方案之前，我们需要了解为什么当前的低资源方法会失败。

当数据稀缺时，研究人员通常使用少样本学习 (Few-Shot Learning) 。这涉及给模型提供极少量的例子 (称为“种子”) 来学习一种模式。例如，要教授关系 *LocationOf (位于) *，你可能会提供:

“The White House is in Washington D.C.” (白宫位于华盛顿特区。)
“The French Revolution took place in Paris.” (法国大革命发生在巴黎。)

问题出在哪里？这些例子往往存在偏差或不完整。它们可能会让模型误以为 LocationOf 仅适用于城市或国家，而无法识别房间可以是家具的位置，或者服务器可以是网站的位置。

图 1: 低资源 RE 方法中不同类型的初始种子示例，以关系 P276 为例。它显示仅使用两个实例作为种子无法覆盖结构类型的头实体。

如图 1 所示，仅依赖几个例子 (种子) 往往无法覆盖关系的完整语义范围。模型会过拟合例子中的特定实体类型 (如城市) ，而忽略其他类型 (如建筑物) 。

定义的力量

研究人员认为, 关系定义是比少数几个例子更强大的起点。像 “ENT1 是 ENT0 (建筑物或事件) 的位置” 这样的定义是明确、全面且具有方向性的。

为了证明这一点，他们对比了在一个在标准少样本示例上训练的模型与一个在从定义衍生出的数据上训练的模型。

图 2: 在少样本实例上训练的模型与在我们的关系定义推导及实例生成方法上训练的模型的微平均 F1 分数 (%) 。 图 2: 性能差距。红点代表面向定义的方法，其性能显著优于在少样本示例上进行的标准训练 (蓝线) 。

数据表明，即使起点非常有限，从定义中获取知识也比仅仅死记硬背例子能产生更好的理解。

解决方案: REPAL 框架

研究人员推出了 REPAL , 这是一个专为仅定义零样本 (Definition Only Zero-Shot) 设置而设计的框架。该设置假设你拥有:

目标关系的定义。
一个大型的无标注文本语料库 (原始数据) 。
没有标注的训练样本。

REPAL 利用大语言模型 (如 GPT-4) 的推理能力和小语言模型 (SLM) 的效率，分三个不同阶段解决这个问题。

图 4: REPAL 框架。训练好的基于 SLM 的 RE 模型用于推理阶段。 图 4: REPAL 框架概览。它从基于定义的种子生成开始，进入模式学习，最后进入反馈循环进行优化。

让我们分解这三个阶段。

第一阶段: 基于定义的种子构建

由于我们没有标注数据，我们需要制造数据。REPAL 首先将关系定义输入给 LLM。LLM 的任务是生成初始种子实例——即符合定义的句子。

为了确保模型不仅仅生成简单、重复的句子，研究人员使用提示工程 (prompt engineering) 来要求不同程度的复杂性:

简短 (Brief) : 简单、直接的陈述。
中等 (Medium) : 带有更多上下文的句子。
隐晦 (Implicit) : 关系是推断出来的而不是直接陈述的复杂句子。

同时，系统从无标注语料库中随机抽取句子作为“负例” (即不存在该关系的实例) 。这就创建了一个合成训练集。

第二阶段: 使用 SLM 进行模式学习

对于每一个抽取任务都使用 LLM 是缓慢且昂贵的。REPAL 使用第一阶段生成的合成数据来训练一个小语言模型 (SLM) , 例如基于 BERT 或 RoBERTa 的模型。这个 SLM 变成了一个专门的“关系抽取器”。

训练被形式化为一个自然语言推理 (NLI) 任务。模型接收一个“前提 (Premise) ” (句子) 和一个“假设 (Hypothesis) ” (关系定义) 。

\[ \begin{array} { r } { \mathsf { P r e m i s e } _ { j } : = s ^ { j } , \qquad } \\ { { \mathsf { H y p o t h e s i s } } _ { j } : = d ( E _ { 0 } = e _ { 0 } ^ { j } , E _ { 1 } = e _ { 1 } ^ { j } ) . } \end{array} \]

模型将这些输入编码在一起:

\[ \mathbf { H } = { \mathcal { M } } ( { \mathsf { P r e m i s e } } _ { j } \left[ { \mathsf { S E P } } \right] [ { \mathsf { S E P } } ] { \mathsf { H y p o t h e s i s } } _ { j } ) \]

然后它计算一个概率分数，确定前提是否蕴含假设 (即，这句话是否符合关系定义？) :

\[ P _ { j } = \frac { e ^ { z _ { E } } } { \sum _ { c \in \{ C , N , E \} } e ^ { z _ { c } } } , \]

最后，模型最小化分类损失以学习模式:

\[ \mathcal { L } = - \frac { 1 } { | B | } \sum _ { ( s ^ { j } , e _ { 0 } ^ { j } , e _ { 1 } ^ { j } ) \in B } [ y _ { j } \log ( P _ { j } ) \qquad \]

这种数学基础使得 SLM 能够成为一个轻量级、高效的专家，专门识别用户定义的特定关系。

第三阶段: 反馈循环 (核心秘诀)

这是 REPAL 与众不同的地方。第一阶段的合成数据可能存在偏差或不完整。为了解决这个问题，REPAL 建立了一个反馈循环。

推理 (Inference) : 训练好的 SLM 在大型无标注语料库上进行预测。
审计 (Audit) : LLM (GPT-4) 充当审计员。它检查 SLM 的高置信度预测。
反思 (Reflection) : LLM 分析: 这些预测真的正确吗？SLM 是否把这种关系与类似的混淆了？

如果 SLM 犯了错 (假阳性) ，LLM 会生成专门设计的新负例来修正这些错误 (偏差修正) 。如果 SLM 是正确的但范围狭窄，LLM 会生成新正例来扩大范围 (覆盖扩展) 。

反馈的可视化

下面的对话展示了系统如何识别偏差。模型意识到它过度关注特定的模式，并要求 LLM 生成多样化的例子。

图 8: 示例交互对话，展示了初始种子生成和反馈驱动的后续正例生成。

此外，系统可以显式生成负面定义来明确边界。例如，区分“军衔 (Military Rank) ”和“军事分支 (Military Branch) ”。

图 9: 示例交互对话，展示了反馈驱动的负面关系定义生成。

通过显式地教导模型这种关系不是什么 (通过这些反馈驱动的负例) ，SLM 变得更加稳健。

实验与结果

研究人员在两个修改后的数据集上测试了 REPAL: DefOn-FewRel 和 DefOn-Wiki-ZSL 。他们将其与多个基准进行了比较，包括标准的零样本 BERT (ZS-BERT) 和简单的 GPT-3.5 提示。

结果是决定性的。REPAL 在零样本设置下始终优于基准。

数据越多总是意味着性能越好吗？

人们可能会假设，只要让 LLM 最初生成更多的种子就能解决问题，从而使复杂的反馈循环变得不必要。研究人员测试了这个假设。

图 5: 不同训练实例数量和比例设置下的精确率 (Precision %) 得分。

图 6: 不同训练实例数量和比例设置下的召回率 (Recall %) 得分。

图 5 和图 6 揭示了一个有趣的趋势。简单地增加正例种子的数量 (X 轴) 并不保证更好的性能。事实上，根据正负样本的比例，随着数据的增加, 召回率 (Recall) 往往会显著下降 (图 6) 。

出现这种现象是因为盲目添加生成数据往往会引入噪声，或使模型过拟合于主导模式。这一验证凸显了为什么第三阶段的反馈驱动方法是必要的——它添加的是有针对性的数据来修复特定的模型弱点，而不是简单地堆砌数据量。

定义推导 vs. 少样本

研究人员还通过比较在原始少样本示例上训练的模型与 LLM 先从这些示例中推导出定义然后生成数据的模型，探索了少样本学习的局限性。

图 7: 在少样本实例上训练的模型与在我们的关系定义推导及实例生成方法上训练的模型的宏平均 F1 分数 (%) 。

如图 7 所示，“定义推导 + 实例生成 (Def Deduce + Ex Gen) ”方法 (红点) 立即实现了高性能。标准的少样本方法 (蓝线) 需要显著更多的示例才能赶上。这加强了核心论点: 定义比松散的例子能更好地捕捉关系的“本质”。

结论

REPAL 框架展示了我们在数据稀缺环境中进行机器学习方法的转变。我们不再苦于寻找标注样本，而是可以利用大语言模型的语言理解能力，通过定义和反馈来“教导”更小的模型。

关键要点:

定义 > 例子: 清晰的定义比少量有偏差的例子能为零样本学习提供更好的起点。
对话很重要: 仅仅生成一次合成数据是不够的。反馈循环——即 LLM 批评 SLM 的预测——对于纠正偏差和扩充模式覆盖至关重要。
效率: 通过仅使用 LLM 进行数据生成和审计，而使用 SLM 进行实际抽取，REPAL 在大规模推理中保持了计算效率。

这项研究为更具适应性的 AI 系统铺平了道路，这些系统只需阅读词典定义即可学习新概念，使我们离真正的智能信息提取更近了一步。

问题所在: 为什么少样本学习还不够#

定义的力量#

解决方案: REPAL 框架#

第一阶段: 基于定义的种子构建#

第二阶段: 使用 SLM 进行模式学习#

第三阶段: 反馈循环 (核心秘诀)#

反馈的可视化#

实验与结果#

数据越多总是意味着性能越好吗？#

定义推导 vs. 少样本#

结论#