大语言模型 (LLM) 彻底改变了我们学习新任务的方式。通过 上下文学习 (ICL) , 它们可以仅通过提示中的几个示例学习规律并将其应用于新案例。给 GPT-4 展示几个法译英的示例,它就能翻译一个新的法语句子——无需重新训练。这种快速泛化的能力让大语言模型既强大又灵活。

但有一个问题。当任务变得更加 结构化和细粒度 时,例如 关系抽取 (RE) , 大语言模型往往表现不佳。关系抽取要求模型识别文本中实体之间的关系——例如,在 “史蒂夫·乔布斯在库比蒂诺共同创立了苹果公司” 中,“史蒂夫·乔布斯”和“苹果公司”之间的关系是 共同创立。这些关系是知识图谱、搜索引擎和智能问答系统的核心。你可能期望 LLM 能轻松处理,但事实上它们在 零样本 (无任何示例) 和 少样本 (仅少量示例) 设置下往往力不从心。

论文 《元上下文学习让大语言模型成为更好的零样本和少样本关系抽取器》 (Meta In-Context Learning Makes Large Language Models Better Zero and Few-Shot Relation Extractors) 直面这一挑战。作者们没有专注于改进提示或挑选更好的示例,而是提出了一个更根本的问题:

我们是否能从底层提升大语言模型在关系抽取任务上的上下文学习能力?

他们的答案是 MICRE——用于关系抽取的元上下文学习 (Meta In-Context Learning of LLMs for Relation Extraction) 。这个想法简单却具有颠覆性: 与其训练 LLM 去执行单一的关系抽取任务,不如训练它 如何从示例中学习新的关系抽取任务。本质上,MICRE 教会模型 如何在上下文中学习

这种训练方式让模型在零样本和少样本关系抽取场景中都能高效表现,理解新的关系结构而无需任何任务特定的微调。


理解关系抽取及其挑战

关系抽取任务通常分为两类:

  1. 关系分类 (RC): 给定一个句子和一个实体对,分类它们之间的关系。 *示例: * 句子: “Annabeth is an English name derived from Anna and Elizabeth.” 实体: (English, Elizabeth) → 关系: language_of_work_or_name

  2. 关系三元组抽取 (RTE): 给定一个句子,抽取所有可能的三元组 (主语, 关系, 宾语)。 *示例: * 句子: “The Natra river is a tributary of the Lisava river in Romania.” 抽取的三元组: (Natra river, tributary, Lisava river)

传统的监督模型在给定 大规模标注数据集 时,可以很好地完成这些任务。然而,这种依赖使它们在关系类型差异较大的新领域中成本高昂且难以迁移。

LLM 似乎提供了新的解决思路: 通过上下文学习,只需展示几个示例即可跳过重新训练。然而,关系抽取的结构化性质让 LLM 常常难以捕捉细微语义或实体边界,导致零样本或少样本泛化能力不强。以往研究通过巧妙的提示设计或精心挑选示例来缓解这一问题,但这些仅是权宜之计。MICRE 针对的是根本——LLM 内在的 学习如何学习 的能力。


MICRE 如何教大语言模型学习

MICRE 的思想来源于 元学习——即“学习如何学习”。它并不教模型如何解决单一数据集的问题,而是教它 如何根据来自多个数据集的示例推断出正确的规律。通过不断接触多样化的关系抽取任务,LLM 内化了上下文学习的 过程

MICRE 元训练工作流程概览。该过程包括从多个数据集中采样,使用表格化提示格式化示例,并训练大语言模型在上下文学习设置中预测最终输出。

图 1: MICRE 元训练工作流程概览。由 LLM 预测的输出元素以红色高亮显示。

MICRE 的学习过程如下:

  1. 收集多样化的数据集: 模型首先访问多个关系抽取数据集,涵盖新闻、科学、生物医学、通用 NLP 等不同领域。

  2. 采样一个任务: 在每个训练周期中,MICRE 随机选择一个数据集。这让模型必须应对不同的风格和关系类型,从而提升适应性。

  3. 构建上下文示例: 从该数据集中采样 k+1 个示例。前 k 个作为演示示例 (上下文) ,最后一个作为查询。

  4. 设定目标: 模型接收所有 k 个演示 (输入-输出对) 以及最后的查询输入,任务是预测最后一个示例的正确输出 (y_{k+1})。损失通过预测结果与真实标签的差异计算。

在成千上万的批次和数据集中反复执行这一过程后,MICRE 不仅仅是记住关系模式——它学会了在新上下文中识别和应用关系逻辑的 能力。在推理阶段,它可以凭借这种学习到的元能力,仅用极少甚至没有示例进行有效推理。


表格化提示: 统一的结构化学习方式

MICRE 的一个关键设计是 表格化提示 , 这是一种简洁而高效的格式,带来明确的结构提示。

示例如下:

1
2
| Predicate | Subject | Object |
| co-founded | Steve Jobs | Apple |

这种结构有两大优势:

  • 统一表示: 相同的表格结构可以同时支持关系分类 (RC) 和关系三元组抽取 (RTE) ,从而消除不同数据集之间的格式差异。
  • 引导输出生成: 在零样本场景中,即使没有示例,表头也能向模型传达所需的输出形式。

在训练中,MICRE 会在两种表头顺序间交替——|Predicate|Subject|Object||Subject|Object|Predicate|——以提升模型在不同任务风格下的鲁棒性。


推理: 让 MICRE 发挥作用

训练完成后,MICRE 成为一个通用的关系抽取学习器。与微调模型不同,它在测试阶段不改变参数,只调整提示。

  • 少样本推理: 提供少量 (如 5 个) 示例,并用 MICRE 的表格格式。在末尾添加测试句子,模型即可预测正确的关系或三元组。

  • 零样本推理: 当没有任何示例时,MICRE 会遍历目标数据集中的每个可能关系标签。对于每个候选关系 r,生成潜在主语和宾语,并选择条件概率最高的组合,从而确定最合适的语义关系。


实验: MICRE 与世界对比

MICRE 使用包括 GPT-2、T5 和 LLaMA 在内的开源大语言模型,在 12 个公共关系抽取数据集 上进行了跨领域评估。

用于 MICRE 元训练的 12 个数据集的统计信息。

图 2: MICRE 元训练阶段使用的数据集汇总。

模型在未见过的 FewRelWiki-ZSL 基准上进行测试,确保训练集与测试集的关系标签无重叠。

零样本关系分类 (RC)

MICRE 在零样本关系分类中表现出惊人的能力,尤其在大模型上。

零样本关系分类 (RC) 结果。MICRE 结合 LLaMA (7B) 取得了最先进或具有竞争力的性能,尤其是在未见关系数量 (m) 增加时。

图 3: Wiki-ZSL 与 FewRel 数据集上的零样本关系分类结果。更大模型规模带来更强的上下文学习能力。

主要发现:

  • 性能随模型规模提升显著提高。
  • 编码器-解码器架构 (如 T5) 在相同规模下往往优于纯解码器架构 (如 GPT-2) 。
  • MICRE 结合 LLaMA 在多数情况下取得最高或次高召回率,展现出卓越的泛化能力。

零样本关系三元组抽取 (RTE)

抽取结构化三元组比简单分类更具挑战,但 MICRE 在此同样表现亮眼。

零样本关系三元组抽取 (RTE) 结果。MICRE 结合 T5-3B 和 LLaMA-7B 等较大模型,显著优于先前的最先进方法。

图 4: 零样本关系三元组抽取结果显示,MICRE 远超以往的最优模型。

大型模型如 T5-3B 和 LLaMA 的表现超过以前的最佳系统 (如 ZETT) ,准确率提升可达 9 个百分点以上,验证了元训练能让 LLM 更好地理解复杂关系。


少样本能力

仅给少量示例时,MICRE 的优势更加明显。

FewRel 数据集上的少样本关系分类 (RC) 和关系三元组抽取 (RTE) 结果。MICRE 在各方面均取得优异表现。

图 5: 少样本性能对比。MICRE 在极少上下文下依然表现出色,与微调模型相当。

亮点:

  • 在 FewRel 上,MICRE 结合 LLaMA 的关系分类平均 F1 得分达 95.12 , 与最优微调模型相当甚至更佳。
  • 在关系三元组抽取中,MICRE 的平均 F1 得分为 58.29 , 比之前最佳结果高出 4 个点以上。
  • 更令人惊讶的是,这些结果均在测试阶段无任务特定训练,仅依靠元学习驱动的上下文推理取得。

MICRE 为何有效: 消融研究洞察

为了揭示 MICRE 成功的原因,作者进行了消融实验,分别调整训练示例数和数据集数量。

上下文训练示例数量 (k) 和元训练数据集数量 (C) 的消融研究。性能随示例和数据集增多而提高,但存在一定饱和效应。底部为错误分析示例。

图 6: 不同训练示例数量与数据集多样性对性能的影响。示例越多 (左) ,数据集越多样 (右) ,模型泛化能力越强。

主要结论:

  • 更多上下文示例有助提升性能——当 k 增至约 16 时性能趋于平稳 (模型只能有效处理有限上下文窗口) 。
  • 多样化训练数据集提升泛化能力——涉足更多领域可增强少样本表现,但数据集选择仍有影响。
  • 语义标签至关重要。 替换关系名为无意义符号 (如 R1, R2) 导致性能骤降,证明 MICRE 同时学习结构与语义。

将语义关系标签替换为通用标记的结果。性能显著下降,表明模型依赖标签的语义信息来执行任务。

图 7: 当关系名称被中性标记替换后,性能急剧下降。MICRE 学习的是语义丰富的标签与文本实体之间的对应关系。


MICRE 对学习的启示

通过实验与错误分析,作者发现 MICRE 偶尔会错误分类或反转关系方向——例如由于语义互逆会混淆 tributary (支流) 与 mouth_of_the_watercourse (河口) 。尽管存在此类挑战,MICRE 的预测通常仍保持语义合理,表明它确实理解了关系语义,而非仅靠记忆模式。

错误分析还揭示,一些误判来自噪声数据或重叠关系,例如在多个关系合理存在时预测 publisher (出版商) 而非 tracklist (曲目列表) 。这些现象说明,MICRE 可能能从一句话中推断多种潜在关系——为未来的多关系抽取研究提供了潜力。


结论: 让大语言模型学得更好

MICRE 在让大语言模型成为“更好的学习者”这一目标上迈出了关键一步。通过引入 元训练的上下文学习 , 它将通用的语言模型转变为能够即时适应新任务的灵活关系抽取器。

核心见解:

  1. 元学习增强了上下文学习: 对 LLM 进行上下文学习方向的训练能显著提升少样本推理能力。
  2. 规模与多样性放大收益: 更大、更丰富的训练集能培养出更强的通用模型。
  3. 语义理解至关重要: 能识别关系名称及其语义含义是取得优异表现的关键。

简而言之,MICRE 展示了 LLM 的下一次飞跃不再是让它们变得 更大,而是让它们成为 更好的学习者 。 通过教模型在上下文中学习,我们能让它在关系抽取等结构化任务上展现更强性能,并推动自然语言理解迈向更智能、更具适应性的未来系统。