打破惯性：变分信息瓶颈如何减少关系抽取中的实体偏差

引言

想象一下，你正在阅读一条财经新闻标题: “Microsoft invests $10 billion in…” (微软向…投资了 100 亿美元)

甚至在你读完这句话之前，你的大脑可能就已经用“OpenAI”填补了空白。你不需要阅读剩下的文本，因为你依赖于对相关实体的先验知识。虽然这种启发式思维对人类很有用，但对于人工智能来说，这是一个重大问题。

在自然语言处理 (NLP) 领域，这种现象被称为实体偏差 (Entity Bias) 。像 BERT 或 RoBERTa 这样的模型通常会死记硬背特定实体之间的联系 (例如，“Microsoft”和“invest”) ，而不是理解句子的上下文。如果句子的实际内容是*“Microsoft sues OpenAI”* (微软起诉 OpenAI) ，一个有偏差的模型可能仍然会预测出“投资”关系，仅仅因为它过度依赖名字。

这就使得模型在遇到新实体或关系发生变化 (域外设置) 的场景时，性能会大幅下降。

本篇博客文章将探讨一篇引人入胜的研究论文: “A Variational Approach for Mitigating Entity Bias in Relation Extraction” (一种缓解关系抽取中实体偏差的变分方法) ，该论文针对这一问题提出了一种复杂的数学解决方案。研究人员引入了一种使用变分信息瓶颈 (Variational Information Bottleneck, VIB) 的方法，迫使模型停止利用实体名称“作弊”，转而开始阅读上下文。

问题所在: 关系抽取与偏差

关系抽取 (Relation Extraction, RE) 的任务是识别文本中两个实体之间的语义关系。例如，在句子*“Steve Jobs founded Apple”* (史蒂夫·乔布斯创立了苹果) 中，模型必须提取三元组 (Steve Jobs, Founder Of, Apple)。

目前最先进 (SOTA) 的方法依赖于微调预训练语言模型 (PLMs) 。然而，这些模型很容易对实体本身过拟合 。它们学到“巴黎”通常是“法国”的所在地，却忽略了句子结构。当这些模型遇到新实体或场景变化 (域外设置) 时，它们的表现就会崩溃。

以前解决这个问题的尝试包括:

实体掩码 (Entity Masking) : 用通用标签如 [SUBJ-PERSON] 替换名字。这消除了偏差，但也丢弃了有价值的信息。
结构化因果模型 (Structured Causal Models, SCM) : 目前领先的方法，使用向量空间的几何操作来“清洗”实体表示。

这篇论文的作者提出了一个白盒的、概率性的框架，提供了一个更好的平衡: 仅仅压缩实体信息到足以减少偏差的程度，同时保持其有用性。

核心方法: 变分途径

这项研究的核心是变分信息瓶颈 (VIB) 的应用。

从点到分布

在标准的神经网络中，像“Microsoft”这样的实体在同维空间中被表示为一个单一的、固定的点 (向量) 。研究人员认为，这种固定的表示使得模型太容易记住特定属性。

相反，他们建议将实体映射到一个概率分布——具体来说，是一个由均值 ($\mu$) 和方差 ($\sigma$) 定义的高斯分布。

图 1: 主体实体 s (Microsoft) 和客体实体 o (OpenAI) 通过 VIB 被映射为随机编码 z(s) 和 z(o)。学习到的分布方差控制变异性以减少偏差。

如图 1 所示，实体“Microsoft”被映射到一个较紧密的分布 (较小的圆) ，而“OpenAI”有一个较宽的分布。

直觉是这样的: 方差代表不确定性或“模糊”。

低方差: 模型严重依赖实体本身。
高方差: 实体表示是“嘈杂”或“模糊”的。为了做出正确的预测，模型被迫去查看周围的上下文词汇，因为它不能仅仅依赖实体。

数学基础

目标是学习一个表示 $Z$，它保留输入 $X$ 中的语义，但最小化特定实体信息 $E$。这是一个利用互信息 (Mutual Information) 的优化问题。

目标是最小化表示与实体之间的互信息 $I(X; Z | E)$。论文利用 VIB 框架推导出了这个互信息的上界:

使用 VIB 的互信息上界公式

这个积分看起来可能很吓人，但它简化为一个涉及 KL 散度 (KL Divergence) 的损失函数。KL 散度衡量两个概率分布彼此之间的差异。

使用 KL 散度的 VIB 损失函数

这里，$p(z|x,e)$ 是我们模型学习的分布，而 $r(z|e)$ 是一个标准正态分布。通过最小化这个“VIB 损失”，模型试图压缩实体信息，过滤掉导致偏差的“捷径”特征。

融合实体与上下文

研究人员并没有仅仅用噪声替换实体。他们使用了一种巧妙的混合策略。他们创建了一个新的嵌入 $x'$，它是原始词嵌入 $x$ 和采样的潜变量 $z$ 的混合。

混合方程为:

融合原始嵌入与变分表示的方程

让我们拆解一下:

$M$ 是一个掩码 (实体标记为 1，上下文标记为 0) 。上下文词汇保持不变。
$\beta$ (beta) 是一个超参数。它就像一个“滑块”。
如果 $\beta$ 为 0，我们使用原始的、可能带有偏差的嵌入。
如果 $\beta$ 为 1，我们纯粹使用变分 (嘈杂) 表示。
研究人员发现混合使用 (例如 $\beta = 0.5$) 效果最好。

最终训练目标

为了训练模型，研究人员结合了标准分类损失 (交叉熵) 和新的 VIB 损失。

总损失函数

$\alpha$ 是一个自适应权重，用于平衡两个目标: 做出准确预测 ($L_{CE}$) 和减少实体偏差 ($L_{VIB}$) 。

实验与结果

团队在涵盖不同领域的三个数据集上测试了他们的方法:

TACRED: 通用领域新闻。
REFinD: 金融领域。
BioRED: 生物医学领域。

他们在两种设置下评估了模型:

域内 (In-Domain, ID) : 测试集拥有与训练集相似的实体。
域外 (Out-of-Domain, OOD) : 对偏差的终极测试。测试集中的实体被替换为其他的，确保与训练数据没有重叠。如果模型死记硬背了名字，它在这里就会失败。

主要性能

下表展示了结果，比较了他们的 VIB 方法与之前的最佳方法 (SCM) 以及旧的基线方法 (实体掩码、替换) ，使用了两种骨干模型 (LUKE-Large 和 RoBERTa-Large) 。

表 1: 主要结果: 在 TACRED、REFinD 和 BioRED 数据集上，使用 RoBERTa-Large 和 LUKE-Large 骨干网的对比方法的 Micro-F1 分数，评估分为域内和域外设置。结果是 3 次运行的平均值，并报告了标准差。

结果的关键要点:

VIB 优于经典方法: 简单的掩码或替换 (前几行) 表现不佳，因为它移除了太多信息。
VIB 达到 SOTA 或具有竞争力: 在 REFinD (金融) 数据集中，VIB 取得了最先进的结果 (OOD 设置下 F1 为 74.8%，而 SCM 为 73.8%) 。
一致性: VIB 在通用、金融和生物医学领域均显示出稳健的性能。

详细关系分析

了解改进来自何处很有帮助。下表按特定关系类型细分了性能。

金融领域 (REFinD) : 在表 3 中，我们看到 VIB 在复杂关系如 org:org:agreement_with 上显著优于 SCM (35.46 对比 26.95) 。这些关系需要理解句子结构 (谁同意了谁？) ，而不仅仅是发现两个公司名称。

表 3: LUKE-Large SCM 和 VIB 模型在 REFinD 数据集中各种关系上的性能，在域内和域外设置下进行评估。关系按在数据集中的频率排序，最频繁的在顶部 (即 no_relation) 。加粗数值表示在 ID 或 OOD 设置中该关系的最佳性能。

通用领域 (TACRED) : 同样，在表 4 中，VIB 在域外设置下的 per:employee_of 关系中表现出色 (55.30 对比 SCM 的 38.64) 。这是一个巨大的进步，表明当模型遇到未知的人和公司时，VIB 帮助它依赖短语“works for” (为…工作) ，而不是记住著名的员工。

表 4: Luke-Large SCM 和 VIB 模型在 TACRED 数据集中各种关系上的性能，在域内和域外设置下进行评估。关系按在数据集中的频率排序，最频繁的在顶部 (即 no_relation) 。加粗数值表示在 ID 或 OOD 设置中该关系的最佳性能。

为什么这很重要: 通过方差实现可解释性

这种方法最酷的特点之一是可解释性 。因为模型为每个实体学习一个方差 ($\sigma^2$) ，我们实际上可以衡量模型在多大程度上依赖实体名称与上下文。

低方差: “我认识这个实体！我依赖名字。”
高方差: “我不熟悉这个实体；我依赖上下文。”

研究人员在金融数据集 (REFinD) 中分析了这种行为。

图 2: REFinD 数据集 ID 和 OOD 样本子集 (按方差排序) 的 Micro-F1 分数。

图 2 展示了一些有趣的东西。样本按方差排序。即使在方差最高的子集中 (实体最“模糊”的地方) ，模型在域内设置 (蓝色条) 中仍保持不错的性能。这证明模型已经成功学会了在实体信息嘈杂时使用上下文线索。

此外，下方的 表 2 将数据分类为“方差分箱”。

表 2: REFinD ID 和 OOD 测试集的方差分析，按方差分箱 (Var. Bin) 分类。该表突出了每个分箱内的样本比例 (Prop.) ，并根据正确预测与总黄金标签识别主导关系。结果展示了 LUKE- 和 RoBERTa-Large w/VIB 模型。

在域外 (Out-of-Domain) 部分，你可以看到一个转变。更多的样本处于低方差分箱 (0.0-0.1) ，这表明模型在看到新实体时很难摆脱实体偏差。然而，通过使模型能够在高方差区域 (嘈杂的云状表示) 运作，VIB 挽救了确定性模型会丢失的性能。

结论

论文 “A Variational Approach for Mitigating Entity Bias in Relation Extraction” 为使 NLP 模型更加稳健迈出了引人注目的一步。通过将实体视为概率分布而不是固定点，VIB 框架迫使模型超越名字去理解叙述。

主要胜利:

偏差减少: 成功防止模型死记硬背实体-关系对。
最先进的性能: 在不同领域 (金融、生物、通用) 击败或匹配复杂的因果模型。
可解释性: “方差”指标为研究人员提供了一个了解模型决策过程的窗口——告诉我们模型何时对实体有信心，何时在查看上下文。

随着 AI 继续融入金融和生物医学等高风险领域，确保模型阅读的是句子而不仅仅是名字，对于安全性和准确性至关重要。这种变分方法为此提供了一个原则性的数学基础。

引言#

问题所在: 关系抽取与偏差#

核心方法: 变分途径#

从点到分布#

数学基础#

融合实体与上下文#

最终训练目标#

实验与结果#

主要性能#

详细关系分析#

为什么这很重要: 通过方差实现可解释性#

结论#

引言