引言

在自然语言处理 (NLP) 的世界里,词嵌入是现代语义理解的基石。从早期的 Word2Vec 到 Transformer 革命,核心思想始终如一: 我们将单词映射为实数密集向量。如果“king”的向量减去“man”加上“woman”等于“queen”,我们会为模型捕捉意义的能力而欢呼。

然而,我们在计算社会科学和下游任务中传统使用这些嵌入的方式存在一个根本缺陷。我们将它们视为点估计 (point estimates) 。 当模型告诉我们“politics (政治) ”的向量坐标是 \([0.23, -0.91, \dots]\) 时,我们将这个精确位置视为绝对真理。

但在直觉上,我们知道这不可能是全部。如果一个模型从数百万个例子中学到了“the”这个词,它应该对该向量的位置非常有信心。相反,如果它仅从寥寥数语的上下文中学会了一个生僻词如“defenestration (把人扔出窗外) ”,那么由此产生的向量理应让我们持保留态度 。 标准的嵌入模型如 GloVe 并没有提供这种“保留态度”。它们给了我们位置,却没给我们不确定性。

当我们利用嵌入来对偏见、历史语言变迁或语义相似性做出科学主张时,这种统计严谨性的缺失就变得危险起来。两个词是真的相似,还是仅仅是训练数据中的噪声?

在这篇文章中,我们将深入探讨 GloVe-V , 这是 Vallebueno 等人 (2024) 提出的一种方法,它将统计不确定性引入了流行的 GloVe 嵌入模型。我们将探索他们如何重构 GloVe 的数学原理以推导方差估计,以及这为何对从寻找同义词到检测性别偏见的一切都至关重要。

背景: GloVe 的确定性本质

要理解 GloVe-V,我们需要先回顾一下原始 GloVe (用于词表示的全局向量) 模型是如何工作的。

GloVe 是一个基于计数的模型。它依赖于一个全局共现矩阵 \(\mathbf{X}\),其中条目 \(X_{ij}\) 表示单词 \(j\) 出现在单词 \(i\) 上下文中的次数。GloVe 的目标是学习词向量,使它们的点积等于共现概率的对数。

GloVe 的标准目标函数是最小化以下加权最小二乘代价函数:

公式 1: 标准的 GloVe 代价函数。

以下是各组成部分的分解:

  • \(\mathbf{w}_i\) 和 \(\mathbf{v}_j\): 我们想要学习的“中心词”和“上下文词”向量。
  • \(b_i\) 和 \(c_j\): 各个单词的标量偏置项。
  • \(\mathbf{X}_{ij}\): 原始共现计数。
  • \(f(\mathbf{X}_{ij})\): 一个权重函数,防止高频词主导目标函数,同时防止低频词被忽略。

通常,这个优化问题使用随机梯度下降来求解。训练完成后,每个单词你会得到一个向量 \(\mathbf{w}_i\)。如果你在稍微不同的数据上重新训练,或者只是换了一个随机种子,你可能会得到一个不同的向量。然而,在应用中,我们表现得好像那个单一的 \(\mathbf{w}_i\) 是该单词唯一可能的表示。

这就是 GloVe-V 旨在填补的空白。研究人员提出了一种估计这些向量方差 (或重构误差) 的方法,有效地将点估计转化为概率分布。

核心方法: 推导 GloVe-V

GloVe-V 的高明之处在于它重新解释了现有的 GloVe 机制,而不是发明一种全新的架构。研究人员意识到,如果将模型的某些部分固定下来,数学公式就会转化为一种统计上易于处理的形式。

1. 重构优化问题

作者首先以矩阵形式重写了 GloVe 优化问题。原始问题是一个加权低秩近似问题。他们建议以特定的两步概念方式来解决它,以揭示其统计特性。

代表优化问题矩阵形式的公式。

这个等式看起来很吓人,但它描述了一种“块坐标下降”方法。

  1. 外层最小化: 找到最优偏置项 (\(\mathbf{b}, \mathbf{c}\)) 和上下文向量 (\(\mathbf{V}\))。
  2. 内层最小化: 将这些变量固定在其最优值,找到最优中心词向量 (\(\mathbf{W}\))。

通过假设上下文向量 (\(\mathbf{V}^*\)) 和偏置项固定在其全局最优值,寻找特定词向量 \(\mathbf{w}_i\) 的问题就与词汇表中的其他部分解耦了。它变成了一系列独立的加权最小二乘问题。

单个最优词向量 \(\mathbf{w}_i^*\) 的解可以写成解析形式:

公式 4: 最优词向量 w 的解析解。

这个公式告诉我们,词向量本质上是日志共现次数在上下文向量定义的子空间上的投影。

2. 概率模型

这是关键的转折点。一旦作者建立了词向量的解析形式 (如上所示) ,他们就可以反向推导出一个证明其合理性的概率模型。

他们假设对数共现 (\(\log \mathbf{x}_i\)) 生成自一个多元正态分布

公式 5: 对数共现的概率模型。

在这个模型中:

  • “均值”由单词和上下文向量的点积 (加上偏置) 决定。
  • “噪声”或误差项 \(\mathbf{e}_i\) 服从均值为零的正态分布。
  • 这种噪声的方差由权重的倒数 \(\mathbf{D}_{\mathcal{K}}^{-1}\) 和特定于单词的重构误差 \(\sigma_i^2\) 进行缩放。

这有效地将观察到的共现计数视为真实的潜在语义关系的“噪声”观测值。

3. 估计方差

如果词向量 \(\mathbf{w}_i\) 是这种噪声数据估计的结果,那么 \(\mathbf{w}_i\) 本身就是一个具有其自身协方差矩阵的随机变量。利用加权最小二乘法的标准统计理论,作者推导出了单词 \(i\) 的协方差矩阵 \(\boldsymbol{\Sigma}_i\):

公式 6: 词嵌入的协方差矩阵。

这个矩阵 \(\boldsymbol{\Sigma}_i\) 定义了围绕词向量的不确定性形状。它在向量空间中创建了一个椭球体。

  • 如果重构误差低且单词有良好的上下文支持,不确定性的“云”就很小。
  • 如果数据稀疏或充满噪声,这个“云”就会很大。

为了实际计算这一点,我们需要标量重构误差方差 \(\sigma_i^2\)。这可以使用“插入式 (plug-in) ”估计量从数据中凭经验估计出来:

重构误差插入式估计量的公式。

这个公式实际上是对平方误差 (模型预测与实际对数计数之间的差异) 进行求和,由 \(f(\mathbf{X}_{ij})\) 加权,并由观测数量 (\(|\mathcal{K}|\)) 减去向量维度 (\(D\)) 进行归一化。

可视化方法

为了将所有这些数学步骤联系起来,作者提供了一个概念图,对比了原始 GloVe 方法和 GloVe-V。

图 1: GloVe 与 GloVe-V 的概念图。

如上图所示:

  • GloVe (上) : 专注于找到使点积与对数计数之间差异最小化的向量。
  • GloVe-V (下) : 使用该最小化过程中的重构误差来围绕向量构建正态分布。

该方法假设共现矩阵的行在给定最优上下文向量的情况下是条件独立的。虽然这是一个简化假设,但正是它使得 GloVe-V 能够在大型词汇表上进行计算扩展——这是相对于 Bootstrap (自助法) 等计算昂贵方法的一个巨大优势。

实验与分析

那么,我们有了一种数学方法来为每个词向量分配一团“不确定性云”。这在实践中究竟是什么样子的?作者在美国历史英语语料库 (COHA) 上训练了 GloVe-V,以展示其方法的效用。

1. 可视化单词不确定性

最直接的结果是我们现在可以“看到”不确定性。通过将 300 维向量及其协方差矩阵投影到 2D 平面,我们可以绘制不同单词的置信椭圆。

图 2: 显示不同单词不确定性的椭圆。

图 2 中,注意像 “she” 和 “large” 这样的词与 “rigs” 和 “illumination” 之间的对比。

  • “she” : 一个高频词。模型在数千个上下文中见过它。椭圆非常小,实际上就是一个点。我们对它的位置非常确定。
  • “illumination” : 一个较低频的词。椭圆很大。模型大概知道它在哪里,但统计不确定性意味着它可能在该区域内的任何地方。

这种关系不是随机的。词频和方差之间存在强烈的、可预测的相关性。

图 3: GloVe-V 方差与词频之间的关系。

图 3 证实了随着词频增加 (x 轴) ,方差 (y 轴) 显着下降。这验证了数据稀疏性导致不确定性的直觉。

2. GloVe-V 与文档 Bootstrap

一个常见的批评可能是: “为什么不直接用 Bootstrap (自助法) ?”Bootstrap 涉及对语料库中的文档进行重采样 100 次,训练 100 个不同的模型,并测量方差。

作者认为文档 Bootstrap 衡量的是不同的东西: 抽样变异性 (sampling variability) (由于包含哪些文档而产生的不确定性) 。GloVe-V 衡量的是重构不确定性 (reconstruction uncertainty) (由于单词共现的稀疏性而产生的不确定性) 。

图 4: GloVe-V 与文档 Bootstrap 在余弦相似度标准误上的比较。

图 4 所示,这两种方法产生的余弦相似度标准误是不同的。GloVe-V (红线) 倾向于报告更高的不确定性,尤其是对于低频词。

  • 效率: 计算 GloVe-V 需要训练一个模型并运行一次解析过程。Bootstrap 需要训练 \(N\) 个模型 (例如,100 倍的计算量) 。
  • 粒度: GloVe-V 捕捉了单词共现概况的特定噪声,而文档 Bootstrap 有时可能会低估方差,如果一个生僻词恰好在它所在的少数几个文档中一致出现的话。

3. 应用: 最近邻

NLP 中最常见的任务之一是寻找单词的“最近邻”——通常用于寻找同义词或相关概念。我们计算“doctor”与候选列表之间的余弦相似度并对它们进行排序。

但是,第 1 名匹配真的在统计上不同于第 2 名匹配吗?

图 5: 带有不确定性区间的“doctor”最近邻。

图 5 完美地展示了这一点。点代表标准的余弦相似度估计值。“Surgeon (外科医生) ”是“doctor”最近的邻居,其次是“dentist (牙医) ”。 然而,看看 GloVe-V 提供的误差条。“Surgeon”、“dentist”和“psychiatrist (精神科医生) ”的 95% 置信区间有显著重叠。

  • 结论: 我们不能在统计上拒绝“dentist”实际上比“surgeon”更接近“doctor”的零假设。
  • 意义: 这表明 NLP 论文中的许多“排名”是虚假的。没有方差,我们会过度解读噪声。

4. 应用: 偏见检测

GloVe-V 最具影响力的应用可能是在文本社会偏见的研究中。研究人员经常使用词嵌入来衡量性别或种族偏见,方法是比较人口统计词汇 (如姓氏) 与属性词汇 (如“职业”与“家庭”) 之间的距离。

该领域的一个主要问题是依赖特定的单词列表 (词典) 。如果研究人员为了更具“包容性”而包含生僻姓氏,他们可能会引入巨大的噪声。

图 7: 带有不确定性区间的偏见分数。

图 7 (左图) 显示了使用姓氏进行的亚裔反感偏见测量。

  • 显示了基于频率的不同姓氏子集的偏见分数。
  • 生僻姓氏 (Q1) 显示的平均偏见与常见姓氏 (Q4) 截然不同。
  • 如果研究人员只使用最常见的名字 (如“Gandhi”或“Mao”,这些名字经常出现在历史语料库中) ,他们会计算出很高的偏见分数 (在零线以上) 。
  • 然而, 灰色阴影区域显示了整个列表的 GloVe-V 不确定性。它跨越了零。
  • 要点: 当考虑到不确定性时,在这个特定语料库/时间段内存在偏见的证据比仅使用名人名字的点估计所显示的要弱得多。GloVe-V 允许研究人员整合所有名字,根据其确定性进行加权,而不是任意削减列表。

图 7 (右图) 比较了不同类型的性别偏见 (科学 vs 艺术等) 。虽然点估计值不同,但误差条允许我们要看清哪些差异具有统计显著性 (p 值) ,哪些没有。

结论与启示

GloVe-V 的推出标志着向“科学的”NLP 迈出了重要一步。长期以来,该领域一直基于向量表示是精确的假设在运行。正如我们所见,这个假设恰恰在最重要的地方失效了: 在生僻词和细微的语义区别上。

通过重构 GloVe 目标函数以揭示其概率本质,作者提供了一个具有以下特点的工具:

  1. 可扩展: 不需要重新训练模型数百次。
  2. 有理论基础: 直接源自矩阵分解的重构误差。
  3. 可操作: 允许在下游任务 (如相似度排名和偏见审计) 中进行假设检验 (\(p\) 值) 。

对于学生和研究人员来说,教训是明确的: 关注方差。 如果你正在构建一个依赖于词向量之间距离的系统,你必须问这些向量有多可靠。有了 GloVe-V,你不再需要猜测。

未来的工作可能会将这些概率推导扩展到其他架构,例如基于 Transformer 的上下文嵌入 (BERT, GPT) ,这些模型目前也遭受同样的“点估计”盲点困扰。在此之前,GloVe-V 为如何思考向量空间中的不确定性提供了一个稳健的模板。