语言是一个移动的目标。像“plane” (飞机/平面) 或“mouse” (老鼠/鼠标) 这样的词,今天的含义与两百年前截然不同。为了教计算机如何理解这些变迁——这一领域被称为词汇语义变化检测 (Lexical Semantic Change Detection, LSCD)——研究人员需要高质量的数据。他们需要一种方法来映射一个词在成千上万种不同语境中的使用情况。
词汇用法图 (Word Usage Graph, WUG) 应运而生。这种创新方法摒弃了僵化的字典定义,转而依赖于词语在实际句子中相互关联的方式。
在这篇文章中,我们将深入探讨论文《More DWUGs》,研究人员在文中对现有的最大 WUG 数据集进行了批判性审视。他们不仅对其进行了分析,还通过成千上万次新的人类判断对其进行了扩展,并严格测试了其可靠性。结果为构建更好的语义数据集提供了路线图: 事实证明,拥有更多的连接往往比拥有更多的例子更好。
字典的问题
传统上,如果你想教计算机一个词的义项 (senses) ,你会依赖于用法-义项 (Use-Sense) 标注模型。
在这个模型中,人类标注者观察一个句子:
“She opened a vein in her little arm.” (她切开了小手臂上的静脉。)
然后从预定义的列表中选择最合适的定义:
- 人类肢体
- 武器系统
这看起来很简单,但它有很大的缺点。它需要一个预先存在的义项库 (字典) ,而这可能已过时、不完整或有偏见。这本质上是在强行将新数据塞入旧框框中。
替代方案: 用法-用法标注
WUG 范式彻底颠覆了这一点。标注者不需要将句子与定义相匹配,只需比较两个句子 (用法) 并判断它们的语义接近度。
用法 1: “…taking a knife, she opened a vein in her arm.” (……拿着刀,她切开了手臂上的静脉。) 用法 2: “He stood overlooking an arm of the sea.” (他站着俯瞰海湾。)
标注者在一个量表上对这些进行评分: 它们是相同的吗?相关的?还是完全不相关的?
当你对数百个句子这样做时,就创建了一个网络。意义相似的句子聚在一起,而不相关的意义则漂移分开。这就形成了词汇用法图 (WUG) 。

如上图 1 所示,这些图形直观地展示了一个词的“语义空间”。
- 节点 (点): 句子中词语的单个实例。
- 边 (线): 它们之间的语义关系。
- 聚类 (颜色): 词语的不同义项 (例如 plane 的“飞机”义项与“几何平面”义项) 。
然而,研究人员发现了现有数据集 (特别是来自 SemEval-2020 的数据集) 的一个问题。由于标注所有可能的句子对是不可能的 (对的数量呈二次方增长) ,因此这些图是稀疏的。连接节点的边不够多。这篇论文旨在通过增加标注轮次并测试“更稠密”的图是否能讲述更真实的故事来解决这个问题。
核心方法: 构建图
要理解这篇论文的贡献,我们需要先了解词汇用法图背后的机制。
1. 图结构
形式上,一个 WUG 被定义为图 \(G = (U, E, W)\)。
- \(U\): 词语用法 (句子) 的集合。
- \(E\): 连接它们的边。
- \(W\): 边的权重,代表语义接近度。
研究人员使用了 DURel 相关性量表 , 人类在该量表上对配对进行 1 (不相关) 到 4 (相同) 的评分。
2. 聚类: 寻找含义
图构建完成后,我们要如何找到义项呢?我们不能只靠肉眼看;我们需要一种算法来识别聚类。作者使用了相关性聚类 (Correlation Clustering) 。
该算法的目标是对节点进行分组,使得:
- 同一聚类内的节点通过高 (正) 权重连接。
- 不同聚类中的节点通过低 (负) 权重连接。
为此,算法会对 1–4 的人类评分进行转换。他们设定了一个阈值 (\(h=2.5\))。
- 评分 \(> 2.5\) 变为正权重 (吸引) 。
- 评分 \(< 2.5\) 变为负权重 (排斥) 。
聚类算法试图最小化加权不一致之和 (Sum of Weighted Disagreements, SWD) 。 “不一致”发生在两个正连接的节点被放入不同的聚类中,或者两个负连接的节点被放入同一个聚类中时。

在这个公式中:
- 第一个求和代表将本应在一起的节点分开的惩罚 (聚类间的正边) 。
- 第二个求和代表将本应分开的节点组合在一起的惩罚 (聚类内的负边) 。
通过最小化这个值,算法会自动检测一个词有多少个义项 (聚类) ,而不需要字典。
3. 测量语义变化
一旦聚类被定义,研究人员就可以测量一个词随时间的变化。他们观察聚类频率分布 (\(D\)) 。
![]\nD = ( f ( L _ { 1 } ) , f ( L _ { 2 } ) , . . . , f ( L _ { i } ) )\n[](/en/paper/file-3403/images/003.jpg#center)
这个分布简单地统计了该词在特定时间段内出现在每个聚类 (义项) 中的频率。
为了量化两个时间段 (例如,1800 年代与 1990 年代) 之间的变化,他们使用 Jensen-Shannon 距离 (JSD) 来比较分布 (\(P\) 和 \(Q\)) :
![]\n\\sqrt { \\frac { D ( P | M ) + D ( Q | M ) } { 2 } }\n[](/en/paper/file-3403/images/010.jpg#center)
JSD 分数高意味着分布差异很大——表明该词经历了显著的语义变化。
扩展数据集
最初的 SemEval 数据集 (DWUG V1) 是通过四轮标注创建的。本文的研究人员极大地扩展了这项工作,创建了 DWUG V2 和 V3 。
他们增加了第 5 轮和第 6 轮 , 采用了特定的采样策略:
- 未连接启发式策略 (The Unconnected Heuristic): 他们专门针对尚未相互比较的聚类。这有助于弥合图中的空白。
- 随机启发式策略 (The Random Heuristic): 完全随机地采样边以避免偏差。
总的来说,他们在英语 (EN)、德语 (DE) 和瑞典语 (SV) 中增加了数千个判断。
“重采样”数据集
为了测试可复现性,他们还从头开始创建了一个全新的数据集。他们为每种语言选择了 15 个词,从源语料库中采样了新的句子 (用法) ,并进行了标注。关键是,这个“重采样”数据集使用的节点较少 (50 个用法而不是约 180 个) ,但标注得更加密集。这就允许进行比较: 是拥有少量连接的大量用法更好,还是拥有大量连接的少量用法更好?
实验与结果
这篇论文针对 WUG 范式提出了三个关键问题: 有效性、鲁棒性和可复现性。
1. 有效性: 更多轮次能提高质量吗?
增加更多的标注轮次是否真的让聚类更“真实”?为了测试这一点,研究人员将他们自动导出的聚类与“黄金标准”——即专家手动为句子分配字典定义的传统“用法-义项”标注——进行了比较。
他们使用调整兰德指数 (Adjusted Rand Index, ARI) 来衡量 WUG 聚类与人类黄金标准之间的一致性。
![]\nA R I = \\frac { R I - E x p e c t e d _ { R I } } { m a x ( R I ) - E x p e t e d _ { R I } }\n()](/en/paper/file-3403/images/007.jpg#center)
结果很明确:

在上图 (左) 中,我们看到德语数据集 (DE)。ARI 分数从第 1 轮到第 5 轮稳步上升。这证明早期的、更稀疏的图并没有捕捉到全貌。随着更多边的加入,聚类显著改善。
右图将之前的轮次与最终的版本 3 (V3) 数据集进行了比较。在所有语言 (DE、EN、SV) 中,早期轮次与最终结果的一致性较低,证实了额外的标注工作对于达到稳定状态是必要的。
2. 鲁棒性: 处理噪声
现实世界的数据是混乱的。标注者会犯错。研究人员通过向数据中注入随机“噪声” (错误的标注) ,看看聚类算法是否会崩溃,以此来测试图的鲁棒性。

结果 (图 3) 揭示了关于图密度的一个重要见解。
- V1 (蓝线): 原始的、稀疏的数据集非常脆弱。即使是很小比例的噪声也会导致 ARI (准确性) 急剧下降。
- 重采样 (底行): 看看这里的稳定性。“重采样”数据集节点较少,但连接更紧密。即使 40% 的边是噪声,聚类结构也能保持得相当好 (特别是在德语和瑞典语中) 。
结论: 一个更小、连接更紧密的图比一个大而连接稀疏的图更具鲁棒性。
3. 可复现性与收敛性
最后,作者分析了语义变化分数的收敛速度。如果你正在分析一个词,你实际上需要多少数据才能知道该词的含义是否发生了变化?
研究人员发现,这在很大程度上取决于词的“熵”——本质上,它是单义的 (一个含义) 还是多义的 (多个含义) 。

图 7 显示了随着更多边的加入 (x 轴) ,错误率 (y 轴) 的变化。
- 蓝线 (低熵/单义) : 错误率非常快地降至接近零。你不需要太多数据就能确认一个词没有变化。
- 橙线 (高熵/多义) : 这些词更难。错误率在较长时间内保持较高水平。你需要更多的标注数据来准确映射具有多个义项的词的复杂含义变化。
结论与启示
论文《More DWUGs》是计算语言学领域向前迈出的重要一步。它将词汇用法图方法从一种实验性的新奇事物转变为经过严格验证的科学工具。
主要收获:
- 多多益善: 与人类黄金标准相比,通过第 5 轮和第 6 轮扩展数据集显著提高了聚类的有效性。
- 密度胜于规模: 实验表明,未来的标注工作应牺牲用法数量以换取边数量。一个包含 50 个句子的密集图比一个包含 200 个句子的稀疏图在科学上更有用。
- 可靠性: 更新后的数据集 (V3) 为训练和评估关于语义变化的 AI 模型提供了可靠的基准。
对于学生和研究人员来说,这篇论文强调了深入了解数据集创建底层机制的重要性。它表明“大数据”并不总是足够的;数据的结构——即它的连接程度——决定了我们看到的是真实的信号还是仅仅是噪声。
](https://deep-paper.org/en/paper/file-3403/images/cover.png)