维基百科常被视为人类知识的单一、通用宝库。我们倾向于认为,将语言设置从英语切换到法语或俄语,仅仅是翻译了文本。然而,现实情况要复杂得多。维基百科是由不同社区组成的联邦,每个社区都有自己的编辑、文化规范和偏见。这导致了截然不同的叙事,一种语言中存在的事实可能在另一种语言中被完全省略。
对于计算社会科学家来说,这些差异提供了一个观察跨文化差异和系统性偏见的窗口。但是,如何大规模地衡量这些差异呢?以前的方法依赖于粗略的统计数据,例如计算文章数量或简单的词级分析。这些方法忽略了究竟什么缺失了这一细微差别。
在这篇文章中,我们将深入探讨一篇研究论文,该论文介绍了 INFOGAP , 这是一种新颖的自动化流程,旨在定位语言之间细粒度的信息缺失。作者将此方法应用于 LGBT 传记的案例研究,揭示了英语、俄语和法语维基百科在描绘公众人物方面的惊人差异。

如图 1 所示,这些差异可能细微但意义重大。在篮球运动员布兰妮·格里纳 (Brittney Griner) 的传记中,英文版强调了她的运动成就 (她的三双记录) ,而俄文版则侧重于争议。INFOGAP 提供了自动检测这些分歧的工具。
跨语言比较的挑战
跨语言比较文章众所周知的困难。英语中的一个句子很少能与俄语中的一个句子一一对应。句子通常很复杂,包含多个从句和不同的事实。
此外,人工分析无法扩展。如果研究人员想要了解全球范围内如何描绘 LGBT 人物,他们无法手动阅读和交叉引用多种语言的数千篇文章。他们需要一个系统,能够:
- 理解文本的语义含义 (不仅仅是关键词匹配) 。
- 在原子事实层面上操作 (不仅仅是句子) 。
- 高效地扩展到数千篇传记。
INFOGAP 方法
研究人员提出了一个三阶段的流程来解决这个问题: 事实分解 (Fact Decomposition) 、跨语言事实对齐 (X-FACTALIGN) 和 跨语言事实匹配 (X-FACTMATCH) 。

1. 事实分解
维基百科中的句子信息密度很高。一个句子可能会说: “她出生于 1990 年,效力于贝勒大学,是第一位得分达到 2000 分并盖帽 500 次的 NCAA 球员。” 这包含了出生信息、大学归属以及具体的统计记录。
为了将其与另一种语言进行比较,系统首先将这些复杂的句子分解为原子事实。作者利用 GPT-4 完成此任务,处理整个段落以解决指代消解 (例如,理解“她”指的是格里纳) ,并输出独立的陈述性事实列表。
2. X-FACTALIGN: 大海捞针
一旦文章 \(E\) (英语) 和文章 \(F\) (例如法语) 被分解为事实列表,系统就需要检查 \(E\) 中的特定事实是否存在于 \(F\) 中。通过将每一个英语事实与每一个法语事实进行比较来暴力破解,在计算上极其昂贵且容易出错。
相反,作者使用了一种检索方法。他们使用 LaBSE (语言无关的 BERT 句子嵌入) 对事实进行嵌入,这将不同语言的句子映射到一个共享的向量空间中。然而,仅仅使用余弦相似度是不够的,因为存在 枢纽化问题 (Hubness Problem) 。
枢纽化问题: 在高维向量空间中,某些向量 (枢纽) 倾向于作为许多其他向量的最近邻出现,即使它们在语义上并不相关。为了解决这个问题,作者使用了密度归一化距离度量。他们还在两种语言的段落之间构建了一个二部图以缩小搜索空间。如果一个事实来自英语的段落 A,系统会优先在语义上与段落 A “相邻”的法语段落中进行搜索。
3. X-FACTMATCH: 最终裁决
最后一步是验证。系统从目标语言中检索出可能与源事实匹配的候选事实。但“相似”并不意味着“等价”。
为了确定事实是否真的存在,作者采用了蕴含检查 (entailment check) 。他们向大语言模型 (GPT-4) 提示源事实 (假设) 和候选事实 (前提) 。模型被问到: 能否从候选事实中推断出源事实?
这一步将模糊的相似度评分转化为一个硬性决定: 蕴含 (存在) 或 不蕴含 (缺失) 。
验证流程
在信任自动化结果之前,作者将 INFOGAP 与人工标注进行了验证。他们手动标记了英语、法语和俄语传记中的数千个事实。

如表 1 所示,自动化分析的规模令手工分析相形见绌。但它准确吗?

表 2 显示了结果。INFOGAP 实现了 0.78 到 0.90 之间的 F1 分数,显著优于标准的 NLI (自然语言推理) 基线和随机猜测。这种高可靠性证实了该流程可以信赖用于大规模的社会学分析。
案例研究: LGBT 传记
作者将 INFOGAP 应用于 LGBTBioCorpus , 这是一个包含 LGBT 人物维基百科传记的数据集。目的是调查性取向如何影响英语 (En) 、法语 (Fr) 和俄语 (Ru) 维基百科中的信息覆盖。
这个领域特别敏感。叙事框架、正面事件的遗漏或对争议的强调,都可能显著改变读者对公众人物的看法。
RQ1: 信息不对称
首先,作者查看了共享信息的总量。不同的语言讲的是同一个故事吗?

图 3 展示了信息重叠情况。
- En \(\rightarrow\) Fr/Ru (上排) : 重叠率低。例如,En \(\rightarrow\) Ru 的中位重叠率仅为 0.23。这意味着对于一篇典型的传记,英语版本中 77% 的事实代表了俄语版本中缺失的独特信息。
- Fr/Ru \(\rightarrow\) En (下排) : 重叠率较高。法语和俄语文章中的很大一部分信息 (大约 55-66%) 可以在英语版本中找到。
这证实了一种“超集”动态: 英语维基百科作为一个拥有全面覆盖的全球中心,而其他语言通常包含该信息的子集,加上一些独特的本地背景。
RQ2: 情感与偏见
更深层的问题是: 什么样的信息被共享或遗漏了?事实的情感色彩是否会影响其跨越语言障碍的可能性?
为了测试这一点,作者按隐含情感 (正面、负面或中性) 对事实进行了分类。然后,他们运行了贝叶斯二项回归,以查看哪些因素预测了一个事实是否会被包含在目标语言中。

表 3 揭示了关于 俄语维基百科 的一个令人不安的趋势:
- 中性偏好: 通常,具有中性情感的事实更有可能在不同语言之间共享。
- 俄语负面偏见: 在
Ru -> En和En -> Ru方向上,is_lgbt和conn_neg(负面含义) 之间的交互作用是正向且显著的。
具体来说, 与非 LGBT 人物相比,LGBT 人物的俄语传记更有可能与英语传记共享负面事实,而不是正面事实。 回归模型估计,对于 LGBT 人物,俄语传记中大约 51% 的负面事实与英语共享,而对于非 LGBT 人物,这一数字降至 38%。这表明俄语维基百科中的叙事框架保留或强调了 LGBT 生活的负面方面。
作为背景,表 4 显示了各语言的情感基线分布。

RQ3: 缺失的正面事件
最后,研究人员使用 INFOGAP 来识别特定的“事件”——即事实的集合——这些事件带有正面情感,但在某种语言中缺失。这不仅仅是统计数据;这是关于发现叙事空白。
作者使用集合符号 \(M\) 正式定义了“缺失事件”:
![()\nM = { \\mathcal { V } \\in E | \\mathrm { a l l } ( { F | \\mathcal { F } e _ { i } | i \\in [ N _ { V } ] } ) }\n[](/en/paper/2410.04282/images/008.jpg#center)
在这里,如果源文章 \(E\) 中的段落 \(\mathcal{V}\) 的所有组成事实 \(e_i\) 都不被目标文章 \(F\) 所蕴含,则该段落被视为缺失。
人们可能会担心模型只是在犯错——声称一个事件缺失,而实际上它存在。然而,作者提供了该错误的概率界限。
![]\n\\leq \\exp \\left( - 2 ( 1 - \\epsilon ) ^ { 2 } k ^ { 2 } / k \\right) = \\exp ( - 2 ( 1 - \\epsilon ) ^ { 2 } k ) .\n()](/en/paper/2410.04282/images/009.jpg#center)
这个不等式表明,模型错误地将整个事件 (由 \(k\) 个事实组成) 标记为缺失的概率随着事实数量的增加呈指数级下降。如果 INFOGAP 说一个包含 5 个事实的段落缺失了,那么它在统计上非常可能是真的缺失了。
叙事空白的现实示例
自动化分析揭示了选择性叙事的迷人示例。

表 5 突出了明显的叙事选择:
- 蒂姆·库克 (En vs. Ru): 俄语文章明确详细描述了库克为乌克兰筹款以及苹果暂停在俄罗斯销售的情况。这整个事件在 英语文章中是缺失的 。 虽然俄罗斯编辑关注与俄罗斯相关的新闻是有道理的,但英语中的遗漏 (尽管美国媒体进行了报道) 可能反映了在有争议的地缘政治话题上保持“中立”立场的尝试。
- 切尔西·曼宁 (En vs. Fr): 法语文章包含一个章节,描述了罗恩·保罗 (Ron Paul) 对其举报行为的赞扬。这种正面框架在英语文章中不存在,也许反映了美国对其行为的看法更加两极分化,而欧洲的看法可能更具同情心。
- 阿达·科劳 (En vs. Ru): 英语文章详细介绍了她作为巴塞罗那市长的气候行动主义。俄语文章完全省略了这些积极的环境政策成就。
意义与结论
这项研究超越了简单的翻译,揭示了不同语言社区的“编辑灵魂”。它表明,维基百科不是一个单一的百科全书,而是各种不同、有时相互冲突的叙事的集合。
INFOGAP 方法是计算社会科学向前迈出的重要一步。通过将复杂的文章提炼为原子事实并使用大语言模型进行严格的蕴含检查,研究人员现在可以:
- 审计偏见: 系统地检查少数群体是否在特定语言中被更负面地描绘。
- 协助编辑: 自动标记缺失的正面成就 (如阿达·科劳的气候工作) ,以帮助其他语言的编辑丰富他们的文章。
- 研究信息流: 了解新闻和叙事如何跨越文化边界传播 (或未能传播) 。
虽然这项研究集中在 LGBT 传记上,但底层技术是跨语言和跨主题通用的。它可以用来分析地缘政治冲突、科学辩论或历史事件的报道,使其成为打击虚假信息和促进对真相更全面、全球性理解的有力工具。
技术附录: 高效实现
对于对技术实现感兴趣的学生来说,值得注意的是,虽然作者在最初的实验中使用了 GPT-4,但他们发现对于完整的数据集来说成本过高 (仅解析艾伦·图灵的传记就要花费超过 10 万个 token) 。
为了解决这个问题,他们将 GPT-4 的知识“蒸馏”到更小的开源模型( Flan-T5 和 mT5 )中。他们使用 GPT-4 创建了一个标记事实的种子数据集 (表 6 和表 7) ,并训练较小的模型来复制分解和蕴含任务。


这种方法使得 INFOGAP 不仅准确,而且计算效率高,可用于未来的研究复现。
](https://deep-paper.org/en/paper/2410.04282/images/cover.png)