引言
在对抗全球“信息疫情 (infodemic) ”的战斗中,自动化事实核查已成为一项必不可少的工具。我们要依靠这些系统在海量数据中筛选信息,以超越人类的速度识别虚假信息。然而,目前的格局存在显著的不平衡: 绝大多数的研究、数据集和模型都是针对英语构建的。
这给 AI 社区提出了一个关键问题: 我们可以简单地将其他语言的主张翻译成英语,从而利用现有强大的工具吗? 或者,我们可以依靠像 GPT-4 这样的海量多语言大语言模型 (LLMs) 来处理所有语言的验证工作吗?
一篇题为 “Do We Need Language-Specific Fact-Checking Models? The Case of Chinese” 的近期论文调查了这一困境。该研究聚焦于普通话——一种拥有超过十亿使用人口且具有独特语言和文化特征的语言,研究人员证明了像翻译或通用多语言模型这样“省事”的方案是不足的。
在本文的深度剖析中,我们将探讨为何翻译会失败,文化偏见如何渗透进数据集,以及研究人员如何开发出一套超越行业巨头的、最先进的中文专用系统。
现状: 为什么不能直接翻译?
在从零开始构建新模型之前,科学且负责任的做法是先看看现有工具是否能胜任。研究人员首先尝试了两种用来绕过非英语数据集匮乏问题的常见“捷径”:
- 基于翻译的方法 (Translation-Based Methods) : 获取中文主张和证据,使用 Google 翻译或 GPT-4 将其翻译成英语,然后通过高性能的英语事实核查模型进行处理。
- 多语言 LLMs (Multilingual LLMs) : 要求 GPT-4 等模型 (这些模型在多种语言上进行过训练) 直接验证中文主张。
翻译的局限性
结果说明了一切。虽然翻译技术已有所进步,但它在处理事实核查所需的高风险细微差别时仍然十分吃力。

正如上表所示,翻译往往无法捕捉到习语表达。在第一个例子中,短语 “raised eyebrows” (意为引起惊讶或不赞同) 被错误翻译,丢失了原文的怀疑态度,导致模型错误地支持了一个被驳斥的主张。
多语言模型的偏见
多语言 LLMs 面临着一个不同的问题: 文化幻觉 (cultural hallucination) 。 这些模型主要在英语数据上训练,反映了西方的规范和价值观。当应用于中文主张时,它们往往将西方视角强加于非西方语境。
在上表的第二个例子中,ChatGPT 错误地支持了一个关于地下水污染的主张,这很可能是因为它基于一般的环境话语产生了幻觉,而不是基于提供的具体证据。研究人员发现,这些模型在其他语言的事实核查中效果较差,因为它们缺乏正确解读主张所需的特定文化基础。
解决方案: 特定语言的架构
为了解决这些缺陷,研究人员主张建立专门的中文事实核查流水线。一个标准的流水线包含两个主要阶段:
- 证据检索 (Evidence Retrieval) : 寻找能证明或反驳主张的正确文档或句子。
- 主张验证 (Claim Verification) : 分析证据以分配标签 (支持、驳斥或信息不足) 。
第一阶段: 文档级检索器 (DLR)
在许多现有的数据集中,证据检索被处理得很简单: 找到与主张匹配的句子。然而,现实世界中的虚假信息很少能仅靠单个孤立的句子来揭穿。上下文至关重要。
研究人员开发了一种新颖的 文档级检索器 (Document-level Retriever, DLR) 。 与以前单独查看句子 (成对分类) 的方法不同,该方法查看整个文档以理解每个句子的上下文。
为了实现这一目标,他们利用了 BigBird , 这是一种 Transformer 架构,旨在处理比标准 BERT 模型更长的文本序列。

工作原理:
- 输入: 模型接收主张 (上图中蓝色部分) 和整个证据文档。
- Token 评分: 模型不仅仅是将句子分类为“相关”或“不相关”,而是为文档中的每一个 Token (字/词) 分配一个相关性分数。
- 聚合: 这些 Token 分数被平均后生成句子级分数。如果平均值高于 0.5,该句子就会被作为证据检索出来。
这种方法允许系统检索出那些单独看可能看似无关,但在周围段落的上下文中理解时却至关重要的句子。正如上图包含的表格所示,与标准的语义排序器 (Semantic Ranker) 相比,DLR 方法显著提高了召回率 (Recall) 和 F1 分数。
第二阶段: 验证器
在验证阶段,研究人员使用了中文专用的 DeBERTa (DeBERTa: Decoding-enhanced BERT with disentangled attention) 。该模型专门在中文语料库 (悟道) 上进行预训练,使其具备原生的句法和语义理解能力。
当与 DLR 结合使用时,这套中文专用流水线在 CHEF 数据集 (一个主要的中文事实核查基准) 上达到了 74.50% 的准确率 , 比最好的基于翻译的方法高出 10% 以上。
揭示文化偏见
这项研究最引人入胜的方面之一是对偏见的分析。在像 FEVER 这样的英语数据集中,研究人员早就知道模型会学习“捷径”。例如,如果一个主张包含单词“not”,模型可能会在没读证据的情况下就在统计学上猜测它是“驳斥 (Refuted) ”的。
研究人员调查了中文是否存在类似的偏见,更重要的是,这些偏见是否具有文化独特性。
领域和关键词偏见
他们分析了 CHEF 数据集,发现了显著的主题倾斜。

如图 2 所示, 社会 (Society) 和 健康 (Health) 类的主张绝大多数是“驳斥 (Refuted) ” (橙色柱) ,而 政治 (Politics) 和 文化 (Culture) 类大多是“支持 (Supported) ” (蓝色柱) 。这反映了中国互联网和媒体环境的特殊性质,政治新闻通常由官方媒体严格监管和策划 (导致较高的真实性) ,而社交媒体则充斥着健康谣言和社会八卦 (导致较高的虚假性) 。
偏见的数学原理
为了证明这不仅仅是猜想,研究人员使用 局部互信息 (LMI) 来计算特定词语与标签之间的相关性。
\[ \begin{array} { c } { { p ( l \mid w ) = \displaystyle \frac { \mathrm { c o u n t } ( w , l ) } { \mathrm { c o u n t } ( w ) } } } \\ { { L M I ( w , l ) = p ( w , l ) \cdot \log \left( \displaystyle \frac { p ( l \mid w ) } { p ( l ) } \right) } } \end{array} \]使用上述方程,他们根据词语预测“支持”或“驳斥”标签的强度对词语进行了排名。
这些发现具有鲜明的中国文化特征:
- 驳斥线索: 像“病毒”、“疫苗”、“致癌”这样的词,以及像“台湾”或“美国”这样的地区,与驳斥类主张有很强的相关性。
- 支持线索: 像“金融”、“人民币”、“央行”和“外交部”这样的词,与支持类主张有很强的相关性。
这证实了在这些数据上训练的模型不仅是在学习事实;它们还在学习“官方话语” = 真,以及“可怕的健康谣言” = 假。这是一种在训练集上有效但在现实世界中会失效的启发式规则。
使用对抗性攻击进行压力测试
为了证明模型依赖于这些浅层的文化启发式规则,研究人员构建了一个 对抗性数据集 (Adversarial Dataset) 。
目标是创建那些看起来像原始数据 (相同的句式结构、相同的关键词) 但具有 相反 标签的主张。如果一个模型依赖捷径 (例如,看到“病毒”就猜“假”) ,它就会在这些新样本上失败。
使用 GPT-4 构建数据集
他们使用 GPT-4 来生成这些对抗性样本。该过程涉及保持关系结构但反转事实。

如图 3 所示,对于每一对主张-证据,他们生成了一个结论反转的“新主张”和“新证据”。这确保模型不能仅依靠主张的文本来猜测标签;它必须将主张与证据进行对比。
对抗性修改示例
生成过程并非随机的;它遵循特定的规则,以确保新句子在语法上正确且逻辑上合理。

在上表中,请注意红色高亮的细微变化。
- 原始: “没有出现逃逸现象……” (支持)
- 生成: “存在大量逃逸现象……” (由新证据支持)
通过将这些配对输入模型,研究人员设下一个“陷阱”。如果模型简单地将“抗体逃逸”这一话题与“支持”联系起来,当面对使用相似措辞但需要仔细查看证据的生成版本时,它就会失败。
结果: 谁在攻击中幸存下来?
当在这个新的对抗性数据集上进行测试时,所有模型的性能都下降了,这证实了即使是最好的模型也在一定程度上依赖于表面捷径。然而, 下降的幅度 揭示了特定语言方法的优越性。
- 基于翻译的模型 严重崩溃,F1 分数跌至约 53%。
- 多语言模型 也陷入了巨大的挣扎。
- 中文 DeBERTa 保持了最高的性能,证明了深层的、原生的语言理解能提供更好的鲁棒性来抵御这些攻击。
接种: 它们能学习吗?
最后,研究人员尝试了“接种 (inoculation) ”——在少量此类对抗性样本上微调模型,看看它们能否适应。

图 4 展示了这种接种的结果。
- 左侧图表 (基线) : 即使在看了 800 个对抗性样本后,像 BERT 和基于图 (Graph-based) 的系统也几乎没有改进。它们触及了“学习天花板”,表明它们的架构根本无法处理这种复杂性。
- 右侧图表 (DeBERTa) : 中文 DeBERTa 模型 (最右侧) 显示,随着看到的样本增多,其在对抗性数据集 (橙色线) 上的准确率稳步上升。这表明特定语言的模型不仅初始准确率更高,而且在有机会时,更有 能力学习 和适应复杂、微妙的虚假信息。
结论
这项研究为一个问题提供了明确的答案: 是的,我们需要特定语言的事实核查模型。
虽然依赖通用翻译器或海量多语言 LLMs 很有诱惑力,但这项研究凸显了它们的关键弱点。它们会遗漏习语的细微差别,遭受文化幻觉的困扰,并且在面对对抗性攻击时表现脆弱。
研究人员成功证明,一个 为 中文构建的、使用上下文感知检索 (BigBird) 和原生语言理解 (中文 DeBERTa) 的系统,提供了卓越的准确性和鲁棒性。此外,他们对文化偏见的分析为未来的 AI 开发敲响了警钟: 我们不能将非英语数据视为英语数据的简单变体。每种语言都承载着自己的“世界”——它自己的偏见、媒体结构和语言陷阱——AI 必须经过专门教导才能在其中导航。
](https://deep-paper.org/en/paper/2401.15498/images/cover.png)