迷失在翻译中：为何中文事实核查需要原生 AI

引言

在对抗全球“信息疫情 (infodemic) ”的战斗中，自动化事实核查已成为一项必不可少的工具。我们要依靠这些系统在海量数据中筛选信息，以超越人类的速度识别虚假信息。然而，目前的格局存在显著的不平衡: 绝大多数的研究、数据集和模型都是针对英语构建的。

这给 AI 社区提出了一个关键问题: 我们可以简单地将其他语言的主张翻译成英语，从而利用现有强大的工具吗? 或者，我们可以依靠像 GPT-4 这样的海量多语言大语言模型 (LLMs) 来处理所有语言的验证工作吗？

一篇题为 “Do We Need Language-Specific Fact-Checking Models? The Case of Chinese” 的近期论文调查了这一困境。该研究聚焦于普通话——一种拥有超过十亿使用人口且具有独特语言和文化特征的语言，研究人员证明了像翻译或通用多语言模型这样“省事”的方案是不足的。

在本文的深度剖析中，我们将探讨为何翻译会失败，文化偏见如何渗透进数据集，以及研究人员如何开发出一套超越行业巨头的、最先进的中文专用系统。

现状: 为什么不能直接翻译？

在从零开始构建新模型之前，科学且负责任的做法是先看看现有工具是否能胜任。研究人员首先尝试了两种用来绕过非英语数据集匮乏问题的常见“捷径”:

基于翻译的方法 (Translation-Based Methods) : 获取中文主张和证据，使用 Google 翻译或 GPT-4 将其翻译成英语，然后通过高性能的英语事实核查模型进行处理。
多语言 LLMs (Multilingual LLMs) : 要求 GPT-4 等模型 (这些模型在多种语言上进行过训练) 直接验证中文主张。

翻译的局限性

结果说明了一切。虽然翻译技术已有所进步，但它在处理事实核查所需的高风险细微差别时仍然十分吃力。

表 1: 上部分: 准确翻译面临的挑战 (红: 错误，蓝: 正确) ；下部分: 多语言 LLM 对特定主张的偏见。

正如上表所示，翻译往往无法捕捉到习语表达。在第一个例子中，短语 “raised eyebrows” (意为引起惊讶或不赞同) 被错误翻译，丢失了原文的怀疑态度，导致模型错误地支持了一个被驳斥的主张。

多语言模型的偏见

多语言 LLMs 面临着一个不同的问题: 文化幻觉 (cultural hallucination) 。这些模型主要在英语数据上训练，反映了西方的规范和价值观。当应用于中文主张时，它们往往将西方视角强加于非西方语境。

在上表的第二个例子中，ChatGPT 错误地支持了一个关于地下水污染的主张，这很可能是因为它基于一般的环境话语产生了幻觉，而不是基于提供的具体证据。研究人员发现，这些模型在其他语言的事实核查中效果较差，因为它们缺乏正确解读主张所需的特定文化基础。

解决方案: 特定语言的架构

为了解决这些缺陷，研究人员主张建立专门的中文事实核查流水线。一个标准的流水线包含两个主要阶段:

证据检索 (Evidence Retrieval) : 寻找能证明或反驳主张的正确文档或句子。
主张验证 (Claim Verification) : 分析证据以分配标签 (支持、驳斥或信息不足) 。

第一阶段: 文档级检索器 (DLR)

在许多现有的数据集中，证据检索被处理得很简单: 找到与主张匹配的句子。然而，现实世界中的虚假信息很少能仅靠单个孤立的句子来揭穿。上下文至关重要。

研究人员开发了一种新颖的 文档级检索器 (Document-level Retriever, DLR) 。与以前单独查看句子 (成对分类) 的方法不同，该方法查看整个文档以理解每个句子的上下文。

为了实现这一目标，他们利用了 BigBird , 这是一种 Transformer 架构，旨在处理比标准 BERT 模型更长的文本序列。

图 1: 展示我们在证据句子检索方法中使用 BigBird 的框架示意图。主张用蓝色表示，证据句子用红色高亮。表 5: 语义排序器 (Semantic Ranker) 与文档级检索器在结合 DeBERTa-large 进行证据句子检索时的对比。

工作原理:

输入: 模型接收主张 (上图中蓝色部分) 和整个证据文档。
Token 评分: 模型不仅仅是将句子分类为“相关”或“不相关”，而是为文档中的每一个 Token (字/词) 分配一个相关性分数。
聚合: 这些 Token 分数被平均后生成句子级分数。如果平均值高于 0.5，该句子就会被作为证据检索出来。

这种方法允许系统检索出那些单独看可能看似无关，但在周围段落的上下文中理解时却至关重要的句子。正如上图包含的表格所示，与标准的语义排序器 (Semantic Ranker) 相比，DLR 方法显著提高了召回率 (Recall) 和 F1 分数。

第二阶段: 验证器

在验证阶段，研究人员使用了中文专用的 DeBERTa (DeBERTa: Decoding-enhanced BERT with disentangled attention) 。该模型专门在中文语料库 (悟道) 上进行预训练，使其具备原生的句法和语义理解能力。

当与 DLR 结合使用时，这套中文专用流水线在 CHEF 数据集 (一个主要的中文事实核查基准) 上达到了 74.50% 的准确率 , 比最好的基于翻译的方法高出 10% 以上。

揭示文化偏见

这项研究最引人入胜的方面之一是对偏见的分析。在像 FEVER 这样的英语数据集中，研究人员早就知道模型会学习“捷径”。例如，如果一个主张包含单词“not”，模型可能会在没读证据的情况下就在统计学上猜测它是“驳斥 (Refuted) ”的。

研究人员调查了中文是否存在类似的偏见，更重要的是，这些偏见是否具有文化独特性。

领域和关键词偏见

他们分析了 CHEF 数据集，发现了显著的主题倾斜。

按领域划分的标签分布图 2: CHEF 数据集中不同领域的标签分布。

如图 2 所示, 社会 (Society) 和 健康 (Health) 类的主张绝大多数是“驳斥 (Refuted) ” (橙色柱) ，而 政治 (Politics) 和 文化 (Culture) 类大多是“支持 (Supported) ” (蓝色柱) 。这反映了中国互联网和媒体环境的特殊性质，政治新闻通常由官方媒体严格监管和策划 (导致较高的真实性) ，而社交媒体则充斥着健康谣言和社会八卦 (导致较高的虚假性) 。

偏见的数学原理

为了证明这不仅仅是猜想，研究人员使用 局部互信息 (LMI) 来计算特定词语与标签之间的相关性。

\[ \begin{array} { c } { { p ( l \mid w ) = \displaystyle \frac { \mathrm { c o u n t } ( w , l ) } { \mathrm { c o u n t } ( w ) } } } \\ { { L M I ( w , l ) = p ( w , l ) \cdot \log \left( \displaystyle \frac { p ( l \mid w ) } { p ( l ) } \right) } } \end{array} \]

使用上述方程，他们根据词语预测“支持”或“驳斥”标签的强度对词语进行了排名。

这些发现具有鲜明的中国文化特征:

驳斥线索: 像“病毒”、“疫苗”、“致癌”这样的词，以及像“台湾”或“美国”这样的地区，与驳斥类主张有很强的相关性。
支持线索: 像“金融”、“人民币”、“央行”和“外交部”这样的词，与支持类主张有很强的相关性。

这证实了在这些数据上训练的模型不仅是在学习事实；它们还在学习“官方话语” = 真，以及“可怕的健康谣言” = 假。这是一种在训练集上有效但在现实世界中会失效的启发式规则。

使用对抗性攻击进行压力测试

为了证明模型依赖于这些浅层的文化启发式规则，研究人员构建了一个 对抗性数据集 (Adversarial Dataset) 。

目标是创建那些看起来像原始数据 (相同的句式结构、相同的关键词) 但具有相反标签的主张。如果一个模型依赖捷径 (例如，看到“病毒”就猜“假”) ，它就会在这些新样本上失败。

使用 GPT-4 构建数据集

他们使用 GPT-4 来生成这些对抗性样本。该过程涉及保持关系结构但反转事实。

图 3: 原始对与生成对之间关系的示意图 (Schuster 等人，2019) 。

如图 3 所示，对于每一对主张-证据，他们生成了一个结论反转的“新主张”和“新证据”。这确保模型不能仅依靠主张的文本来猜测标签；它必须将主张与证据进行对比。

对抗性修改示例

生成过程并非随机的；它遵循特定的规则，以确保新句子在语法上正确且逻辑上合理。

表 7: 来自对称对抗数据集的示例，旨在说明保持右栏描述关系的主张-证据对。通过将生成的句子与原始句子相结合，形成了两个额外的案例，每个案例的标签都彼此相反。红色的中文文本高亮显示了重写前后主张/证据之间的差异。

在上表中，请注意红色高亮的细微变化。

原始: “没有出现逃逸现象……” (支持)
生成: “存在大量逃逸现象……” (由新证据支持)

通过将这些配对输入模型，研究人员设下一个“陷阱”。如果模型简单地将“抗体逃逸”这一话题与“支持”联系起来，当面对使用相似措辞但需要仔细查看证据的生成版本时，它就会失败。

结果: 谁在攻击中幸存下来？

当在这个新的对抗性数据集上进行测试时，所有模型的性能都下降了，这证实了即使是最好的模型也在一定程度上依赖于表面捷径。然而, 下降的幅度 揭示了特定语言方法的优越性。

基于翻译的模型 严重崩溃，F1 分数跌至约 53%。
多语言模型 也陷入了巨大的挣扎。
中文 DeBERTa 保持了最高的性能，证明了深层的、原生的语言理解能提供更好的鲁棒性来抵御这些攻击。

接种: 它们能学习吗？

最后，研究人员尝试了“接种 (inoculation) ”——在少量此类对抗性样本上微调模型，看看它们能否适应。

图 4: 使用不同规模的对抗性样本微调模型后的接种结果。为了评估模型，我们同时使用了原始 CHEF 测试集和对抗性 CHEF 测试集。

图 4 展示了这种接种的结果。

左侧图表 (基线) : 即使在看了 800 个对抗性样本后，像 BERT 和基于图 (Graph-based) 的系统也几乎没有改进。它们触及了“学习天花板”，表明它们的架构根本无法处理这种复杂性。
右侧图表 (DeBERTa) : 中文 DeBERTa 模型 (最右侧) 显示，随着看到的样本增多，其在对抗性数据集 (橙色线) 上的准确率稳步上升。这表明特定语言的模型不仅初始准确率更高，而且在有机会时，更有 能力学习 和适应复杂、微妙的虚假信息。

结论

这项研究为一个问题提供了明确的答案: 是的，我们需要特定语言的事实核查模型。

虽然依赖通用翻译器或海量多语言 LLMs 很有诱惑力，但这项研究凸显了它们的关键弱点。它们会遗漏习语的细微差别，遭受文化幻觉的困扰，并且在面对对抗性攻击时表现脆弱。

研究人员成功证明，一个为中文构建的、使用上下文感知检索 (BigBird) 和原生语言理解 (中文 DeBERTa) 的系统，提供了卓越的准确性和鲁棒性。此外，他们对文化偏见的分析为未来的 AI 开发敲响了警钟: 我们不能将非英语数据视为英语数据的简单变体。每种语言都承载着自己的“世界”——它自己的偏见、媒体结构和语言陷阱——AI 必须经过专门教导才能在其中导航。

引言#

现状: 为什么不能直接翻译？#

翻译的局限性#

多语言模型的偏见#

解决方案: 特定语言的架构#

第一阶段: 文档级检索器 (DLR)#

第二阶段: 验证器#

揭示文化偏见#

领域和关键词偏见#

偏见的数学原理#

使用对抗性攻击进行压力测试#

使用 GPT-4 构建数据集#

对抗性修改示例#

结果: 谁在攻击中幸存下来？#

接种: 它们能学习吗？#

结论#

引言