隐形的脊梁: 为什么“社区笔记”需要专业事实核查员

在不断演变的社交媒体格局中，反虚假信息的斗争出现了一个有趣的转折。多年来，像 Facebook 和 Twitter (现在的 X) 这样的平台依靠与专业事实核查机构 (如 Snopes、PolitiFact 和路透社) 的付费合作来标记虚假主张。然而，最近这种趋势已转向“社区治理”。

这种逻辑看起来既民主又具可扩展性: 与其花钱请一小群专家去核查海量内容，不如赋予用户自己管理平台的权力？这就是 X (前 Twitter) 上 Community Notes (社区笔记) 背后的理念。其核心思想是，“群体的智慧”能够比新闻编辑室更快、更有效地识别谎言。

但一个关键问题仍然悬而未决: 这群“大众”是真的从零开始做这项工作，还是站在了巨人的肩膀上？

哥本哈根大学最近发表的一篇题为 “Can Community Notes Replace Professional Fact-Checkers?” (社区笔记能否取代专业事实核查员？) 的论文深入探讨了这一生态系统。研究人员分析了超过 150 万条笔记，以了解业余侦探与专业记者之间的关系。他们的发现挑战了平台可以简单地用一方取代另一方的假设。

问题所在: “大众”对决“专家”

要理解这项研究的重要性，我们必须审视当前的行业趋势。主要平台正逐渐退出与事实核查员的付费合作关系。Meta (Facebook/Instagram) 已发出转向社区驱动模式的信号，而 X 则将其整个信任与安全策略押注在了社区笔记上。

推动这些决策的假设是，社区笔记和专业事实核查是相互独立、相互竞争的策略。既然社区可以免费做这件事，为什么要付钱给专业人士呢？

然而，如果社区笔记在很大程度上依赖专业人士所做的调查工作来证实其主张，那么削减对专业人士的资助可能会无意中导致社区笔记质量的崩塌。本文试图回答两个主要的研究问题:

社区笔记在多大程度上依赖专业事实核查员?
哪种类型的虚假信息需要引用专业来源?

什么是社区笔记？

在深入研究数据之前，可视化我们正在分析的内容很有帮助。社区笔记是用户生成并附加在帖子下的内容。如果用户看到一条误导性的推文，他们可以写一条笔记。然后其他用户会对该笔记进行评分。如果来自不同观点的足够多的人将其评为“有帮助 (Helpful) ”，该笔记就会被公开发布。

图 1: 社区笔记示例。注意事实核查链接和评分。

如上方的 图 1 所示，一条成功的笔记通常做两件事: 解释为什么该帖子具有误导性 (例如，澄清铝制炊具与阿尔茨海默病无关) ，并提供来源。这些来源的性质——具体来说，它们链接到专业事实核查的频率——正是本研究的核心谜题。

方法论: 分析 150 万条笔记

研究人员对这个问题采取了大规模的数据驱动方法。他们下载了从 2021 年 1 月到 2025 年 1 月的 Twitter/X 社区笔记的整个公共数据集。总计约为 150 万条笔记 。

第一步: 过滤数据

并非每条笔记都与虚假信息有关。许多笔记是垃圾信息、非英语内容或被标记为“无误导性”。团队将数据集过滤为 66.4 万条英语笔记 , 这些笔记专门用于解决误导性内容。

为了让你对这一功能的规模和增长有个概念，请看下面的笔记创建时间轴。

图 6: 每月撰写的社区笔记数量直方图及其评分。

图 6 展示了社区笔记在 2022 年底面向全球推出 (以灰线标记) 后，数量呈爆炸式增长。黄色条柱代表“有帮助”的笔记——即实际向公众展示的笔记。绝大多数 (红色条柱) 仍处于“需要更多评分”的炼狱中，凸显了让笔记获得发布是多么困难。

第二步: 分类来源

研究人员需要知道笔记作者链接到了哪些网站。他们提取了笔记中的每个 URL 并构建了一个分类流程。这不仅仅是简单的关键词搜索；他们使用了一个多步骤的过程:

直接匹配: 他们对照已知专业事实核查机构的精选列表 (例如 snopes.com, politifact.com) 检查域名。
语义搜索: 他们在主要新闻网站的 URL 路径中查找“fact-check (事实核查) ”术语 (例如 cnn.com/fact-check/…) 。
LLM 分类: 对于模棱两可的 URL，他们使用 GPT-4 将网站分类为“新闻”、“政府”、“学术”或“社交媒体”等类别。

你可以在下表中看到他们追踪的组织的多样性。这包括全球重量级机构和特定领域的利基事实核查机构。

表 3: 专业事实核查组织及其 URL 列表。

第三步: 确定主题

知道引用了谁只是谜题的一半。知道帖子是关于什么的则是另一半。研究人员使用零样本 (zero-shot) 文本分类模型 (ModernBERT) 对推文的主题进行分类 (例如，政治、健康、体育、艺术) 。

此外，他们使用 GPT-4 来确定一条推文是与 “广泛叙事 (Broader Narrative) ” 或阴谋论 (如选举舞弊或反疫苗叙事) 有关，还是仅仅是一个简单的事实错误 (如标记错误的照片) 。

为了确保他们的自动化系统准确无误，作者对数据子集进行了人工标注。 图 8 概述了他们用于人工审查的严格标准。

图 8: 我们的标注设置。

核心结果

分析得出了一些引人注目的结果，重塑了我们对众包审核的看法。

1. 大众使用专家的频率比我们要想象的高

先前的研究表明，事实核查 URL 仅占社区笔记引用的约 1%。但这篇论文发现该数字明显更高。

如 图 2 所示，当专门观察 有帮助 (Helpful) 的笔记时 (图表 ‘b’) ，对事实核查来源的依赖跃升至 7% 。虽然与“新闻” (23%) 相比这听起来可能仍然较低，但这代表了绝对数量巨大的笔记。此外，“新闻”引用通常参考的是本身基于事实核查调查的文章。

图 2: 社区笔记作者使用的链接类别来源。a) 所有社区笔记；b) 评为“有帮助”的社区笔记；c) 评为“无帮助”的社区笔记。注意“fact-checking (事实核查) ”类别。

至关重要的是，对比图表 ‘b’ (有帮助的笔记) 和图表 ‘c’ (无帮助的笔记) 。 有帮助的笔记引用事实核查员的可能性是无帮助笔记的两倍以上。 这表明社区看重专业验证。当笔记作者引用专业人士时，他们的笔记更有可能“赢得”算法的青睐并向公众展示。

2. 事实核查提升了“有帮助”评分

研究人员不仅关注笔记是否被发布；他们还研究了用户给出的原始评分。

图 7 分解了用户如何基于特定属性对笔记进行评分。青色条柱代表包含事实核查来源的笔记，而红色条柱代表未包含的笔记。

图 7: 包含与不包含事实核查来源的笔记的社区评分。

带有事实核查来源的笔记在 “有帮助: 清晰 (Helpful: Clear) ” 、 “有帮助: 优质来源 (Helpful: Good Sources) ” 和 “有帮助: 重要背景 (Helpful: Important Context) ” 方面的得分始终较高。这证实了专业新闻报道增加了一层“大众”本身难以复制的可信度。

3. 高风险主题需要专业干预

并非所有的虚假信息都是生而平等的。一条声称某位名人身高 6 英尺 2 英寸但实际身高 5 英尺 10 英寸的推文虽然在技术上是虚假信息，但其社会风险与声称疫苗会导致 DNA 损伤的推文不可同日而语。

研究人员发现，对专业事实核查员的依赖程度因主题而异。

图 5: 无论是否包含事实核查来源的笔记主题分布。

图 5 揭示了一个清晰的趋势。像政治、健康、科学和诈骗这样的主题，引用事实核查的比例 (青色条柱) 要高得多。相反，像“体育”、“艺术”或“娱乐”这样的类别很少依赖专业事实核查员。

这在直觉上是讲得通的: 反驳一个体育谣言可能只需要链接到比分数据或球队的新闻稿。反驳复杂的政治谎言或医学阴谋论则需要深入的调查工作——这正是专业事实核查员所做的工作。

4. “阴谋论”关联

这篇论文最重要的发现可能在于 广泛叙事 (Broader Narratives) 与事实核查之间的联系。

研究人员假设，复杂的阴谋论——那些编织在更大的文化叙事中的阴谋，如“大取代理论”或“2020 年窃选”——对于普通用户来说太难从头开始揭穿。它们需要专业调查的繁重工作。

数据压倒性地支持了这一点。

表 1: 与广泛叙事或阴谋论相关的样本与拥有事实核查来源的样本百分比对比。

如 表 1 (上图截取) 所示，与孤立的主张相比，涉及广泛叙事或阴谋论的主张引用事实核查来源的可能性是其两倍 (特定样本中为 22% 对比 11%) 。

当一条推文助长一个复杂的谎言时，社区笔记作者通常不会做原创研究。他们会去寻找一篇已经做过跑腿工作的 Snopes 或 PolitiFact 文章。

我们可以在 图 4 中更清楚地看到这种动态。

图 4: (a) 揭穿与广泛叙事相关主张的策略。(b) 利用事实核查来源揭穿主张的不同方式。

请看图表 (a) 。当一个主张属于“广泛叙事 (Broader narrative) ” (青色条柱) 的一部分时，笔记作者更有可能 “链接官方来源” 或 “链接科学来源” 。

图表 (b) 显示了事实核查来源是如何被使用的。它很少仅仅用于添加“缺失的背景”。相反，它被用来 “质疑主张的来源” 或提供确凿的 “科学证据” 。

结论: 一种共生关系

这篇论文对在线安全的未来具有深远的意义。“社区笔记”可以取代“专业事实核查员”的说法似乎是有缺陷的。

数据表明，这种关系不是替代 ; 它是共生。

专业人士 充当主要研究者。他们有时间、资金和专业知识来调查复杂的健康主张，致电政府官员核实数据，并挖掘档案以揭穿阴谋论。
社区充当分发网络。他们发现网络上的虚假信息，并利用专业人士提供的“弹药”在当地进行标记和反驳。

如果社交媒体平台打着依靠社区的幌子继续削减对专业事实核查组织的资助，他们可能会切断使社区笔记发挥作用的补给线。

图 3 为此提供了最后的证据。

图 3: 针对误导性帖子的社区标注平均分。

当一条笔记引用专业事实核查员 (青色条柱) 时，它在解决 “事实错误” 和 “将未核实的主张作为事实陈述” 方面明显更有效。没有了专业人士，社区在试图对抗复杂的虚假信息时，就像被绑住了一只手。

总结

对于计算机科学、媒体研究和政治学的学生来说，这篇论文是对“技术解决主义”的一个警示。我们不能简单地通过构建一个投票算法来“靠代码消除”虚假信息。算法依赖于人类的输入，而高质量的人类输入依赖于专业的知识。

成功的社区治理不是要取代专家；而是要给社区提供工具来放大专家的知识。切断平台与事实核查员之间的合作关系并不会赋予用户权力——这只会解除他们的武装。

隐形的脊梁: 为什么“社区笔记”需要专业事实核查员#

问题所在: “大众”对决“专家”#

什么是社区笔记？#

方法论: 分析 150 万条笔记#

第一步: 过滤数据#

第二步: 分类来源#

第三步: 确定主题#

核心结果#

1. 大众使用专家的频率比我们要想象的高#

2. 事实核查提升了“有帮助”评分#

3. 高风险主题需要专业干预#

4. “阴谋论”关联#

结论: 一种共生关系#

总结#