超越用词选择——通过事件框架与因果叙事检测媒体偏见

2024 年 3 月，弗拉基米尔·普京赢得了俄罗斯总统大选。如果你阅读的是俄罗斯官方支持的媒体报道，你可能会看到关于“合法性”、“国家团结”和“压倒性胜利”的叙述。而如果你阅读的是西方媒体，故事的框架则可能围绕着“选举舞弊”、“打压反对派”以及正在进行的乌克兰战争。

核心事实——选举发生了，普京赢了——是一样的。区别在于媒体态度 , 即媒体对该事件的看法。

多年来，计算机科学家一直试图构建能够自动检测这种偏见的 AI。传统方法通常依赖于用词选择 (例如，分析文本是否使用了褒义或贬义的形容词) 。然而，复杂的宣传和媒体框架很少如此简单。它们不仅仅是使用“坏”词；它们通过选择突出哪些事件、忽略哪些事件以及如何将它们联系起来，来构建特定的叙事。

在这篇文章中，我们将深入探讨一篇引人入胜的研究论文: 《Media Attitude Detection via Framing Analysis with Events and their Relations》 (通过事件及其关系的框架分析进行媒体态度检测) 。该论文提出了一种检测媒体偏见的新颖方法。这种方法不再仅仅关注关键词，而是分析新闻报道的“骨架”——事件、事件的描述以及它们之间的因果联系。

问题所在: 为什么仅看用词是不够的

想象一下，一位记者想要负面地构建关于一场抗议活动的框架。他们不需要使用“坏”这个词。他们只需要聚焦于打破窗户这一事件，并暗示抗议活动导致了这种破坏。相反，一位支持性的记者可能会完全忽略打破窗户这一细节，而专注于和平演讲的事件。

这个概念被称为框架 (Framing) 。正如 Entman (1993) 所定义的，框架涉及选择现实的某些方面，使它们更加显著。

以往的计算框架分析方法主要面临两个局限性:

浅层分析: 它们关注“呈现了什么” (主题) ，而不是“如何呈现” (叙事结构) 。
缺乏语境: 它们通常将文档视为“词袋 (bags of words) ”，忽略了文档内事件之间的相互关系，或者它们与其他文档中同一事件的关系。

这篇论文的研究人员认为，要真正理解媒体态度，我们需要观察事件及其关系 。

解决方案: 叙事分析的流水线

研究人员开发了一个综合流水线，将原始新闻文章转化为其叙事的结构化表示。这使得模型不仅能将故事作为文本流来“阅读”，还能将其视为一条逻辑事件链。

该架构如下图所示。这是一个从原始文本到复杂的“态度图谱”的旅程。

Figure 1: Media attitude detection pipeline.

让我们将这个流水线分解为易于理解的步骤。

第一步: 事件检测 (Event Detection)

首先，系统读取关于特定主题 (如普京选举) 的文章。它扫描文本以识别事件——即具体的发生或行动。例如，在句子“普京赢得了选举”中，事件触发词是“赢得了”。

第二步: 跨文档事件共指消解 (CDEC)

这是一个专业术语，概念其实很简单: 弄清楚不同的文章何时在谈论同一件事。

如果文章 A 说“普京的胜利”，文章 B 说“选举结果”，它们指的是同一个现实世界的事件。系统将这些提及聚类在一起。这一点至关重要，因为它允许模型比较不同媒体如何描述完全相同的事件。

第三步: 生成框架手段 (Framing Devices)

一旦事件被检测并聚类，研究人员就会提取三种特定的“框架手段”。这些是 AI 用来判断文章是支持、怀疑还是中立的核心特征。

核心方法: 构建故事框架的三种方式

这篇论文的核心在于这三种手段的概念化。研究人员假设媒体态度编码在选择、语言学和因果关系中。

手段 1: 选择与省略 (事件簇)

一家立场鲜明的媒体拥有的最强大工具就是忽略某些事情的能力。如果一篇关于选举的文章省略了所有关于反对派抗议的提及，它默认就构建了一个支持性的框架。

为了捕捉这一点，模型观察事件共指簇 (Event Coreference Clusters) 。它为文章中提到的每个事件生成一个中立的、抽象的摘要 (“描述符”) 。

使用此手段对文章 \(d_i\) 进行的数学表示如下所示:

Equation 1

这里，\(C(E)\) 代表事件簇的抽象描述符。通过向模型提供哪些事件被包含在内 (推而广之，哪些被遗漏了) 的列表，AI 可以判断叙事的范围。

手段 2: 语言信息 (事件提及)

手段 1 关注有什么事件，而手段 2 关注它们如何被描述。

“军队清除 (neutralized) 了威胁”与“军队杀害 (killed) 了抗议者”之间存在巨大的差异。两者都指的是同一个事件簇 (手段 1) ，但具体的词语 (触发词和论元) 承载着沉重的情感和政治分量。

此手段的编码保留了文章中使用的特定文本触发词:

Equation 2

这个向量捕捉了委婉语 (软化残酷事件) 或贬义语 (使事件听起来更糟) ，这些都是偏见写作的标志。

手段 3: 因果与效应 (因果关系)

这可能是论文中最具创新性的部分。叙事是建立在因果关系之上的。一篇支持性的文章可能会暗示:

国家发展 \(\rightarrow\) 普京胜选 (暗示他因为做得好而赢) 。

一篇怀疑性的文章可能会暗示:

打压反对派 \(\rightarrow\) 普京胜选 (暗示他因为作弊而赢) 。

研究人员提取这些“原因 \(\rightarrow\) 结果”对，以理解文章试图向读者推销的逻辑。

Equation 3

通过结合这三种手段，模型不仅仅是在阅读文本；它是在理解论点。

数据集: 现实世界中有争议的话题

为了测试这一点，研究人员没有使用合成数据。他们收集了 1,600 多篇新闻文章，涵盖了三个备受争议的国际话题:

普京胜选 (2024 年 3 月)
以色列突袭希法医院 (2023 年 11 月)
香港抗议活动 (2019 年 7 月)

数据来源包括西方媒体 (CNN, BBC) 、俄罗斯官方支持的媒体 (卫星通讯社 Sputnik) 、中国媒体 (新华社) 等，确保了广泛的态度谱系 (支持、怀疑、中立) 。

Table 1: Statistics of the dataset

如上表所示，数据集非常稳健，每个主题都有数百篇文章以及数千个提取出的事件和聚类。

实验与结果

研究人员使用两种类型的 AI 模型测试了他们的方法:

微调的小型模型: 如 RoBERTa (专门针对此任务进行训练) 。
大型语言模型 (LLMs) : 如 GPT-4 和 FlanT5 (使用提示词) 。

他们将“基线” (向 AI 提供文章的原始文本) 与他们的“框架手段”方法 (提供结构化的事件/因果信息) 进行了比较。

1. 准确率表现

结果令人信服，特别是对于大型语言模型而言。

Table 2: Evaluation results

结果的关键要点:

LLM 需要结构: 看一下 FlanT5 和 GPT-4o 的“Prompting (提示) ”列。当输入原始文本 (Baseline) 时，它们表现不佳 (例如，GPT-4o 在普京胜选话题上只有 59.46% 的准确率) 。但当输入手段 1 (事件簇) 时，性能大幅跃升至 81.38% 。
框架手段解锁推理能力: 结构化的输入有助于 LLM 穿透噪音，专注于叙事骨架。
微调模型本身就很强: RoBERTa 即使在基线上也表现良好，可能是因为它学会了记忆与偏见相关的特定关键词。然而，框架手段仍然提供了有竞争力的表现。

2. 效率与压缩

这种方法的一个隐藏好处是效率。新闻文章很长。框架手段将文章压缩为基本的事件和关系。

Table 3: Input token counts

上表显示，使用框架手段将输入长度减少了 43% 到 87% 。这意味着 AI 处理数据的速度要快得多，成本也更低，同时又不会丢失检测偏见所需的关键信息。

3. 可解释性与分析

为什么这种方法效果更好？研究人员进行了定性分析，以观察模型在使用这些手段时是如何“思考”的。

下表 5 比较了 GPT-4o 在使用不同输入时如何解读同一条新闻。

Table 5: GPT-4o analysis

基线 (Baseline) : 模型阅读了关于纳瓦尔尼之死的全文，但被噪音干扰，将其标记为“中立”。
手段 1 (选择) : 它看到“纳瓦尔尼之死”被选为一个关键事件。它推断出怀疑态度。
手段 3 (因果) : 它看到了“纳瓦尔尼之死 \(\rightarrow\) 普京胜选”这一链接。这明确暗示选举结果因死亡事件而受到玷污，从而导致“怀疑”的标签。

“记忆”测试

分析中一个引人入胜的部分涉及 Jensen–Shannon 散度 (JSD) 分数。通俗地说，他们测量了训练数据与测试数据的相似程度。

Table 6: JSD scores

“Tokens” (基线) 的 JSD 分数很低，这意味着训练集和测试集中使用的词汇非常相似。这表明微调模型可能只是在记忆关键词 (模式匹配) 。

然而，“Events” (事件) 的 JSD 分数较高。这表明当模型使用框架手段时，它们不仅仅是在匹配单词；它们必须实际推理事件才能做出预测。这使得框架手段模型在面对新的、未见过的措辞时更加稳健。

局限性与未来工作

没有一种方法是完美的。作者坦率地讨论了他们流水线的不足之处。

Table 4: Common error types

共指错误: 有时系统会将“以色列摧毁设施”和“哈马斯摧毁设施”归类为一个通用的“士兵摧毁设施”簇。这种细节的丢失可能会颠覆感知到的态度。
缺乏语境: 在上面的例子 (表 4) 中，意识到“缴获武器”发生在医院对于理解突袭的理由至关重要。如果提取过程中遗漏了地点，框架就会丢失。
讽刺: 目前的流水线在处理讽刺方面很吃力，因为讽刺通常依赖于字面事件与预期含义之间的不匹配。

结论

这项研究标志着计算媒体分析向前迈出了重要一步。通过超越“词袋”方法，将新闻文章视为事件和原因的结构 , 我们可以构建像人类一样理解叙事细微差别的 AI。

其意义重大:

对于研究人员: 它证明了向 LLM 注入“结构化知识” (事件、因果关系) 可以极大地提高其零样本 (zero-shot) 性能。
对于公众: 基于这项技术构建的工具有一天可以帮助读者即时识别他们所消费新闻中使用的框架技巧，从而提升媒体素养。

在这个同一场选举根据你点击的链接不同而可能是一场“胜利”或一场“骗局”的世界里，理解框架与了解事实同样重要。

问题所在: 为什么仅看用词是不够的#

解决方案: 叙事分析的流水线#

第一步: 事件检测 (Event Detection)#

第二步: 跨文档事件共指消解 (CDEC)#

第三步: 生成框架手段 (Framing Devices)#

核心方法: 构建故事框架的三种方式#

手段 1: 选择与省略 (事件簇)#

手段 2: 语言信息 (事件提及)#

手段 3: 因果与效应 (因果关系)#

数据集: 现实世界中有争议的话题#

实验与结果#

1. 准确率表现#

2. 效率与压缩#

3. 可解释性与分析#

“记忆”测试#

局限性与未来工作#

结论#