引言
请思考这句话: *“人为朋友舍命,人的爱心没有比这个大的。” (There is no greater love than to lay down one’s life for one’s friends.) *
这是出自《约翰福音》15:13 的一段圣经经文。在传统的宗教语境中,它可能被用来讨论精神上的牺牲。然而,在现代社交媒体的版图中,同样的文本可能会被用于截然不同的目的。它可能出现在庆祝“骄傲月” (Pride Month) 的推文中,以此倡导无条件的接纳;同时也可能被某位政治领袖用来为一场军事行动辩护。
尽管文本保持完全一致,但语境——以及由此隐含的主题——却发生了巨大的转变。
在自然语言处理 (NLP) 领域,我们已经非常擅长文本复用检测 (Text Reuse Detection, TRD) 。 我们可以轻易地识别出“骄傲月”的推文和政治演讲中都包含了同一句引言。然而,标准的检测算法在很大程度上忽略了重新语境化 (recontextualization) ——即复用文本的含义或主题如何根据其新环境而发生转变。
本篇博客将探讨由研究人员 Francesco Periti、Pierluigi Cassotti、Stefano Montanelli、Nina Tahmasebi 和 Dominik Schlechtweg 提出的一个框架。他们的论文题为 TROTR (文本复用的主题相关性,Topic Relatedness of Text Reuse) , 介绍了一种评估复用文本如何在不同时间和文档中改变主题的新方法。通过将关注点从简单的“检测”转移到“主题相关性”,他们为理解讽刺、政治暗语 (dog-whistles) 和历史接受度等复杂的语言现象提供了一条路径。
问题所在: 检测 vs. 理解
传统的文本复用检测假设,如果文本 A 出现在文档 B 中,它们在主题上就是相关的。这种假设在剽窃检测或追踪新闻通稿的传播时效果很好。然而,在分析文本如何在动态话语 (如社交媒体) 中被重新利用时,这种假设就失效了。
研究人员指出了当前 NLP 能力中的一个空白。虽然模型可以衡量语义文本相似度 (两段文本在概念上含义的接近程度) ,但它们在主题相关性方面却很吃力。
为了理解这种区别,请看下表。它比较了标准 NLP 指标如何看待不同的文本配对。

如表 1 所示:
- 改写 (Paraphrase) : 第一对文本使用不同的词汇表达了完全相同的意思 (语义相似) 。
- 主题相关性 (Topic Relatedness) : 第二对文本讨论的是“骄傲月”和“LGBTQIA+ 权利”。它们不是改写,但它们具有高度的主题相关性 。
- 陷阱 (The Trap) : 第三对文本制造了一个难题。两段文本都包含完全相同的圣经引言 (约翰福音 15:13) 。标准的文本匹配算法会看到引言部分 100% 重叠,从而假设它们是相关的。然而,一段是关于“骄傲月”,另一段是关于在乌克兰的军事行动。就主题而言,尽管它们共享了复用的文本,但它们是不相关的。
TROTR 框架的设计初衷就是为了解决这种特定的“陷阱”,通过教导模型超越复用的文本本身,去分析周围的语境。
TROTR 框架
作者提出的框架将文本复用不视为二元的“匹配/不匹配”任务,而是对语境的层级化评估。该框架包含两个独特的 NLP 任务和一个稳健的标注流程。

如图 图 1 所示,该框架分为两个主要任务: TRiC 和 TRaC 。
1. 上下文中的文本复用 (TRiC)
这是一个上下文对 (context-pair) 级别的任务。模型会接收一个特定的复用文本实例 (目标 Target \(t\)) ,它出现在两个不同的语境中 (\(c_1\) 和 \(c_2\)) 。
例如:
- 目标 (\(t\)): “爱你的邻舍”
- 语境 1 (\(c_1\)): [关于慈善的布道] + “爱你的邻舍” + [呼吁捐款]。
- 语境 2 (\(c_2\)): [关于移民的政治辩论] + “爱你的邻舍” + [改变政策的论据]。
TRiC 提出两个问题:
- 二分类 (Binary Classification) : \(c_1\) 和 \(c_2\) 是否大致共享相同的主题? (是/否)
- 排序 (Ranking) : 在一个连续的量表上,\(c_1\) 和 \(c_2\) 的主题相关程度如何?
这种任务结构类似于用于区分词义的“上下文中的词 (Word-in-Context, WiC) ”任务 (例如,区分河流的“bank/岸”与金融的“bank/银行”) 。不过,TRiC 将这种逻辑应用于完整的文本序列,而不仅仅是单个单词。
2. 跨语料库主题变化排序 (TRaC)
这是一个语料库级别 (corpus-level) 的任务。TRaC 不仅仅关注单个文本对,而是观察目标文本在整个数据集中的表现行为。
如果一个特定的引言总是以完全相同的方式被使用 (例如,一个技术定义) ,它的主题变化度就很低 (分数接近 0) 。如果一个引言被用于许多不同的方式 (例如,一段经文被用于表达悲伤、庆祝、政治和幽默) ,它的主题变化度就很高 (分数接近 1) 。
TRaC 的目标是根据复用文本在语料库中用法的“多功能性”或“变化性”对不同的文本进行排序。这对于历时研究 (diachronic studies) ——即理解短语的用法如何随历史演变——至关重要。
基准数据: 圣经推文
为了训练和测试这个框架,研究人员需要一个文本被频繁复用且方式高度多变的数据集。他们选择了 Twitter (现为 X) 上的圣经段落 。
为什么选择圣经?
- 高复用率: 圣经经文是历史上被引用最多的文本之一。
- 可识别的引用: 它们通常带有明确的引用标注 (如“John 3:16”) ,这使得收集它们比复杂的检测算法更容易。
- 高语境多样性: 正如引言中所述,宗教文本被广泛应用于个人斗争、政治运动、体育胜利和网络迷因 (memes) 中。
作者收集了包含 42 个不同目标段落的推文。然后,他们聘请人类标注员在一个 4 点量表上对这些推文对进行评判:
- 4 (完全相同 Identical): 主题相同。
- 3 (密切相关 Closely Related): 主题非常相似。
- 2 (远距离相关 Distantly Related): 存在轻微的联系。
- 1 (不相关 Unrelated): 主题毫无共同之处。
最终生成的数据集包含超过 6,300 个标注对。有趣的是,标注者之间的一致性非常高 (相关性为 .811) ,这表明人类通常能一致地判断一段引言何时被“重新语境化”,以及何时是在其原始意义上被使用。
实验设置: SBERT 模型
为了评估 TROTR 任务的难度,研究人员测试了 36 种不同的 Sentence-BERT (SBERT) 模型。SBERT 是标准 BERT 网络的变体,它使用“孪生网络 (siamese networks) ”来生成具有语义意义的句子嵌入。
他们测试了两种主要架构:
- 双编码器 (Bi-Encoders) : 这些模型独立处理两个语境。它们分别为语境 A 和语境 B 创建向量嵌入,然后计算它们之间的余弦相似度。这种方法快速且高效。
- 交叉编码器 (Cross-Encoders) : 这些模型将两个语境作为一个单一的输入对同时进行处理。模型的“注意力”机制可以同时关注语境 A 和语境 B 中的词。这通常更准确,但计算成本昂贵。
“掩码 (Masking) ”策略
研究人员假设模型可能会“作弊”。因为两个语境中的复用文本 (引言) 是完全相同的,模型可能会看到相同的词汇并假设“高相似度”,从而忽略了周围的语境。
为了测试这一点,他们引入了 +MASK 设置。在这个设置中,复用文本本身被替换为一个占位符 (例如,一个破折号“-”) 。
- 原始: “普京引用道: 人的爱心没有比这个大的…” vs “骄傲月来了! 人的爱心没有比这个大的…”
- 掩码后: “普京引用道: -…” vs “骄傲月来了! -…”
通过遮以此蔽引言,模型被迫完全依赖周围的词汇 (“普京”、“军事” vs “骄傲”、“月”) 来确定主题是否相关。
结果与分析
评估结果揭示了关于当前 AI 模型如何处理语境的几个反直觉且具有启发性的结论。
1. 双编码器优于交叉编码器
在许多 NLP 任务中,交叉编码器因其能逐词比较输入而更具优势。然而,在 TRiC 任务中, 双编码器的表现始终更好 。 这表明,生成独立的语境表示对于判断主题相关性,比尝试将两者结合处理更有效,后者可能会导致交叉编码器过度关注引言的逐字重叠。
2. 预训练模型的失败
预训练的 SBERT 模型 (那些没有在 TROTR 数据集上微调过的) 表现得很挣扎。如下表所示,它们在“标签 0” (识别不同主题) 上的精确度很高,但召回率非常低。由于共享引言的存在,它们严重偏向于假设文本是相关的。

3. “相似性偏差”与掩码的威力
最重要的发现显而易见地体现在 表 2 中的 +MASK 行。
当研究人员隐藏引言 (掩码) 时,模型的性能大幅提高。
- 标准性能 (F1 分数): ~0.60 到 0.70
- 掩码性能 (F1 分数): ~0.80 到 0.90
这证实了“相似性偏差”。当引言可见时,模型会被相同的词汇分散注意力,而未能注意到围绕这些词汇的对话已经发生了变化。通过移除引言,模型被迫去观察语境,而真正的主题信号正隐藏在语境中。
4. 语料库级别变化的结果 (TRaC)
TRaC 任务的结果与 TRiC 的发现相呼应。这里的目标是根据引言用法的变化程度对其进行排序。

如 表 3 所示,当应用掩码时,与人类判断的相关性 (Spearman系数) 显著跃升 (例如,ADR 模型从 .72 升至 .84) 。这表明,要真正理解一个文本的用法如何在语料库中变化,我们必须——矛盾地——忽略文本本身,而专注于观察它的环境。
结论与启示
TROTR 框架凸显了当前 NLP 的一个关键局限性: 我们的模型通常过于关注词汇重叠 (匹配单词) ,而对重新语境化 (匹配含义) 关注不足。
这项研究证明,虽然标准的 SBERT 模型难以区分用于布道的引言和用于政治攻击的引言,但像掩码这样简单的干预措施可以迫使模型去关注语境。
为什么这很重要?
- 虚假信息与宣传: 政治行动者经常复用受信任的文本 (科学研究、宗教文本、历史名言) 来支持不相关或误导性的叙述。TROTR 提供了一种方法来检测某种来源何时被“劫持”用于不同的主题。
- 数字人文: 对于历史学家和语言学家来说,这提供了一种计算方法来研究“接受理论 (Reception Theory) ”——追踪文学作品 (如《哈姆雷特》或圣经) 的认知如何在几个世纪中发生变化。
- 政治暗语 (Dog Whistles) : 这个框架最终可能有助于识别“政治暗语”——即那些在一般语境中看似无害 (高相似度) ,但在特定亚群体中具有特定、不同含义的短语 (与主流用法的主题相关性低) 。
通过将重新语境化的研究形式化,研究人员为 NLP 打开了一扇新大门,使其超越识别说了什么,进而理解它是如何被使用的。
](https://deep-paper.org/en/paper/file-3699/images/cover.png)