引言

如果你在社交媒体上花过时间,你就会知道一张柴犬的照片不仅仅是一张可爱的宠物照。在互联网的特定角落,它可能是一种政治声明、一种行动主义形式,或者是针对宣传的“当头一棒 (bonk) ”。同样,一条预测歌唱比赛获胜者的推文,实际上可能是在战时表达国家团结的隐晦方式。

这些都是实践 (practices) 的例子——即定义在线社区的独特行为模式和语言表达。它们富含“社会意义”,依赖于局外人可能完全无法理解的内部笑话、共同价值观和特定行话。对于计算机科学家和社会学家来说,大规模地检测这些实践是一个巨大的挑战。传统的文本分类模型往往无法捕捉帖子背后的讽刺、语境或意图。

所以,问题来了: 我们能否教会像 GPT-4 这样的大型语言模型 (LLM) 像社会学家一样行事?它们能否学会解读社区的“氛围”和意图,而不仅仅是字面意思?

在这篇文章中,我们将深入探讨研究论文 《利用大型语言模型检测在线社区实践》 (Detecting Online Community Practices with Large Language Models) 。 我们将探索研究人员如何建立亲乌克兰社区 (特别是 NAFO 和欧洲歌唱大赛粉丝) 的“黄金标准”数据集,并使用先进的提示技术来识别复杂的社会实践。无论你是 NLP 学生还是数字社会学学者,这项研究都为弥合定性理解与计算规模之间的鸿沟提供了一个引人入胜的蓝图。

背景: 什么是“实践”,为什么它们很重要?

在深入算法之前,我们需要理解这个社会学问题。在线社区不仅仅是一群人在讨论一个话题;他们是一群通过文本一起做事情的人。

作者借鉴了言语行为 (speech acts) 的概念。这个观点认为,当我们说话 (或发推文) 时,我们不仅仅是在传递信息;我们在执行一种动作。

  • 言内行为 (Locution) : 说了什么 (字面文本) 。
  • 言外行为 (Illocution) : 意指什么 (意图) 。
  • 言后行为 (Perlocution) : 做了什么 (效果) 。

例如,如果 NAFO (北大西洋伙伴组织) 社区的一位用户发了一条嘲笑外交官的模因 (meme) 推文,他们不仅仅是在分享一个笑话。他们是在参与 “恶搞帖 (Shitposting) ” ——一种旨在破坏宣传并激怒对手的特定实践。如果一位欧洲歌唱大赛 (ESC) 的粉丝发推文详细列出乌克兰的投票历史统计数据,他们是在参与 “知识表演 (Knowledge Performance) ” ——确认他们作为专家的地位并重视该事件。

规模化的挑战

传统上,识别这些实践需要人类专家逐条阅读推文——这种方法被称为定性分析。它虽然准确,但无法扩展到数百万条推文。另一方面,标准的机器学习分类器往往会遗漏社会细微差别。这项研究的研究人员旨在寻找一个中间地带: 利用 LLM 的推理能力来大规模复制人类的分析。

案例研究

该论文关注在俄乌战争期间支持乌克兰的两个不同社区:

  1. NAFO: 一个混乱、幽默、自发组织的集体,以使用“Fella”头像 (柴犬) 嘲笑俄罗斯的虚假信息而闻名。
  2. 欧洲歌唱大赛 (ESC) 粉丝: 一个更成熟的社区,利用歌唱比赛来表达对乌克兰 (2022 年获胜者) 的团结。

核心方法: 从人类洞察到 LLM 提示

这篇论文的核心是其方法论工作流。作者并没有只是把数据扔给 ChatGPT。他们精心构建了一个框架,教模型如何像社区成员一样思考。

第一步: 分析架构

要检测一种实践,必须分解理解推文的认知过程。研究人员采用了社会学家 Silvia Gherardi 的架构。

看看下面的图表。它可视化了从原始文本到标记实践的思维飞跃。

图 1: 采用了 Gherardi (2012) 的分析架构用于识别实践。图片代表了本研究分析的社区——a) 以活跃使用 Twitter 而闻名的欧洲歌唱大赛粉丝,以及 b) NAFO,以在 Twitter 上揭穿俄罗斯宣传而闻名,其特征是使用柴犬头像。

图 1 中,你可以看到这个工作流的两个例子:

  • 左侧 (欧洲歌唱大赛) : 用户评论即将进入决赛的国家。意义是基于评估的预测。动作是“肯定自己的品味”。由此产生的实践是知识表演
  • 右侧 (NAFO) : 用户讽刺地为“NAFO 服务”道歉。意义是对手对 NAFO 的挫败感是荒谬的。动作是戏谑地驳回对手。该实践是恶搞帖 (Shitposting)

这种“所言 \(\rightarrow\) 所指 \(\rightarrow\) 所为”的逻辑成为了后来提示工程的基础。

第二步: 建立黄金标准

为了训练和测试模型,研究人员需要基准真实数据 (ground truth) 。他们收集了超过 400 万条 NAFO 推文和近 60 万条 ESC 推文。然后他们过滤这些数据并进行了严格的人工标注。

有趣的是,他们并没有凭空猜测这些实践是什么。他们采访了 27 位社区成员,让他们滚动浏览自己的时间线,并解释为什么他们发布某些内容。这产生了一个包含特定实践的编码本。

表 1: 黄金标准数据集中每个实践的帖子比例。NAFO 的帖子总数为 1127,ESC 为 1000。大括号中列出的 NAFO 优先级表示在两个案例研究之间存在差异。空单元格表示不适用于该案例研究的实践。

表 1 显示了这些实践的分布。注意其中的多样性:

  • 动员 (Mobilising) : 呼吁他人采取行动 (在 NAFO 中非常高) 。
  • 社区工作 (Community Work) : 在成员之间建立凝聚力。
  • 新闻策展 (News Curation) : 分享信息 (在 ESC 中非常高) 。
  • 受众行为 (Audiencing) : 参与现场活动 (ESC 最高类别的实践) 。

第三步: 提示工程策略

这是该研究对 NLP 学生来说最精彩的部分。作者测试了三个级别的提示复杂性,以观察 LLM 学习这些社会学概念的效果。

1. 实践描述 (PD) 提示

这是基线方法。提示为 LLM 提供了实践的名称和标准定义 (例如,“恶搞帖: 包含幽默……内容的推文,旨在强调宣传的缺陷”) 。模型被赋予几个示例 (少样本学习) ,并被要求对新推文进行分类。

2. PD + MPE 提示 (增加细微差别)

研究人员意识到仅有定义是不够的。他们用 MPE 丰富了提示:

  • 标记 (Markers) : 特定的俚语或标签 (例如,“#bonk”,“vatnik”,“Slava Ukraini”) 。
  • 优先级 (Prioritisation) : 关于如果一条推文符合两个类别该选择哪个标签的说明 (例如,“如果它很有趣但攻击了外交官,优先选择‘恶搞帖’而不是‘玩耍’”) 。
  • 排除 (Exclusion) : 关于包括什么的具体规则。

这模仿了给予人类标注者的指令,有效地将领域专业知识“上传”到了提示中。

3. PD + COT (思维链)

还记得图 1吗?研究人员使用思维链 (COT) 提示来强制 LLM 经历那个精确的分析过程。提示不仅仅是要求一个标签,而是要求模型输出:

  1. “说了什么”
  2. “意指什么”
  3. “做了什么”
  4. 最后是实践标签。

通过强迫模型“展示其工作过程”并逐步推理,他们希望提高在讽刺等微妙类别上的准确性。

实验与结果

研究人员将 OpenAI 的模型 (GPT-3.5 和 GPT-4) 与开源基线如支持向量机 (SVM) 和 SetFit (一种基于 Transformer 的框架) 进行了比较。他们使用 F1 分数来衡量性能,该分数平衡了精确率和召回率。

基线 vs. LLM

首先,让我们看看标准模型与 LLM 的对比情况。

表 2: 基线模型和实践描述 (PD) 提示的实践预测结果 (宏平均 F1,括号内为五个折叠的标准差) 。MP 和 DR 分别代表 MPNET 和 DistilRoBERTA。K 表示演示样本的数量。

表 2 显示了一个明显的赢家。

  • 基线模型表现挣扎: SVM 和 SetFit 模型 (即使有 8 个示例) 的 F1 分数徘徊在 20-30 左右。它们在需要推断意图的实践上 (如“自我推销”或“表达团结”) 非常吃力。
  • LLM 占据主导地位: GPT-4 (使用基本的 PD 提示) 即便在零示例 (K=0) 的情况下也能立即达到接近 50 的分数。这表明这些巨型模型的预训练包含足够的“世界知识”,比小型的微调模型能更好地理解社会语境。

提示的力量

最令人兴奋的发现是,当提示中加入了社会学见解后,GPT-4 的表现提升了多少。

表 3: 在 GPT-4 的 \\(\\mathbf { K } { = } 1\\) 设置下,比较实践描述 (PD) 性能与添加 MPE 和 COT 提示后的性能。结果以宏平均 F1 和五个折叠的标准差呈现。剑号表示根据计算出的配对 t 检验 \\(p \\leq 0 . 0 5\\) 具有统计学显著性增加。

表 3 显示了进展:

  1. PD (基础) : ~46-49% F1 分数。
  2. PD + MPE: 添加标记和排除标准后分数显著提升 (例如,NAFO 提升至 52.39%) 。
  3. PD + COT: 添加推理步骤也提供了巨大的提升。
  4. 组合 (PD+COT+MPE) :所有内容结合在一起时——定义、俚语标记、排除规则和分步推理——性能达到了顶峰 (NAFO 为 56.88%,ESC 为 58.71%) 。

这证实了对于复杂的社会任务, 怎么问问什么同样重要。模型需要“行话” (MPE) 来识别文本,并需要“推理” (COT) 来理解意图。

详细性能分析

让我们看看具体哪些实践从这些策略中受益。

表 11: 在 \\(K { = } l\\) 设置下,GPT-4 使用 PD (实践描述) 、\\(\\mathrm { P D + M P E }\\) (标记、优先级、排除标准) 、\\(\\mathrm { P D + C O T }\\) (思维链) 和 \\(\\mathrm { P D + C O T + M P E }\\) 上下文学习提示的逐类性能比较。我们报告了五个折叠中每个类别的平均 F1 分数,以及所有类别的宏平均 F1 分数,括号内为标准差。粗体字体表示特定实践的最高分。

表 11 中,查看 NAFO 部分:

  • 表达团结 (Expressing Solidarity) : 分数从 39.75 (PD) 跃升至 63.66 (组合)。为什么?很可能是因为 MPE 提示包含了像 “Slava Ukraini” 这样的特定俚语标记,而基础模型可能会错过或将其错误分类。
  • 模因创作 (Meme Creation) : 从 49.37 跃升至 64.46。
  • 恶搞帖 (Shitposting) : 这是一个出了名难搞的类别,因为它依赖于反讽。组合提示将其从 34.56 提升到了 42.03。

对于 ESC (欧洲歌唱大赛) :

  • 受众行为 (Audiencing) : 这种实践涉及对事件进行实时推文直播。使用组合提示后,分数从 44.14 飙升至 70.17。
  • 表达情感 (Expressing Emotions) : 从 44.68 跃升至 64.30。

这些数据表明,思维链帮助模型“思考”用户的情绪状态,而标记帮助它识别特定的主题。

错误分析: LLM 在哪里失败?

尽管取得了成功,但模型并不完美。研究人员分析了混淆矩阵,看看 GPT-4 在哪里犯了错。

图 2: 使用 \\(\\mathrm { P D+ C O T + M P E }\\) 提示进行上下文学习的混淆矩阵。

图 2 显示了混淆矩阵。对角线代表正确的预测。对角线以外的明显斑点代表错误。

  1. 幽默与讽刺: 在 NAFO 矩阵 (顶部) 中,注意围绕“恶搞帖 (Shitposting) ”的混淆。模型经常将其误分类为“争论 (Arguing) ”。
  • *例子: * 一个用户发推文说,“我看不到你在骑自行车!”来嘲笑一位领导人的出尔反尔 (backpedaling,字面意为倒踩踏板) 。模型可能会按字面意思理解,或者仅仅将其视为争论,错过了“恶搞”的幽默。
  1. 立场检测: 一个主要问题是区分亲乌克兰用户和亲俄罗斯的网络喷子。如果一个俄罗斯喷子使用类似 NAFO 的语言来嘲笑该运动,模型有时会将其归类为有效的“恶搞帖”或“争论”,而不是“不适用”。如果没有明确的指示,模型很难检测说话者的政治立场
  2. 重叠的实践: 在 ESC 矩阵 (底部) 中,“表达团结”和“社区想象”之间存在混淆。
  • *例子: * “我们与乌克兰站在一起!英国加油!”既包含团结也包含国家社区想象。人类编码员对此也很纠结,模型经常选择了“错误”的主要标签。

结论与启示

这项研究提供了一个路线图,可以在不花费数年时间手动阅读推文的情况下分析在线社区。作者证明,虽然 LLM 不是完美的社会学家,但在正确引导下,它们是非常能干的助手。

主要收获:

  • 语境为王: 你不能只是要求 LLM “分类这条推文”。你必须提供“社会代码”——社区的标记、俚语和规则。
  • 提示即编程: PD+COT+MPE 提示带来的显著性能提升证明,领域专业知识 (了解社区) 可以通过提示工程有效地转移给模型。
  • “人”的触感: 最好的结果来自于通过思维链在模型内部复制人类的分析过程 (所言 -> 所指 -> 所为) 。

实践映射的未来: 这种方法为大规模的 “实践映射 (Practice Mapping) ” 打开了大门。研究人员可以潜在地追踪一个社区的实践如何随时间变化,激进化如何发生,或者幽默如何推动政治参与。

然而,在讽刺和立场检测方面的困难是一个警告。我们还没有达到可以完全自动化审核复杂政治言论的地步。人类语言的模糊性——笑话可以是武器,歌唱比赛可以是地缘政治战场——仍然需要人类的监督。但是,有了像 GPT-4 这样的工具和巧妙的提示,我们离计算机不仅能理解我们说什么,还能理解我们用语言做什么的那一天越来越近了。