引言

我们生活在一个信息过载的时代，但更危险的是，这是一个信息失序的时代。虚假主张、阴谋论和伪科学建议——尤其是关于 COVID-19 的内容——像野火一样通过社交媒体网络蔓延。虽然我们要么关注虚假信息的内容，要么关注放大这些信息的算法，但这个生态系统中还有一个关键的组成部分: 人的因素 。

为什么有的人会划过一条阴谋论，而另一个人却会停下来，相信它，并点击“转发”按钮？这种相信无法验证或虚假主张的倾向被称为易感性 (Susceptibility) 。

传统上，理解易感性是心理学家的领域，他们通常使用小规模的调查问卷。研究人员会要求参与者对标题的准确性进行评分，这个过程缓慢、昂贵，且容易受到“自我报告偏差” (人们为了让自己看起来更好而撒谎) 的影响。但是，如果我们能够仅仅通过观察人们的在线行为，以计算的方式大规模地测量这种隐藏的心理特征，那会怎样呢？

这就是来自哈佛大学、斯坦福大学、加州大学洛杉矶分校 (UCLA) 和佐治亚理工学院的研究人员在论文 “Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach” 中的核心贡献。他们提出了一个新的框架，利用可观察的社交媒体数据来模拟这种不可观察的心理过程。通过这种做法，他们不仅预测了谁可能会分享虚假信息，还揭示了易感性与我们的职业、政治倾向和情绪状态之间令人着迷的相关性。

在这篇深度文章中，我们将剖析他们是如何构建这个模型的，其背后的数学原理，以及它所揭示的关于美国的社会政治见解。

背景: 测量“相信”的难题

在深入神经网络之前，我们需要了解社会科学方面的问题。易感性是一个潜变量 (Latent Variable) 。在统计学和社会科学中，潜变量是指那些存在但无法直接观察到的东西。你可以观察到发烧 (体温) ，但你无法直接观察到“生病”本身；你是从症状中推断出来的。

同样，你无法打开某人的头骨去读取他们的“易感性分数”。过去，研究人员依赖于:

调查问卷: 询问 500 个人，“你相信这个假标题吗？” (很难扩展到数百万人) 。
代理指标 (Proxies) : 假设任何分享链接的人都相信它。 (这是有缺陷的，因为人们有时分享是为了辟谣或讽刺) 。

这篇论文的作者认为，虽然我们无法看到信念形成的过程，但我们可以结合语境看到它的结果。人们通常会分享他们认为是真实的信息。因此，通过分析用户的历史行为 (他们通常谈论什么以及如何谈论) ，并观察他们是否分享特定的虚假信息，我们可以训练一个模型来推断那个隐藏的易感性分数。

核心方法: 计算易感性建模

研究人员开发了一个框架，将易感性不仅仅视为一个静态标签，而是用户与特定虚假信息之间的动态交互。

这是一个至关重要的区别。你可能对政治阴谋论非常易感，但对医学伪科学非常怀疑。因此，易感性 (\(s\)) 是针对用户 (\(u\)) 关于特定帖子 (\(p\)) 而定义的。

让我们分解一下他们为解决这个问题而构建的架构。

1. 高层架构

该模型旨在接收两个输入并产生一个隐藏分数，然后利用该分数预测一个可见的行为。

Figure 1: Computational Modeling of Susceptibility to Misinformation. We represent user susceptibility as a latent variable, which we capture using a shallow neural network.

如 Figure 1 所示，流程如下:

输入: 模型摄取“虚假信息帖子 (Misinfo Post) ”和“用户历史推文 (User Historical Tweets) ” (以建立用户的基准画像) 。
易感性模块: 这是核心神经网络 (橙色框) 。它处理输入以生成一个易感性分数 (Susceptibility Score) 。
输出与监督: 模型预测用户是否会转发该内容。它通过将此预测与实际发生的情况 (“分享行为”) 进行比较来进行学习。

2. 用户与内容的表示 (嵌入)

计算机无法理解诸如“COVID-19 是由 5G 引起的”这样的原始文本。它们需要数字。研究人员使用了 SBERT (Sentence-BERT)，这是著名的 RoBERTa 语言模型的一个变体，以此来创建“嵌入 (Embeddings) ”。

帖子嵌入 (\(E(p)\)): 虚假信息推文被转换成一个向量 (一长串数字) ，代表其语义含义。
用户嵌入 (\(E(u)\)): 这比较棘手。一个用户不仅仅是一句话。模型聚合了用户过去 10 天的帖子，将每一条转换为向量，并取平均值。这创建了用户近期在线角色的数学表示。

3. 计算潜在分数

我们如何得到实际的数值？用户和帖子的嵌入被输入到一个多层神经网络 (函数 suscep) 中。

Equation 1

这里，\(s_{u,p}\) 是原始的易感性分数。为了让这个分数对人类具有可解释性，输出被归一化到 -100 到 100 的范围内。

-100: 对虚假信息具有高度抵抗力。
+100: 高度易感 (很可能相信并分享) 。

4. 从信念到行为 (训练信号)

这是该方法中最具创新性的部分。由于研究人员没有数百万自我报告信念的数据集，他们必须使用转发行为作为训练的代理。

然而，他们很谨慎，没有将转发直接等同于易感性。许多因素会影响转发 (例如社会压力、情绪、一天中的时间) 。模型通过结合用户/帖子的匹配度与易感性分数来计算转发的概率 (\(p_{rp}\))。

Equation 2

在这个方程中:

\(\sigma\) 是 sigmoid 函数 (将结果压缩在 0 到 1 之间) 。
\(E(u) \cdot E(p)\) 代表用户与内容之间的一般亲和力 (点积) 。
\(s_{u,p}\) 作为一个加权因子。

这个结构告诉模型: “找到一个易感性分数，当它与内容匹配度结合时，最能解释为什么这个用户转发了这个帖子。”

5. 多任务学习: 损失函数

为了有效地训练模型，研究人员使用了多任务学习 。他们不仅要求模型预测“转发/不转发”，还要求它学习用户之间的相对排名。这使得模型更加稳健。

他们采用了一个由两部分组成的组合损失函数:

Equation 3

让我们分解这个方程的两个组成部分:

二元分类熵 (\(\mathcal{L}_{bce}\)): 这是标准的分类损失。它问: 模型是否正确预测了用户 A 会转发而用户 B 不会？ 它将转发者的概率 \(p_{rt}\) 推向 1，非转发者的概率推向 0。
三元组损失 (\(\mathcal{L}_{triplet}\)): 这通常用于人脸识别，但在这里被用于心理学。模型同时观察三个用户:

锚点 (\(u_a\)): 一个转发了虚假信息的用户。
相似 (\(u_s\)): 另一个也转发了该信息的用户。
不相似 (\(u_{ds}\)): 一个看到了该信息但没有转发的用户。

三元组损失迫使模型确保两个转发者 (\(s_{u_a}\) 和 \(s_{u_s}\)) 的易感性分数在数学空间上彼此接近，且都远离非转发者 (\(s_{u_{ds}}\)) 。这教导模型将易感用户在数值空间中聚类在一起。

实验与结果

研究人员利用了以 COVID-19 为中心的 Twitter 数据，具体是 ANTi-Vax 和 CoAID 数据集。他们筛选了虚假信息推文，识别了转发这些推文的用户 (正样本) ，并构建了“负样本” (那些关注了发布者且活跃，但选择不转发的用户) 。

1. 验证: 比 ChatGPT 更好？

由于没有“真值 (ground truth) ” (我们要么无法确切知道这些用户真实相信什么) ，我们怎么知道模型是否有效？

研究人员进行了一项人类判断测试。他们向人类标注员展示了成对的用户及其时间线，并问: “哪个用户更有可能相信假新闻？”然后，他们将人类的一致意见与他们的模型、基准余弦相似度方法以及 ChatGPT (GPT-3.5) 进行了比较。

Table 2: Comparison with Human Judgement.

如 Table 2 所示，所提出的模型与人类标注员达成 72.90% 的一致性 。

它显著优于基准方法 (63.55%) 。
值得注意的是，它在零样本 (zero-shot) 设置下优于 ChatGPT (62.62%) 。

这表明，专门的嵌入和三元组损失训练使这个较小的模型能够捕捉到通用大语言模型 (LLMs) 所遗漏的用户历史中的细微差别。

2. 区分易感性

该模型是否真的为不同群体分配了不同的分数？下面的直方图显示了转发虚假信息的用户 (红色) 与未转发用户 (蓝色) 的易感性分数分布。

Figure 2: Susceptibility Score Distribution among positive and negative user-tweet pairs.

Figure 2 中的分离是非常明显的。

负样本组 (蓝色) : 平均得分为 -1.56 。大多数没有转发的用户聚集在量表的抵抗 (负分) 一侧。
正样本组 (红色) : 平均得分为 47.63 。传播虚假信息的用户具有持续较高的正分。

这验证了核心假设: 潜在的“易感性分数”是现实世界分享行为的强预测指标。

启示: 什么驱动了易感性？

模型验证通过后，研究人员将其应用于包含 100,000 名用户的大规模数据集。这正是计算方法的闪光点——它允许进行传统调查无法实现的规模的社会学分析。

他们分析了计算出的易感性分数与三个关键领域之间的相关性: 心理因素、职业领域和地理位置。

1. 心理因素

利用 LIWC (语言查询与词汇计数) ，一种文本分析程序，他们从用户的推文中提取心理特征，并将其与易感性分数相关联。

Table 3: Correlation Coefficients between our modeled susceptibility levels and various psychological factors.

Table 3 证实了心理学文献中的几个理论:

分析性思维 (-0.31): 这是最强的负相关。使用精确、分析性语言的用户易感性低得多。
愤怒 (+0.16) & 咒骂 (+0.18): 高度的情绪唤起，特别是负面情绪和攻击性，与较高的易感性相关。
焦虑 (+0.08): 恐惧也起作用，尽管其作用比愤怒小。

这描绘了易感用户的画像: 他们较少进行分析性处理，更多地进行情绪化、反应性的交流。

2. 职业背景

我们的工作能保护我们免受虚假信息的侵害吗？模型根据用户的个人简介将他们分类为不同的职业类别。

Table 4: Susceptibility Distribution by Professional Field.

观察 Figure 3 (Top) 中的表格:

健康与医学 (H&M): 不出所料，这个群体的易感性非常低 (-5.47)。他们的领域知识保护了他们。
教育: 这个群体是最具抵抗力的 (-7.80)。
艺术与媒体: 有趣的是，与其他职业相比，这个群体表现出较高的易感性 (-0.15)。作者推测这可能是由于更高的情感表达能力或更多地接触耸人听闻的内容。

一个意外的发现是在科学与技术 (S&T) 领域。虽然他们具有抵抗力 (-2.20)，但他们比金融或健康行业的人更易感。作者认为，“颠覆性创新”文化可能使一些科技界人士对他人的观点或“替代”叙事更加开放。

3. 地理与政治

最后，研究人员绘制了美国各州的平均易感性分数地图。

Figure 3: Susceptibility Distribution by U.S. State.

Figure 3 (Bottom) 中的地图揭示了与政治版图相呼应的地理分歧。

蓝州: 易感性分数较低 (更具抵抗力) 的州通常与倾向民主党的人口一致 (例如，马萨诸塞州，纽约州) 。
红州: 分数较高 (更易感) 的州通常与倾向共和党的人口一致 (例如，怀俄明州，西弗吉尼亚州) 。

“蓝”州用户的平均易感性分数为 -3.66 , 而“红”州为 -2.82 。这为之前的调查研究结果提供了大规模的实证支持，即政治意识形态是人们如何处理科学信息 (特别是关于 COVID-19) 的重要因素。

结论

论文 “Decoding Susceptibility” 代表了计算社会科学的一次重大飞跃。通过摆脱小型调查，转向从行为中推断潜在特征的深度学习模型，研究人员为我们提供了一个审视虚假信息危机的新视角。

关键要点:

不可见之物是可建模的: 我们可以仅通过用户的发帖历史准确推断其对虚假信息的易感性。
语境很重要: 三元组损失训练方法表明，最好将易感性理解为用户之间的相对排名。
心理学的规模化: 计算结果与心理学理论完美契合——分析性思考者是安全的；愤怒、反应过度的用户处于风险之中。

未来与伦理 虽然这项技术在识别脆弱群体和设计干预措施 (如“预先辟谣”) 方面前景广阔，但作者也正确地指出了伦理风险。一个能够识别易受骗用户的模型可能会被坏人武器化，以更有效地针对目标投放虚假信息。

随着我们的前进，必须负责任地使用此类工具——不是给个人贴标签或污名化，而是理解我们信息生态系统中的系统性缺陷，并帮助建立一个更具韧性的数字社会。

引言#

背景: 测量“相信”的难题#

核心方法: 计算易感性建模#

1. 高层架构#

2. 用户与内容的表示 (嵌入)#

3. 计算潜在分数#

4. 从信念到行为 (训练信号)#

5. 多任务学习: 损失函数#

实验与结果#

1. 验证: 比 ChatGPT 更好？#

2. 区分易感性#

启示: 什么驱动了易感性？#

1. 心理因素#

2. 职业背景#

3. 地理与政治#

结论#

引言