当下一个全球健康危机袭来时,最初的预警信号很可能不会出现在官方政府报告或世界卫生组织的新闻发布会中。相反,它们会出现在一条推文、一条微博帖子或状态更新中,淹没在数十亿社交媒体互动的喧嚣之下。

社交媒体充当了社会趋势 (包括公共卫生) 的实时传感器。然而,目前的自动化监控系统存在严重的语言障碍。大多数旨在追踪流行病的人工智能 (AI) 工具几乎只关注英语。但病毒不分国界,它们肯定不会等待翻译。在一​​个非英语国家的农村地区爆发的疫情,可能会在出现在英语新闻流之前的几周,就在当地语言的讨论中愈演愈烈。

这引出了一篇开创性的论文: SPEED++ , 该论文介绍了一个旨在弥补这一差距的多语言框架。研究人员开发了一种系统,可以跨数十种语言提取详细的流行病信息——甚至是它从未经过专门训练的语言——这可能为政策制定者争取到数周的关键准备时间。

问题所在: 超越英语与超越关键词

早期利用社交媒体进行疾病检测的尝试相对简单。它们主要依赖于统计关键词 (如“流感”或“发烧”) 或简单的二元分类 (这条推文是否关于流行病: 是/否?) 。

虽然有用,但这些方法缺乏细微差别。仅仅知道人们在谈论“疾病”是不够的。为了理解正在发生的危机,流行病学家需要具体的细节:

  • 被感染了?
  • 什么症状?
  • 哪里发生?
  • 人们如何试图治愈它?

这就是事件抽取 (Event Extraction, EE) 发挥作用的地方。EE 不仅仅是简单的检测;它还能识别特定的“触发词” (表明事件发生的词) 和“论元” (围绕该事件的细节) 。

然而,以前的工作 (如最初的 SPEED 框架) 仅限于英语。新的 SPEED++ 框架同时解决了两个巨大的挑战:

  1. 多语言能力: 在印地语、西班牙语和日语等语言中检测事件,而无需为每种语言提供大量标注数据集。
  2. 细粒度: 从简单的检测转向事件论元抽取 (Event Argument Extraction, EAE) , 它能提取出像“受害者”、“地点”和“预防措施”这样的详细角色。

图 2: 流行病相关事件“感染”和“控制”的事件抽取示意图。对应的论元及其角色在虚线框中标出。

如上图 2 所示,区别显而易见。一个简单的系统只能看到一句关于 COVID-19 的句子。SPEED++ 看到的是一个结构化的信息网络: 一个主体 (我) ,一种疾病 (Covid-19) ,一个感染事件 (测试呈阳性) ,以及一个控制事件 (隔离) 。

奠定基础: 本体与数据集

要教 AI 如何理解流行病,首先必须定义流行病在数据中的样子。研究人员创建了一个全面的本体 (Ontology) ——即概念的结构化映射。

他们定义了 7 种事件类型 (如感染、传播、症状、治愈) ,并将它们与 20 种论元角色相关联。

表 1: SPEED++ 的事件本体,包含 7 种事件类型和 20 种论元角色。

如表 1 所示,该本体允许系统非常具体。它不仅仅寻找“死亡”;它寻找死亡事件,并提取与之相关的特定疾病地点计数 (数值) 。

数据瓶颈

创建一个数据集来训练这种模型极其昂贵。它需要双语专家手动阅读数千条推文并标注每一个特定的论元。对地球上的每种语言都这样做是不可行的。

为了克服这个问题,研究人员创建了 SPEED++ 数据集 。 他们专注于四种不同的语言——英语、西班牙语、印地语和日语——以及四种不同的疾病——COVID-19、猴痘、寨卡病毒和登革热

图 3: 数据创建过程概览。主要步骤包括: 利用论元角色扩展本体,预处理和过滤多语言数据,并利用双语专家进行标注以创建 SPEED++。

图 3 展示了这一严格的流程。他们从原始 Twitter 转储数据开始,使用关键词和种子句子进行过滤,并聘请人类专家对数据进行标注。这产生了一个包含超过 5,000 条推文的高质量数据集。然而,5,000 条推文不足以覆盖整个世界。这就是建模创新发挥作用的地方。

核心方法: 零样本跨语言迁移

SPEED++ 最令人印象深刻的地方在于其执行零样本跨语言迁移 (Zero-Shot Cross-Lingual Transfer) 的能力。

在机器学习中,“零样本”意味着模型可以执行在训练期间未明确见过的任务。在这种情况下,研究人员仅在英语 COVID-19 数据上训练他们的模型。然后,他们要求模型在不同的语言 (如印地语或日语) 中寻找不同疾病 (如猴痘) 的流行病事件。

这怎么可能?

研究人员利用了强大的技术组合:

  1. 多语言预训练: 他们使用了已经“阅读”过数百种语言文本的基础模型 (如 XLM-RoBERTa) 。这些模型理解英语中的“virus”概念在语义上类似于西班牙语中的“virus”或中文的“病毒”,即使单词看起来不同。
  2. TagPrime: 这是用于提取事件的特定架构。它将提取过程视为序列标注任务。
  3. CLaP (上下文标签投影) : 为了进一步缩小语言差距,他们使用了一种数据增强技术。他们获取英语训练数据并将其“投影”到其他语言中,以创建伪训练数据。这使得模型在看到真实数据之前,就能获得目标语言样貌的“草稿”。

付诸测试

研究人员将 SPEED++ 与几个基线模型进行了比较,包括基于关键词的系统、标准流行病学工具 (COVIDKB) ,甚至 GPT-3.5-turbo。

表 5: 在 SPEED++ 上训练的 EE 模型在跨语言跨疾病设置下提取事件信息的基准测试结果。

表 5 显示的结果是决定性的。 TagPrime + CLaP 模型 (最后一行) 始终优于基线模型。虽然 GPT-3.5 是一个强大的通才,但它在处理此处所需的特定结构化提取时表现挣扎,尤其是在非英语语言中。SPEED++ 框架获得了显著更高的 F1 分数 (衡量准确性的指标) ,证明了专用的、架构合理的模型在进行此类详细提取任务时仍然优于通用大语言模型 (LLM) 。

现实世界的影响: 预测过去

为了证明其框架的实用性,作者进行了一项引人入胜的“历史”实验。他们将仅在英语数据上训练的模型应用于 2019 年 12 月和 2020 年 1 月的中文微博帖子 。 那是 COVID-19 在武汉出现但尚未被宣布为全球大流行的关键窗口期。

图 1: 针对 COVID-19 大流行利用中文进行的零样本多语言流行病预测。

图 1 讲述了一个令人信服的故事。

  • 红线 (SPEED++) : 请看 2019 年 12 月 30 日左右提取事件的急剧激增。
  • 底部时间线: 这一警告信号出现在全球感染追踪正式开始 (1 月 19 日) 之前的三周 , 以及世卫组织宣布大流行的数月之前。

该模型完全基于其对英语 COVID 概念的训练,成功识别了中文里关于“不明原因肺炎”讨论的激增。这表明,如果 SPEED++ 在 2019 年就已经启用并监控全球信息流,它本可以提供官方渠道错过的早期预警信号。

全球规模与虚假信息检测

SPEED++ 的效用不仅限于单一语言。为了展示规模化能力,研究人员在涵盖 117 个国家65 种语言的 Twitter 数据快照上运行了该模型。

图 6: 截至 2020 年 5 月 28 日欧洲报告的 COVID-19 病例数量的地理分布。

图 6 中的地图显示了模型提取的事件 (蓝点) 与实际报告的 COVID 病例 (红色阴影) 之间的相关性。这种高度一致性证实了该模型在全球范围内有效,能够准确反映不同地区大流行的严重程度,而无需针对每个国家进行特定语言的调整。

深入挖掘细节

因为 SPEED++ 提取的是论元 (细节) ,它可以总结人们正在说什么。这对两件事非常有用:

  1. 症状追踪: 识别公众讨论中出现的新症状。
  2. 虚假信息检测: 识别社区中流传的危险或虚假的“疗法”。

图 7: 由我们的 SPEED++ 框架提取并进行凝聚聚类后的信息汇总公告。

图 7 展示了系统生成的“信息公告”。

  • 左栏 (症状) : 它正确识别了猴痘的“皮疹”和“病变”,以及寨卡病毒的“小头畸形”。
  • 右栏 (虚假信息) : 在 COVID-19 的印地语和西班牙语部分,该模型提取了“牛尿”和“母乳”作为讨论中的治疗措施。

通过自动标记这些未经证实的医疗主张,卫生组织可以迅速识别虚假信息趋势,并用适当的语言发布针对性的纠正信息。

结论

SPEED++ 框架代表了数字流行病学的一次重大飞跃。通过结合严格的数据集创建和先进的零样本跨语言建模,研究人员构建了一个能够倾听世界的工具,而不仅仅是倾听讲英语的那部分世界。

其影响是深远的:

  • 更早的预警: 在官方数据跟上之前的数周检测到疫情爆发。
  • 更好的情报: 了解当地的症状和行为。
  • 打击信息流行病: 大规模追踪虚假信息。

虽然没有任何 AI 能以绝对的确定性预测未来,但 SPEED++ 证明,只要我们用正确的语言去倾听,下一次大流行的信号很可能在变成令人窒息的新闻标题之前,很久就已经在社交媒体上可见了。