超越二元检测：PsyGUARD 如何彻底变革自动化自杀风险评估

引言: 危机与缺口

自杀仍是全球最严峻的公共卫生挑战之一。每一个生命的逝去都是一场悲剧，不仅波及家庭，也影响着整个社区。随着心理健康意识的提升，越来越多的人开始转向在线咨询服务寻求帮助。这些平台打破了时间和空间的限制，提供了即时且保密的支持。

然而，随着用户数量的激增，人类咨询师往往不堪重负。这正是人工智能 (AI) 介入的契机。多年来，研究人员一直在开发自动化系统来检测文本中的自杀意念。但是，目前的领域存在一个重大缺陷: 大多数现有系统将自杀检测视为一个简单的二元问题——即有自杀倾向或无自杀倾向 。

在充满细微差别的心理咨询领域，简单的“是/否”是远远不够的。用户表达一闪而过的死亡念头，与有人已经购买了安眠药，这就需要完全不同的干预措施。

这就引出了 PsyGUARD , 这是一个旨在填补这一空白的新型自动化系统。在一篇近期由西湖大学和杭州师范大学的研究人员提出的论文中，PsyGUARD 引入了一种细粒度的检测方法和一个全面的风险评估框架。

基于细粒度检测的自杀预防策略示例。

如上图所示，咨询师的反应会根据用户的具体状态发生巨大变化——从针对自杀未遂的积极危机干预，到针对主动自杀意念的情感支持。在本文中，我们将深入探讨 PsyGUARD 如何实现这一复杂过程的自动化。

基石: 细粒度分类体系

为了构建更好的检测系统，研究人员首先必须重新定义他们要检测什么。大多数现有数据集依赖于宽泛的标签或哥伦比亚自杀严重程度评定量表 (C-SSRS) ，这对于自动化文本分类来说可能过于复杂。

团队与专业心理学家合作，创建了一个专为在线咨询量身定制的、包含11个类别的新分类体系。该分类体系超越了“自杀 vs 非自杀”的范畴，区分了想法、行动和对死亡的无关提及。

风险决策树

该分类体系结构类似于决策树，根据用户的视角对内容进行分类。

提出的自杀意念分类体系。

这些类别分为两个主要分支:

自杀意念 (Suicidal Ideation) :

自杀未遂 (Suicide Attempt) : 用户已经采取了行动 (例如服药) 但幸存下来。
自杀准备行为 (Suicide Preparatory Act) : 准备工作已完成 (例如购买工具) ，但尚未实施。
自杀计划 (Suicidal Plan) : 思想或言语中存在具体计划，但尚未付诸行动。
主动自杀意图 (Active Suicidal Ideation) : 明确、主动的求死欲望。
被动自杀意图 (Passive Suicidal Ideation) : 希望死亡 (例如“我希望我不再醒来”) ，但没有主动意图。

非自杀意念 (Non-Suicidal Ideation) :

自伤行为/意图 (Self-Injury Behavior/Ideation) : 没有死亡意图的伤害行为 (例如割伤) 。
攻击行为 (Aggression) : 针对他人或用户自身 (被他人攻击) 。
关于自杀的探索 (Exploration) : 关于自杀的好奇或哲学性问题。
与自杀/自伤/攻击行为无关 (Irrelevant) : 在与自残无关的语境中提及死亡 (例如对死亡的恐惧) 。

这种细粒度允许 AI 系统确定优先紧急程度。检测到“自杀未遂”会触发立即的紧急响应，而“被动意图”可能会触发支持性对话。

构建 PsySUICIDE 数据集

AI 模型的好坏取决于它所学习的数据。研究人员指出了以往研究的一个主要局限性: 它们主要依赖社交媒体帖子 (Twitter, Reddit, 微博) ，这些往往缺乏咨询的对话语境。

为了解决这个问题，他们构建了 PsySUICIDE , 这是一个大规模的中文数据集，包含近 15,000 个实例。数据来源于社交媒体平台 (微博、知乎) 和开源心理健康对话 (咨询师与来访者的互动) 。

质量重于数量

与自动抓取的数据集不同，PsySUICIDE 经历了严格的标注过程。三名心理学专业的学生对数据进行了标注，并采用了严格的分歧裁决流程——如果标注者意见不一致，他们必须讨论案例直到达成共识。

自杀意念检测数据集比较。

如上表所示，PsySUICIDE 的独特之处在于它支持多标签分类 (用户可以同时表达自伤和自杀意念) ，并且覆盖了比以前的二元数据集更广泛的类别。

为了让你感受数据的复杂性，以下是从数据集中精选的一些示例:

PsySUICIDE 数据集示例。

注意第 3 行与第 4 行的细微差别。“为了自杀，我打算去买很多安眠药”代表了自杀计划 , 而“我想要自杀”是主动自杀意图 。对于标准的二元分类器来说，这些看起来可能是一样的，但在临床上，计划代表了更高的即时风险升级。

核心方法: 检测模型

在定义了分类体系并收集了数据后，研究人员着手构建检测系统。他们尝试了两种主要的文本分类方法: 基于提示的大型语言模型 (LLMs) 和微调的预训练模型 。

1. 提示 LLM (零样本与少样本)

团队测试了流行的 LLM，包括 GPT-3.5、GPT-4 以及开源模型如 Qwen 和 ChatGLM。他们使用特定的提示模板指导模型扮演“资深心理咨询师”，将用户文本分类到 11 个定义的类别中。

他们测试了两种方式:

零样本 (Zero-shot) : 要求模型在没有示例的情况下进行分类。
少样本 (Few-shot) : 为模型提供带标签的示例 (如数据集表中的那些) ，以帮助其在分类前理解细微差别。

英文少样本提示模板。

2. 微调预训练模型

他们还微调了更小、更高效的模型，如 BERT 和 RoBERTa 。在这个过程中，预训练模型 (已经理解语言句法和语义) 在 PsySUICIDE 数据集上进行专门训练，以成为该特定分类体系的专家。

实验与结果

实验结果为 AI 在心理健康领域的当前能力提供了引人入胜的见解。

细粒度分类的评估结果。

数据带来的关键启示:

微调胜出: 较小的微调模型 (BERT 和 RoBERTa) 显着优于庞大的 LLM。 RoBERTa-large 达到了约 91.69% 的准确率，而最佳的零样本 LLM (GPT-4-preview) 达到了 82.72% 。这凸显了对于特定的高风险分类任务，专用模型往往胜过通用的巨型模型。
LLM 的规模很重要: 在开源的 Qwen 模型中，性能通常随着模型规模的增加而提高 (从 1.8B 参数到 72B) 。
“少样本”困境: 有趣的是，提供示例 (少样本) 有助于较大的模型，但有时会混淆较小的 LLM。对于 GPT-4，少样本提示实际上比零样本的表现略有下降，这表明模型的内部推理在没有额外上下文的情况下已经足够稳健。

常见错误

研究人员分析了模型失败的地方。常见问题包括:

误判“未遂”: 有时模型会将过去的尝试与当前的意念混淆。
关键词敏感性: 单词“死亡”的出现经常诱导模型预测自杀意念，即使用户只是在讨论对死亡的恐惧 (死亡恐惧症) 。

从检测到风险评估

检测类别仅仅是第一步。PsyGUARD 的最终目标是风险评估——确定情况的严重程度以指导干预。

研究人员提出了一个自动化框架，将检测模型与对话智能体相结合。

流程管道

检测: 系统分析用户输入。

如果检测到自杀未遂 , 立即将用户转介至危机热线/人工咨询师。
对于其他类别 (如主动/被动意图) ，它会启动自动化评估对话。

对话: 一个 LLM 扮演咨询师的角色，提出特定的筛查问题，以评估用户的情绪状态、想法频率以及是否有计划。
评级: 一个“督导”智能体分析对话历史，并从 0 (无风险) 到 5 (紧急高风险) 分配风险评分。

自动化风险评估框架工作流程。

在上例中，用户表达了主动自杀意图 (“我想自杀”) 。系统进行了支持性对话，收集关于用户时间线 (过去两周) 和情绪状态的信息。最后，系统生成一份风险评估报告 , 将用户分类为“风险等级 3 (中高风险) ”，因为他们有意图但尚未采取行动。

现实世界验证

为了在实验室之外测试这一点，团队在中国流行的微信文本咨询小程序“聊会小天”上部署了风险评估框架。

检测准确率: 95.2% (经专家确认) 。
评估可用性: 在 20 条用户消息的测试中，框架推荐的回复和评估被采纳的比例为 90%。

结论与意义

PsyGUARD 论文代表了自动化心理健康支持迈出的重要一步。通过摆脱二元分类，研究人员创建了一个反映真实人类心理复杂性的系统。

其贡献主要体现在三个方面:

理论: 一个稳健的、细粒度的自杀意念分类体系。
数据: 高质量的 PsySUICIDE 数据集，将推动未来的研究。
应用: 一个结合了检测与 LLM 驱动的风险评估的成熟框架。

虽然作者强调 AI 绝不应取代专业治疗，但像 PsyGUARD 这样的系统可以作为关键的安全网。它们可以扩展支持范围，同时触达数千名用户，标记出风险最高的人群，并确保在在线咨询的浩瀚数字海洋中，没有一声求救被忽视。

随着 LLM 的不断进化，我们可以期待更加量身定制和富有同理心的 AI 咨询师。然而，正如这项研究所示，严谨的心理学理论与高质量、专业数据的结合，仍然是安全与成功的关键。

引言: 危机与缺口#

基石: 细粒度分类体系#

风险决策树#

构建 PsySUICIDE 数据集#

质量重于数量#

核心方法: 检测模型#

1. 提示 LLM (零样本与少样本)#

2. 微调预训练模型#

实验与结果#

数据带来的关键启示:#

常见错误#

从检测到风险评估#

流程管道#

现实世界验证#

结论与意义#