人工智能与心理健康的交叉领域是计算机科学中最具前景但也最不稳定的前沿领域之一。我们经常听到关于 GPT-4 等大型语言模型 (LLMs) 有潜力充当即时可用的治疗师或诊断工具的说法。然而,一篇题为 “Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health Diagnosis” (还差点火候!评估大型语言模型在共病心理健康诊断中的表现) 的新研究论文给这种热情踩下了刹车。
研究人员介绍了一个名为 ANGST 的新数据集,并以此为基准测试了顶级的 AI 模型。他们的发现揭示了一个关键差距: 虽然 AI 可以流畅地处理语言,但在面对人类心理健康混乱、重叠的现实——特别是共病 (comorbidity) 现象 (即焦虑和抑郁等障碍同时存在) 时,表现得非常吃力。
在这篇文章中,我们将剖析这篇论文,探讨为何以前的数据集是不够的,ANGST 数据集是如何严谨构建的,以及为何即使是最先进的模型也难以达到可靠的诊断精度。
“数字精神病学”的问题
在深入解决方案之前,我们需要了解当前“数字精神病学”领域的缺陷。长期以来,研究人员一直使用 Reddit 和 Twitter 等社交媒体平台来分析心理健康相关的话语。这些平台提供了一个安全、匿名的空间,用户可以在此公开讨论他们的挣扎。
然而,作者指出了阻碍该领域发展的三大“瓶颈”:
- 数据源瓶颈 (The Data Source Bottleneck) : 大多数数据集是使用“代理信号”构建的。研究人员抓取包含特定标签 (如 #depression) 或来自特定子版块 (如 r/Depression) 的帖子。这造成了数据集的偏差,只捕捉到了那些明确给自己贴标签的人,而忽略了在一般性讨论中存在的心理疾病的微妙语义表达。
- 标注瓶颈 (The Annotation Bottleneck) : 依赖自我报告的诊断或社区归属感缺乏临床有效性。一个在心理健康论坛发帖的用户可能是在分享创伤经历、提供建议或调节情绪,并不一定表现出某种障碍的症状。将所有这些帖子归类为“抑郁”标签会产生充满噪声的数据。
- 任务瓶颈 (The Task Bottleneck) : 这可能是最关键的缺陷。大多数研究将心理健康视为一个二分类任务: 用户是抑郁还是健康? 这忽略了共病 。 在临床心理学中,抑郁和焦虑经常并发是有据可查的。强迫模型选择其中之一,我们实际上是在过度简化人类的状况。
介绍 ANGST: 一个现实的基准
为了解决这些瓶颈,研究人员精心策划了 ANGST (ANxiety-Depression Comorbidity DiaGnosis in Reddit PoST,Reddit 帖子中的焦虑-抑郁共病诊断) 。这是一个多标签分类基准。与以往的二分类数据集不同,ANGST 允许将单个帖子标记为:
- 抑郁 (Depression)
- 焦虑 (Anxiety)
- 两者皆有 (共病,Comorbid)
- 两者皆无 (对照组,Neither/Control)
1. 细致的数据收集
该团队不仅仅是抓取 r/anxiety 上的热门帖子。他们采用了“中性种子”策略。他们确定了那些曾自我披露过诊断结果的作者,但随后分析了这些作者在五年间跨各种子版块的发布历史。这确保了数据集捕捉到了这些个体的自然语言模式,而不仅仅是他们在支持小组中的发言。
从超过 70,000 条筛选后的帖子中,他们使用情感分析工具 (NRC 和 Empath) 选择了与抑郁和焦虑线索具有高度语言一致性的样本。

如上表所示,研究人员使用这些分数来过滤出情绪强烈 (高悲伤或恐惧得分) 的帖子,以确数据集富含相关信号,而非无关紧要的闲聊。
2. 金标准标注
ANGST 的真正价值在于其基本真值 (ground truth) 。团队没有使用众包工人,而是聘请了专家心理学家对 2,876 条帖子进行标注。这些专家在隔离状态下工作以避免偏见,独立地标记帖子的抑郁和焦虑倾向。
这种方法产生了一个反映现实世界复杂性的数据集。下表展示了数据集中的示例,强调了抑郁和焦虑线索是如何单独或同时出现的。

3. 统计学难度
ANGST 实际上比现有的数据集更难分类吗?为了证明这一点,作者使用詹森-香农散度 (Jensen–Shannon Divergence, JSD) 测量了类间相似度 。
在机器学习中,通常希望类别 (例如“抑郁”与“对照组”) 是截然不同的。如果它们太相似,模型就很难划定决策边界。

如表 2 所示,与 DATD 或 Dreaddit 等其他流行数据集相比,ANGST 的 JSD 值显着更低 (0.027 - 0.036) 。这意味着 ANGST 中的“对照组”帖子在语义上与“抑郁”帖子非常相似。这很可能是因为对照组帖子来自相同的 Reddit 用户分布,而不是完全随机的文本。这使得 ANGST 成为了对模型语义理解能力的一次更艰难、更现实的测试。
实验: 人与机器的较量
研究人员使用多种模型对 ANGST 进行了基准测试:
- 判别式 PLMs (预训练语言模型) : Mental-BERT, Mental-RoBERTa, Mental-XLNet。这些是专门在心理健康文本上微调过的 BERT 风格模型。
- 生成式 LLMs (大型语言模型) : Llama-2 (7B 和 13B), GPT-3.5-turbo, 以及 GPT-4。
他们在两个任务上测试了这些模型: 二分类 (简单检测) 和多标签分类 (检测共病) 。
结果 1: 二分类
在二分类任务中,模型只需检测对照组中是否存在抑郁或焦虑。

表 3 的关键要点:
- GPT-4 的统治地位: GPT-4 (零样本) 通常能获得最高的分数,特别是在精确率 (Precision) 方面。
- 专用化的力量: 注意 Mental-XLNet 和 Mental-BERT (微调模型) 极具竞争力,经常击败 GPT-3.5 和 Llama-2。这表明对于特定领域,较小的专用模型可以与通用的大型 LLM 匹敌。
- Llama-2 的挣扎: 开源的 Llama-2 模型表现不佳,其 F1 分数显着低于专有的 GPT 模型和专用的 BERT 模型。
精确率与召回率的权衡
仔细观察抑郁检测的细分数据,揭示了所有模型中一个令人担忧的趋势。

在表 4 中,请看抑郁症的召回率 (Recall) 与精确率 (Precision) 列。
- 召回率很高 (90%+) : 模型非常善于发现抑郁帖子。它们很少漏掉真正的病例 (低假阴性) 。
- 精确率很低 (~60-65%) : 模型产生了大量的假阳性。它们“过于敏感”,将许多健康的帖子标记为抑郁。
对于现实世界的应用来说,这是一个重要的见解。一个精确率低的诊断工具会因误诊大量健康患者而让临床医生不堪重负。
结果 2: 多标签挑战 (共病)
ANGST 的真正考验是多标签任务,模型必须识别用户是否患有抑郁、焦虑、两者兼有或两者皆无。

表 6 的关键要点:
- 性能下降: 与二分类任务相比,F1 分数显著下降。没有模型的 F1 分数超过 72%。
- 共病差距: 当两种障碍同时出现时,模型很难区分它们。虽然 GPT-3.5 (少样本) 实现了最佳平衡,但许多模型的汉明损失 (Hamming Loss,衡量错误标签数量的指标) 仍然很高。
- 焦虑更难检测: 总体而言,模型在检测抑郁 (F1 ~53%) 方面比检测焦虑 (F1 ~17%) 要好得多。这表明文本中的焦虑线索可能比抑郁线索更微妙或更依赖语境。
模型为何失败?错误分析
研究人员进行了定性分析,以理解为什么这些先进模型“还差点火候”。
1. 零样本 vs. 少样本的困惑
令人惊讶的是,给模型提供示例 (少样本学习) 往往比不给示例 (零样本) 表现得更差。

如表 12 所示,少样本方法导致模型过度泛化。在突出显示的示例中,用户明确提到“我被诊断出患有抑郁症”。零样本模型正确地将其识别为抑郁相关的帖子。然而,少样本模型可能被提供的示例的具体语境搞混了,从而错误分类了这些清晰的案例。
2. 时间盲区
发现的最深刻的局限性之一是 LLM 无法理解时间。用户可能会讨论他们已经康复的过去一段抑郁经历。人类读者能理解这种语境。然而,LLM 看到关键字后,就会将用户标记为当前患有抑郁症。

在表 13 的第二个例子中,用户说: “别误会,这是我很长时间以来感觉最好的一次……既然我觉得自己更加平稳了……” 用户正在讨论他们的康复和药物的副作用,而不是正处于抑郁发作期。然而,GPT-3.5 和 GPT-4 都将其归类为活动性障碍。
3. 药物陷阱
同样,当用户讨论药物时,模型也会感到困惑。如果用户说“左洛复 (Zoloft) 让我感觉好多了”,药物名称的出现和疾病历史通常会触发阳性分类,即使该用户目前没有任何症状。

在表 15 (最后一行) 中,用户讨论在服用左洛复期间吸食大麻,但明确指出: “生活很顺利,我感到舒适,有时还挺快乐。” 判别式模型 (Mental-XLNet) 正确地将其识别为“非抑郁”,但 GPT-4 被药物和治疗的语境误导,将其标记为阳性病例。
结论: 前路漫漫
ANGST 论文为 AI 医疗社区敲响了一记至关重要的警钟。虽然像 GPT-4 这样的大型语言模型展示了令人印象深刻的通用能力,但它们缺乏可靠的心理健康诊断所需的临床细微差别。
ANGST 的创建为社区提供了一个急需的基准,反映了心理健康混乱、共病的现实。结果表明:
- 共病是新前沿: 我们必须超越二分类。
- 精确率很重要: 如果我们不能信任阳性标记,那么高召回率也是无用的。
- 语境为王: 未来的模型需要更好地理解症状的时间性,以及患有某种障碍与讨论某种障碍历史之间的区别。
正如作者总结的那样,我们“还差点火候”。这些模型可以作为初步筛查工具或助手,但距离成为自主诊断医生还很遥远。未来的道路在于混合模型,即结合 LLM 的推理能力与专用架构的领域专业知识,并在像 ANGST 这样经过严格专家标注的数据集上进行验证。
](https://deep-paper.org/en/paper/2410.03908/images/cover.png)