引言

当你读到“她的心跳加速”这句话时,你理解到了什么?根据上下文的不同,她可能是在害怕一只蜘蛛,也可能是看到了她的一生挚爱。

这就是具身情绪 (Embodied Emotion) 的挑战。情绪不仅仅是我们大脑中的抽象概念;它们是物理体验。我们在愤怒时握紧拳头,在厌恶时胃里翻江倒海,在惊讶时睁大双眼。在自然语言处理 (NLP) 中,检测显性情绪 (例如,“我很开心”) 已经是一个被解决的问题。然而,检测情绪的微妙生理表现——并正确地将其分类——仍然是一个巨大的障碍。

心跳加速是模棱两可的。跺脚通常代表愤怒,但也可能是挫败感的发泄。我们如何在没有大规模监督的情况下教机器区分这些细微差别?

在论文 “CHEER-Ekman: Fine-grained Embodied Emotion Classification” 中,来自辛辛那提大学的研究人员解决了这一确切问题。他们不再局限于简单地检测身体部位是否在表达情绪,而是致力于确定究竟表达了哪种情绪。他们的发现令人惊讶: 有时,简单的指令比复杂的技术定义效果更好,而小语言模型——如果提示得当——甚至可以胜过受监督的巨型模型。

图解分为六类的具身情绪。

背景: 从二分类到细粒度

要理解这篇论文的贡献,我们需要看看该领域之前的状况。具身情绪的概念植根于认知科学,表明我们的情绪体验与我们的身体状态紧密相连。

在此工作之前,最先进的数据集是 CHEER (Zhuang et al., 2024)。CHEER 数据集专注于一个二分类任务: 具身情绪检测 。 它要求模型观察像“他用手指敲击桌子”这样的句子,并判断: 这是一种情绪表达吗? (是/否) 。

虽然有用,但这种二分类方法有一个主要局限性。知道“心跳加速”是情绪化的表现只是成功了一半。如果一个 AI 助手检测到用户情绪激动,但无法区分恐惧喜悦,它的反应很可能是不恰当的。

CHEER-Ekman 背后的研究人员决定通过将这些身体感觉映射到 Ekman 的六种基本情绪 (喜悦、悲伤、愤怒、厌恶、恐惧和惊讶) 来弥补这一差距。

CHEER-Ekman 数据集

这篇论文的第一个贡献是数据本身。作者选取了原始 CHEER 数据集中的 1,350 个正样本——即身体部位确实在表达情绪的句子——并用具体的情绪标签对它们进行了标注。

这并非易事。两位标注员获得了句子、涉及的具体身体部位以及前面的上下文。他们必须决定六种 Ekman 情绪中哪一种最符合该生理描述。

表 1: CHEER-Ekman 数据集中的示例。

如上表 1 所示,这些联系可能非常生动。“皱眉并拖着脚”清楚地对应悲伤,而“眼珠都要掉出来”则是惊讶的典型夸张表达。

由此产生的数据集分布突显了文本中人类表达的复杂性。

图 2: CHEER-Ekman 数据集的情绪分布。

恐惧 (24.7%) 和喜悦 (21.2%) 是最独特和最频繁的类别,这可能是因为像发抖 (恐惧) 或微笑 (喜悦) 这样的生理反应在文学作品中非常常见。愤怒 (9.0%) 在这个特定的具身语境中出现的频率最低,也许是因为愤怒通常通过对话或攻击行为表达,而不是纯粹的内在身体感觉。

核心方法: 教 LLM 学会“感知”

有了数据集,研究人员面临着一个分类问题。如何让模型可靠地预测这些标签?他们探索了两条主要途径: 提示工程 (Prompt Engineering)最差-最优缩放 (Best-Worst Scaling, BWS)

1. 提示词的悖论

当使用 Llama-3.1 和 DeepSeek 等大语言模型 (LLM) 时,直觉的方法是给模型一个精确、技术的任务定义。作者从一个“基础 (Base) ”提示词开始,该提示词从技术上定义了涉及生理唤醒且缺乏其他目的的具身情绪。

然而,他们发现了一个反直觉的现象: 越简单越好。

他们创建了一个“简单 (Simple) ”提示词,剥离了学术术语。与其定义“生理唤醒”,他们只是简单地问: 是情绪引起了身体部位的动作吗?

表 5: 不同任务的零样本模板。表 6: 不同设置下的思维链 (CoT) 提示模板。

结果非常显著。使用简化的语言 (“日常英语”) 明显优于复杂的技术提示词。似乎经过海量互联网文本训练的 LLM,比起僵化的学术定义,更能与自然语言指令产生共鸣。

思维链 (CoT) 推理

为了进一步提升性能,特别是对于较小的模型 (如 8B 参数版本) ,作者实施了思维链提示。他们将推理过程分解为几个步骤:

  1. 识别: 识别身体部位。
  2. 因果: 是情绪导致了动作吗?
  3. 目的: 动作是否仅仅是为了表达情绪?

这种结构化的推理允许一个 8B 参数的模型取得与其体量近 10 倍的模型 (70B) 相竞争的结果,证明了如何要求模型思考与模型的大小同样重要。

2. 最差-最优缩放 (BWS): 一种比较方法

他们方法中最具创新性的部分是使用 最差-最优缩放 (BWS) 进行分类。

在标准的零样本分类任务中,你会给 LLM 一个句子并问: “这是哪种情绪?”模型输出一个标签。然而,LLM 在直接标注时可能会不稳定。它们可能会产生幻觉,或者难以区分恐惧惊讶之间的微妙界限。

作者转而将其视为一个排序问题。

BWS 如何工作

  1. 向模型展示一组 4 个句子 (例如,句子 A、B、C、D) 。
  2. 询问模型: “这些句子中哪个代表喜悦?”以及“哪个最不代表喜悦?”
  3. 对所有六种情绪重复此过程。

通过强迫模型将句子相互比较,而不是孤立地判断它们,模型提供了更可靠的信号。

句子 (\(e_i\)) 的分数使用以下公式计算:

BWS 评分公式

在这里,分数的得出方式是用一个句子被选为“最佳”的次数减去被选为“最差”的次数,再除以总比较次数进行归一化。得分最高的情绪成为该句子的预测标签。

实验与结果

研究人员将他们的 LLM 方法与微调后的 BERT 模型 (一个标准的监督学习基线) 进行了比较。结果突显了他们新方法的威力。

检测结果: 简单的力量

首先,看看二分类检测任务 (这是一种情绪吗?) ,简化提示词的影响是不可否认的。

表 3: 具身情绪检测的 CoT 结果。Llama: Llama-3.1-8B。DeepSeek: DeepSeek-R1-Distilled-Llama-8B。2-step、2-step-simple 和 3-step 下标表示在该次运行中伴随模型的提示词类型。提示词详情见表 6。GPT 3.5 结果报告于 Zhuang et al. (2024)。

如表所示, 简单提示词 (由 -simple 下标表示) 始终优于标准提示词。例如,DeepSeek-2-step-simple 取得了比标准 DeepSeek-2-step 明显更高的 F1 分数。这证实了降低语言复杂性可以降低模型“理解”任务的门槛。

分类结果: BWS vs. 监督学习

重头戏是细粒度分类 (它是哪种情绪?) 。在这里,最差-最优缩放 (BWS) 方法大放异彩。

表 4: 情绪分类结果。Llama: Llama-3.1-8B。DeepSeek: DeepSeek-R1-DistilledLlama-8B。BWS: 使用 Llama-3.1-8B 的自动 BWS。第一列 F1 是宏平均分数,后面是 F1-score F1-x,其中 J - 喜悦, Sa - 悲伤, F - 恐惧, A - 愤怒, D - 厌恶, Su - 惊讶。

请看表 4。 零样本 Llama 的 F1 分数为 31.6 。 然而,当使用 带有 36N 个元组的 BWS (意味着模型进行了多次比较) 时,分数跃升至 50.6

关键在于, BWS (50.6) 击败了 监督 BERT 模型 (49.6)

这是一个重大发现。这意味着一个 LLM,在没有任何针对该数据集的特定训练 (使用 BWS 的零样本推理) 的情况下,可以胜过一个在该数据上经过明确训练的小型模型。这为在我们没有足够数据来训练监督模型的场景中进行高质量情绪分类打开了大门。

扩展比较次数

研究人员提出的一个问题是: “我们需要多少次比较?”

图 7: 随着元组数量从 2N 增加到 72N (其中 \\(_ \\mathrm { N }\\) 是要分类的实例总数) ,BWS 的 F1 分数趋势。BERT 的性能作为参考基线显示。

上图显示了随着元组数量 (\(N\)) 增加,BWS 的性能变化。红色虚线是监督 BERT 基线。你可以看到蓝色 BWS 线稳步上升,在 36N 左右超过 BERT。然而,之后它趋于平缓并略有下降,这表明在回报递减之前,比较次数存在一个最佳的“甜蜜点”。

身体部位告诉了我们什么

最后,作者分析了哪些身体部位最能预测情绪。

图 3: 每种情绪中前 10 个身体部位的频率。

气泡图显示, 是情绪的通用传达者。然而,独特的模式也随之出现:

  • 心脏恐惧密切相关 (心跳加速、狂跳) 。
  • 嘴唇倾向于喜悦 (微笑) 和惊讶 (张口结舌) 。
  • 喉咙经常出现在悲伤 (喉咙哽咽) 和恐惧中。

结论与意义

“CHEER-Ekman” 论文为我们如何解读文本的“肢体语言”提供了一个令人着迷的飞跃。通过创建一个细粒度数据集并应用巧妙的提示技术,研究人员证明了机器可以学会区分爱人的心跳和懦夫的颤抖。

主要收获:

  1. 数据至关重要: 新的 CHEER-Ekman 数据集填补了一个关键空白,允许研究特定的具身情绪,而不仅仅是一般的情绪存在。
  2. 大道至简: 在提示工程中,专业的术语往往会损害性能。通俗、日常的语言能帮助模型更好地推理。
  3. 比较优于绝对: 最差-最优缩放 (BWS) 技术证明,LLM 在比较推理 (A 比 B 更快乐) 方面比绝对分类要好得多,这使得它们无需训练就能击败监督模型。

这项研究让我们离 AI 不仅能阅读我们所说的话,还能理解我们的感觉——甚至是胃里的蝴蝶效应——更近了一步。