AI 能理解你的感受吗？用《老友记》角色评估视觉-语言模型

情商 (Emotional Intelligence, EI) 通常被认为是人工智能的最后一道难关。我们已经有了可以写代码、作诗和通过律师资格考试的模型，但它们能理解朋友失望时微妙的叹息，或者同事讽刺性的翻白眼吗？

长期以来，研究人员主要关注基于文本的大型语言模型 (LLMs) 来回答这个问题。研究表明，像 GPT-4 这样的模型在分析文本时拥有惊人的高“情商” (EQ) 。但人类的交流很少仅仅是文本。它是语言、面部表情、肢体语言和环境背景的复杂交响曲。要真正拥有情商，AI 必须既能读，也能看。

这就引出了视觉大型语言模型 (VLLMs) 。这些系统同时处理视觉和文本数据，理论上使它们比仅处理文本的模型能更好地“察言观色”。但事实果真如此吗？实际上是什么因素在驱动它们的表现？

在一项引人入胜的新研究中，来自建国大学 (Konkuk University) 的研究人员着手解构 VLLMs 的情商。为了做到这一点，他们没有使用枯燥的实验室数据。相反，他们基于标志性的电视情景喜剧《老友记》 (Friends) 重建了一个数据集。通过分析 AI 如何解读 Ross、Rachel、Joey 和这群朋友的生活，研究人员揭示了关于模型架构、个性作用以及潜伏在这些系统中的隐性偏见的关键见解。

多模态情感的挑战

在深入实验之前，了解为什么这是一个难题至关重要。在基于文本的情感分析中，关键词往往会泄露天机。“快乐”、“糟糕”或“爱”这类词是强有力的指标。然而，在现实对话中，一个人可能会说“我很好”，但看起来却非常沮丧。

VLLM 必须对齐两种不同的“模态”:

文本模态: 对话历史和当前的言语。
视觉模态: 面部表情、手势和周围环境。

如果模型太依赖文本，它就会错过讽刺或隐藏的悲伤。如果它太依赖图像，可能会将中性的静息脸误解为愤怒。这就引出了这篇题为《Analyzing Key Factors Influencing Emotion Prediction Performance of VLLMs in Conversational Contexts》 (分析影响 VLLM 在对话语境中情绪预测性能的关键因素) 的研究论文，旨在系统地分离出帮助——或阻碍——这种微妙平衡的变量。

方法论: 为 AI 重构《老友记》

为了测试 VLLMs，作者使用了 MELD 数据集 , 这是 NLP 社区中源自《老友记》的著名资源。然而，原始数据集不足以深入探究视觉语境。研究人员对数据进行了全面的重构，以创建一个稳健的测试平台。

1. 数据构建流程

研究人员并没有直接将原始视频输入模型。他们通过三个阶段的过程对数据进行了策划，以确保质量和相关性。

图 1: 使用 MELD 数据集评估 VLLMs 情绪预测性能的数据重构过程概览。

如上图所示，该过程包括:

对话选择 (Dialogue Selection) : 他们过滤了对话，确保它们不会太长 (否则会迫使模型仅依赖文本历史) 或太短。关键是，他们优先选择了包含具有可定义“人设 (personas) ”角色的对话。
图像范围重构 (Image Scope Reconstruction) : 这是本研究的一项关键创新。现实世界的视觉线索存在于不同的缩放级别。研究人员提取了三个特定“范围”的图像:
全景 (Entire Scene) : 捕捉环境和角色之间的互动。
人物 (Person) : 聚焦于说话者的肢体语言和姿态。
面部表情 (Facial Expression) : 面部特写，以捕捉微表情。
错误句子选择 (Incorrect Sentence Selection) : 为了测试模型，他们创建了多项选择任务。使用 SBERT (Sentence-BERT)，他们生成了“干扰项”答案——这些回答看似合理但不正确，要求模型真正理解情感语境才能选出正确答案。

2. 三项任务

研究人员没有简单地问模型“这个人快乐吗？”，而是设计了三个独特的认知任务来测试情商的不同方面:

整体情感基调预测 (Overall Emotion Tone Prediction) : 模型必须识别场景的总体情感 (积极、消极、中性) 并选择适当的反应。
角色情绪预测 (Character Emotion Prediction) : 一个更细粒度的任务，模型必须识别特定的情绪 (喜悦、恐惧、愤怒、悲伤等) 。
上下文恰当的情绪表达选择 (Contextually Appropriate Emotion Expression Selection) : 最难的任务。模型会得到多个传达相同情绪 (例如，都是快乐的句子) 的选项，但必须选择符合特定语境和角色说话风格的那一个。

3. 注入人设

知道谁在说话是否有助于 AI 理解他们感觉如何？研究人员用人设信息丰富了数据集。例如，如果模型知道 Chandler 使用讽刺作为防御机制，或者 Monica 很容易紧张，它能更好地预测他们的情绪吗？他们测试了包含以下内容的提示:

个性特征 (Personality Traits) : 角色内在本质的描述。
说话风格 (Speaking Styles) : 角色通常如何构造句子的描述。

关键发现: 什么驱动了性能？

研究人员测试了各种开源 VLLMs，包括 InstructBLIP、LLaVA 和 MiniGPT-4 , 利用了不同的大型语言模型主干 (如 Vicuna 和 FLAN) 。结果带来了一些惊喜。

大脑比眼睛更重要

影响性能的最单一且重要的因素不是视觉编码器，而是 LLM 主干 (Backbone) 。

使用 FLAN (特别是 InstructBLIP with FLAN 11B) 的模型始终优于使用 Vicuna or Llama 的模型。这表明，虽然视觉数据很重要，但模型的基础推理能力 (源自基于文本的 LLM) 是情商的引擎。随着 LLM 规模的增加，性能呈线性增长，证明了“缩放定律”同样适用于情感理解，就像适用于数学或编程一样。

提示词的复杂性

告诉 AI 角色的个性有帮助吗？答案是: 取决于情绪。

图 2: 不同提示类型下的情绪预测性能比较。

上图按情绪分解了不同提示策略 (原始、个性特征、说话风格和思维链) 的准确率。

喜悦 (Joy) : 包含 说话风格 (灰色柱) 显著提升了对“喜悦”的检测。了解角色如何说话有助于模型识别积极的机智和玩笑。
恐惧 (Fear) : 对于“恐惧”，所有专门提示的性能都有所下降。恐惧通常是对情境的本能、即时反应，这意味着角色的长期个性不如即时的视觉语境相关。
中性 (Neutral) : 预测“中性”情绪非常困难，添加个性特征实际上损害了性能 (准确率最低) 。这似乎是因为添加额外信息导致模型“想太多”，并在没有情绪的地方幻觉出情绪。

“视觉范围”的重要性

这项研究最独特的贡献之一是分析模型应该看哪里。它应该看脸、身体还是整个房间？

图 3: 基于每个情绪类别的图像范围变化的情绪预测性能。

如上图所示，结果显示不同的情绪存在于图像的不同部分:

悲伤 (面部) : “面部”范围 (绿色柱) 在检测悲伤方面表现优异。悲伤是一种内在情绪，通常通过细微的面部肌肉运动 (皱眉、垂眼) 传达。
恐惧 (全景) : “全景”范围 (蓝色柱) 最适合恐惧。恐惧通常是对外部威胁的反应。看到“可怕的东西”或角色之间的距离有助于 AI 理解某人为何害怕。
惊讶 (人物) : “人物”范围 (橙色柱) 在这里胜出。惊讶通常是身体上的——跳跃、退缩、手捂胸口——这需要看到上半身，而不仅仅是脸。

阴暗面: 情感 AI 中的偏见

论文中最关键的部分可能涉及模型在哪里出错，特别是为什么会出错。研究人员在这些 VLLMs 中发现了显著的性别和地域偏见。

性别偏见与“厌恶”差异

当按性别分解性能时，出现了一个奇怪的模式。模型在预测女性角色的情绪方面通常比预测男性角色表现得更好。

图 4: 此雷达图说明了基于目标性别的情绪预测性能差异。

正如雷达图所示，最惊人的差异在于 厌恶 (Disgust) 这种情绪。模型检测女性厌恶情绪 (红线) 的准确率大大高于男性 (蓝线) ——差距接近 20%。

为什么？研究人员认为这是由于刻板印象的训练数据造成的。在许多数据集中 (也许在《老友记》本身中) ，女性角色可能更外露地表达厌恶 (“Ewww!”，表情丰富) ，而男性角色可能通过讽刺或坚忍来表达。

让我们看看作者分析的例子:

图 10: 女性角色表达“厌恶”的对话示例。

在上面的女性示例中，厌恶的表达是显式且在视觉上具有戏剧性的。Phoebe (左) 和 Rachel (右) 使用了强烈的面部线索和像 “Oh my God” 这样的感叹词。

图 11: 男性角色表达“厌恶”的对话示例。

相比之下，上面的男性示例显示 Ross 和 Chandler 通过冷幽默或讽刺来表达厌恶。Ross (左) 谈论母乳时面带不适，但不那么具有爆发力。Chandler (右) 开了一个关于静音按钮的讽刺玩笑。VLLMs 难以将这些微妙的、“男性化编码”的表达归类为厌恶，揭示了 AI 情感理解中的性别鸿沟。

地域偏见: “北美”标准

研究人员还测试了模型如何处理与地理区域相关的 人设信息 (Persona Information) 。他们修改了提示，告诉模型说话者来自特定地区 (例如，“说话者一直生活在中东……”) 。

由于对话和图像保持完全相同，性能理论上应保持稳定。但事实并非如此。

图 5: 基于地区的情绪预测性能变化。

结果令人震惊。当模型被设定为北美角色 (绿色柱) 时，性能略有提高。然而，对于 所有其他地区 , 性能都下降了。

中东和非洲: 最大的降幅 (-2.40% 和 -2.20%) 发生在这里。
东亚和南亚: 也观察到了显著的性能惩罚。

这表明模型怀有根深蒂固的刻板印象。当被告知一个角色来自非西方地区时，模型本质上“忘记”了如何解读《老友记》角色的普遍情绪，这可能是因为它应用了关于这些地区的人们如何表达感受的错误文化假设。这是一种“偏见幻觉”，如果这些模型在全球部署，可能会产生严重影响。

情感分析概览

最后，从更广泛的情感 (积极 vs. 消极 vs. 中性) 角度来看，研究人员发现人设信息是一把双刃剑。

图 8: 不同提示下的情感预测性能变化。

积极 (左组) : 个性和说话风格 (橙色和灰色柱) 比原始提示更能帮助模型识别积极情感。
中性 (右组) : 原始提示 (蓝色柱) 或思维链 (黄色柱) 效果最好。添加个性细节会使模型在识别中性方面变差。

结论与未来启示

Lee 等人的这项研究全面检查了视觉-语言模型的情商状况。好消息是，只要拥有强大的 LLM 主干并关注正确的视觉范围 (面部 vs. 场景) ，VLLMs 能够进行复杂的情绪识别。

然而，关于偏见的发现敲响了警钟。模型在理解男性的厌恶情绪或被标记为非西方人的情绪方面表现明显更差，这表明目前的训练数据严重倾斜。

给学生的关键要点:

架构: 在构建多模态系统时，语言模型仍然是你的动力源泉。更好的“大脑” (LLM) 能改善“眼睛” (视觉) 。
语境为王: 视觉分析没有“一刀切”的方法。如果你在构建恐惧检测系统，请看场景。如果你在构建悲伤检测器，请看脸部。
偏见不可见但可测量: 你可能无法在整体准确率得分中看到偏见。你必须按性别、地区和情绪切分数据，才能找到盲点。

随着我们迈向通用人工智能 (AGI) ，我们需要不仅仅能理解我们说什么，还能理解我们感受的系统。这篇论文让我们离现实更近了一步，同时也强调了我们在此过程中需要建立的伦理护栏。

AI 能理解你的感受吗？用《老友记》角色评估视觉-语言模型#

多模态情感的挑战#

方法论: 为 AI 重构《老友记》#

1. 数据构建流程#

2. 三项任务#

3. 注入人设#

关键发现: 什么驱动了性能？#

大脑比眼睛更重要#

提示词的复杂性#

“视觉范围”的重要性#

阴暗面: 情感 AI 中的偏见#

性别偏见与“厌恶”差异#

地域偏见: “北美”标准#

情感分析概览#

结论与未来启示#