引言

我们都有过这样的经历: 朋友嘴上说着“我没事”,但他们交叉的双臂、回避的眼神和僵硬的姿态却在呐喊着截然相反的信息。作为人类,我们沟通的很大一部分依赖于这些非语言线索。我们不仅仅通过倾听话语,还通过“察言观色”来解读意图、情感和社交动态。

对于人工智能,特别是视频大语言模型 (VideoLLMs) 而言,这仍然是一个很大程度上未被征服的前沿领域。虽然像 GPT-4o 或 Gemini 这样的模型在描述视频中的物体方面已经变得非常出色,但理解人类动作背后的情感潜台词完全是另一回事。人类的肢体语言缺乏正式规则;它是流动的、依赖文化的,并且通常是无意识的。

如果我们希望机器人或 AI 助手真正与我们共存,它们就需要知道我们何时感到沮丧、快乐或尴尬,即使我们没有直白地说出来。这方面的误读可能会导致尴尬甚至有害的交互。

在这篇深度文章中,我们将探讨奈良先端科学技术大学院大学 (NAIST) 的一篇引人入胜的研究论文。研究人员引入了一个名为 BQA (肢体语言问答) 的新基准。他们的目标是什么?严格测试当今最先进的 AI 模型是真正能够通过肢体语言理解人类情感,还是仅仅在瞎猜。

背景: 超越简单的姿态

要理解为什么需要 BQA,我们必须看看计算机传统上是如何“看”人类的。多年来,计算机视觉主要关注姿态估计 (Pose Estimation) 。 这涉及将人体映射为火柴人——在 3D 空间中识别手肘、膝盖和头部的位置。虽然令人印象深刻,但知道手肘在哪里并不能告诉你它为什么在那里。这个人是愤怒地举起手,还是为了和朋友击掌?

以前的数据集,如肢体语言数据集( BoLD ),提供了大量带有 26 种不同情感标签的视频片段集合。然而,BoLD 是为旧类型的机器学习模型设计的,这些模型只是简单地输出分类评分。

大语言模型 (LLMs) 时代需要不同的东西。这些模型依靠自然语言茁壮成长。它们不仅想输出一个数字;它们想要回答问题、推理问题并进行对话。研究人员意识到,要真正测试现代 VideoLLMs,他们需要将原始数据转化为推理任务。他们需要一个数据集来询问: “视频中的男人似乎表现出什么情绪?”

核心方法: 构建 BQA 数据集

创建一个用于 AI 评估的高质量数据集不仅仅是拿一段视频并标记上“快乐”那么简单。研究人员开发了一个复杂的四步流程,将原始的 BoLD 镜头转化为结构化的问答 (QA) 挑战。

第一步: 情感图谱

BQA 数据集的基础是情感的分类。原始的 BoLD 数据集使用了 26 个独特的情感标签。为了创建一个既具挑战性又公平的多项选择结构,研究人员将这 26 种情感归类为四大心理学类别: 快乐 (Happiness) 、愤怒 (Anger) 、悲伤 (Sadness) 和愉悦 (Pleasure) 。

将 26 个情感标签归类为 4 组相似情感,以提取候选项。

如上图 2 所示,这种分组允许在生成多项选择选项时采用一种巧妙的策略。当为特定视频创建问题时,系统会选择:

  1. 正确答案: 来自人类标注员共鸣评分 (empathy score) 最高的情感。
  2. 三个干扰项:其他三个组中提取的错误选项。

例如,如果正确答案是“惊讶 (Surprise) ” (来自愉悦组) ,干扰项可能是“自信 (Confidence) ” (快乐组) 、“愤怒 (Anger) ” (愤怒组) 和“尴尬 (Embarrassment) ” (悲伤组) 。这确保了 AI 不仅仅是在区分相似的细微差别 (如“悲伤”与“痛苦”) ,而是必须区分根本不同的情绪状态。

第二步: 通过 AI 生成问题

研究人员没有手动编写数千个问题,而是使用了 Gemini , 这是目前能力最强的多模态模型之一。他们向 Gemini 提供视频片段和四个候选选项,并提示它生成一个自然语言问题。

提示词确保问题是客观的,例如*“当视频中的男人微笑时,他似乎表达了什么感觉?”* 这模拟了现实世界中用户要求 AI 解释场景的情况。

第三步: 安全过滤器

自动生成伴随着风险。有时 AI 可能会生成一个“泄底”的问题,比如*“这个男人看起来很震惊,这是什么情绪?”* (这就泄露了答案是“惊讶”) 。或者,它可能会生成有害内容。

为了防止这种情况,研究人员加入了一个过滤步骤,再次使用 Gemini。这一步充当质量控制的把关人。它分析生成的问题,以确保它是客观的、不包含答案,并且使用安全。

第四步: 评估难度 (“简单”与“困难”测试)

这可能是方法论中最具创新性的部分。你如何知道一个问题是否困难?去问专家。

研究人员让 Gemini 尝试解决它协助生成的那些问题。

  • 简单 (Easy) : 如果 Gemini 能根据视频正确回答问题。
  • 困难 (Hard) : 如果 Gemini 未能正确回答。

这种区别对于分析至关重要。它将当前最先进技术可解决的问题与那些真正令人困惑或模棱两可的问题区分开来。

图 1: 创建 BQA 数据集的 4 个步骤。

图 1 总结了整个流程。在这个过程结束时,原始视频数据被转化为一个结构化、经过验证的 QA 数据集,并分为训练集、验证集和测试集。

数据是什么样的?

生成的数据集内容丰富,但也反映了原始素材 (电影和胶片片段) 中固有的偏差。了解数据的人口统计特征对于稍后解释结果至关重要。

图 3: BQA 中的元数据比例。

如图 3 所示,数据集有些不平衡。

  • 性别: 严重偏向男性 (超过 70%) 。
  • 年龄: 主要是成年人 (约 90%) 。
  • 种族: 绝大多数受试者是白人 (>65%) 。

缺乏多样性是 AI 数据集中的一个普遍顽疾,正如我们在结果部分将看到的,这对模型在不同群体中的表现产生了实际后果。

下面是一个模型在 BQA 数据集中看到的实际例子:

图 7: BQA 的一个示例。

在这个例子 (图 7) 中,模型必须观察男人的互动并确定正确的情绪是 “厌恶 (aversion) ” 。 有趣的是,在这个特定案例中,测试的每一个模型——从 Gemini 到 LLaVA——都预测为“恐惧 (fear) ”。这凸显了肢体语言的微妙歧义;厌恶和恐惧在身体表现上看起来很相似 (退缩、紧张的姿态) ,但语境将它们区分开来。

实验与结果: 模型有多聪明?

研究人员将几个领先的 VideoLLMs 与 BQA 数据集进行了较量。阵容包括像 GPT-4oGemini 这样的专有巨头,以及 VideoLLaMA2LLaVA-NeXTQwen2-VLPhi-3.5 等开放权重模型。

他们还运行了一个人类评估基准,让真人尝试回答问题以设定“黄金标准”。

记分板

结果令人发人深省。肢体语言对 AI 来说

表 1: 使用 BQA 的结果。

表 1 揭示了几个关键见解:

  1. 人类仍然是赢家: 人类达到了 85% 的准确率。我们天生就擅长读取这些线索。
  2. “最聪明”的模型在挣扎: 即使是生成问题的 Gemini,在测试集上也仅达到了 61% 的准确率。GPT-4o 紧随其后,为 60% 。 这表明即使是当今最好的 AI,也有 40% 的时间无法准确捕捉情感。
  3. “困难”子集极其残酷: 在标记为“困难”的问题 (Gemini 在创建过程中答错的问题) 上,性能暴跌。Gemini 在这些问题上仅得分 8% , 而 VideoLLaMA2 (微调前) 的得分接近于零,为 1%
  4. 微调有效: 标准的 VideoLLaMA2 模型表现糟糕 (总准确率 8%) 。然而,经过 LoRA 微调 (一种在 BQA 训练数据上高效微调模型的方法) 后,其性能飙升至 94% 。 这证明如果经过专门训练,模型可以学习这些模式,但它们并不一定“开箱即用”地知道这些。

“思维链”困境

研究人员还测试了多模态思维链 (CoT) 。 这是一种技术,要求模型在给出最终答案之前解释其推理过程 (“这个男人在微笑并前倾,因此……”) 。

虽然 CoT 显著提高了分数 (将模型推向 90% 的范围) ,但作者包含了一个强烈的警告。他们发现生成的“基本原理”经常泄露答案。例如,解释可能会说: “这个男人表现出愤怒 , 因为他在大喊大叫,” 这使得最终的选择变得微不足道。因此,使用 CoT 的高分可能会被人为夸大,并不真正代表模型的视觉理解能力。

分析: 模型在哪里失败?

原始的准确率数字告诉我们模型失败了,但并没有告诉我们为什么。研究人员按人口统计学和情感对错误进行了细分,揭示了关于 AI 偏见的一些令人不安的真相。

人口统计学偏差

AI 理解青少年的肢体语言是否像理解成年人一样好?它能在不同种族间正确解读情感吗?

图 4: 回答错误问题的分析。

图 4 提供了错误率的细分 (柱子越高意味着错误越多) 。

  • 性别 (A) : 模型在不同性别间的表现大体一致,尽管有些模型在女性身上的错误率略高。
  • 年龄 (B) : 大多数模型在儿童 (Kids)青少年 (Teens) 身上的表现比在成年人身上更吃力。这可能是因为训练数据由成年人主导,使得 AI 更难解码年轻人的独特举止。
  • 种族 (C) : 这是一个最引人注目的发现。看看在 “夏威夷原住民 (Native Hawaiian) ”“美洲原住民 (American) ” 类别上的表现。像 LLaVA-NeXT 和 Gemini 这样的模型在夏威夷原住民受试者身上的错误率显著更高 (接近 60-70% 的错误率) 。相比之下,白人受试者的错误率要低得多。这表明模型在训练期间没有看到足够的多样性,无法将情感线索推广到不同的文化中。

“脸”的问题

另一个关键发现是模型在看哪里。研究人员注意到,当出现以下情况时,问题会变成“困难”模式:

  1. 受试者的面部表情是中性的。
  2. 受试者戴着眼镜、帽子或太阳镜。

这意味着 VideoLLMs 在作弊。它们并没有真正阅读肢体语言 (姿态、手势、站姿) ;它们几乎完全依赖面部表情。当脸部被遮挡或面无表情时,模型对情感就视而不见,即使身体明显传达了信息 (如垂头丧气或紧握拳头) 。

情感混淆

最后,哪些情绪最让 AI 困惑?

图 5: 各模型输出的情感分布。

图 5 显示了混淆矩阵。X 轴代表正确的情绪,彩色条显示模型猜成了什么。

  • 快乐很难: 令人惊讶的是,当答案是“快乐 (Happiness) ”时,模型经常猜成相反的情绪,如“悲伤”或“愤怒”。
  • 愉悦很独特: 模型很少错误地猜测“愉悦 (Pleasure) ”,这可能是因为与愉悦相关的动作 (庆祝、欢呼) 在视觉上非常独特。

结论

BQA 论文为多模态 AI 领域敲响了警钟。它表明,虽然我们可以构建编写代码或识别图片中猫的模型,但解读微妙的人类肢体语言仍然是一个巨大的障碍。

BQA 数据集的创建提供了一种衡量这种能力的标准化方法。它强调目前的模型存在以下问题:

  1. 过于依赖面部: 忽略了肢体语言中的“肢体”。
  2. 偏见: 在非成年人和非白人受试者身上表现挣扎。
  3. 不一致: 能够将快乐与愤怒混淆。

对于学生和未来的研究人员来说,这篇论文开启了令人兴奋的途径。我们如何训练模型去观察手部和姿态,而不仅仅是脸部?我们如何整理代表全球文化的数据集,以便 AI 为每个人服务?

随着我们迈向 AI 助手融入日常生活的未来,解决这些问题不仅仅关乎准确率数字——这关乎同理心、理解力,以及创造真正懂我们的技术。