人类本质上是社会性生物。我们的历史、文化和生存都依赖于我们要解读扬起的眉毛、理解对话中的停顿或感知房间内氛围的能力。我们将这种能力称为社会智能 (Social Intelligence)

随着人工智能越来越多地融入我们的日常生活——从医疗机器人到教育助手再到客户服务聊天机器人——要求这些系统在社会层面理解我们的需求也日益增长。我们要的不只是能计算或检索信息的 AI;我们想要的是能够共情、协作并遵守社会规范的智能体。

但是,我们要如何跨越从“计算器”到“伴侣”之间的鸿沟呢?

在论文 Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions 中,来自卡内基梅隆大学的研究人员 Leena Mathur、Paul Pu Liang 和 Louis-Philippe Morency 绘制了 Social-AI (社会智能 AI) 的版图。他们指出了为什么这一领域如此困难,并提出了计算机科学界必须解决的四大核心技术挑战,以构建能够真正与我们共同生活和工作的智能体。

什么是 Social-AI?

Social-AI 是一个跨学科的研究目标,旨在创建能够感知、认知、推理、学习并响应其他智能体 (无论是人类还是人工体) 的情感 (affect) 、行为 (behavior) 和认知 (cognition) 的智能体。

这不仅仅是自然语言处理 (NLP) 的问题。虽然语言是社会构建的主要工具,但 Social-AI 涵盖了机器人学、计算机视觉、机器学习和语音处理等多个领域。其目标是赋予机器特定的能力:

  1. 社会感知 (Social Perception) : 读取社会相关信息 (例如肢体语言、语调) 。
  2. 社会知识 (Social Knowledge) : 了解事实和规范 (例如在图书馆保持安静) 。
  3. 社会记忆 (Social Memory) : 记住过去的互动以建立关系。
  4. 社会推理 (Social Reasoning) : 推断他人的想法或感受。
  5. 社会创造力 (心智理论) : 想象反事实情况并理解他人的心理状态。
  6. 社会交互 (Social Interaction) : 参与相互的、共同调节的行为模式。

“社会建构”难题

要理解为什么 Social-AI 比 (比如说) 在照片中识别猫更难,我们必须审视现实的哲学。

论文在自然种类 (Natural Kinds)社会建构 (Social Constructs) 之间做出了区分。

  • 自然种类独立于人类思想而存在。山脉或生物的人体是自然种类。它们具有我们可以客观测量的物理属性。
  • 社会建构的存在仅因为人类同意它们存在。“朋友”、“总统”或“一美元钞票”都是社会建构。它们的存在取决于观察者的感知。

这种“感知者依赖性 (perceiver-dependency) ”给 AI 带来了巨大的头痛。如果“融洽关系 (rapport) ”是一种社会建构,那么就没有物理上的“融洽粒子”可供 AI 检测。它是主观的、模糊的,并且不断变化的。

Social-AI 研究的爆发

在深入探讨挑战之前,值得注意的是这一领域的发展速度。研究人员分析了跨越几十年的 3,000 多篇论文。

图 2: Social-AI 论文随时间的累计数量,基于我们语义学者 (Semantic Scholar) Social-AI 查询所得的 3,257 篇论文。各计算社区对 Social-AI 研究的兴趣一直在加速增长。

图 2 所示,过去十年中,人们的兴趣激增,特别是在机器学习 (ML) 、机器人学和 NLP 领域。

  • 早期 (1980年代-1990年代) : 研究主导是基于规则的方法 。 如果你想让机器人有礼貌,你就硬编码礼貌的规则。
  • 机器学习转变 (2000年代-2010年代) : 该领域转向统计学习。模型被训练用于从静态数据集中预测社会信号 (如笑声或情感) 。
  • 当前时代: 我们正看到大语言模型 (LLM) 和生成式智能体的兴起。然而,论文的一个关键批评是,我们目前的许多进步都是基于静态的、缺乏现实语境依托 (ungrounded) 的数据 。 我们训练模型的文本或视频片段被剥离了其现实世界的背景。

为了向前发展,我们需要解决现实世界互动的复杂性。

四大核心技术挑战

作者指出了阻碍当前 AI 获得真正社会智能的四个具体障碍。这些挑战的出现是因为社会互动不是一个静态的任务——它是一个涉及多视角和微妙信号的动态、混乱的循环。

我们可以在下方的图 1 中通过具体语境来可视化这些挑战。

图 1: (A) Social-AI 研究中的四大核心技术挑战,展示在一个 Social-AI 智能体观察并学习人际互动的示例语境中。(B) Social-AI 智能体可能处于的社会语境,互动跨越社会单元、互动结构和时间尺度。互动可能跨越社会场景、智能体的具身程度以及人类的社会属性,智能体在其中扮演多种角色。

挑战 1: 建构的歧义性 (C1)

如前所述,社会建构是主观的。在图 1A 中,看看这两个正在互动的人。他们之间有“张力”吗?有“融洽关系”吗?

在传统的 AI 任务中,我们依赖“金标准”标签——一个单一的基准真值。一张图片里要么有猫,要么没有。但在社会互动中,“真相”是模棱两可的。即使是人类标注员也经常在一段对话是“敌对”还是“友好”上产生分歧。

技术差距: 目前的模型通常试图将这些模糊的概念强行塞进离散的标签 (例如 Rapport = 7/10) 或将标注员的意见聚合成单一的平均值。这扁平化了现实。如果三个人认为一个笑话很好笑,而另外三个人认为它具有冒犯性,“平均值”并不是“有点好笑”——而是两极分化

机遇: 研究人员建议摆脱静态的数字标签。相反,我们应该探索自然语言监督 。 语言具有足够的表达力来捕捉歧义 (例如,“他们看起来很友好,但有一种潜在的张力”) 。AI 需要能够动态变化的灵活标签空间,而不是将复杂的社会氛围强行塞进预定义的框框里。

挑战 2: 微妙的信号 (C2)

社会意义往往在一眨眼间传达。100 毫秒的停顿就能把赞美变成侮辱。姿势的轻微转变可能预示着对方不再参与互动。

技术差距: 许多当前的多模态模型以块状处理数据,可能会错过这些微信号。此外,AI 模型通常是基于线索的存在 (有什么) 来训练的。然而,社会互动往往依赖于缺失的内容——未说出口的话、缺乏眼神交流,或没能对笑话发笑。

机遇: 我们需要更好的社会信号处理 (SSP) 。 这涉及极其精确地对齐不同的模态 (语音、视觉、手势) 。论文提出了一个开放性问题: 语言能否作为一个中间层来表征这些细微差别?还是说有些社会信号 (比如对某人步态的“直觉”) 根本无法用语言描述?此外,研究人员需要开发让智能体从刺激的缺失中学习的方法。

挑战 3: 多视角 (C3)

在图 1A 中,左边的人想: “我觉得我们关系很融洽!”而右边的人想: “我觉得我们关系很差!”

社会现实很少是完美共享的。互动中的每个参与者都带着自己的历史、角色和偏见。这是应用于 AI 的罗生门效应 。 此外,这些视角是相互依赖的;如果我认为你生气了,我可能会表现得防御性很强,这实际上真的会你生气。

技术差距: 大多数 AI 模型采用“上帝视角”,试图从外部客观地分析互动。它们未能对参与者独特且可能相互冲突的心理状态进行建模。

机遇: 这与心智理论 (Theory of Mind) 有关。我们需要能够为场景中的每个参与者维护独立表征的模型。一个有效的 Social-AI 智能体需要追踪:

  1. 认为正在发生什么。
  2. 认为正在发生什么。
  3. 你认为我认为 正在发生什么。

这要求从单一模型架构转向多视角建模框架,该框架能够随着互动的演变进行动态更新。

挑战 4: 主体性与适应 (C4)

最后,社会智能体不仅仅是被动的观察者;它们是有目标的行动者。

在强化学习中,我们通常有一个明确的奖励函数 (例如,赢得游戏 +1 分) 。在社会环境中,反馈是隐性的、稀疏的且转瞬即逝的 。 如果机器人失礼了,没人会举着牌子说“坏机器人”。他们可能只是把目光移开或转移话题。

技术差距: 我们如何激励 AI 在没有明确指示的情况下学习社会规范?智能体如何平衡功能性目标 (例如“递送包裹”) 和社会性目标 (例如“不要粗鲁”) ?

机遇: 我们需要开发社会性内在动机 。 智能体需要将“共享现实”和“共同基础”作为其目标函数的一部分。这涉及从隐性信号中学习——利用人类的犹豫或语气作为奖励/惩罚信号来更新其行为。作者建议研究价值内化 , 即智能体不仅仅将社会规范视为约束,而是将其视为内在驱动力。

社会语境的维度

在解决这些挑战的同时,我们必须记住 Social-AI 并不是存在于真空中。正如图 1B 所示,这些智能体必须在巨大的维度跨度上运作:

  • 互动结构: 从二元组 (两个人) 到社区。在对话中加入第三个人会从根本上改变动态 (三元闭包、排斥等) 。
  • 时间尺度: 从瞬间的一瞥到终身的关系。目前大多数研究着眼于短片段,但一个真正的伴侣机器人需要记住你三个月前讲的一个笑话。
  • 具身性 (Embodiment) : 智能体是聊天机器人、卡通头像还是物理机器人?具身程度改变了可用的沟通渠道 (例如触觉、近距空间) 。

结论与伦理启示

Mathur、Liang 和 Morency 提出的愿景是雄心勃勃的。它推动我们将 AI 从单纯的数据处理转向能够像人类一样细腻地驾驭社会世界的 AI。

然而,这种能力伴随着风险。

  • 偏见: 如果我们在互联网数据上训练智能体,它们将学习互联网的偏见。
  • 隐私: 为了理解微妙的信号,智能体可能需要对我们的面部和声音进行侵入式监控。
  • 操纵: 一个能完美理解融洽关系的 AI 也是一个能有效操纵人类的 AI。

作者倡导参与式 AI (Participatory AI) , 即让利益相关者 (实际使用这些系统的人) 参与到设计过程中。

推进 Social-AI 不仅仅是为了更好的算法;更是为了更好地理解人类联系的本质。通过解决歧义性、微妙性、视角和主体性的挑战,我们离那些不仅能计算、更能真正建立连接的技术更近了一步。