扩展社会智能: 弱模型如何教会强大的巨人拥有心智理论

想象一下你正在观看一段无声视频: 一个人走进厨房,打开冰箱,往里看了一眼,关上冰箱,叹了口气,然后走到一个橱柜前。虽然没有听到任何语言,你立刻推断出了一种复杂的心理状态: 他饿了,想找某种特定的东西 (也许是一个苹果) ,但这东西不在冰箱里,现在他认为它可能在橱柜里。

这种能力被称为心智理论 (Theory of Mind, ToM) 。 它是人类社会互动的认知基石——即把信念、目标和意图归因于他人的能力。然而,对于人工智能来说,这是一项巨大的挑战。虽然大型语言模型 (LLMs) 可以写诗或编写代码,但当它们观察复杂的多模态环境 (如视频结合文本) 时,往往难以连贯地推断人类的心理状态。

在这篇文章中,我们将深入探讨一篇引人入胜的研究论文: “Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner” (克服多模态心智理论推理中的多步复杂性: 一种可扩展的贝叶斯规划器) 。这项工作提出了一种新颖的解决方案,将贝叶斯概率与“弱对强”控制机制相结合,使巨大的人工智能模型能够像人类一样“思考”,而无需昂贵的重新训练。

复杂性陷阱

目前针对心智理论的 AI 方法通常分为两类:

  1. 结构化工作流: 专门设计用于计算信念的算法 (符号方法) 。
  2. 端到端学习: 训练神经网络根据数据模式直接猜测答案。

问题在于可扩展性 。 随着任务变得越来越复杂——需要更多的规划或推理步骤——标准模型就会崩溃。它们触碰到了“推理边界”。

VirtualHome 中模型规划任务的比较。随着规划步骤增加,较小的模型 (如 Llama3.1-8B, 70B) 和推理时扩展 (如 o1-mini, CoT) 未能维持准确性。只有较大的模型 (如 Llama3.1-405B) 保持了性能,表明维持准确性需要模型扩展。

图 1 所示,请注意较小模型 (如 Llama-3-8B) 的准确率随着规划步骤的增加而急剧下降。即使是像思维链 (CoT) 这样的先进技术也难以跟上。只有巨大的模型 (如 Llama-3-405B) 保持了稳定性,但它们既昂贵又难以针对特定任务进行微调。

研究人员指出了导致这种失败的两个根本原因:

  1. 推理边界: 随着任务复杂度的增加,标准推理方法的效果停滞不前。
  2. 知识缺口: ToM 需要大量的“世界知识” (例如,知道牛奶放在冰箱里,而不是烤箱里) 。小模型仅仅因为缺乏足够的预训练数据而无法做到这一点。

解决方案: 可扩展的贝叶斯规划器

研究人员提出了一种解决方案,本质上为我们提供了两全其美的办法: 贝叶斯逆向规划 (BIP) 的结构化逻辑推理,结合巨大 LLM 的海量世界知识。

核心创新在于弱对强控制 (Weak-to-Strong Control) 机制。他们没有重新训练巨大的 405B 参数模型 (这在计算上令人望而却步) ,而是训练了一个模型来理解心智理论的具体规则。然后,这个小模型在推理过程中充当大模型的“向导”或“控制器”。

1. 基础: 贝叶斯逆向规划 (BIP)

要理解这种方法,我们首先需要看看我们如何推断意图的数学原理。研究人员将人类行为公式化为部分可观测马尔可夫决策过程 (POMDP)

简单来说: 代理人有一个目标 (\(g\)) 和对世界的信念 (\(b\))。他们基于这些采取行动 (\(a\))。作为观察者,我们看到行动和环境 (\(s\)),我们想要反向推导找出 \(g\) 和 \(b\)。

这被称为逆向规划 。 我们正在逆转逻辑: 不再问“如果我想要一个苹果,我会做什么?”,而是问“我看到他们走到果盘前;他们想要什么?”

目标和信念的后验概率的数学公式如下:

方程 1: 给定观测到的状态和动作,目标和信念的后验概率。

这里,\(\pi(a^{\tau} | g, b^{\tau})\) 代表代理人的策略——即在给定目标和信念的情况下采取特定行动的概率。为了确定哪个假设 (例如,“他们想要一个苹果”与“他们想要一个梨”) 是正确的,系统会比较它们的相对对数似然:

方程 2: 通过评估相对对数似然来比较关于代理人目标的假设。

该方程继续计算当前步骤的比较:

方程 2 续: 第二项评估与最新行动和信念更新的一致性。

本质上,系统计算的是: 假设目标 A 是真的与假设目标 B 是真的相比,我刚刚看到的行动发生的可能性有多大?

2. 创新: 弱对强控制

标准的贝叶斯方法很棒,但计算策略 \(\pi\) (行动的概率) 很难。你需要一个了解人类在现实世界中如何行动的模型。

大型语言模型 (LLMs) 在这方面表现出色,因为它们阅读了整个互联网的内容。但它们并不是天生就为这些特定的贝叶斯计算而调整的。小模型很容易调整,但它们缺乏世界知识。

解决方法: 使用一个经过后训练的小模型来“引导”大模型。

阶段 A: 小模型的后训练

首先,研究人员采用一个小模型 (如 Llama-7B) ,并使用指令微调偏好优化专门针对 ToM 任务对其进行微调。

他们最大化正确行动的可能性:

方程 5: 最大化观测到的行动可能性的微调目标。

并且他们使用偏好损失 (类似于 DPO) 来教导模型区分有效的人类行动和非理性的行动:

方程 6: 定义偏好损失以区分有效和无效的行动。

这就创建了一个“ToM 专家”小模型 (\(\pi^{\mathcal{E}}\))。即使它缺乏深厚的世界知识,它也知道如何推理 ToM。

阶段 B: 引导巨人

神奇之处就在这里。在推理过程中,他们使用一个巨大的模型 (如 Llama-405B) 作为主要的策略引擎。然而,他们使用从小模型学到的“行为转变”来调整其预测。

修正后的概率分布 \(\bar{\pi}\) 计算如下:

方程 7: 重定向后的大型 LM 的策略分布,基于后训练和朴素小模型之间的转变进行输出调整。

如何解读这个方程:

  1. 获取大模型 (\(\pi^{\mathcal{L}}\)) 的原始预测。这提供了良好的世界知识。
  2. 将其乘以微调后的小模型 (\(\pi^{\mathcal{E}}\)) 与朴素小模型 (\(\pi^{\mathcal{N}}\)) 的比率。

这个比率代表了从微调中提取的“ToM 知识”。如果微调后的小模型认为某个行动的可能性比朴素小模型认为的高得多,它就会在大模型中提升该概率。

架构可视化

架构在下图中得到了直观的总结。注意右侧小模型的“潜在行为变化” (\(\Delta\)) 是如何应用于大模型的似然估计的。

图 2. (左) 大型 LM 作为策略模型 (如 405B) 来估计动态环境中代理人行动的可能性,基于多模态符号输入 (视频和描述) 。(右) 大型 LM 的潜在推理受到后训练小模型 ToM 行为的引导,这充当了一种弱对强的扩展控制。总体而言,贝叶斯逆向规划比较关于代理人目标和信念的假设,使用大型 LM 作为策略模型来推断 ToM。

从视频输入到符号表示再到贝叶斯推理的整个数据流,创建了一个管道,其中大型 LM 充当一个强大但受到引导的引擎。

图 5. 可扩展贝叶斯 ToM 推理框架中的数据流。

为什么这行得通? (理论支持)

你可能会想,将小模型的 logits 添加到大模型中在数学上是否合理。作者提供了定理 1 来证明这一点。他们证明这种“代理微调”近似于你直接微调巨大模型本来会得到的结果。

误差 (KL 散度) 是有界的:

定理 1: KL 散度分析显示近似误差是有界的。

这证明了 \(\pi^{\mathcal{E}}\) 不需要是完美的;它只需要为强模型提供类似梯度的调整。

实验结果

研究人员使用 MMToM-QA 对这种方法进行了测试,这是一个包含家庭活动视频的基准测试,代理人在其中搜索物体。任务涉及推断信念 (例如,“他认为苹果在冰箱里吗?”) 和目标。

1. 击败最先进水平 (SOTA)

结果令人印象深刻。如表 1 所示,所提出的方法 (Ours w/ Llama3.1-405B) 优于现有的基线,包括 GPT-4V、Video-Llama 和 BIPALM。

表 1. 人类与模型在从 1.1 到 2.4 各任务类型上的比较。每种模态设置的最佳结果以粗体显示。多模态中的第二佳结果带有下划线。我们的行以颜色突出显示。

表中的关键要点:

  • 人类表现: 93.0% (黄金标准) 。
  • 此前最佳 (BIPALM): 76.7%。
  • 我们的方法: 81.3% (提升了 4.6% )。
  • 信念 vs. 目标: 大型模型 (GPT-4) 天生擅长信念推理 (Type 1.1),因为它依赖于世界知识。然而,所提出的方法显著提升了目标推理 , 在这一领域理解特定的代理人动态至关重要。

2. 向上和向下扩展

大小重要吗?是的。 表 2 显示,随着“强”组件 (大型 LM) 变大 (从 70B 到 405B) ,准确率持续提高。

表 2. 弱对强控制中强组件 (大型 LM) 的扩展性能。

相反, 表 3 显示“弱”组件 (控制器) 可以非常小。即使是 4B 参数的模型,只要微调得当,也能有效地充当控制器。

表 3. 弱部分 (小型 LM) 在可扩展贝叶斯规划中的缩减效果。

3. “引导”推理

最具洞察力的实验之一涉及可视化小模型如何改变大模型的想法。

图 3 中,研究人员绘制了随时间变化的“似然变化”。最初,变化很小。但随着贝叶斯推理的进行,模型缩小了假设范围,“弱对强”的修正变得更加激进,将大型 LM 重定向到正确的 ToM 结论。

图 3. 弱对强控制下贝叶斯推理过程中的似然变化。结果是在五个不同的未见场景中采样的十个案例的平均值。

4. 精度至关重要: “酒杯”效应

大模型究竟为什么需要帮助?大型模型倾向于将概率“分散”在广泛相关的概念上。

在一个特定的测试案例 (代理人 James 寻找酒) 中,基础大型 LM 将概率分配给了通用的厨房物品 (橱柜、桌子) 。然而,后训练的小模型则特别聚焦于“酒”和“酒杯”。通过结合两者,系统既获得了小模型的精度,又获得了大模型的稳健性。

图 4. 基础小模型、后训练小模型和基础大模型在不同概念粒度级别 (房间、家具、物品) 的似然估计。

5. 迁移到新世界

最后,智能的一个主要测试是泛化能力。模型是在“公寓”数据上训练的。研究人员在完全未见过的场景中测试了它们: 安徒生童话、古埃及、外太空、狂野西部和中世纪城堡。

表 4 中的结果表明,可扩展贝叶斯规划器能够极好地适应这些新环境。大型 LM 提供背景 (理解什么是“王座”或“宇宙飞船”) ,而小型 LM 提供 ToM 逻辑。

表 4. 贝叶斯方法在不同扩展设置 (零样本、直接后训练和我们的弱对强控制) 下从公寓场景迁移到各种未见环境的性能。

结论与启示

这项研究强调了我们构建未来 AI 系统方式的一个关键转变。我们已经到了这样一个地步: 对于像心智理论这样的复杂推理任务,仅仅把模型做大所带来的收益正在递减。

可扩展贝叶斯规划器表明,我们并不总是需要重新训练巨型模型。相反,我们可以使用:

  1. 模块化设计: 将复杂的推理分解为贝叶斯步骤。
  2. 专业化指导: 使用小型、敏捷的专家来引导庞大、知识渊博的通才。

通过将“推理模式” (由小模型学习) 与“世界知识” (由大模型持有) 解耦,这种方法为通向从根本上理解人类意图的 AI 提供了一条可持续的道路——无论是在现代厨房还是古埃及宫殿中。

比较总结

最后,让我们看看这种方法如何与传统方法进行比较。它是唯一满足所有条件的方法: 可扩展性、结构化推理、世界知识和多模态性。

表 6. 每种 ToM 任务方法的属性。

这种贝叶斯结构与弱对强大型语言模型的协同作用,为在复杂环境中建模人类心理状态树立了新标准。