扩展社会智能: 弱模型如何教会强大的巨人拥有心智理论
想象一下你正在观看一段无声视频: 一个人走进厨房,打开冰箱,往里看了一眼,关上冰箱,叹了口气,然后走到一个橱柜前。虽然没有听到任何语言,你立刻推断出了一种复杂的心理状态: 他饿了,想找某种特定的东西 (也许是一个苹果) ,但这东西不在冰箱里,现在他认为它可能在橱柜里。
这种能力被称为心智理论 (Theory of Mind, ToM) 。 它是人类社会互动的认知基石——即把信念、目标和意图归因于他人的能力。然而,对于人工智能来说,这是一项巨大的挑战。虽然大型语言模型 (LLMs) 可以写诗或编写代码,但当它们观察复杂的多模态环境 (如视频结合文本) 时,往往难以连贯地推断人类的心理状态。
在这篇文章中,我们将深入探讨一篇引人入胜的研究论文: “Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner” (克服多模态心智理论推理中的多步复杂性: 一种可扩展的贝叶斯规划器) 。这项工作提出了一种新颖的解决方案,将贝叶斯概率与“弱对强”控制机制相结合,使巨大的人工智能模型能够像人类一样“思考”,而无需昂贵的重新训练。
复杂性陷阱
目前针对心智理论的 AI 方法通常分为两类:
- 结构化工作流: 专门设计用于计算信念的算法 (符号方法) 。
- 端到端学习: 训练神经网络根据数据模式直接猜测答案。
问题在于可扩展性 。 随着任务变得越来越复杂——需要更多的规划或推理步骤——标准模型就会崩溃。它们触碰到了“推理边界”。

如图 1 所示,请注意较小模型 (如 Llama-3-8B) 的准确率随着规划步骤的增加而急剧下降。即使是像思维链 (CoT) 这样的先进技术也难以跟上。只有巨大的模型 (如 Llama-3-405B) 保持了稳定性,但它们既昂贵又难以针对特定任务进行微调。
研究人员指出了导致这种失败的两个根本原因:
- 推理边界: 随着任务复杂度的增加,标准推理方法的效果停滞不前。
- 知识缺口: ToM 需要大量的“世界知识” (例如,知道牛奶放在冰箱里,而不是烤箱里) 。小模型仅仅因为缺乏足够的预训练数据而无法做到这一点。
解决方案: 可扩展的贝叶斯规划器
研究人员提出了一种解决方案,本质上为我们提供了两全其美的办法: 贝叶斯逆向规划 (BIP) 的结构化逻辑推理,结合巨大 LLM 的海量世界知识。
核心创新在于弱对强控制 (Weak-to-Strong Control) 机制。他们没有重新训练巨大的 405B 参数模型 (这在计算上令人望而却步) ,而是训练了一个小模型来理解心智理论的具体规则。然后,这个小模型在推理过程中充当大模型的“向导”或“控制器”。
1. 基础: 贝叶斯逆向规划 (BIP)
要理解这种方法,我们首先需要看看我们如何推断意图的数学原理。研究人员将人类行为公式化为部分可观测马尔可夫决策过程 (POMDP) 。
简单来说: 代理人有一个目标 (\(g\)) 和对世界的信念 (\(b\))。他们基于这些采取行动 (\(a\))。作为观察者,我们看到行动和环境 (\(s\)),我们想要反向推导找出 \(g\) 和 \(b\)。
这被称为逆向规划 。 我们正在逆转逻辑: 不再问“如果我想要一个苹果,我会做什么?”,而是问“我看到他们走到果盘前;他们想要什么?”
目标和信念的后验概率的数学公式如下:

这里,\(\pi(a^{\tau} | g, b^{\tau})\) 代表代理人的策略——即在给定目标和信念的情况下采取特定行动的概率。为了确定哪个假设 (例如,“他们想要一个苹果”与“他们想要一个梨”) 是正确的,系统会比较它们的相对对数似然:

该方程继续计算当前步骤的比较:

本质上,系统计算的是: 假设目标 A 是真的与假设目标 B 是真的相比,我刚刚看到的行动发生的可能性有多大?
2. 创新: 弱对强控制
标准的贝叶斯方法很棒,但计算策略 \(\pi\) (行动的概率) 很难。你需要一个了解人类在现实世界中如何行动的模型。
大型语言模型 (LLMs) 在这方面表现出色,因为它们阅读了整个互联网的内容。但它们并不是天生就为这些特定的贝叶斯计算而调整的。小模型很容易调整,但它们缺乏世界知识。
解决方法: 使用一个经过后训练的小模型来“引导”大模型。
阶段 A: 小模型的后训练
首先,研究人员采用一个小模型 (如 Llama-7B) ,并使用指令微调和偏好优化专门针对 ToM 任务对其进行微调。
他们最大化正确行动的可能性:

并且他们使用偏好损失 (类似于 DPO) 来教导模型区分有效的人类行动和非理性的行动:

这就创建了一个“ToM 专家”小模型 (\(\pi^{\mathcal{E}}\))。即使它缺乏深厚的世界知识,它也知道如何推理 ToM。
阶段 B: 引导巨人
神奇之处就在这里。在推理过程中,他们使用一个巨大的模型 (如 Llama-405B) 作为主要的策略引擎。然而,他们使用从小模型学到的“行为转变”来调整其预测。
修正后的概率分布 \(\bar{\pi}\) 计算如下:

如何解读这个方程:
- 获取大模型 (\(\pi^{\mathcal{L}}\)) 的原始预测。这提供了良好的世界知识。
- 将其乘以微调后的小模型 (\(\pi^{\mathcal{E}}\)) 与朴素小模型 (\(\pi^{\mathcal{N}}\)) 的比率。
这个比率代表了从微调中提取的“ToM 知识”。如果微调后的小模型认为某个行动的可能性比朴素小模型认为的高得多,它就会在大模型中提升该概率。
架构可视化
架构在下图中得到了直观的总结。注意右侧小模型的“潜在行为变化” (\(\Delta\)) 是如何应用于大模型的似然估计的。

从视频输入到符号表示再到贝叶斯推理的整个数据流,创建了一个管道,其中大型 LM 充当一个强大但受到引导的引擎。

为什么这行得通? (理论支持)
你可能会想,将小模型的 logits 添加到大模型中在数学上是否合理。作者提供了定理 1 来证明这一点。他们证明这种“代理微调”近似于你直接微调巨大模型本来会得到的结果。
误差 (KL 散度) 是有界的:

这证明了 \(\pi^{\mathcal{E}}\) 不需要是完美的;它只需要为强模型提供类似梯度的调整。
实验结果
研究人员使用 MMToM-QA 对这种方法进行了测试,这是一个包含家庭活动视频的基准测试,代理人在其中搜索物体。任务涉及推断信念 (例如,“他认为苹果在冰箱里吗?”) 和目标。
1. 击败最先进水平 (SOTA)
结果令人印象深刻。如表 1 所示,所提出的方法 (Ours w/ Llama3.1-405B) 优于现有的基线,包括 GPT-4V、Video-Llama 和 BIPALM。

表中的关键要点:
- 人类表现: 93.0% (黄金标准) 。
- 此前最佳 (BIPALM): 76.7%。
- 我们的方法: 81.3% (提升了 4.6% )。
- 信念 vs. 目标: 大型模型 (GPT-4) 天生擅长信念推理 (Type 1.1),因为它依赖于世界知识。然而,所提出的方法显著提升了目标推理 , 在这一领域理解特定的代理人动态至关重要。
2. 向上和向下扩展
大小重要吗?是的。 表 2 显示,随着“强”组件 (大型 LM) 变大 (从 70B 到 405B) ,准确率持续提高。

相反, 表 3 显示“弱”组件 (控制器) 可以非常小。即使是 4B 参数的模型,只要微调得当,也能有效地充当控制器。

3. “引导”推理
最具洞察力的实验之一涉及可视化小模型如何改变大模型的想法。
在图 3 中,研究人员绘制了随时间变化的“似然变化”。最初,变化很小。但随着贝叶斯推理的进行,模型缩小了假设范围,“弱对强”的修正变得更加激进,将大型 LM 重定向到正确的 ToM 结论。

4. 精度至关重要: “酒杯”效应
大模型究竟为什么需要帮助?大型模型倾向于将概率“分散”在广泛相关的概念上。
在一个特定的测试案例 (代理人 James 寻找酒) 中,基础大型 LM 将概率分配给了通用的厨房物品 (橱柜、桌子) 。然而,后训练的小模型则特别聚焦于“酒”和“酒杯”。通过结合两者,系统既获得了小模型的精度,又获得了大模型的稳健性。

5. 迁移到新世界
最后,智能的一个主要测试是泛化能力。模型是在“公寓”数据上训练的。研究人员在完全未见过的场景中测试了它们: 安徒生童话、古埃及、外太空、狂野西部和中世纪城堡。
表 4 中的结果表明,可扩展贝叶斯规划器能够极好地适应这些新环境。大型 LM 提供背景 (理解什么是“王座”或“宇宙飞船”) ,而小型 LM 提供 ToM 逻辑。

结论与启示
这项研究强调了我们构建未来 AI 系统方式的一个关键转变。我们已经到了这样一个地步: 对于像心智理论这样的复杂推理任务,仅仅把模型做大所带来的收益正在递减。
可扩展贝叶斯规划器表明,我们并不总是需要重新训练巨型模型。相反,我们可以使用:
- 模块化设计: 将复杂的推理分解为贝叶斯步骤。
- 专业化指导: 使用小型、敏捷的专家来引导庞大、知识渊博的通才。
通过将“推理模式” (由小模型学习) 与“世界知识” (由大模型持有) 解耦,这种方法为通向从根本上理解人类意图的 AI 提供了一条可持续的道路——无论是在现代厨房还是古埃及宫殿中。
比较总结
最后,让我们看看这种方法如何与传统方法进行比较。它是唯一满足所有条件的方法: 可扩展性、结构化推理、世界知识和多模态性。

这种贝叶斯结构与弱对强大型语言模型的协同作用,为在复杂环境中建模人类心理状态树立了新标准。
](https://deep-paper.org/en/paper/2506.01301/images/cover.png)