想象两个人正试图把一张沉重的大沙发搬上蜿蜒的楼梯。一个人在上面拉,另一个人在下面推。他们看不见对方的脸,城市的喧嚣也淹没了他们的声音。然而,他们却能完美地同步旋转、抬起和倾斜沙发。这是怎么做到的?
他们依赖于隐式线索——沙发传来的张力、移动的速度,以及对另一个人可能在做什么的内部心理模型。在心理学中,这种将心理状态 (信念、意图、欲望) 归因于自己和他人的能力被称为心理理论 (Theory of Mind, ToM) 。
在机器人领域,这种直觉式的协作通常是极其困难的。标准方法通常涉及一个“中央大脑”来控制两组手臂,但这很脆弱且难以扩展。或者,如果机器人独立行动,它们往往会互相打架或摔坏物体。
今天,我们将深入探讨一篇引人入胜的论文,题为 “Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation” (潜在心理理论: 一种用于协作操作的去中心化扩散架构) 。 研究人员提出了一种新颖的架构,允许机器人通过学习世界的“共识”表征,并利用它来预测伙伴的内部状态,从而以去中心化的方式进行协作——实际上是赋予了机器人一种潜在的心理理论。
问题: 中心化与去中心化的困境
在介绍解决方案之前,我们需要了解为什么多机器人操作如此困难。
目前,如果你想让两个机械臂一起倒咖啡或折叠衬衫,通常使用的是中心化策略 (Centralized Policy) 。 这意味着你训练一个单一的神经网络,接收所有摄像头和传感器的输入,并同时输出 两只 手臂的动作。
虽然有效,但中心化系统有主要的缺点:
- 脆弱性: 如果一个传感器发生故障或通信延迟,整个系统就会崩溃。
- 可扩展性: 随着机器人数量的增加,输入空间会爆炸式增长,使得模型变得庞大且难以训练。
- 数据稀缺: 很难收集到机器人动作所有可能组合的数据。
另一种选择是去中心化策略 (Decentralized Policy) , 即每个机器人都有自己的大脑。这具有鲁棒性且易于扩展。然而,去中心化的智能体很难协调。没有共享的大脑,机器人 A 可能决定向左推,而机器人 B 决定向右推,导致僵局或物体损坏。
这篇论文解决的挑战是: 我们如何使独立的机器人在不需要显式、持续通信的情况下,就其行动达成共识?
解决方案: 潜在心理理论 (LatentToM)
研究人员介绍了 LatentToM , 这是一种基于扩散策略 (Diffusion Policies) 的去中心化架构。其核心创新在于机器人处理信息的方式。系统不再将所有观测结果视为单一的数据块,而是强制每个机器人将其内部表征拆分为两个不同的部分:
- 自我嵌入 (Ego Embedding) : 特定于机器人本身的信息 (例如,它自己夹持器的位置) 。
- 共识嵌入 (Consensus Embedding) : 所有智能体之间应该共享或通用的信息 (例如,被操作物体的状态) 。
通过以这种方式构建机器人的大脑,研究人员可以应用源自层论 (Sheaf Theory) 的数学规则,强制不同机器人的“共识”部分保持一致,即使它们是从不同的角度观察场景。

如上图 1 所示,每个机器人 (u 和 v) 都有自己的局部视图 (红色和绿色锥体) 并共享一个全局视图 (灰色锥体) 。系统试图学习一种映射,使它们对共享任务 (即共识) 的理解能够完美重叠。
深入解析: 方法
这是创新的核心所在。让我们分解使其工作的架构和数学约束。
1. 架构: 拆分大脑
系统将多机器人设置视为一个图,其中每个机器人是一个节点。每个机器人接收一个观测值 \(o_u\)。网络将此观测值拆分为两个流:
- \(o_u^{ego}\): 机器人的私有数据 (末端执行器图像、姿态) 。
- \(o_u^{con}\): 共享上下文 (第三人称视角) 。
这些被编码为潜在向量 \(h_u^{ego}\) 和 \(h_u^{con}\)。目标是确保 \(h_u^{con}\) (机器人 A 眼中的世界) 与 \(h_v^{con}\) (机器人 B 眼中的世界) 是一致的。
2. 层论与限制映射
为了在数学上对齐这些表征,作者使用了胞腔层论 (Cellular Sheaf Theory) 。 简单来说,层论是一种拓扑工具,用于将局部数据拼接成全局一致性。
想象两个人看地图。一个看上半部分,一个看下半部分,中间有一个重叠的条带。为了让他们在位置上达成一致,重叠条带中的特征在他们两人的脑海中必须是匹配的。
在 LatentToM 架构中,这个“重叠条带”是使用限制映射 (Restriction Maps) 建模的。限制映射 \(\rho_{u \to e}\) 获取机器人 U 的信息并将其投影到共享的“边”空间 (共识空间) 中。

理想情况下,如果两个机器人都正确理解了共享的现实,它们投影后的共识嵌入应该是相同的。
3. 损失 I: 数值一致性 (层的一阶上同调)
协调的第一步是确保机器人在数值上达成一致。在训练过程中,系统会最小化两个机器人的共识嵌入之间的距离。在层论中,这被称为最小化一阶上同调 (1-cohomology) (这是一种花哨的说法,意思是“测量分歧”) 。

通过最小化这个损失 (\(\mathcal{L}_{nc}\)) ,网络强制两个独立的机器人为共享上下文生成数值上相似的向量。
4. 损失 II: “心理理论”约束
这里有个陷阱: 你可以通过简单地让两个向量都为零来最小化它们之间的差异。如果机器人 A 说“0”,机器人 B 说“0”,误差为零,但它们没有学到任何有用的东西。这被称为表征坍塌 (representation collapse) 。
为了防止这种情况并使共识嵌入具有意义,作者从“心理理论”中汲取灵感。他们认为,如果机器人 A 真正理解共享上下文,它应该能够推断出机器人 B 在做什么。
他们引入了一个 ToM 预测器 (ToM Predictor) 网络。机器人 U 使用它的 共识 嵌入 (\(h_u^{con}\)) 来预测机器人 V 的 自我 嵌入 (\(h_v^{ego}\)) 。

如上图所示,该模块使用一种注意力机制,其中共享的共识充当查询 (Query) ,以提取关于伙伴私有状态的信息。
这个损失函数如下所示:

这个约束 (\(\mathcal{L}_{tom}\)) 至关重要。它确保共识嵌入足够丰富,包含关于 整个 系统的信息,有效地迫使每个机器人“共情”对方的处境。
5. 损失 III: 定向共识
并非所有的机器人都是平等的。在任何给定的时刻,一个机器人可能比另一个拥有更好的物体视野。如果机器人 A 被遮挡 (视线受阻) 而机器人 B 视野清晰,那么机器人 A 应该使其信念与机器人 B 保持一致,反之则不然。
为了处理这个问题,网络为每个机器人学习一个置信度分数 (Confidence Score) (\(c\)) 。对齐不仅仅是简单的平均;它是有方向性的。如果低置信度的机器人偏离了高置信度的机器人,它受到的惩罚会更重。

上面的方程 (\(\mathcal{L}_{conf}\)) 根据置信度的差异对误差进行加权。为了防止系统作弊 (例如,总是将置信度设置为 1 或 0) ,他们添加了一个熵正则化项,鼓励置信度分数保持某种平衡,除非有强烈的理由不这样做。

6. 推理: 层拉普拉斯算子
到目前为止讨论的所有内容都发生在训练期间。一旦训练完成,机器人就可以仅使用自己的传感器以完全去中心化的方式行动。
然而,如果机器人在执行过程中 能够 通信,作者提出了一个可选的“修复”步骤,称为层拉普拉斯算子 (Sheaf Laplacian) 。 在执行动作之前,机器人可以交换它们的共识嵌入,并执行快速的数学更新以使它们更加接近。

这种更新 (论文中的公式 5) 可以实时平滑分歧,防止“活锁 (livelock) ”情况的发生,即机器人因为对现实的反应略有不同而陷入优柔寡断的循环。
实验与结果
研究人员在两个需要精确协调的挑战性协作任务上验证了 LatentToM。

任务 1: 协作推 T 字块
在这个任务中,两个机器人必须将一个 T 形块推到目标位置。难点在于?它们必须在推动时保持块的严格朝向 (不能旋转) 。
为了增加难度,研究人员引入了一个分布外 (Out-Of-Distribution, OOD) 挑战: 他们在不告诉机器人的情况下改变了块底部的摩擦力 (使其不对称) 。机器人必须仅根据视觉反馈进行适应。
结果: 结果非常惊人。朴素的去中心化策略 (NDDP) 惨遭失败,因为机器人无法就如何补偿摩擦力达成一致,导致块剧烈旋转。

在图 4 中,看看 NDDP (朴素去中心化) 和 LatentToM 之间的区别。NDDP 智能体失去了对方向的控制。然而,LatentToM 设法完成了任务,表明“心理理论”组件允许智能体就重块的动力学特性隐式地达成一致。
任务 2: 倒咖啡豆
这个任务风险很高。一个机器人拿着杯子,另一个拿着壶。它们必须在中间会合,倒出豆子,然后返回安全位置。时机或位置的不匹配会导致豆子洒出或发生碰撞。
结果: 作者将结果分类为“完全成功 (Fully Successful) ”、“明显失败 (Clear Failure) ”以及各种部分失败模式,如“未归位 (No Return) ” (机器人冻结) 。

如表 1 所示, 中心化策略 (CDP) 是完美的 (15/15) ,这是意料之中的,因为它像控制一个身体一样控制两只手臂。然而, LatentToM 的表现非常接近 (无通信时 13/15,有层拉普拉斯通信时 14/15) 。
与其相比,朴素去中心化方法 (NDDP) 失败了一半以上 (7/15) 。

图 5 将这些失败可视化。朴素策略 (NDDP, NCDDP) 导致了红色和蓝色的豆子洒落区域。LatentToM (底行) 将豆子留在了壶中。值得注意的是,带有层拉普拉斯算子的版本 (LatentToM w/ SL) 确保了机器人返回安全休息位置,而没有它的版本有时会在最后犹豫不决。
结论: 为什么这很重要
这篇关于“潜在心理理论”的论文为机器人协作迈出了重要一步。通过使用层论,作者为神经网络中“共识”的真正含义提供了一个严格的数学框架。
主要的启示是:
- 结构很重要: 简单地分别训练两个机器人无法应对复杂的任务。你必须显式地构建它们的潜在空间以鼓励共享理解。
- 心理理论是可计算的: 强迫机器人预测其伙伴的状态是一种强大的正则化手段,可以防止“共享现实”变成无意义的噪声。
- 灵活性: 该架构允许完全去中心化的执行,但在可行的情况下也可以优雅地接受通信 (通过层拉普拉斯算子) 以提高性能。
这种方法为机器人群——无论是在仓库、建筑工地还是搜救现场——像两个人合力搬沙发上楼梯一样直观地协作铺平了道路。它们不需要一个中央指挥官;它们只需要一点心理理论。
](https://deep-paper.org/en/paper/2505.09144/images/cover.png)