引言

想象一下,你试着教一个孩子说话,但你只能指着白色背景上的单个孤立物体。“猫”、“椅子”、“苹果”。孩子可能会完美地学会这些物体的名字。但是,当你向他们展示一只睡在椅子上的猫,或者一个放在猫旁边的苹果时,会发生什么呢?

语言不仅仅是给事物命名;它是关于描述事物之间的关系的。这就是组合性 (Compositionality) 的挑战——即将简单的单元 (如单词) 组合成复杂含义 (如句子) 的能力。

在 AI 和语言涌现 (Language Emergence) 领域,研究人员训练人工智能体相互交流以完成任务。多年来,标准的“指称游戏 (Referential Game) ”看起来很像那个受限的育儿场景: 智能体只针对单个实体进行交流。虽然这让我们学到了很多关于通信协议如何从零开始涌现的知识,但它缺乏现实世界的复杂性。现实场景包含多个实体,而且它们之间的空间关系至关重要。

在这篇深度文章中,我们将探索一篇引人入胜的研究论文,题为 《多实体指称游戏中组合语言的涌现: 从图像到图表示》 (The Emergence of Compositional Languages in Multi-entity Referential Games: from Image to Graph Representations) 。 研究人员提出了一个新的、更复杂的游戏,涉及多个实体,并探讨了一个基本问题: AI “看”世界的方式——是作为原始像素还是作为结构化的图——是否会改变它所发明的语言种类?

背景: 指称游戏与输入难题

在剖析新方法之前,我们需要了解这些 AI 智能体生存的“游乐场”。

经典的指称游戏

这个设置借鉴了博弈论和语言学 (特别是刘易斯信号博弈) 。它涉及两个神经网络:

  1. 发送者 (Sender) : 看到一个目标物体,并向接收者发送一条消息 (一串符号) 。
  2. 接收者 (Receiver) : 读取消息,并试图从一排“干扰项”中选出正确的目标物体。

如果接收者选对了物体,两个智能体都会获得奖励 (或最小化损失函数) 。经过成千上万轮的训练,它们会发展出一套共享的协议——一种语言——来描述这些物体。

“组合性”圣杯

如果一个智能体看到一个红色的圆形并说“glorp”,看到一个蓝色的方形并说“fip”,它就学会了名字。但如果它看到一个红色的方形,我们希望它能说出类似“glorp-fip” (红-方) 的内容。这就是组合性 。 这意味着语言是有结构的: 消息的部分系统地指代输入的部分。

之前的研究遇到了一个障碍:

  • 图像 (像素) : 当智能体观察原始图像时,它们很难发展出组合性语言。数据是“纠缠 (entangled) ”的——一个“红色方形”只是一堆彩色像素;“红色”和“方形”的概念并没有显式分离。
  • 特征向量: 如果你给智能体提供一个特征列表 (例如 [颜色=红, 形状=方]) ,它们很容易发展出组合性语言。然而,特征向量无法扩展。你不能轻易地用一个固定大小的向量来表示一张可能包含一只猫,或者五只猫和一条狗的图像。

解决方案?图 (Graphs) 。

这篇论文的作者提出作为“恰到好处”的解决方案。

  • 像特征向量一样,图是解耦 (disentangled) 的。代表“猫”的节点与代表“在…上面”的节点是截然不同的。
  • 像图像一样,图具备良好的扩展性 。 你可以使用图神经网络 (GNN) 来表示包含许多实体的复杂场景,而无需改变基础架构。

核心方法: 双实体记

为了验证他们的假设,研究人员设计了一个新的“多实体指称游戏”。发送者不再是描述单个物体,而是必须描述一个包含两个实体的场景,这两个实体被放置在一个 4 位置的网格中 (左上、右上、左下、右下) 。

例如,一个目标可能是: 一只老鹰在左上角,一只兔子在右下角。

智能体必须学会交流的不仅仅是网格里有什么 (形状) ,还有它们相对于彼此在哪里 (空间关系) 。

通信架构

通信过程使用循环神经网络 (RNN) 在数学上进行了结构化。

发送者 接收一个输入项 (\(I_t\)),将其处理成向量表示 (\(f_S(I_t)\)),并使用 RNN 生成一串符号序列 (消息 \(M\)) 。

发送者的方程,展示输入如何通过 RNN 转化为消息。

接收者 接收该消息 \(M\),将其通过自己的 RNN 运行,并将结果与潜在目标项 (\(I_1...I_n\)) 的嵌入进行比较。它使用 Softmax 函数来计算每个项目是目标的概率。

接收者的方程,展示如何使用消息来选择目标项。

最后,智能体使用损失函数进行联合训练,该函数会在接收者未能识别出正确目标时对它们进行惩罚。

用于训练智能体的损失函数方程。

可视化世界: 从像素到图

这是论文最关键的贡献。作者不仅仅测试了“图 vs. 图像”。他们认识到,要构建一个图来表示“老鹰在左上,兔子在右下”这个陈述,有很多种方法。

他们提出了四种截然不同的图模式 (Graph Schemas) , 外加基线的图像 (Image) 表示。

让我们来看看论文中提供的视觉分解:

图 1: 一个项目和四种图表示。该项目描绘了一个自然场景,可以松散地描述为“一只老鹰正在飞过其左侧的一只兔子”。在我们简单的项目描述语言中,它是“老鹰 左上 兔子 右下”。

让我们分解图 1 中展示的这四种图表示:

  1. Graph-posattr (位置作为属性) :
  • *概念: * 位置是物体本身的一个属性。
  • *结构: * 两个节点 (老鹰,兔子) 。每个节点包含“形状” (老鹰) 和“位置” (左上) 的特征。
  • *类比: * 就像戴着一个写着“老鹰”的名牌,同时戴着一顶写着“左上”的帽子。
  1. Graph-leaves (位置作为叶节点) :
  • *概念: * 位置是与物体相连的一个独立实体。
  • *结构: * 一个中心的“老鹰”节点连接到一个“左上”节点。
  • *类比: * 老鹰手里拿着一个写着“左上”的气球。
  1. Graph-edge (位置作为边标签) :
  • 概念: * 位置由物体之间的关系*定义。它使用相对定位。
  • *结构: * 一条边连接老鹰和兔子。边上的标签写着“(-1, 1)” (意味着兔子相对于老鹰在下方 1 格且右方 1 格的位置) 。
  • *类比: * 一张地图,老鹰是起点,通往兔子的路径由方向描述。
  1. Graph-functor (位置作为函子) :
  • *概念: * 一种逻辑、函数式的方法。
  • *结构: * 一个“函数”节点 (代表相对位置,如“左上方”) 指向两个实体。
  • *类比: * 一个数学函数 \(f(x, y)\),其中 \(f\) 是位置,而 \(x, y\) 是动物。

图像模型主要作为基线,使用卷积神经网络 (CNN) 直接观察像素网格。

实验与结果

研究人员使用这五种不同的输入表示 (图像 + 4 种图) ,在不同难度的游戏中训练了成对的智能体。难度通过改变干扰项的数量 (游戏规模) 和允许的最大消息长度来调整。

1. 它们能互相理解吗? (通信成功率)

第一个障碍是基本能力。发送者能否足够好地描述场景,以便接收者将其挑选出来?

图 2: 不同游戏规模和最大消息长度下的测试通信成功率。

图 2 所示,答案是肯定的

  • Y 轴代表准确率 (1.0 = 100%) 。
  • 即使在最难的游戏中 (游戏规模 20,意味着 1 个目标和 19 个干扰项) ,准确率通常也保持在 70% 以上。
  • 意想不到的赢家: graph-edge (图-边) 和 image (图像) 表示通常表现最好。
  • 结论: 无论是基于像素还是基于图的智能体,都有能力解决复杂的多实体任务。

2. 它们说的是结构化语言吗? (组合性)

这是分析深入的地方。为了衡量语言是否像“人类语言” (具有组合性) ,作者使用了一个称为拓扑相似度 (Topographic Similarity, topsim) 的指标。

  • topsim 如何工作: 它比较“意义空间”中的距离与“消息空间”中的距离。
  • *例子: * 如果“老鹰-左”和“老鹰-右”是相似的场景 (距离很小) ,它们的消息也应该是相似的 (例如,“glorp-fip”和“glorp-bop”) 。如果消息完全不同 (“glorp” vs “zazzle”) ,那么 topsim 分数就会很低。

研究人员将涌现出的语言与“完全组合性”的脚本 (例如,一个实际上说“老鹰 左上 兔子 右下”的脚本) 进行了比较。

图 3: 涌现语言与完全组合的项目脚本之间的 Topsim (在测试数据上) 。

图 3 揭示了一些意想不到的事情。

  • 大多数模型获得了中等的分数 (大约 0.2 - 0.3) 。这表明有一些结构,但不完美。
  • 异常值: graph-edge 模型 (最左边的蓝色条) 在许多配置下的组合性分数明显低于其他模型。

等一下,graph-edge 不是有很高的准确率吗?是的。这意味着 graph-edge 智能体有效地解决了任务,但使用了一种不能清晰映射到人类风格的“物体 + 位置”描述的语言。

3. 侦探工作: 它们到底在说什么?

为了理解为什么组合性分数是中等的,作者在意义空间上进行了“消融研究”。他们再次计算了 topsim,但这次他们操纵了“基准真相 (ground truth) ”,看看智能体关注的是什么。

他们测试了两种情况:

  1. 仅形状 (Shape Only) : 无论位置如何,语言是否跟踪动物的身份 (老鹰 vs 兔子) ?
  2. 仅位置 (Position Only) : 无论动物是什么,语言是否跟踪位置 (左上 vs 右下) ?

图 4: 涌现语言与仅形状或仅位置的项目描述语言之间的 Topsim (测试结果) 。第一行是仅形状,第二行是仅位置。

图 4 是这篇论文的“确凿证据”。看看列之间的区别。

  • 第 1 列 (形状解耦) : 看左上角的图。graph-edge 模型 (最左边的条) 在这里得分非常高。

  • *解释: * 使用 graph-edge 的智能体非常擅长命名形状 。 它们对于“老鹰”和“兔子”有不同的词。

  • 第 1 列 (2D位置解耦) : 看左下角的图。graph-edge 模型得分接近于零。

  • *解释: * graph-edge 智能体本质上忽略了独立的位置描述

  • 图像和其他图的反转:

  • imagegraph-posattrgraph-leavesgraph-functor 模型显示出相反的趋势。它们在纯形状上的得分较低,但在位置上的得分较高。

  • 这表明这些智能体可能优先考虑东西在哪里,而不是它们是什么,或者可能将形状“纠缠”进了位置中。

“纠缠”假说

作者挖掘得更深 (图 4 的第 3 列) 。他们检查了智能体是否将两个位置视为一个单一的概念 (例如,用一个特定的词来表示“左上 和 右下”在一起) ,而不是两个独立的坐标。

数据表明,对于位置,智能体确实倾向于纠缠 。 它们倾向于描述整个网格的配置,而不是单独描述每个实体的位置。这就解释了为什么它们能完成任务 (它们识别出了网格布局) ,但未能通过标准的组合性测试 (该测试期望“左上”和“右下”是分开的词) 。

4. 语言的演化

最后,这是如何随时间发展的?它们是先从形状开始,后学位置吗?

图 5: 学习期间的 Topsim 和通信成功率 (在测试数据上测量) ,针对规模为 5 且最大消息长度为 4 的游戏的代表性运行。

图 5 展示了 30 个轮次 (epochs) 内的训练进展。

  • 准确率 (底部图表) : 所有模型都迅速飙升。它们很快就学会了玩这个游戏。
  • 组合性 (顶部图表) :
  • 顶部图表中的紫色线 (graph-edge) 显示形状组合性稳步增加。它慢慢学会了分离物体。
  • 中间图表中的红色线 (graph-leaves) 以较高的位置组合性开始,但实际上略有下降。看来随着智能体在游戏中变得更好,它可能会为了专门的“捷径”而牺牲清晰的位置语言。

结论与启示

这篇论文向更现实的 AI 通信迈出了重要一步。通过从单物体场景转向多实体场景,研究人员揭示了智能体在命名事物和命名关系之间所做的复杂权衡。

主要收获:

  1. 多实体游戏是可解的: AI 智能体可以成功地交流复杂的空间关系,无论它们看的是像素还是图。
  2. 没有“完美”的输入:
  • Graph-edge 表示促使智能体非常擅长命名物体 (形状) ,但不擅长系统地描述位置。
  • 图像和其他图类型促使智能体关注空间布局 (位置) ,通常将整个网格配置视为单一概念,而不是组合的部分。
  1. “句法”鸿沟: 一种完全像人类的语言需要一种机制将特定实体链接到特定位置 (例如,“老鹰左上角”) 。虽然智能体发展出了基本的词汇,但它们很难发展出这种水平的句法“胶水”,往往诉诸于纠缠概念以最大化效率。

这项研究强调, 我们要如何向 AI 表示数据,从根本上塑造了它所发展的语言。 如果我们希望 AI 能自然地与我们就世界进行交流,我们可能需要平衡特征解耦 (像图) 与环境整体背景 (像图像) 的输入。AI 语言涌现的未来可能在于结合这些视角——既给智能体看清场景的“眼睛”,又给它理解场景的“概念结构”。