语言很少是私人的事情。当中士向一个小队大声下达命令,或者广告商向数百万人广播商业广告时,一条单一的信息必须同时被多人理解。然而,在人工智能和“涌现通信 (Emergent Communication) ”领域,我们大多将语言作为一种一对一的游戏来研究: 一个说话者,一个听众。

如果我们希望 AI 智能体开发出外观和行为都像人类语言一样的语言,我们需要复制人类语言进化的压力环境。人类语言最关键的属性之一是组合性 (compositionality) ——即根据规则 (语法) 组合简单单元 (如单词) 以创造复杂含义的能力。“蓝色的正方形”是组合性的;而对于每种颜色的形状都发出一个独特且无关的声音则不是。

在这篇文章中,我们将深入探讨论文 《涌现通信中的一对多通信与组合性》 (One-to-Many Communication and Compositionality in Emergent Communication) 。 研究人员探索了一个引人入胜的假设: 向人群广播的压力是否会迫使语言变得更加结构化?

答案是肯定的,但方式可能与其你想的不太一样。事实证明,人群如何倾听与人群的规模同样重要。

问题: “整体性”陷阱

在典型的 AI 实验 (通常称为信号博弈或 Lewis 博弈) 中,两个神经网络在玩一个游戏。说话者 (Speaker) 看到一个物体 (比如红色的三角形) 并发送一条信息。听众 (Listener) 听到信息并试图从队列中选出正确的物体。如果他们成功了,两人都会得到奖励。

问题在于?AI 智能体经常欺骗系统。它们会开发出“整体性 (holistic) ”语言,其中像“glorp”这样的随机噪声意味着“红色三角形”,而“bleep”意味着“蓝色正方形”。这里没有结构。你无法弄清楚信息的哪一部分代表“红色”。这使得语言变得脆弱,且难以为新智能体所学习。

研究人员提出,从一对一模型转向一对多模型会引入特定的环境压力,这可能会迫使智能体停止死记硬背“glorps”,并开始构建语法。

设置: 向人群广播

为了测试这一点,作者建立了标准重构游戏的变体。

  1. 说话者 (Speaker) : 观察一个具有属性 (如颜色、形状、风格) 的物体。它生成一系列符号 (一条信息) 。
  2. 听众 (Listeners) : 一群接收相同广播信息的智能体。
  3. 目标: 听众必须解释该信息以识别物体的属性。

研究人员不仅仅是增加了听众的数量;他们以两种特定的方式操纵了人群的社会动态:

  1. 兴趣 (Interests) : 听众是关心整个信息,还是只关心其中的一部分?
  2. 协作 (Coordination) : 听众是否需要彼此达成一致才能成功?

规模重要吗? (朴素方法)

首先,让我们看看基线。如果我们只是简单地采用标准游戏,并增加更多想知道物体所有信息的听众,会发生什么?

显示朴素的一对多通信与一对一通信相比没有显着改善的图表。

图 1 所示,结果反响平平。灰色虚线 (一对多) 紧贴蓝色实线 (一对一) 。简单地将信息广播给 10 个人而不是 1 个人,并不会神奇地创造出语法。说话者只是学会了发送让 10 个人而不是 1 个人死记硬背的整体性代码。

为了获得组合性,我们需要施加压力。

压力 1: 具有不同兴趣的听众

在现实世界中,汽车广告会被许多人看到。有些人关心价格;有些人关心马力。信息必须传达所有这些信息,但不同的听众会“过滤掉”他们不关心的部分。

研究人员通过创建具有不同兴趣的听众群组来模拟这一点。

图表显示说话者向三个听众广播,每个听众对不同的属性 (如颜色或形状) 感兴趣。

图 7 所示,听众 1 可能只根据猜测颜色来评分,而听众 2 则根据形状来评分。然而,说话者必须满足所有人。

“可读性”假设

这里的假设是可读性压力 (Readability Pressure) 。 如果听众 1 只关心颜色,他们更喜欢“颜色”信息容易被发现并与“形状”信息分离的信息。他们不想为了找到自己需要的那一点点信息而解码整个复杂的信息。

结果出色地证实了这一假设。

图表显示,与完全兴趣相比,部分和混合兴趣导致更高的拓扑相似度和特定类型的解缠。

图 2(a) 中,请看“拓扑相似度 (Topographic Similarity) ” (该指标越高意味着组合性/结构化程度越高) 。 部分兴趣 (Partial-Interest) 组 (红色条) 明显优于完全兴趣 (Full-Interest) 组 (灰色条) 。

“符号袋”策略

这里涌现出了什么样的语言?你可能会期待一种位置语法 (例如,“第 1 个词是颜色,第 2 个词是形状”) 。但智能体找到了不同的解决方案。

图 2(c) , 标记为“符号袋解缠 (Bag-of-Symbols Disent.) ”。这个指标在部分兴趣组中飙升。这意味着智能体开发了一种基于计数的语言

  • 例如: “A”意味着红色。“B”意味着三角形。
  • 信息: “AAB”可能意味着“非常红的三角形”或者仅仅是“红色三角形”。
  • 位置并不重要。如果我是“颜色听众”,我只需要扫描信息中的“A”并忽略“B”。

这种结构使得语言对于新智能体来说非常容易学习。

折线图显示,基于部分兴趣形成的语言能被新智能体更快地学习。

图 3 显示了新听众试图学习现有语言的训练曲线。红线 (部分兴趣语言) 比灰线更快地飙升至高准确率。通过强迫语言对专家具有“可读性”,说话者创造了一种对所有人都更容易学习的语言。

压力 2: 协作的需求

第二个主要实验引入了一种不同类型的压力: 协作 (Coordination)

想象一支士兵小队。仅仅大多数人理解命令是不够的。如果一名士兵向左转而其他人向右转,任务就会失败。

研究人员通过对听众进行分组来模拟这一点。只有当组内的每个听众都正确预测了物体时,才会给予奖励。

图表显示听众被分成小队,其中一名听众的失败导致整个小组失败。

图 8 所示,第 2 组完全失败了,因为听众 4 犯了一个错误,尽管听众 3 做对了。这创造了一个高风险的环境。说话者无法承担信息只是“大部分”清晰的后果。它必须对所有人同时毫无歧义。

“结构”假设

研究人员认为,整体性语言 (随机声音) 是有风险的,因为不同的听众可能会记住不同的关联。组合性语言 (结构化规则) 更安全,因为它依赖于共享的逻辑。

图表显示协作压力显着增加了拓扑相似度和位置解缠。

图 4 揭示了这种压力的影响。

  • 图 (a): 随着组规模的增加 (需要更多的协作) ,拓扑相似度 (结构) 上升。
  • 图 (b):位置解缠 (Positional Disentanglement) 。 这与上一个实验相反。它随着协作急剧上升。

“位置”策略

与“不同兴趣”组不同,“协作”组更喜欢位置结构 。 这更接近人类句法 (例如英语) 。

  • 结构: 第一个符号总是指颜色。第二个符号总是指形状。
  • 为什么?因为如果每个人都知道“位置 1 = 颜色”,那么组内的误解空间就会减少。这是一种严格的协议,对于协调行动至关重要。

当压力碰撞时

如果我们结合这些压力会发生什么?我们有不同兴趣的听众,并且我们强迫他们协作。

研究人员发现,这两种压力实际上可能会相互冲突。

  • 不同兴趣推动“符号袋” (扫描你需要的东西) 。
  • 协作推动“位置” (严格的排序) 。

图表显示,当听众兴趣混合时,增加小组规模实际上可能会略微降低拓扑相似度。

图 5 显示,当你向具有混合兴趣的智能体 (蓝线) 施加协作压力 (组规模) 时,组合性实际上略有下降。智能体在灵活的扫描策略和严格的位置策略之间左右为难。

高级场景: 迭代学习

语言学中的一个经典理论是迭代学习 (Iterated Learning) ——即语言随着代际传承而进化的观点 (就像传声筒游戏) 。通常,一次性替换整个人口 (同步重置) 比一次替换一个智能体 (交错重置) 能创造出更好的语言,因为彻底的清洗迫使新一代重新发明一个结构化的系统。

然而,现实的人口是逐渐变化的 (交错的) 。

表格显示,即使在交错重置场景中,协作压力也有助于保持组合性。

表 1 显示了一个迷人的结果。在正常的单听众设置中,“交错”方法 (逐渐替换) 表现不佳 (TopSim 29.52) 。但是当加入协作时,交错方法的表现几乎与同步重置一样好 (TopSim 34.25) 。

结论: 如果一个社会需要协作,那么即使人口随着时间逐渐变化,他们的语言也能保持稳健和结构化。

从符号到像素: 现实世界的泛化

最后,研究人员离开了简单的抽象属性,在基于像素的图像 (3dshapes 数据集) 上测试了他们的理论。

3dshapes 数据集中的示例图像,显示房间中的绿色立方体。

这项任务要难得多: 智能体必须观察原始图像 (如图 9 ),并交流有关颜色、形状和方向的信息。

发现结果依然成立吗?

图表确认在简单数据集中观察到的趋势在像 3dshapes 这样的复杂视觉数据中同样适用。

是的。 图 6 证实,即使有复杂的视觉输入,与完全兴趣听众 (灰色条) 相比,部分兴趣听众 (红色条) 也推动了高度组合性语言的发展。

他们甚至在 ImageNet (海量现实世界照片数据库) 上进行了测试。

表格显示 ImageNet 辨别游戏的结果,其中较大的组规模导致更好的泛化。

表 2 显示,随着组规模的增加 (协作压力) ,智能体泛化到新的、未见过的图像 (测试集 OOD) 的能力也在提高。

结论

这篇论文为语法的社会起源提供了一个令人信服的视角。它表明,我们的语言之所以有结构,不仅仅是因为我们的大脑天生具备这种能力,更是因为我们要通过特定的方式进行交流。

  1. 可读性: 我们对那些只关心我们要说的内容一部分的人说话。这促使我们要使用易于扫描的符号 (如关键词) 。
  2. 协作: 我们对必须一致行动的群体说话。这促使我们使用严格的词序 (句法) ,以确保每个人都以完全相同的方式解释信息。

对于 AI 研究人员来说,教训很清楚: 如果你希望智能体开发出智能、结构化的语言,不要只是把它们放在一个私人的房间里。让它们向多样化、协作的人群广播信息。观众的压力正是塑造语言的力量。