创造人工生命——即复杂、自适应且拥有无限创造力的数字生命——的梦想,几十年来一直令科学家们着迷。在这一追求中,研究人员通常探索两条主要路径:

  1. 进化算法 : 模仿自然选择以发现新颖行为。这类算法强大且开放,但往往运行缓慢、缺乏引导。
  2. 基于梯度的学习 : 深度学习的核心方法。它能高效优化拥有数百万参数的系统,但通常在固定的静态目标下运作。

如果能将两者结合会怎样?试想一个系统,既利用深度学习的优化能力,又置身于一个动态、竞争的世界——一个以生存增长为驱动力,能够自发产生复杂性的数字生态系统。

这正是 培养皿神经细胞自动机 (Petri Dish Neural Cellular Automata, PD-NCA) 的核心理念,它由 Sakana AI 提出。在 PD-NCA 中,多个被称为 神经细胞自动机 (NCA) 的 AI 智能体共同栖息在一个共享的数字“培养皿”中,通过梯度下降不断争夺领地并自适应进化。最终形成了一个充满活力、可微分的生态系统,展现出早期的合作、竞争与类生命复杂性的涌现迹象。

让我们一起看看这项研究如何将基于梯度的学习引入开放性人工生命的领域。


背景: 数字生命的构建基石

在深入了解培养皿之前,我们需要掌握人工生命 (ALife) 中的两个基础概念: 开放性神经细胞自动机

对开放性的探索

在人工生命领域中,“开放性” (open-endedness) 指的是系统能够持续不断地产生新的、愈加复杂的行为。生物进化是最典型的例子——它并未在细菌阶段结束,而是不断孕育出无数多样的生命形态。相比之下,大多数人工智能系统训练完成任务后就停止学习。实现开放性——即持续的创造性增长——被视为人工智能领域的“终极挑战”之一。

神经细胞自动机: 简单规则,复杂世界

传统的细胞自动机 (CA) 是一个由单元格组成的网格,这些单元格根据局部规则进行更新。最著名的例子是康威的《生命游戏》,在其中,简单的更新规则能生成令人惊叹的复杂图案。

神经细胞自动机 (NCA) 则进一步扩展了这一思想。该概念于 2020 年提出,用一个小型 CNN 取代了固定规则,使模型能够学习如何控制局部更新。例如,一个 NCA 可以从单个种子细胞“生长”出一幅图像,并能在受损后自我修复——这表明梯度下降可以演化出自组织行为。

但从人工生命的角度看,传统 NCA 仍存在局限:

  1. 通常仅模拟单个智能体 ;
  2. 其目标是固定的 (例如重现一幅特定图像) 。

PD-NCA 将此概念扩展至一个没有静态目标的多智能体世界,使其能够持续演化。


培养皿内部: 多智能体学习世界

PD-NCA 引入了一个可微分的多智能体基底——一个二维网格,众多 NCA 在其中共存、竞争,并在模拟过程中不断学习。可以将它看作一个由微积分与适应性驱动的数字生态系统,而非硬编码逻辑。

每个模拟步骤分为三个阶段: 处理竞争状态更新

设置: 高维度环境

网格中的每个细胞都包含一个由多个通道组成的状态向量 :

  • 攻击通道: 表示进攻策略。
  • 防御通道: 表示抵御对手的能力。
  • 隐藏通道: 存储内部计算或记忆。

此外,每个 NCA 还维护一个私有的存活通道——这是一个隐藏的地图,用来追踪其在网格中的领地影响力。


阶段一: 处理 —— 提出更新

在第一阶段,每个 NCA 通过其卷积网络观察邻域,并提出局部状态更新——即其对细胞应如何变化的“意图”。

这些提议受到存活状态的掩码限制。NCA 只能在其当前控制区域或邻近区域内行动,以防止远距离干扰。系统还引入一个静态的环境向量 , 作为恒定的背景影响,类似数字养料场——为未来的生长提供能量。


阶段二: 竞争 —— 生存之争

当多个 NCA 对同一细胞提出冲突的更新时,胜负如何决定?答案在于一个基于攻击-防御向量的精妙机制。

每个 NCA 在某细胞处的强度计算为其攻击向量与每个对手 (包括环境) 的防御向量之间的余弦相似度之和:

\[ \text{Strength}_A = \langle \text{attack}_A, \text{defense}_B \rangle + \langle \text{attack}_A, \text{defense}_{env} \rangle \]

\[ \text{Strength}_B = \langle \text{attack}_B, \text{defense}_A \rangle + \langle \text{attack}_B, \text{defense}_{env} \rangle \]

这些原始强度值再经过 softmax 函数归一化,转换为决定谁的更新主导的概率权重。

展示两个NCA如何竞争的图示。一个NCA的攻击向量与对手的防御向量通过余弦相似度计算“强度”,再经softmax函数决定最终的更新权重。

图2: 两个 NCA 之间的竞争机制。攻击-防御相似度形成强度得分,经 softmax 归一化以确定相对影响力与存活状态。

这种机制促使战略适应更加丰富。NCA 不能依赖单一强势攻击,它们必须学习细致且灵活的行为方式,才能在不断变化的对手中共存并繁荣。


阶段三: 状态更新 —— 适者生存

状态更新阶段,系统汇总所有提议的更新。每个细胞的新状态是所有 NCA 提议的加权组合,权重来自其经过 softmax 归一化后的强度。

更重要的是,这些权重也成为 NCA 在该细胞上的新的存活值 。 若某个 NCA 在网格上的总存活值低于阈值,它就会“灭绝”,其领地将重新分配给存活者。

这种持续的斗争确保了不断的适应——这正是生命系统的核心特征。


目标: 成长的驱动力

每个 NCA 优化一个简单的自我中心目标——最大化其总存活值。形式上,对于第 \( i \) 个 NCA,其损失函数定义为:

\[ L_i = -\log\left(\sum_{x,y} A_i(x,y)\right) \]

其中 \( A_i(x,y) \) 表示其在位置 \((x,y)\) 的存活值。该形式既能稳定训练,又保留了自然的激励机制: 扩张领地,维持生存。

这里没有训练/测试的划分——学习从未停止。梯度下降直接融入模拟的动态之中。这些智能体在生存中学习


数字培养皿中的生命涌现

研究人员在 \(256 \times 256\) 的网格上训练 PD-NCA,CNN 参数量高达 50 万,同时存在最多 15 个竞争智能体。结果令人惊艳——系统表现出丰富而非静态的动态特征。

PD-NCA 并非被单一“物种”单调统治,而是展现出一个充满变化的图景: 共生、振荡与持续共存。

一系列 PD-NCA 模拟帧。(a) 展示了暗示共生的结构化配对;(b) 描绘了几个 NCA 之间稳定的持续竞争;(c) 展现了遍布网格的螺旋波模式。

图1: PD-NCA 模拟中出现的复杂性迹象。结构化配对 (a) 、稳定竞争 (b) 和波浪状模式 (c) 展示了自发的自组织现象。

共生与联盟

在模拟中,成对的 NCA 时常形成稳定的边界,似乎在协作维持彼此的领域。例如,青紫配对和蓝橙配对往往能和平共存,同时抵御其他竞争者——这是一种意料之外的数字共生

动态平衡

许多模拟并未演化成单一胜利者,而是达到了平衡竞争状态,多个物种持续共存。这种持续变化的状态,映射出自然环境中的生态平衡。

波浪状模式

部分实验生成了迷人的螺旋动态,让人联想到别洛乌索夫–扎鲍廷斯基振荡化学反应。这种行为揭示了 PD-NCA 作为复杂时空现象研究基底的潜力。


种群动态: 数字帝国的兴衰

为量化这些复杂的交互,研究人员绘制了每个 NCA 领地面积随时间变化的曲线。结果揭示了竞争与合作的波动起伏。

折线图展示多个 NCA 的领地面积随时间变化。彩色的线条上升、下降、振荡,偶有成对的线条同步上升,暗示合作。

图3: 领地面积动态曲线,显示了 NCA 之间的振荡与合作行为。

这张图展现了一个充满生命力的生态系统——领地在周期性节奏中扩张与萎缩。部分 NCA 对共同起伏,暗示相互促进。这些数据变化与图1中的视觉证据相互印证。


迈向开放性的数字进化

PD-NCA 为人工生命的研究提供了一个全新的、可微分的基础。通过将持续学习嵌入多智能体竞争环境,它在深度学习与开放性进化之间建立了桥梁。

作者提出了若干令人期待的扩展方向:

  • 混合学习–进化系统: 当一个 NCA 的领地分裂时,每个碎片可带着独立的优化器继续演化——结合局部梯度学习与进化分化。
  • 全局目标: 由于系统完全可微,可引入全局奖励——例如,促进生态系统整体的可压缩性或集体问题求解能力。
  • 自动基底发现: 借助如 ASAL 之类的工具,元模型或许能发现新的底层物理机制——即竞争与合作的规则本身——从而加速新奇类生命现象的涌现。

结论: 培育,而非构建,人工生命

培养皿 NCA 标志着概念上的转变。它并非模拟进化或孤立训练智能体,而是让智能体在共享的可微世界中持续生长

从简单的局部规则和扩张的驱动力出发,我们见证了合作、竞争及自组织复杂性的自发涌现——这些正是塑造生物生态体系的基本原理。

通过融合学习与进化,PD-NCA 开启了人工生命研究的新前沿。它邀请我们创造的不再是被预定义的机器,而是能够生长、适应的数字生命——一个计算的原始“汤”,在其中智能与生命或许能共同演化。