2017年,人工智能界为 AlphaZero 的横空出世而惊艳。这款由 DeepMind 开发的单一算法,仅凭规则从零开始自学,在围棋、将棋和国际象棋上都达到了超人类的水平。这是一项里程碑式的成就,展示了深度强化学习 (RL) 的强大威力。然而,在这场胜利的背后,却存在一个显著的局限: AlphaZero 及类似模型资源密集且结构僵化

这些算法将棋盘视为一个二维像素网格,就像处理图像一样,并使用卷积神经网络 (CNNs) 来处理它——这与现代图像识别技术如出一辙。虽然这种设计行之有效,但也存在弊端。一个为 19×19 围棋棋盘训练的 CNN 无法无缝地在更小的 13×13 棋盘上对弈;其架构本身被硬编码到了特定的输入尺寸上。这种僵化性迫使研究人员每当游戏改变,甚至只是棋盘大小改变时,都必须重新训练模型。

但是,如果我们重新思考人工智能“看”待游戏的方式呢?国际象棋不仅仅是一个静态的网格,它是一个动态的交互网络——棋子在棋盘上移动、威胁、并相互支持。这些关系天然地形成了一个图 (graph) 。这一观察构成了京都大学一篇引人入胜的研究论文的基础: 《利用图表示增强国际象棋强化学习》

作者们提出了一种名为 AlphaGateau 的新架构,它用一个灵活且富有表现力的图神经网络 (GNN) 取代了 AlphaZero 中基于网格的僵化 CNN。结果如何?一个学习国际象棋速度提升一个数量级的系统,甚至能够泛化——将在 5×5 小棋盘上学到的经验应用于 8×8 标准棋盘上,并表现出强大的竞争力。

本文将探讨 AlphaGateau 如何重新定义游戏领域中的深度强化学习。我们将解析如何将国际象棋表示为图,解释驱动该网络的新型 GATEAU 层,并回顾那些令其成为令人振奋突破的实验结果。


背景: AlphaZero 及其局限性

要理解 AlphaGateau 的创新,我们首先需要了解 AlphaZero 的强大之处——以及它的不足。

AlphaZero 的核心由两个组件之间的紧密反馈循环构成:

  1. 蒙特卡洛树搜索 (MCTS) :
    该算法为每个棋盘局面探索未来可能的决策树,评估哪些走法能带来有利结果。

  2. 深度神经网络:
    给定一个棋盘状态 \(s\),网络会输出两个关键预测:

    • 一个价值 (value) \(v(s)\): 评估从该局面获胜的概率,范围在 -1 (输) 到 +1 (赢) 之间。
    • 一个策略 (policy) \(\pi(s, \cdot)\): 一个关于所有合法走法的概率分布,突出那些最有可能成功的走法。

这两个组件共同构成了一个自我对弈学习循环:

  • MCTS 利用网络的“直觉”来指导搜索。
  • 通过模拟改善策略后,MCTS 生成训练数据—— (局面、改进策略、最终结果) 。
  • 这些数据用于重新训练神经网络,从而提升其“直觉”,进而在下一轮进一步强化 MCTS。

这种互相促进的协同驱动了 AlphaZero 的学习过程。然而,其基于 CNN 的棋盘表示天生僵化。棋盘上的每个格子都是二维网格中的一个像素通道——这适合捕捉局部空间模式,但国际象棋依赖的是非局部交互。一只象影响跨越棋盘的整条斜线;而一匹马的“L”形走法则违反局部性。CNN 难以捕捉这些长距离和关系性的动态。

更糟糕的是,CNN 需固定输入尺寸。棋盘尺寸或游戏规则稍有变化,就必须重新设计并重新训练整个网络。


核心思想: 将国际象棋表示为图

AlphaGateau 项目的起点是一个变革性的问题:
如果我们将棋盘表示为图而不是网格,会怎么样?

在这个设定中:

  • 节点 (Nodes) 代表棋盘上的格子。 (8×8 棋盘有 64 个节点,5×5 棋盘有 25 个节点。)
  • 边 (Edges) 代表合法走法,从源格子指向目标格子。

改变棋盘大小只会改变节点和边的数量;底层网络无需修改结构即可处理这些变化。

这种灵活性让模型可以在不同版本的游戏之间扩展。

节点与边的特征

图中的每个元素都携带丰富的游戏状态信息。

节点特征编码每个格子的状态——棋子类型、重复历史、易位权利、移动次数,甚至包括过去七步的摘要,以提供时间上下文。

节点特征表,包括棋子类型、重复历史、先前移动数据、当前玩家、移动步数、易位权利和进程计数。

表1: 节点特征向量捕捉了与每个格子相关的局部和全局信息。

边特征更进一步,描述每个潜在走法本身。例如,该走法是否合法、方向 (如“上二左一”) 、是否产生升变,以及哪些棋子类型能执行该走法。这种编码让模型对走法机制的理解更加明确,而这在基于 CNN 的设计中很难实现。

边特征表,包括合法性、移动位移、升变类型,以及兵、马、象、车、后、王的特定移动能力。

表2: 边特征描述了走法及其属性,为基于走法的灵活策略奠定基础。

这种表示方法可无缝适用于多种变体,例如标准的 8×8 国际象棋和更小的 Gardner 5×5 迷你国际象棋。

标准 8x8 国际象棋和 5x5 迷你国际象棋的起始局面。

图1: 8×8 (左) 和 5×5 (右) 棋盘布局。同一模型即可处理两者而无需重新训练架构组件。


引入 GATEAU: 一种新型图层

将国际象棋表示为图不仅需要工程巧思——更需要重新思考消息传递方式。传统 GNN 主要关注节点特征的更新,往往忽略边的信息。但在国际象棋中,走法 (边) 才是核心上下文。

作者们提出了 GATEAU — *Graph Attention neTwork with Edge features from Attention weight Updates *(通过注意力权重更新边特征的图注意力网络) ——这是对图注意力网络 (GAT) 的优雅扩展,能同时更新节点与边特征。

标准 GAT 的工作原理

GAT 计算相连节点对之间的注意力权重。对于节点 \(i\) 和 \(j\):

\[ e_{ij} = W_u h_i + W_v h_j \]


这些系数决定节点 \(j\) 向节点 \(i\) 传递多少信息。

GATEAU 的创新

GATEAU 将这一交互扩展以显式包含边特征:

  1. 更新边特征:
    节点 \(i\) 与 \(j\) 之间的边利用源节点、目标节点及其自身状态进行更新:
    更新边特征的方程: g’_ij = W_u * h_i + W_e * g_ij + W_v * h_j

    GATEAU 层用两端节点的信息增强了每条边。

  2. 利用边特征计算注意力:
    注意力权重直接由这些增强的边特征计算:
    计算注意力权重的方程: alpha_ij = softmax(LeakyReLU(a^T * g’_ij))

    注意力机制变得“边感知”,将升变或合法性等细节纳入考虑。

  3. 结合边上下文更新节点特征:
    最后,节点特征通过邻居节点与边的信息共同更新:
    更新节点特征的方程: h’_i = W_0<em>h_i + sum(alpha_ij * (W_h</em>h_j + W_g*g_ij))

    来自走法 (边) 的信息回流到局面 (节点) 的理解中。

这种节点与边间的双向信息流,使得棋局表示更全面、更丰富。


AlphaGateau 架构

以 GATEAU 为基础,完整的 AlphaGateau 系统在结构上与 AlphaZero 类似,但针对图数据进行了重新设计。

AlphaGateau 网络架构示意图,展示节点和边输入、堆叠的 ResGATEAU 块,以及独立的价值头与策略头。

图2: AlphaGateau 架构通过堆叠的残差 GATEAU 块共同处理格子 (节点) 与走法 (边) 特征。

工作原理

  1. 输入嵌入:
    节点和边图经简单线性层投射为密集嵌入向量。

  2. 残差 GATEAU 堆栈 (ResGATEAU) :
    主体包含多个 ResGATEAU 块——每个块由两层 GATEAU 及快捷 (残差) 连接组成,以增强稳定性与深度,类似 ResNet 的设计。

  3. 双输出头:

    • 价值头 (Value Head) : 通过注意力池化汇聚节点特征评估棋局。
    • 策略头 (Policy Head) : 直接处理边特征,为每个可能走法输出 logits。此“边到行动”的映射简洁且可跨棋盘尺寸自适应。

价值头和策略头示意图。价值头处理节点特征,策略头处理边特征。

图4: 价值头 (上) 汇聚节点特征评估局面;策略头 (下) 直接从边特征计算走法概率。

该架构在不显著增加计算成本的前提下,获得了更高的灵活性与表现力。


实验: 测试 AlphaGateau 的实力

研究人员进行了两项主要实验,将 AlphaGateau 与参数量相当的缩小版 AlphaZero 模型进行比较。

实验一: 从零学习速度

两种模型均在标准的 8×8 国际象棋上从零开始训练。学习速度差异极为明显:

比较 AlphaGateau 与 AlphaZero 在 500 次训练迭代中 Elo 等级分的图表。AlphaGateau 的 Elo 最初迅速上升并稳定在约 2100,而 AlphaZero 缓慢上升至约 670。

图5: 在 8×8 国际象棋上的表现曲线。AlphaGateau (橙色) 的学习速度约为 AlphaZero (蓝色) 的十倍。

经过 500 次迭代:

  • AlphaZero 基线模型 达到 \(667 \pm 38\) Elo。
  • AlphaGateau 达到 \(2105 \pm 42\) Elo,仅约 50 轮训练便达到专家水准。

基于图的表示使智能体能更高效地掌握国际象棋的本质,捕捉 CNN 无法触及的关系模式。

实验二: 泛化与微调

第二项实验测试迁移学习。作者先在 5×5 迷你国际象棋上训练一个更深的 AlphaGateau (10 层) ,再微调用于标准 8×8 国际象棋。

微调后 AlphaGateau 模型的 Elo 曲线。模型先在 5x5 上训练,再切换至 8x8,出现显著性能跃升。

图6: 泛化结果。仅在 5×5 国际象棋上训练的模型经微调即可有效迁移学习。

研究发现:

  1. 零样本迁移:
    仅在 5×5 国际象棋上训练时,该模型在 8×8 对局中便可取得约 800 Elo——即便此前从未见过 8×8 局面。
    这表明模型已学会了可跨棋盘尺寸泛化的抽象概念 (例如棋子控制、发展) 。

  2. 高效微调:
    切换到 8×8 训练后,性能几乎即刻跃升至 1200 Elo,后续达到 \(1876 \pm 47\),与仅在 8×8 全程训练的模型不相上下,但所需时间与计算量远低得多。

这种能将知识从简单游戏版本扩展到复杂版本的能力,是迈向通用型游戏 AI 的关键一步。


结论: AlphaGateau 的意义

京都大学团队的研究 《利用图表示增强国际象棋强化学习》 引发了新的范式转变:

  • 从网格到图: 直接捕捉棋子之间的关系,而非局部像素模式。
  • 从僵化的 CNN 到灵活的 GNN: 实现输入尺寸与走法结构的可变性。
  • 从孤立训练到跨版本泛化: 让在小型棋盘上学到的技能迁移到标准甚至更大棋盘。

通过重新定义游戏的核心表示,AlphaGateau 不仅加速学习,还推动了通用性——这是通往能够掌握多种游戏的统一智能体的重要一步。

作者指出,更深层次的实验 (40 层模型) 及更广泛的应用——如将棋或多玩家图结构游戏如 Risk——仍是值得探索的方向。

AlphaGateau 不仅是一个更快的国际象棋引擎,它更是迈向通用学习者的蓝图。
通过教 AI 从连接与交互而非坐标的角度进行推理,我们正迈向不仅更强大、更智能的系统。