AlphaGateau：利用图表示，更快、更智能地训练国际象棋引擎

2017年，人工智能界为 AlphaZero 的横空出世而惊艳。这款由 DeepMind 开发的单一算法，仅凭规则从零开始自学，在围棋、将棋和国际象棋上都达到了超人类的水平。这是一项里程碑式的成就，展示了深度强化学习 (RL) 的强大威力。然而，在这场胜利的背后，却存在一个显著的局限: AlphaZero 及类似模型资源密集且结构僵化。

这些算法将棋盘视为一个二维像素网格，就像处理图像一样，并使用卷积神经网络 (CNNs) 来处理它——这与现代图像识别技术如出一辙。虽然这种设计行之有效，但也存在弊端。一个为 19×19 围棋棋盘训练的 CNN 无法无缝地在更小的 13×13 棋盘上对弈；其架构本身被硬编码到了特定的输入尺寸上。这种僵化性迫使研究人员每当游戏改变，甚至只是棋盘大小改变时，都必须重新训练模型。

但是，如果我们重新思考人工智能“看”待游戏的方式呢？国际象棋不仅仅是一个静态的网格，它是一个动态的交互网络——棋子在棋盘上移动、威胁、并相互支持。这些关系天然地形成了一个图 (graph) 。这一观察构成了京都大学一篇引人入胜的研究论文的基础: 《利用图表示增强国际象棋强化学习》。

作者们提出了一种名为 AlphaGateau 的新架构，它用一个灵活且富有表现力的图神经网络 (GNN) 取代了 AlphaZero 中基于网格的僵化 CNN。结果如何？一个学习国际象棋速度提升一个数量级的系统，甚至能够泛化——将在 5×5 小棋盘上学到的经验应用于 8×8 标准棋盘上，并表现出强大的竞争力。

本文将探讨 AlphaGateau 如何重新定义游戏领域中的深度强化学习。我们将解析如何将国际象棋表示为图，解释驱动该网络的新型 GATEAU 层，并回顾那些令其成为令人振奋突破的实验结果。

背景: AlphaZero 及其局限性

要理解 AlphaGateau 的创新，我们首先需要了解 AlphaZero 的强大之处——以及它的不足。

AlphaZero 的核心由两个组件之间的紧密反馈循环构成:

蒙特卡洛树搜索 (MCTS) :
该算法为每个棋盘局面探索未来可能的决策树，评估哪些走法能带来有利结果。
深度神经网络:
给定一个棋盘状态 \(s\)，网络会输出两个关键预测:
- 一个价值 (value) \(v(s)\): 评估从该局面获胜的概率，范围在 -1 (输) 到 +1 (赢) 之间。
- 一个策略 (policy) \(\pi(s, \cdot)\): 一个关于所有合法走法的概率分布，突出那些最有可能成功的走法。

这两个组件共同构成了一个自我对弈学习循环:

MCTS 利用网络的“直觉”来指导搜索。
通过模拟改善策略后，MCTS 生成训练数据—— (局面、改进策略、最终结果) 。
这些数据用于重新训练神经网络，从而提升其“直觉”，进而在下一轮进一步强化 MCTS。

这种互相促进的协同驱动了 AlphaZero 的学习过程。然而，其基于 CNN 的棋盘表示天生僵化。棋盘上的每个格子都是二维网格中的一个像素通道——这适合捕捉局部空间模式，但国际象棋依赖的是非局部交互。一只象影响跨越棋盘的整条斜线；而一匹马的“L”形走法则违反局部性。CNN 难以捕捉这些长距离和关系性的动态。

更糟糕的是，CNN 需固定输入尺寸。棋盘尺寸或游戏规则稍有变化，就必须重新设计并重新训练整个网络。

核心思想: 将国际象棋表示为图

AlphaGateau 项目的起点是一个变革性的问题:
如果我们将棋盘表示为图而不是网格，会怎么样？

在这个设定中:

节点 (Nodes) 代表棋盘上的格子。 (8×8 棋盘有 64 个节点，5×5 棋盘有 25 个节点。)
边 (Edges) 代表合法走法，从源格子指向目标格子。

改变棋盘大小只会改变节点和边的数量；底层网络无需修改结构即可处理这些变化。

这种灵活性让模型可以在不同版本的游戏之间扩展。

节点与边的特征

图中的每个元素都携带丰富的游戏状态信息。

节点特征编码每个格子的状态——棋子类型、重复历史、易位权利、移动次数，甚至包括过去七步的摘要，以提供时间上下文。

节点特征表，包括棋子类型、重复历史、先前移动数据、当前玩家、移动步数、易位权利和进程计数。

表1: 节点特征向量捕捉了与每个格子相关的局部和全局信息。

边特征更进一步，描述每个潜在走法本身。例如，该走法是否合法、方向 (如“上二左一”) 、是否产生升变，以及哪些棋子类型能执行该走法。这种编码让模型对走法机制的理解更加明确，而这在基于 CNN 的设计中很难实现。

边特征表，包括合法性、移动位移、升变类型，以及兵、马、象、车、后、王的特定移动能力。

表2: 边特征描述了走法及其属性，为基于走法的灵活策略奠定基础。

这种表示方法可无缝适用于多种变体，例如标准的 8×8 国际象棋和更小的 Gardner 5×5 迷你国际象棋。

标准 8x8 国际象棋和 5x5 迷你国际象棋的起始局面。

图1: 8×8 (左) 和 5×5 (右) 棋盘布局。同一模型即可处理两者而无需重新训练架构组件。

引入 GATEAU: 一种新型图层

将国际象棋表示为图不仅需要工程巧思——更需要重新思考消息传递方式。传统 GNN 主要关注节点特征的更新，往往忽略边的信息。但在国际象棋中，走法 (边) 才是核心上下文。

作者们提出了 GATEAU — *Graph Attention neTwork with Edge features from Attention weight Updates *(通过注意力权重更新边特征的图注意力网络) ——这是对图注意力网络 (GAT) 的优雅扩展，能同时更新节点与边特征。

标准 GAT 的工作原理

GAT 计算相连节点对之间的注意力权重。对于节点 \(i\) 和 \(j\):

\[ e_{ij} = W_u h_i + W_v h_j \]

这些系数决定节点 \(j\) 向节点 \(i\) 传递多少信息。

GATEAU 的创新

GATEAU 将这一交互扩展以显式包含边特征:

更新边特征:
节点 \(i\) 与 \(j\) 之间的边利用源节点、目标节点及其自身状态进行更新:
GATEAU 层用两端节点的信息增强了每条边。
利用边特征计算注意力:
注意力权重直接由这些增强的边特征计算:
注意力机制变得“边感知”，将升变或合法性等细节纳入考虑。
结合边上下文更新节点特征:
最后，节点特征通过邻居节点与边的信息共同更新:
来自走法 (边) 的信息回流到局面 (节点) 的理解中。

这种节点与边间的双向信息流，使得棋局表示更全面、更丰富。

AlphaGateau 架构

以 GATEAU 为基础，完整的 AlphaGateau 系统在结构上与 AlphaZero 类似，但针对图数据进行了重新设计。

AlphaGateau 网络架构示意图，展示节点和边输入、堆叠的 ResGATEAU 块，以及独立的价值头与策略头。

图2: AlphaGateau 架构通过堆叠的残差 GATEAU 块共同处理格子 (节点) 与走法 (边) 特征。

工作原理

输入嵌入:
节点和边图经简单线性层投射为密集嵌入向量。
残差 GATEAU 堆栈 (ResGATEAU) :
主体包含多个 ResGATEAU 块——每个块由两层 GATEAU 及快捷 (残差) 连接组成，以增强稳定性与深度，类似 ResNet 的设计。
双输出头:
- 价值头 (Value Head) : 通过注意力池化汇聚节点特征评估棋局。
- 策略头 (Policy Head) : 直接处理边特征，为每个可能走法输出 logits。此“边到行动”的映射简洁且可跨棋盘尺寸自适应。

价值头和策略头示意图。价值头处理节点特征，策略头处理边特征。

图4: 价值头 (上) 汇聚节点特征评估局面；策略头 (下) 直接从边特征计算走法概率。

该架构在不显著增加计算成本的前提下，获得了更高的灵活性与表现力。

实验: 测试 AlphaGateau 的实力

研究人员进行了两项主要实验，将 AlphaGateau 与参数量相当的缩小版 AlphaZero 模型进行比较。

实验一: 从零学习速度

两种模型均在标准的 8×8 国际象棋上从零开始训练。学习速度差异极为明显:

比较 AlphaGateau 与 AlphaZero 在 500 次训练迭代中 Elo 等级分的图表。AlphaGateau 的 Elo 最初迅速上升并稳定在约 2100，而 AlphaZero 缓慢上升至约 670。

图5: 在 8×8 国际象棋上的表现曲线。AlphaGateau (橙色) 的学习速度约为 AlphaZero (蓝色) 的十倍。

经过 500 次迭代:

AlphaZero 基线模型 达到 \(667 \pm 38\) Elo。
AlphaGateau 达到 \(2105 \pm 42\) Elo，仅约 50 轮训练便达到专家水准。

基于图的表示使智能体能更高效地掌握国际象棋的本质，捕捉 CNN 无法触及的关系模式。

实验二: 泛化与微调

第二项实验测试迁移学习。作者先在 5×5 迷你国际象棋上训练一个更深的 AlphaGateau (10 层) ，再微调用于标准 8×8 国际象棋。

微调后 AlphaGateau 模型的 Elo 曲线。模型先在 5x5 上训练，再切换至 8x8，出现显著性能跃升。

图6: 泛化结果。仅在 5×5 国际象棋上训练的模型经微调即可有效迁移学习。

研究发现:

零样本迁移:
仅在 5×5 国际象棋上训练时，该模型在 8×8 对局中便可取得约 800 Elo——即便此前从未见过 8×8 局面。
这表明模型已学会了可跨棋盘尺寸泛化的抽象概念 (例如棋子控制、发展) 。
高效微调:
切换到 8×8 训练后，性能几乎即刻跃升至 1200 Elo，后续达到 \(1876 \pm 47\)，与仅在 8×8 全程训练的模型不相上下，但所需时间与计算量远低得多。

这种能将知识从简单游戏版本扩展到复杂版本的能力，是迈向通用型游戏 AI 的关键一步。

结论: AlphaGateau 的意义

京都大学团队的研究 《利用图表示增强国际象棋强化学习》 引发了新的范式转变:

从网格到图: 直接捕捉棋子之间的关系，而非局部像素模式。
从僵化的 CNN 到灵活的 GNN: 实现输入尺寸与走法结构的可变性。
从孤立训练到跨版本泛化: 让在小型棋盘上学到的技能迁移到标准甚至更大棋盘。

通过重新定义游戏的核心表示，AlphaGateau 不仅加速学习，还推动了通用性——这是通往能够掌握多种游戏的统一智能体的重要一步。

作者指出，更深层次的实验 (40 层模型) 及更广泛的应用——如将棋或多玩家图结构游戏如 Risk——仍是值得探索的方向。

AlphaGateau 不仅是一个更快的国际象棋引擎，它更是迈向通用学习者的蓝图。
通过教 AI 从连接与交互而非坐标的角度进行推理，我们正迈向不仅更强大、更智能的系统。

背景: AlphaZero 及其局限性#

核心思想: 将国际象棋表示为图#

节点与边的特征#

引入 GATEAU: 一种新型图层#

标准 GAT 的工作原理#

GATEAU 的创新#

AlphaGateau 架构#

工作原理#

实验: 测试 AlphaGateau 的实力#

实验一: 从零学习速度#

实验二: 泛化与微调#

结论: AlphaGateau 的意义#