训练大型语言模型 (LLM) 是一项艰巨的任务。但在初始预训练之后会发生什么呢?我们如何进一步优化这些模型——让它们更擅长复杂推理、遵循指令并避免有害输出?其中最强大的技术之一就是强化学习 (RL) ,模型通过试错来学习,就像人类掌握一项新技能一样。

然而,将强化学习应用于超大规模模型代价高昂。它往往需要庞大的中心化 GPU 集群,模型在高度同步的状态下进行训练。这种方式不仅成本惊人,还带来严峻的技术挑战: 通信瓶颈、延迟问题,以及对高度专业化、同构硬件的依赖。这基本上是少数财力雄厚的大公司才能参与的游戏。

如果有另一种方式呢?如果我们不依赖一个巨大的、中心化控制的大脑,而是构建一个群体——在去中心化网络中协同学习的多个模型,会怎样?这正是 Gensyn AI 团队新论文的核心思想: 他们提出了群体采样策略优化 (Swarm sAmpling Policy Optimization, SAPO) 。SAPO 让运行在不同硬件上的多样化模型集合能够仅通过共享它们的经验来共同提升。关键是,它们不共享复杂的模型权重——只共享它们生成的纯文本。这一简单转变,为实现更高效、可扩展且更加民主化的人工智能,开启了新的路径。

本文将深入剖析 SAPO 算法,探讨它在受控实验中最高可带来 94% 的性能提升,以及分析一个涉及数千名社区参与者的大规模真实世界演示中获得的洞见。

现代强化学习训练的瓶颈

在介绍 SAPO 之前,先回顾为什么需要它。用强化学习对语言模型进行后训练通常遵循以下循环:

  1. 生成响应 — 模型收到一个提示 (问题或任务) ,并生成一个输出。
  2. 获取奖励 — 奖励模型对输出进行评估。在基于人类反馈的强化学习 (RLHF) 中,奖励模型来自人类偏好数据。在基于可验证奖励的强化学习 (RLVR) 中,奖励是通过程序自动计算的 (例如,检查一个数学答案是否正确) 。
  3. 更新模型 — 通过诸如近端策略优化 (PPO) 等策略梯度算法调整模型参数,使高奖励输出的概率更高。

这个循环对于教授复杂推理非常有效。但一旦尝试扩展,问题便浮现: 要快速生成足够多样化的经验,需在大型集群上并行运行这一过程,并同步权重与展开 (rollouts) 。同步很快成为主要瓶颈——每个子系统都在等待其他系统,导致进度放缓和脆弱性增加。

多智能体系统提供了启发。在人工智能研究中,这类系统涉及自主智能体协作——辩论、分工或相互借力提升能力。SAPO 借鉴了这种协作精神,但以一种新颖、完全去中心化的方式将其引入强化学习。

SAPO: 群体如何共同学习

SAPO 的巧妙之处在于它的简单性: 它将分布式训练重构为一个群体——由多个自主智能体节点组成的去中心化网络。

群体的构成

设想一个有 N 个节点的网络。每个节点 n 拥有:

  1. 策略 (\(\pi^n\)) — 节点的语言模型。架构、参数规模不限。群体是异构的: 一个节点可能在 MacBook 上运行 0.5B 模型,另一个节点则在游戏电脑上运行 7B 模型。
  2. 数据集 (\(\mathcal{D}^n\)) — 一组问题或任务及可自动验证的标准答案。

一个节点的数据集是一组问题及其标准答案。

  1. 奖励模型 (\(\rho^n\)) — 本地评分函数,可以是基于规则的,也可以是学习得到的。

这些节点是异步运行的——它们从不互相等待。

一轮 SAPO 训练流程

以一个节点——比如 Alice——为例,来看一次 SAPO 训练的过程。

第 1 步: 生成本地经验
Alice 从她的数据集中抽取一批问题。对于每个问题 \(q\),她使用策略 \(\pi^n\) 生成多个答案。

一次“展开” (rollout) 是节点针对给定问题生成的一组答案。

每组答案就是一次展开 (rollout) ——即她的本地探索。

第 2 步: 与群体共享
Alice 将部分展开广播给其他节点。每个共享数据包包括:

  • 问题
  • 标准答案
  • 展开的文本
  • 用于验证的元数据

与群体共享的数据包包含问题、答案、展开文本和元数据。

她只共享解码后的文本——这种数据轻量且架构无关——而不是模型或梯度。

第 3 步: 从群体中采样
Alice 将以下内容组合成训练集:

  • 来自自己的 \(I^n\) 次展开
  • 来自同伴 (如 Bob、Carol) 的 \(J^n\) 次展开

采样可以经过过滤——例如丢弃零优势的展开,或优先某些任务——以便每个节点定制学习数据。

第 4 步: 更新策略
奖励模型为每次展开打分。她用策略梯度算法 (本文使用 GRPO) 更新 \(\pi^n\)。

这样,Alice 就能从自己原本无法生成的答案中学习。如果 Bob 的模型找到了一个新奇的逻辑谜题解法,Alice 可以重新编码该文本并从中学习。这些“顿悟时刻”会在群体间传播,推动集体学习。

该过程的伪代码见论文算法 1:

SAPO 算法描述了群体中每个节点的本地生成、共享、采样和策略更新过程。

SAPO 测试: 受控实验

设置:

  • 群体: 8 个相同的 Qwen2.5 0.5B 模型,分别运行在独立 GPU 上。
  • 环境: ReasoningGYM — 生成跨越代数、逻辑、抽象推理等多领域的无尽推理任务,并配套自动验证器计算奖励。
  • 目标: 比较本地与外部展开的不同比例。

配置 (每个智能体每轮总计 8 次展开) :

  1. 基线 (8 本地 / 0 外部) — 无共享的标准强化学习。
  2. SAPO (6 本地 / 2 外部) — 轻度共享。
  3. SAPO (4 本地 / 4 外部) — 平衡共享。
  4. SAPO (2 本地 / 6 外部) — 重度共享。

结果: 共享有回报 (但要适度)

如图 1 所示,共享可以提升性能。

图 1: 此图格显示了四种配置下所有 8 个智能体的奖励轨迹。外部展开更多 (c 和 d) 的配置比基线 (a) 获得了更高的峰值奖励。

未共享的智能体学习最慢。更多的共享带来了更快的学习和更高的奖励。4/4 比例效果最佳,实现了最高的总累积奖励——比基线提升了 94%

平滑的 100 步平均奖励曲线 (图 2) 也印证了这一点。

图 2: 此图显示了各配置的平滑平均奖励。在大部分训练过程中,4 本地 / 4 外部设置 (绿色) 始终优于其他配置。

在大多数训练阶段,平衡的 4/4 策略优于其它配置。

共享的“适度原则”

过多的共享可能破坏学习的稳定性。在图 2 中,2/6 配置 (橙色线) 波动剧烈——先是大幅提升,后续迅速下滑。作者指出原因有二:

  1. 质量稀释: 表现优异的智能体若过多采样低质量展开,会拖慢自身提升。
  2. 池子停滞: 若智能体消耗多于贡献,共享池的质量下降,导致集体遗忘。

结论是: 共享要足以受益于集体智慧,但不可过度以免引入不稳定性。

真实世界中的大规模演示

受控实验虽理想,但不等于现实。团队还进行了大规模开源演示,有数千个 Gensyn 社区节点运行着不同模型和硬件。群体高度动态,节点随时加入或退出。

比较群体训练与隔离训练的模型时,他们发现 Qwen2.5 0.5B 模型在 SAPO 下获益显著。

图 3: 此图比较了群体中使用 SAPO 训练的 Qwen2.5 0.5B 模型与隔离训练模型的累积奖励。约 175 轮后,群体训练的模型表现出显著优势。

约 175 个标准化轮次后,群体训练模型 (蓝色) 相较隔离训练模型 (橙色) 展现出具有统计显著性的优势。

有趣的是,更强大的模型增益较小。作者认为,SAPO 的集体学习最适合中等容量模型——它们有更多提升空间可利用多样外部展开成长。作者还指出,该演示使用的是均匀随机采样;更智能的展开筛选策略可望让所有模型获益。

结论: 迈向更具协作性的 AI 未来

SAPO 为中心化、资源密集的强化学习后训练提供了令人信服的替代方案:

  • 可扩展: 无同步瓶颈。
  • 高效: 共享轻量文本而非庞大参数。
  • 民主化: 让异构参与者都能贡献与受益。

核心洞见是: 平衡的经验共享能极大加速学习。一个智能体的突破可在群体中扩散,抬升整体水平。

未来方向令人期待:

  • 由任务专长智能体组成的群体
  • 人类参与者注入自身的展开
  • 多模态群体——设想 AI 艺术家共享图像与美学奖励函数,共同进化风格

SAPO 不仅是一个算法,更是一种愿景——关于协作性、可及性的 AI 发展方向。在这里,分享不仅是关怀,更是我们共同变得更聪明的方式。