想象一下,一个 AI 不仅仅遵循预先编程的指令,而是能够即时学习如何玩新游戏、解决新谜题或在陌生世界中探索——通过经验进行适应,而不是被明确告知该做什么。
这正是 上下文强化学习 (In-Context Reinforcement Learning, ICRL) 的愿景。ICRL 智能体不会通过梯度下降来更新神经网络权重,而是根据上下文——即其最近的动作、观察和奖励序列——动态调整行为。这与大型语言模型如何从提示中的示例学习新任务非常相似。
然而,构建一个可扩展且真正自适应的 ICRL 智能体并非易事。传统的强化学习算法需要大量交互数据,而现有任务集多数过于狭窄或带有偏见。要真正“学会学习”,智能体必须接触成千上万——理想情况下是数万个——结构多样的任务。缺乏这样的多样性,它只会记住如何处理几个相似的谜题,而不是掌握探索、规划与适应的底层原则。
最近一篇题为《通过在随机世界中进行元训练,实现大规模上下文强化学习》的论文提出了一个突破性的两部分解决方案:
- AnyMDP : 一个程序化生成器,能以最小的结构偏差产出几乎无穷无尽的高质量强化学习任务。
- OmniRL : 一个可扩展的 ICRL 训练框架,它采用名为 解耦策略蒸馏 (Decoupled Policy Distillation, DPD) 的优雅方法,从这个庞大的任务宇宙中学习。
这两项创新共同定义了通用自适应 AI 的新前沿。
探寻学会如何学习的智能体
“学习如何学习”的概念是元学习 (meta-learning) 的核心,即模型不是为解决单一问题而训练,而是为解决多个问题而训练。其思想是让系统接触多样化任务,从而内化一种灵活的学习算法——这种算法能在推理阶段无需额外训练即可适应新问题。
大型语言模型完美地展示了这一点: 预训练阶段充当了元训练 (meta-training) , 使它们能够通过阅读上下文示例来执行新任务。ICRL 将这一原则应用于决策与控制。上下文不再由语言构成,而是由经验轨迹——状态、动作和奖励的序列——组成,使智能体能够仅凭环境反馈在线调整策略。
但存在一个关键问题: 如果训练任务集之间存在隐藏的相似性,模型并不会学会学习,而只是识别模式。挑战在于构建既多样化又无偏的环境,以推动模型跨越记忆边界,走向真正的自适应推理。
第一部分: AnyMDP —— 程序化生成的强化学习任务宇宙
这项工作的第一个支柱 AnyMDP 是一个能程序化生成大规模离散 马尔可夫决策过程 (Markov Decision Processes, MDP) 集合的框架——这几乎是所有强化学习问题的数学基础。
AnyMDP 的独特之处在于它如何实现结构化而无偏的任务生成。每个任务都必须满足三个关键属性,才能保证训练既具有挑战性又有意义:
1. 遍历性 (Ergodicity)
每个 MDP 必须是遍历的——所有状态均可达,确保没有任务被简单地断开或变得无解。这保证了丰富的探索空间,并防止退化的动态行为。
2. 带状转移矩阵 (Banded Transition Matrix)
设想将所有状态按从“最易到达”到“最难到达”进行排序。AnyMDP 强制生成带状转移矩阵 , 即智能体只能在排序中“相邻”的状态之间移动。 这种约束确保了自然的进阶过程: 智能体必须逐步努力才能进入更具挑战性的状态,而不是直接跳至高价值目标。
从数学上讲,这保证了通过中间状态的定向漂移——一种内置课程,可避免出现简单捷径。
3. 递增价值函数 (Ascending Value Function)
最后,AnyMDP 被设计为使最终目标状态的价值远高于任何初始状态,确保智能体始终有值得追求的目标。
这些设计原则共同促成了有意义的学习动态: 为了到达高价值状态,智能体必须发展出策略性探索。论文中的定理证明,随机智能体到达此类状态的概率呈指数衰减,使得盲目试错几乎不可能奏效。

图 1: AnyMDP 任务 (红色) 的解决难度和速度始终高于 Garnet 基准 (蓝色/青色) 。它们需要智能探索,而非重复试验。
超越随机性: 验证 AnyMDP 的难度
为验证 AnyMDP 的有效性,作者比较了标准强化学习算法——表格 Q 学习 (TQL) 和近端策略优化 (PPO)——在 AnyMDP 与早期程序化基准 Garnet 上的学习曲线。
在所有实验中,AnyMDP 任务都明显更难掌握,验证了其能产生真正具有挑战性的任务。结果表明: AnyMDP 不只是生成随机任务,而是创造出需要实际学习才能解决的问题。
论文进一步分析了状态的平稳分布——即在随机与最优策略下,每个状态的访问概率。

图 2: AnyMDP 产生了指数衰减的平稳分布。高价值状态在随机情况下很少出现,证明该环境促使智能探索。
在 AnyMDP 任务中观察到的明显指数衰减现象从经验上支持了理论结论: 探索必须是有策略的,而非随意的。
第二部分: OmniRL —— 扩展上下文强化学习的规模
创建一个无尽的任务世界只是成功的一半。要让模型在其中茁壮成长,还需要一个高效、可扩展的训练框架——能规避传统强化学习方法的弊端。
通过强化学习或进化策略进行元训练以往非常缓慢且硬件消耗巨大。近年来的监督式替代方案,如算法蒸馏 (Algorithm Distillation, AD) 和决策预训练 Transformer (Decision Pre-Training Transformers, DPT),提升了样本效率,但引入严重的分布偏移问题: 训练时模仿专家轨迹,推理时生成自身轨迹——当两者不一致时性能大幅下降。
这时, 解耦策略蒸馏 (Decoupled Policy Distillation, DPD) 登场了。

图 3: DPD 将行为策略 (轨迹生成器) 与参考策略 (训练目标) 分离,解决了分布偏移问题,并提升了多样性。
DPD 通过切断模型训练数据来源与模仿目标之间的直接反馈,有效缓解了此问题。
两种策略,两种角色
行为策略 (πᵇ) —— 生成模型学习所基于的轨迹。 OmniRL 不依赖单一专家,而是使用丰富的行为策略组合: 包含最优策略、表格 Q 学习、基于模型的强化学习、随机策略以及这些策略的“带噪版本”。
参考策略 (π*) —— 定义模型要模仿的目标动作。 无论行为策略的质量如何,模型始终向最优策略方向学习。
这种分离同时带来多样性与稳定性: 多样的行为使模型接触不同情境,降低对未见上下文的敏感度;而朝最优策略的模仿保证了收敛性。
利用先验知识与分块训练
轨迹中的每个动作都附带元数据,标识其来源的策略类型——为理解混合行为提供了额外背景信息。
为了处理超长序列 (每个上下文最多 512,000 步 ),OmniRL 采用了分块训练 (chunkwise training) , 分段处理和更新,以保持效率与时间连贯性。

图 4: OmniRL 架构以因果方式编码长序列,在每步预测最优动作,并通过分块训练实现规模化学习。
实验: 迈向通用学习智能体
研究者仅在 AnyMDP 任务上训练 OmniRL,然后在它从未见过的多种环境中进行测试——包括新的 AnyMDP 变体、标准 Gymnasium 环境、DarkRoom 以及多智能体模拟任务。
结果令人瞩目。

表 1 (摘录) : OmniRL 在未见过的任务上以显著更少的交互步数取得高性能。在 Garnet 任务上训练的模型未能实现泛化,凸显了任务多样性的重要性。
在 AnyMDP 上训练的 OmniRL 几乎在所有未见过的环境中都取得了顶尖表现,其样本效率比 PPO 和 TQL-UCB 高出多个数量级 。 令人惊讶的是,尽管从未在多智能体场景中训练,OmniRL 却展现出涌现的协作行为——证明了不同任务结构之间的真正迁移学习。
学习曲线进一步展示了 OmniRL 的快速适应与稳定收敛,在所有评估周期中持续优于基线算法。

图 5: OmniRL 在未见过的任务上快速且高效地适应,展现出真正的上下文强化学习能力。
为什么任务多样性改变一切
作者还开展了一项研究,测试训练任务数量对模型泛化能力的影响。他们分别用包含 100、1K、10K 和 128K 个不同任务的数据集训练了四个模型。

图 7: 只有在 ≥10K 个不同任务上训练时,模型才展现出广泛的泛化能力。较少的任务虽能快速掌握已见案例,却难以应对新任务。
结果非常一致:
- 小规模训练 (≤1K 任务): 模型学习速度快但容易过拟合,只在熟悉任务上表现出色——本质上是在做“任务识别”。
- 大规模训练 (≥10K 任务): 记忆将不再奏效,模型被迫发展出通用的学习能力,这标志着真正的上下文强化学习的涌现。
另一个发现是: 随着任务多样性增加,模型需要更长轨迹才能适应——这是通用性的“代价”。短上下文反映快速记忆,而长上下文揭示真正的自适应能力。 这提示未来评估应更关注渐进性能 (asymptotic performance) , 而不仅限于少样本适应。
结论: 通往真正自适应 AI 的道路
AnyMDP 与 OmniRL 的结合展示了通过扩展任务多样性和优化训练流程,可以构建真正通用的学习系统。
关键结论:
任务多样性至关重要。 只有在经历大量结构差异显著的任务后,模型的泛化能力才会出现。超过一定多样性阈值后,记忆将转化为抽象推理。
更长的上下文是泛化的代价。 通用学习者虽然初期适应较慢,但其随经验持续提升的能力代表真正的学习。
可扩展性依赖于高效的元训练。 解耦策略蒸馏与分块因果建模使得在大规模下进行学习成为可能,而无需付出高昂的算力成本。
这项工作为实现能学习如何学习的智能体铺平了道路——让 AI 从静态问题求解者进化为动态、持续自适应的智能体。
通过生成更多样化的世界而非狭义任务,并构建能在数百万步中融会经验与推理的系统,我们离能在未知中茁壮成长的通用 AI 又更近了一步。
](https://deep-paper.org/en/paper/2502.02869/images/cover.png)