用随机数据解锁上下文强化学习——深入解析状态-动作蒸馏（SAD）

像 GPT 这样的基础模型已经展示出一种惊人的能力，称为上下文学习 (in-context learning) ——即纯凭示例来适应新任务，而无需更新任何模型参数。这一突破重塑了语言、视觉和多模态领域的现代机器学习。现在，研究人员正将这种能力扩展到决策系统中，开辟了一个新的前沿领域: 上下文强化学习 (ICRL) 。

其目标简单而宏大: 构建一个预训练智能体，使其能够进入一个全新的、未见过的环境，并通过利用最近的经验——状态、动作和奖励元组——作为上下文线索，快速学会如何以最优方式行动。无需梯度更新，亦无需微调——纯粹依靠推理驱动的学习。

然而，尽管 ICRL 前景广阔，但它一直受制于不切实际的数据要求。当前最先进的方法，如 算法蒸馏 (AD) 和 决策预训练 Transformer (DPT) ，必须从数千个环境中的专家或甚至最优策略中收集海量高质量数据。这种级别的数据整理费用极高，在现实场景中——如机器人或自动驾驶——往往难以实现。

一篇题为 《随机策略在信任域内实现上下文强化学习》 的新论文提出了一个范式转变的解决方案。作者引入了 状态-动作蒸馏 (SAD) ，一种允许完全基于 随机策略 生成的数据进行预训练的方法。令人惊讶的是，它真的有效——并且可能使 ICRL 在实际应用中真正变得可行。

让我们来揭示 SAD 背后的精妙思想。

现代 ICRL 的瓶颈

要理解 SAD，我们首先需要弄清楚 ICRL 通常是如何运作的，以及为什么现有方法会遇到困难。

ICRL 将决策过程重构为一个 监督学习 问题。一个基于 Transformer 的基础模型被训练来根据两个输入预测动作:

上下文 (\(\mathcal{C}\)) ——一系列过去的状态转移，如 (状态, 动作, 奖励, 下一状态) 元组。它充当模型的上下文学习数据。
查询状态 (\(s_q\)) ——模型需要为该当前状态预测最佳下一个动作。

在预训练过程中，模型在大量 (上下文, 查询状态, 动作标签) 三元组上最小化损失:

\[ \theta^* = \underset{\theta}{\operatorname{arg\,min}} \mathbb{E}_{P_{\text{train}}}\left[l\left(\mathcal{F}_{\theta}(\cdot|\mathcal{C}, s_q), a_l\right)\right]. \]

挑战在于创建这个数据集——尤其是确定 动作标签 \(a_l\)。现有方法普遍建立在关于数据可得性的非现实假设之上:

算法蒸馏 (AD) : 需要强化学习算法的 完整学习过程——从随机初始化到最优收敛——作为上下文。数据需求极高，只适用于简短的情节性环境。
决策预训练 Transformer (DPT) : 简化了上下文设计，但要求在每个查询状态处都能获得 最优策略 来标记动作。
决策重要性 Transformer (DIT) : 尝试无需完美标签，通过基于未来累计回报 (returns-to-go) 对上下文转移进行加权。然而，它仍需超过 30% 的上下文数据来自训练充分的策略才能取得良好覆盖。

当理想策略难以获得或无法训练时，这些方案均不切实际。SAD 则打破了这一瓶颈: 它不再需要专家轨迹，而是直接从 随机探索 中提取信号。

状态-动作蒸馏 (SAD) : 在随机性中寻找秩序

SAD 的关键洞见既优雅又出人意料: 即使是随机行为，只要方式得当，也能揭示出潜在的最优性模式。

SAD 并非模仿随机策略，而是从其生成的原始数据中蒸馏出最具潜力的状态-动作决策。如下图所示的概念流程展示了如何将均匀随机性转化为结构化的学习信号。

状态-动作蒸馏方法的示意图，展示了从随机策略交互、环境上下文到基础模型预训练的数据流。

图 1: SAD 方法流程。(i) 收集随机上下文。(ii) 采样一个查询状态。(iii) 在信任域内测试所有可能的动作，选择期望回报最高的动作。(iv) 使用这些蒸馏样本对基础模型进行预训练。

步骤 1 — 收集随机上下文

一个随机 (通常是均匀) 策略与多个预训练环境交互，收集如 (s, a, r, s') 的状态转移数据。这些随机转移直接用于构建上下文 \(\mathcal{C}\)。重要的是，它们不需要形成完整的片段，从而使数据收集简单且低成本。

步骤 2 — 采样查询状态

从环境的状态空间中随机采样一个状态 \(s_q\)。

步骤 3 — 蒸馏动作标签 (关键步骤)

这是 SAD 的核心。对每个查询状态，我们对每个可能的动作进行短期模拟 (rollout) ，以确定初始动作在后续随机行为下能获得的最高回报。

具体而言:

对每个动作 \(a \in A\)，启动一个长度为 \(N\) 的短剧集，第一步动作为 \(a\)，之后均执行随机策略。
计算该短剧集的折扣奖励总和。
平均回报最高的动作被选为 蒸馏标签 \(a_l\)。

参数 \(N\) 定义了 信任域 (Trust Horizon) ——即我们认为随机交互在多长时间内仍能提供有意义的比较依据的时间窗口。尽管行为是随机的，在这个局部域内优化回报却出奇地有效。

步骤 4 — 监督式预训练

每个 (上下文, 查询状态, 动作标签) 三元组成为一个训练样本。Transformer 模型以自回归、监督的方式进行训练 (可采用 NLL 或 MSE 损失函数) 。区别在于，SAD 的标签源自蒸馏的随机探索，而非专家策略。

我们真的能相信随机策略吗？

这是核心问题。为何在随机探索下表现最佳的动作，能够与真正的最优动作相关联？

答案在于 可信度 (trustworthiness) : 即当信任域 \(N\) 足够大时，SAD 的选择与最优策略一致的概率。

作者理论上证明，对于某些环境——尤其是奖励稀疏且目标唯一的情境——随机策略与最优策略往往在最佳动作的判断上趋于一致。形式化地表示为:

\[ \underset{a\in A}{\operatorname{arg\,max}} Q^{\pi}_{MDP}(s_q, a) = \underset{a\in A}{\operatorname{arg\,max}} Q^{*}_{MDP}(s_q, a), \quad \forall s_q \in S. \]

例如，在简单的网格世界导航中，无论是最优策略还是随机策略，都倾向于选择向目标移动的方向——尽管之后的行为完全随机。

一个包含五个状态 (s0–s4) 的一维网格世界。目标 (星号) 位于 s0，动作为向左或向右移动。

图 2: 网格世界 MDP 示例。最优策略与随机策略都偏向向目标状态移动，因为这能最大化期望折扣回报。

作者以两个定理形式化了这一观察:

定理 1 (多臂赌博机) : 当每个臂都被充分采样后，随机策略变得 \((1-\delta)\)-可信——其可信度随信任域 \(N\) 呈对数增长。
定理 2 (MDP) : 对于具折扣回报的环境，其可信度随域长度 \(N\) 及每个动作评估的剧集数 \(N_{\text{ep}}\) 增加而提升。

简而言之，扩大信任域可减少不确定性: 观察随机行为的时间越长，其最佳短期动作与真正最优动作一致的概率越高。

实验验证: 让随机性发挥作用

为了验证 SAD 的有效性，作者将其与领先的 ICRL 算法——AD、DPT、DIT——以及使用最优动作标签的预言机 DPT* 进行了比较。所有模型的架构与超参数完全一致，以确保公平性，并均在纯随机策略数据上训练。

采取了两种评估设置:

离线评估: 智能体使用固定的随机上下文数据集进行决策。
在线评估: 智能体在新环境中交互并逐步积累上下文。

赌博机任务

在经典高斯和伯努利赌博机问题上，SAD 相较所有基线都显示出显著优势。它表现出更低的次优性和更小的累积遗憾，几乎达到使用完美标签训练的预言机 DPT* 的水平。

赌博机任务结果。SAD (紫色) 在离线与在线评估中均取得最低次优性和累积遗憾，优于 AD、DPT 和 DIT，并接近预言机 DPT*。

图 3: 赌博机任务的离线 (a, c) 与在线 (b, d) 评估。SAD 始终优于所有基线。

导航任务: Darkroom 与 Miniworld

随后，团队在具有稀疏单一目标奖励的导航任务上测试了 SAD，这类任务是 ICRL 的传统挑战基准。

在 Darkroom 和 Darkroom-Large 中，SAD 在离线及在线设置下都取得了显著更高的回报。

Darkroom 导航任务结果。与所有基线相比，SAD (紫色) 取得最高回报，接近预言机性能。

图 4: Darkroom 与 Darkroom-Large 的离线 (a, c) 及在线 (b, d) 性能。

同样的趋势出现在高维像素输入的 3D Miniworld 任务中。SAD 再次超越其他基于随机策略的基线，即便没有微调，也实现了约二分之一的预言机回报。

3D Miniworld 任务结果。SAD 超越其他随机策略基线，验证了其在像素环境中的鲁棒性。

图 5: 即便在复杂视觉条件下，SAD 仍保持优越性能。

总体而言，在五项基准测试中，SAD 相较最佳基线 (DIT) 在离线评估中性能提升 236.3%，在在线评估中提升 135.2%。在完全未使用专家策略的前提下，这一成果极为卓越。

消融研究: 剖析 SAD 的关键要素

作者进一步探讨了两个关键因素的影响: 信任域 \(N\) 与 Transformer 架构参数。

1. 信任域

实证结果印证了理论预测。

在赌博机任务中，性能随信任域延长而单调提升，因为更多样本能改进奖励估计。
在像 Darkroom 这样的 MDP 中，存在一个最佳中间值——过小的 \(N\) 限制探索，过大的 \(N\) 则使训练分散。实验表明 \(N=7\) 效果最佳。

信任域消融研究。赌博机任务 (a, b) 中更长域提升性能；Darkroom (c, d) 中中等长度达到最佳效果。

图 6: 平衡信任域长度 \(N\) 对最大化 SAD 性能至关重要。

2. Transformer 架构鲁棒性

SAD 对 Transformer 规模调整 (包括注意力头数与层数) 表现出高度鲁棒性。这表明性能提升主要得益于数据生成过程，而非特定架构微调。

Transformer 超参数消融研究。SAD 在不同注意力头与层数下保持稳定回报。

图 7: 无论 Transformer 超参数配置如何，SAD 性能始终稳定。

结论: 无需专家的真实世界 ICRL

状态-动作蒸馏 (SAD) 实现了以往 ICRL 算法无法做到的目标——无需专家策略即可进行实用、可扩展的训练。

通过运用 信任域 原理并从随机推演中蒸馏最优动作，SAD 将廉价、非结构化数据成功转化为强化学习基础模型的有效预训练材料。

关键要点:

无需专家数据: SAD 完全依赖随机策略交互数据。
在随机性中提炼洞见: 短期推演揭示足够信息以实现最优决策。
显著性能提升: SAD 在随机数据训练下全面超越所有基线，接近预言机水平。
鲁棒且可扩展: 适用于从赌博机到 3D 导航的各类离散动作环境。

当前研究聚焦于离散动作空间，但将 SAD 扩展至连续域与多智能体场景是未来研究的令人期待的方向。最终，SAD 展示了一个重要理念:** 从随机中学习并非弱点，而是通往通用上下文智能的道路**。

现代 ICRL 的瓶颈#

状态-动作蒸馏 (SAD) : 在随机性中寻找秩序#

步骤 1 — 收集随机上下文#

步骤 2 — 采样查询状态#

步骤 3 — 蒸馏动作标签 (关键步骤)#

步骤 4 — 监督式预训练#

我们真的能相信随机策略吗？#

实验验证: 让随机性发挥作用#

赌博机任务#

导航任务: Darkroom 与 Miniworld#

消融研究: 剖析 SAD 的关键要素#

1. 信任域#

2. Transformer 架构鲁棒性#

结论: 无需专家的真实世界 ICRL#