如果你能像完成一句话那样去解决一个复杂的强化学习问题,会怎么样?这正是 Decision Transformer 背后激进而强大的思想——一篇重塑了整个序列决策领域的论文。数十年来,强化学习 (RL) 一直由学习价值函数和策略梯度的算法主导,这些算法常常要应对时间信用分配、自举不稳定性以及折扣因子等复杂问题。但如果我们能绕开这一切呢?
过去几年,我们见证了 Transformer 架构的惊人力量。像 GPT-3 这样的模型,仅通过预测序列中的下一个词元 (token),就能写诗、编程、撰写文章。语言建模的这一成功引发了一个深刻的问题: 这种简单、可扩展且强大的序列建模范式,是否可以应用到强化学习中?
Decision Transformer: Reinforcement Learning via Sequence Modeling 这篇论文的作者给出了响亮的肯定。他们提出了一个框架,将整个强化学习轨迹——状态、动作和回报——当作一个词元序列,就像一句话。这样,他们便能训练一个 GPT 风格的模型,在给定期望结果的条件下,通过生成正确动作来“补全”序列。这种优雅的方法不仅可行,而且在具有挑战性的基准测试中性能与最先进的方法相当甚至更优——无需传统强化学习中的贝尔曼备份、时间差分学习或显式价值函数。
一个直观的例子
想象你要在一个图中寻找最短路径。传统的强化学习可能会探索、为节点分配价值,并慢慢将这些价值反向传播到更早的状态。而 Decision Transformer 的方法不同。它类似于在成千上万条图上随机游走的轨迹记录上进行训练,每条记录都记载了经过的路径和最终的路径长度。在测试时,你提示模型: “给我一条尽可能短的路径。”模型利用它学到的序列与结果之间的模式,生成一组最优的移动步骤。
图 1: Decision Transformer 概念的直观示例。模型在图中的随机游走数据 (中) 上进行训练,然后通过设定高期望回报作为条件,生成通向目标的最优最短路径 (右) 。
在本文中,我们将探讨 Decision Transformer 的工作原理。我们会介绍离线强化学习和 Transformer 架构,逐步剖析模型设计,并分析其实验结果。正是这些结果,使这篇论文成为强化学习研究的一个里程碑。
背景知识: 铺垫
要理解 Decision Transformer,需要掌握两个关键概念:** 离线强化学习** 和 Transformer。
离线强化学习
在经典 (“在线”) 强化学习中,智能体通过和环境主动交互来学习——尝试动作、观察奖励,并通过试错更新策略。虽然强大,但在机器人、自动驾驶等现实应用中可能非常缓慢、成本高甚至不安全。
离线强化学习提供了另一种方式: 智能体完全基于一个固定的、已收集的轨迹数据集来学习。该数据集可能包含专家演示、次优策略甚至随机探索。智能体必须在不进行额外数据采集的情况下提取出最优策略。
难点在于,如果它做出糟糕选择,可能会落入数据中从未出现的状态。在这些状态下,价值估计可能极不准确,导致策略崩溃。许多离线强化学习算法通过**策略约束 (限制动作接近数据集中动作) 或价值悲观主义 **(故意低估未见状态-动作对) 来应对。稍后我们会看到,Decision Transformer 完全绕过了这些复杂性。
Transformer: 现代人工智能引擎
Transformer 依靠自注意力机制在序列建模中表现出色。对于序列中的每个词元,模型会计算:
- 查询 (Query, Q): “我要找什么信息?”
- 键 (Key, K): “我拥有什么信息?”
- 值 (Value, V): “我能提供什么信息?”
它将每个词元的查询向量与所有词元的键向量比较,通过点积得到相关性分数,再用这些分数对值向量加权,得到加权和:
\[ z_{i} = \sum_{j=1}^{n} \operatorname{softmax}(\{\langle q_{i}, k_{j'} \rangle\}_{j'=1}^{n})_{j} \cdot v_{j} \]这让模型可以在相隔很远的序列元素之间建立联系并分配信用,这对语言理解和强化学习中的信用分配都至关重要。
Decision Transformer 采用 GPT 风格架构,在自注意力中使用因果掩码。这样,当前词元的预测只能依赖先前词元,非常适合逐步生成动作。
核心方法: 将强化学习视作序列建模
Decision Transformer 重新定义了强化学习目标: 它不是直接学习策略 \(\pi(a|s)\),而是建模轨迹的联合分布,并通过条件生成产生通向目标结果的动作。
新的轨迹表示
标准强化学习轨迹为:
\((s_1, a_1, r_1, s_2, a_2, r_2, \dots)\)
Decision Transformer 不使用原始奖励 \(r_t\),而是使用未来回报总和 (return-to-go):
\[ \hat{R}_t = \sum_{t'=t}^T r_{t'} \]轨迹词元变为:
\[ \tau = (\widehat{R}_1, s_1, a_1, \widehat{R}_2, s_2, a_2, \dots, \widehat{R}_T, s_T, a_T) \]给定状态 \(s_t\) 和期望未来回报 \(\widehat{R}_t\),模型学习: “哪个动作 \(a_t\) 能让我达到目标?”
架构
图 2: Decision Transformer 架构。未来回报总和、状态和动作经过嵌入,并加上时间步位置编码。GPT 风格的因果 Transformer 预测下一个动作。
步骤:
- 输入嵌入: 最近 \(K\) 个时间步产生 \(3K\) 个词元 (\(\widehat{R}, s, a\)) ,通过特定模态的层嵌入 (图像用 CNN,其他用线性层) 。
- 时间步位置编码: 为每个时间步学习的嵌入,使 \(\widehat{R}_t, s_t, a_t\) 在时间上对齐。
- 因果 Transformer: GPT 用带掩码的自注意力处理嵌入序列。
- 预测头: 每个状态词元的输出预测对应动作 (离散用交叉熵,连续用均方误差) 。
测试时生成
使用模型流程:
- 设定**目标回报 **(如专家得分) 。
- 观察初始状态 \(s_1\)。
- 输入 \((target\_return, s_1)\) → 预测 \(a_1\)。
- 执行 \(a_1\),得到新状态 \(s_2\) 和奖励 \(r_1\)。
- 更新回报: \(R_{new} = target\_return - r_1\)。
- 追加到序列,重复直到回合结束。
通过追踪递减的目标回报,模型会生成引向初始目标的动作序列。
实验与结果
基准测试:** Atari **(视觉、离散) 、**OpenAI Gym/D4RL **(连续控制) 、Key-to-Door (长期信用分配) 。对比方法: 保守 Q 学习 (CQL)、行为克隆 (BC)。
图 3: 在多种任务中,Decision Transformer 与 TD 学习及模仿学习基线相当或更优。
Atari 和连续控制
Atari 1% 数据集: 玩家归一化分数:
游戏 | DT (本文方法) | CQL | QR-DQN | REM | BC |
---|---|---|---|---|---|
Breakout | 267.5 ± 97.5 | 211.1 | 17.1 | 8.9 | 138.9 ± 61.7 |
Qbert | 15.4 ± 11.4 | 104.2 | 0.0 | 0.0 | 17.3 ± 14.7 |
Pong | 106.1 ± 8.1 | 111.9 | 18.0 | 0.5 | 85.2 ± 20.0 |
Seaquest | 2.5 ± 0.4 | 1.7 | 0.4 | 0.7 | 2.1 ± 0.3 |
D4RL 连续控制:
数据集 | 环境 | DT (本文方法) | CQL | BEAR | BRAC-v | AWR | BC |
---|---|---|---|---|---|---|---|
Medium-Exp | HalfCheetah | 86.8 ± 1.3 | 62.4 | 53.4 | 41.9 | 52.7 | 59.9 |
Medium-Exp | Hopper | 107.6 ± 1.8 | 111.0 | 96.3 | 0.8 | 27.1 | 79.6 |
Medium-Exp | Walker | 108.1 ± 0.2 | 98.7 | 40.1 | 81.6 | 53.8 | 36.6 |
Medium | Hopper | 67.6 ± 1.0 | 58.0 | 52.1 | 31.1 | 35.9 | 63.9 |
Medium-Rep | Hopper | 82.7 ± 7.0 | 48.6 | 33.7 | 0.6 | 28.4 | 27.6 |
Medium-Rep | Walker | 66.6 ± 3.0 | 26.7 | 19.2 | 0.9 | 15.5 | 36.9 |
DT 始终表现出色或更优。
只是克隆最优行为吗?
百分位行为克隆 (%BC) 只在排名前 X% 的轨迹上训练。
低数据 (Atari 1%) 环境下,%BC 明显弱于 DT,说明 DT 可利用整个分布中的轨迹——无论好坏。
可控性
图 4: 实际回报 (蓝) 紧随期望目标回报 (绿) 。橙色标记了数据集中最佳轨迹。
DT 能匹配期望回报,甚至可超过数据集中最大值 (如 Seaquest) ,这是通过拼接多个轨迹的最优片段实现的。
上下文与长期信用
短上下文 (\(K=1\)) 会降低性能。长上下文增强对策略风格与技能的学习。
Key-to-Door:
智能体需在第一阶段捡钥匙,通过第二阶段干扰区,在第三阶段开门才能获奖。
数据集 | DT | CQL | BC | %BC | Random |
---|---|---|---|---|---|
1K 随机轨迹 | 71.8% | 13.1% | 1.4% | 69.9% | 3.1% |
10K 随机轨迹 | 94.6% | 13.3% | 1.6% | 95.1% | 3.1% |
图 5: (左) 捡钥匙后模型成功概率飙升。 (右) 注意力集中在捡钥匙和开门事件,实现直接信用分配。
自注意力可跨时间连接关键事件,无需缓慢的时间差分传播。
结论与启示
Decision Transformer 标志着一种范式转变——将强化学习视作条件序列建模问题,用一个简单、可扩展的 Transformer 取代了数十年的复杂 RL 算法。
核心要点:
- 简洁性: 无需价值函数或策略梯度——只是对序列的监督学习。
- 上下文: 长历史让长期信用分配变得简单。
- 可控性: 期望回报作为提示,使策略可控,甚至支持外推。
这一方法可能催生强化学习基础模型,先在多样化行为数据集上训练,再针对任务微调。若扩展到在线学习,可将强大的行为建模与主动探索结合。
Decision Transformer 不仅提供了一种算法,更提供了一种新视角: 通用、强大智能体的未来,或许不再依赖价值估计,而是学会行动的语言。