如果你能像完成一句话那样去解决一个复杂的强化学习问题,会怎么样?这正是 Decision Transformer 背后激进而强大的思想——一篇重塑了整个序列决策领域的论文。数十年来,强化学习 (RL) 一直由学习价值函数和策略梯度的算法主导,这些算法常常要应对时间信用分配、自举不稳定性以及折扣因子等复杂问题。但如果我们能绕开这一切呢?

过去几年,我们见证了 Transformer 架构的惊人力量。像 GPT-3 这样的模型,仅通过预测序列中的下一个词元 (token),就能写诗、编程、撰写文章。语言建模的这一成功引发了一个深刻的问题: 这种简单、可扩展且强大的序列建模范式,是否可以应用到强化学习中?

Decision Transformer: Reinforcement Learning via Sequence Modeling 这篇论文的作者给出了响亮的肯定。他们提出了一个框架,将整个强化学习轨迹——状态、动作和回报——当作一个词元序列,就像一句话。这样,他们便能训练一个 GPT 风格的模型,在给定期望结果的条件下,通过生成正确动作来“补全”序列。这种优雅的方法不仅可行,而且在具有挑战性的基准测试中性能与最先进的方法相当甚至更优——无需传统强化学习中的贝尔曼备份、时间差分学习或显式价值函数。


一个直观的例子

想象你要在一个图中寻找最短路径。传统的强化学习可能会探索、为节点分配价值,并慢慢将这些价值反向传播到更早的状态。而 Decision Transformer 的方法不同。它类似于在成千上万条图上随机游走的轨迹记录上进行训练,每条记录都记载了经过的路径和最终的路径长度。在测试时,你提示模型: “给我一条尽可能短的路径。”模型利用它学到的序列与结果之间的模式,生成一组最优的移动步骤。

一张图示,展示了如何将图搜索问题转化为序列模型输入,包括原始图、随机游走数据集和生成的最优路径。

图 1: Decision Transformer 概念的直观示例。模型在图中的随机游走数据 (中) 上进行训练,然后通过设定高期望回报作为条件,生成通向目标的最优最短路径 (右) 。


在本文中,我们将探讨 Decision Transformer 的工作原理。我们会介绍离线强化学习和 Transformer 架构,逐步剖析模型设计,并分析其实验结果。正是这些结果,使这篇论文成为强化学习研究的一个里程碑。

背景知识: 铺垫

要理解 Decision Transformer,需要掌握两个关键概念:** 离线强化学习** 和 Transformer

离线强化学习

在经典 (“在线”) 强化学习中,智能体通过和环境主动交互来学习——尝试动作、观察奖励,并通过试错更新策略。虽然强大,但在机器人、自动驾驶等现实应用中可能非常缓慢、成本高甚至不安全。

离线强化学习提供了另一种方式: 智能体完全基于一个固定的、已收集的轨迹数据集来学习。该数据集可能包含专家演示、次优策略甚至随机探索。智能体必须在不进行额外数据采集的情况下提取出最优策略。

难点在于,如果它做出糟糕选择,可能会落入数据中从未出现的状态。在这些状态下,价值估计可能极不准确,导致策略崩溃。许多离线强化学习算法通过**策略约束 (限制动作接近数据集中动作) 或价值悲观主义 **(故意低估未见状态-动作对) 来应对。稍后我们会看到,Decision Transformer 完全绕过了这些复杂性。

Transformer: 现代人工智能引擎

Transformer 依靠自注意力机制在序列建模中表现出色。对于序列中的每个词元,模型会计算:

  1. 查询 (Query, Q): “我要找什么信息?”
  2. 键 (Key, K): “我拥有什么信息?”
  3. 值 (Value, V): “我能提供什么信息?”

它将每个词元的查询向量与所有词元的键向量比较,通过点积得到相关性分数,再用这些分数对值向量加权,得到加权和:

\[ z_{i} = \sum_{j=1}^{n} \operatorname{softmax}(\{\langle q_{i}, k_{j'} \rangle\}_{j'=1}^{n})_{j} \cdot v_{j} \]

这让模型可以在相隔很远的序列元素之间建立联系并分配信用,这对语言理解和强化学习中的信用分配都至关重要。

Decision Transformer 采用 GPT 风格架构,在自注意力中使用因果掩码。这样,当前词元的预测只能依赖先前词元,非常适合逐步生成动作。


核心方法: 将强化学习视作序列建模

Decision Transformer 重新定义了强化学习目标: 它不是直接学习策略 \(\pi(a|s)\),而是建模轨迹的联合分布,并通过条件生成产生通向目标结果的动作。

新的轨迹表示

标准强化学习轨迹为:
\((s_1, a_1, r_1, s_2, a_2, r_2, \dots)\)

Decision Transformer 不使用原始奖励 \(r_t\),而是使用未来回报总和 (return-to-go):

\[ \hat{R}_t = \sum_{t'=t}^T r_{t'} \]

轨迹词元变为:

\[ \tau = (\widehat{R}_1, s_1, a_1, \widehat{R}_2, s_2, a_2, \dots, \widehat{R}_T, s_T, a_T) \]

给定状态 \(s_t\) 和期望未来回报 \(\widehat{R}_t\),模型学习: “哪个动作 \(a_t\) 能让我达到目标?”

架构

Decision Transformer 架构图,展示了状态、动作和回报嵌入被送入因果 Transformer 以预测下一个动作。

图 2: Decision Transformer 架构。未来回报总和、状态和动作经过嵌入,并加上时间步位置编码。GPT 风格的因果 Transformer 预测下一个动作。

步骤:

  1. 输入嵌入: 最近 \(K\) 个时间步产生 \(3K\) 个词元 (\(\widehat{R}, s, a\)) ,通过特定模态的层嵌入 (图像用 CNN,其他用线性层) 。
  2. 时间步位置编码: 为每个时间步学习的嵌入,使 \(\widehat{R}_t, s_t, a_t\) 在时间上对齐。
  3. 因果 Transformer: GPT 用带掩码的自注意力处理嵌入序列。
  4. 预测头: 每个状态词元的输出预测对应动作 (离散用交叉熵,连续用均方误差) 。

测试时生成

使用模型流程:

  1. 设定**目标回报 **(如专家得分) 。
  2. 观察初始状态 \(s_1\)。
  3. 输入 \((target\_return, s_1)\) → 预测 \(a_1\)。
  4. 执行 \(a_1\),得到新状态 \(s_2\) 和奖励 \(r_1\)。
  5. 更新回报: \(R_{new} = target\_return - r_1\)。
  6. 追加到序列,重复直到回合结束。

通过追踪递减的目标回报,模型会生成引向初始目标的动作序列。


实验与结果

基准测试:** Atari **(视觉、离散) 、**OpenAI Gym/D4RL **(连续控制) 、Key-to-Door (长期信用分配) 。对比方法: 保守 Q 学习 (CQL)行为克隆 (BC)

分组条形图,比较 Decision Transformer (蓝) 、TD 学习 (绿) 、行为克隆 (橙) 在不同基准下的表现。

图 3: 在多种任务中,Decision Transformer 与 TD 学习及模仿学习基线相当或更优。


Atari 和连续控制

Atari 1% 数据集: 玩家归一化分数:

游戏DT (本文方法)CQLQR-DQNREMBC
Breakout267.5 ± 97.5211.117.18.9138.9 ± 61.7
Qbert15.4 ± 11.4104.20.00.017.3 ± 14.7
Pong106.1 ± 8.1111.918.00.585.2 ± 20.0
Seaquest2.5 ± 0.41.70.40.72.1 ± 0.3

D4RL 连续控制:

数据集环境DT (本文方法)CQLBEARBRAC-vAWRBC
Medium-ExpHalfCheetah86.8 ± 1.362.453.441.952.759.9
Medium-ExpHopper107.6 ± 1.8111.096.30.827.179.6
Medium-ExpWalker108.1 ± 0.298.740.181.653.836.6
MediumHopper67.6 ± 1.058.052.131.135.963.9
Medium-RepHopper82.7 ± 7.048.633.70.628.427.6
Medium-RepWalker66.6 ± 3.026.719.20.915.536.9

DT 始终表现出色或更优。


只是克隆最优行为吗?

百分位行为克隆 (%BC) 只在排名前 X% 的轨迹上训练。

低数据 (Atari 1%) 环境下,%BC 明显弱于 DT,说明 DT 可利用整个分布中的轨迹——无论好坏。


可控性

多环境下实际回报与目标回报对比图。

图 4: 实际回报 (蓝) 紧随期望目标回报 (绿) 。橙色标记了数据集中最佳轨迹。

DT 能匹配期望回报,甚至可超过数据集中最大值 (如 Seaquest) ,这是通过拼接多个轨迹的最优片段实现的。


上下文与长期信用

短上下文 (\(K=1\)) 会降低性能。长上下文增强对策略风格与技能的学习。

Key-to-Door:
智能体需在第一阶段捡钥匙,通过第二阶段干扰区,在第三阶段开门才能获奖。

数据集DTCQLBC%BCRandom
1K 随机轨迹71.8%13.1%1.4%69.9%3.1%
10K 随机轨迹94.6%13.3%1.6%95.1%3.1%

模型预测成功概率与注意力权重图,显示模型关注关键事件。

图 5: (左) 捡钥匙后模型成功概率飙升。 (右) 注意力集中在捡钥匙和开门事件,实现直接信用分配。

自注意力可跨时间连接关键事件,无需缓慢的时间差分传播。


结论与启示

Decision Transformer 标志着一种范式转变——将强化学习视作条件序列建模问题,用一个简单、可扩展的 Transformer 取代了数十年的复杂 RL 算法。

核心要点:

  • 简洁性: 无需价值函数或策略梯度——只是对序列的监督学习。
  • 上下文: 长历史让长期信用分配变得简单。
  • 可控性: 期望回报作为提示,使策略可控,甚至支持外推。

这一方法可能催生强化学习基础模型,先在多样化行为数据集上训练,再针对任务微调。若扩展到在线学习,可将强大的行为建模与主动探索结合。

Decision Transformer 不仅提供了一种算法,更提供了一种新视角: 通用、强大智能体的未来,或许不再依赖价值估计,而是学会行动的语言