Decision Transformer：当语言模型学会玩游戏

如果你能像完成一句话那样去解决一个复杂的强化学习问题，会怎么样？这正是 Decision Transformer 背后激进而强大的思想——一篇重塑了整个序列决策领域的论文。数十年来，强化学习 (RL) 一直由学习价值函数和策略梯度的算法主导，这些算法常常要应对时间信用分配、自举不稳定性以及折扣因子等复杂问题。但如果我们能绕开这一切呢？

过去几年，我们见证了 Transformer 架构的惊人力量。像 GPT-3 这样的模型，仅通过预测序列中的下一个词元 (token)，就能写诗、编程、撰写文章。语言建模的这一成功引发了一个深刻的问题: 这种简单、可扩展且强大的序列建模范式，是否可以应用到强化学习中？

Decision Transformer: Reinforcement Learning via Sequence Modeling 这篇论文的作者给出了响亮的肯定。他们提出了一个框架，将整个强化学习轨迹——状态、动作和回报——当作一个词元序列，就像一句话。这样，他们便能训练一个 GPT 风格的模型，在给定期望结果的条件下，通过生成正确动作来“补全”序列。这种优雅的方法不仅可行，而且在具有挑战性的基准测试中性能与最先进的方法相当甚至更优——无需传统强化学习中的贝尔曼备份、时间差分学习或显式价值函数。

一个直观的例子

想象你要在一个图中寻找最短路径。传统的强化学习可能会探索、为节点分配价值，并慢慢将这些价值反向传播到更早的状态。而 Decision Transformer 的方法不同。它类似于在成千上万条图上随机游走的轨迹记录上进行训练，每条记录都记载了经过的路径和最终的路径长度。在测试时，你提示模型: “给我一条尽可能短的路径。”模型利用它学到的序列与结果之间的模式，生成一组最优的移动步骤。

一张图示，展示了如何将图搜索问题转化为序列模型输入，包括原始图、随机游走数据集和生成的最优路径。

图 1: Decision Transformer 概念的直观示例。模型在图中的随机游走数据 (中) 上进行训练，然后通过设定高期望回报作为条件，生成通向目标的最优最短路径 (右) 。

在本文中，我们将探讨 Decision Transformer 的工作原理。我们会介绍离线强化学习和 Transformer 架构，逐步剖析模型设计，并分析其实验结果。正是这些结果，使这篇论文成为强化学习研究的一个里程碑。

背景知识: 铺垫

要理解 Decision Transformer，需要掌握两个关键概念:** 离线强化学习** 和 Transformer。

离线强化学习

在经典 (“在线”) 强化学习中，智能体通过和环境主动交互来学习——尝试动作、观察奖励，并通过试错更新策略。虽然强大，但在机器人、自动驾驶等现实应用中可能非常缓慢、成本高甚至不安全。

离线强化学习提供了另一种方式: 智能体完全基于一个固定的、已收集的轨迹数据集来学习。该数据集可能包含专家演示、次优策略甚至随机探索。智能体必须在不进行额外数据采集的情况下提取出最优策略。

难点在于，如果它做出糟糕选择，可能会落入数据中从未出现的状态。在这些状态下，价值估计可能极不准确，导致策略崩溃。许多离线强化学习算法通过**策略约束 (限制动作接近数据集中动作) 或价值悲观主义 **(故意低估未见状态-动作对) 来应对。稍后我们会看到，Decision Transformer 完全绕过了这些复杂性。

Transformer: 现代人工智能引擎

Transformer 依靠自注意力机制在序列建模中表现出色。对于序列中的每个词元，模型会计算:

查询 (Query, Q): “我要找什么信息？”
键 (Key, K): “我拥有什么信息？”
值 (Value, V): “我能提供什么信息？”

它将每个词元的查询向量与所有词元的键向量比较，通过点积得到相关性分数，再用这些分数对值向量加权，得到加权和:

\[ z_{i} = \sum_{j=1}^{n} \operatorname{softmax}(\{\langle q_{i}, k_{j'} \rangle\}_{j'=1}^{n})_{j} \cdot v_{j} \]

这让模型可以在相隔很远的序列元素之间建立联系并分配信用，这对语言理解和强化学习中的信用分配都至关重要。

Decision Transformer 采用 GPT 风格架构，在自注意力中使用因果掩码。这样，当前词元的预测只能依赖先前词元，非常适合逐步生成动作。

核心方法: 将强化学习视作序列建模

Decision Transformer 重新定义了强化学习目标: 它不是直接学习策略 \(\pi(a|s)\)，而是建模轨迹的联合分布，并通过条件生成产生通向目标结果的动作。

新的轨迹表示

标准强化学习轨迹为:
\((s_1, a_1, r_1, s_2, a_2, r_2, \dots)\)

Decision Transformer 不使用原始奖励 \(r_t\)，而是使用未来回报总和 (return-to-go):

\[ \hat{R}_t = \sum_{t'=t}^T r_{t'} \]

轨迹词元变为:

\[ \tau = (\widehat{R}_1, s_1, a_1, \widehat{R}_2, s_2, a_2, \dots, \widehat{R}_T, s_T, a_T) \]

给定状态 \(s_t\) 和期望未来回报 \(\widehat{R}_t\)，模型学习: “哪个动作 \(a_t\) 能让我达到目标？”

架构

Decision Transformer 架构图，展示了状态、动作和回报嵌入被送入因果 Transformer 以预测下一个动作。

图 2: Decision Transformer 架构。未来回报总和、状态和动作经过嵌入，并加上时间步位置编码。GPT 风格的因果 Transformer 预测下一个动作。

步骤:

输入嵌入: 最近 \(K\) 个时间步产生 \(3K\) 个词元 (\(\widehat{R}, s, a\)) ，通过特定模态的层嵌入 (图像用 CNN，其他用线性层) 。
时间步位置编码: 为每个时间步学习的嵌入，使 \(\widehat{R}_t, s_t, a_t\) 在时间上对齐。
因果 Transformer: GPT 用带掩码的自注意力处理嵌入序列。
预测头: 每个状态词元的输出预测对应动作 (离散用交叉熵，连续用均方误差) 。

测试时生成

使用模型流程:

设定**目标回报 **(如专家得分) 。
观察初始状态 \(s_1\)。
输入 \((target\_return, s_1)\) → 预测 \(a_1\)。
执行 \(a_1\)，得到新状态 \(s_2\) 和奖励 \(r_1\)。
更新回报: \(R_{new} = target\_return - r_1\)。
追加到序列，重复直到回合结束。

通过追踪递减的目标回报，模型会生成引向初始目标的动作序列。

实验与结果

基准测试:** Atari **(视觉、离散) 、**OpenAI Gym/D4RL **(连续控制) 、Key-to-Door (长期信用分配) 。对比方法: 保守 Q 学习 (CQL)、行为克隆 (BC)。

分组条形图，比较 Decision Transformer (蓝) 、TD 学习 (绿) 、行为克隆 (橙) 在不同基准下的表现。

图 3: 在多种任务中，Decision Transformer 与 TD 学习及模仿学习基线相当或更优。

Atari 和连续控制

Atari 1% 数据集: 玩家归一化分数:

游戏	DT (本文方法)	CQL	QR-DQN	REM	BC
Breakout	267.5 ± 97.5	211.1	17.1	8.9	138.9 ± 61.7
Qbert	15.4 ± 11.4	104.2	0.0	0.0	17.3 ± 14.7
Pong	106.1 ± 8.1	111.9	18.0	0.5	85.2 ± 20.0
Seaquest	2.5 ± 0.4	1.7	0.4	0.7	2.1 ± 0.3

D4RL 连续控制:

数据集	环境	DT (本文方法)	CQL	BEAR	BRAC-v	AWR	BC
Medium-Exp	HalfCheetah	86.8 ± 1.3	62.4	53.4	41.9	52.7	59.9
Medium-Exp	Hopper	107.6 ± 1.8	111.0	96.3	0.8	27.1	79.6
Medium-Exp	Walker	108.1 ± 0.2	98.7	40.1	81.6	53.8	36.6
Medium	Hopper	67.6 ± 1.0	58.0	52.1	31.1	35.9	63.9
Medium-Rep	Hopper	82.7 ± 7.0	48.6	33.7	0.6	28.4	27.6
Medium-Rep	Walker	66.6 ± 3.0	26.7	19.2	0.9	15.5	36.9

DT 始终表现出色或更优。

只是克隆最优行为吗？

百分位行为克隆 (%BC) 只在排名前 X% 的轨迹上训练。

低数据 (Atari 1%) 环境下，%BC 明显弱于 DT，说明 DT 可利用整个分布中的轨迹——无论好坏。

可控性

多环境下实际回报与目标回报对比图。

图 4: 实际回报 (蓝) 紧随期望目标回报 (绿) 。橙色标记了数据集中最佳轨迹。

DT 能匹配期望回报，甚至可超过数据集中最大值 (如 Seaquest) ，这是通过拼接多个轨迹的最优片段实现的。

上下文与长期信用

短上下文 (\(K=1\)) 会降低性能。长上下文增强对策略风格与技能的学习。

Key-to-Door:
智能体需在第一阶段捡钥匙，通过第二阶段干扰区，在第三阶段开门才能获奖。

数据集	DT	CQL	BC	%BC	Random
1K 随机轨迹	71.8%	13.1%	1.4%	69.9%	3.1%
10K 随机轨迹	94.6%	13.3%	1.6%	95.1%	3.1%

模型预测成功概率与注意力权重图，显示模型关注关键事件。

图 5: (左) 捡钥匙后模型成功概率飙升。 (右) 注意力集中在捡钥匙和开门事件，实现直接信用分配。

自注意力可跨时间连接关键事件，无需缓慢的时间差分传播。

结论与启示

Decision Transformer 标志着一种范式转变——将强化学习视作条件序列建模问题，用一个简单、可扩展的 Transformer 取代了数十年的复杂 RL 算法。

核心要点:

简洁性: 无需价值函数或策略梯度——只是对序列的监督学习。
上下文: 长历史让长期信用分配变得简单。
可控性: 期望回报作为提示，使策略可控，甚至支持外推。

这一方法可能催生强化学习基础模型，先在多样化行为数据集上训练，再针对任务微调。若扩展到在线学习，可将强大的行为建模与主动探索结合。

Decision Transformer 不仅提供了一种算法，更提供了一种新视角: 通用、强大智能体的未来，或许不再依赖价值估计，而是学会行动的语言。

一个直观的例子#

背景知识: 铺垫#

离线强化学习#

Transformer: 现代人工智能引擎#

核心方法: 将强化学习视作序列建模#

新的轨迹表示#

架构#

测试时生成#

实验与结果#

Atari 和连续控制#

只是克隆最优行为吗？#

可控性#

上下文与长期信用#

结论与启示#