过去十年向我们展示了大型数据集的惊人力量。从 ImageNet 引发计算机视觉革命,到海量文本语料库催生出 GPT 这样的模型,事实显而易见: 数据是现代机器学习的命脉。然而,最激动人心的领域之一——强化学习 (RL) ——在很大程度上一直被排除在这种数据驱动的范式之外。
传统上,强化学习智能体通过与环境进行主动的在线交互来学习——玩游戏、控制机器人、模拟交易——通过试错来构建策略。这种方法虽然强大,但在现实世界中往往不切实际、成本高昂或充满危险。我们不能让一辆自动驾驶汽车通过数千次碰撞来“探索”,也不能在医疗保健领域进行鲁莽的实验。
设想一下,我们是否可以利用海量的现有数据来训练强化学习智能体?想想人类驾驶汽车的日志、医疗治疗记录,或者网站的用户交互数据。这就是**离线强化学习 **(也称批量强化学习) 的潜力所在: 从一个固定的数据集中学习有效的策略,无需与环境进行任何进一步的交互。离线强化学习将数据丰富的监督学习世界与强化学习的序列决策能力结合了起来。
但问题在于,直到最近,这个领域都缺少一个合适的试验场。离线强化学习算法的测试数据集多是在受控环境中收集的,无法反映真实世界数据的复杂性、混乱性和偏差。这造成了一种进步的假象。2020 年,来自加州大学伯克利分校和谷歌大脑的研究人员发表的论文 “D4RL: Datasets for Deep Data-Driven Reinforcement Learning” 直面了这一问题。他们创建了一个旨在将离线强化学习推向极限,并暴露其薄弱环节的基准。
在本文中,我们将探讨 D4RL 出现的必要性,解析其背后的设计原则,并看看它所带来的挑战性任务揭示了离线强化学习的现状。
图 1: 提议的基准测试任务选集,包括迷宫导航、城市驾驶、交通流控制和机器人操控。
离线强化学习的挑战: 戴着镣铐学习
要理解 D4RL 的影响力,我们首先需要明白为什么离线强化学习如此困难。
在标准的在线强化学习中,智能体与环境持续交互: 观察状态 → 执行动作 → 接收奖励 → 重复。如果遇到不熟悉的情况,它可以进行探索来收集新的经验。训练数据的分布会随着智能体策略的演进而不断变化。
在离线强化学习中,智能体得到的是一个由某个未知“行为”策略 \(\pi_B\) 生成的固定数据集 \(\mathcal{D}\)。它的目标是学习一个能最大化奖励的新策略 \(\pi\)——但它只能使用 \(\mathcal{D}\) 中的数据,不能尝试新的动作并观察结果。
这就造成了分布偏移问题: 学习到的策略 \(\pi\) 会提出与数据集中不同的动作。对于这些分布外的动作,其价值估计往往不可靠。而在强化学习中,误差会自举 (bootstrap) ——不断累积,直到整个策略崩溃。
早期的离线强化学习基准通过使用在线训练智能体收集的干净数据集,避免了这些最严重的问题。但 D4RL 的作者认为,真实数据要混乱得多,一个好的基准必须反映这一点。
设计更好的基准: D4RL 的核心原则
D4RL 的构建旨在揭示真实世界应用中常见、但在以往离线强化学习基准中代表性不足的挑战。作者们重点关注了五个测试平台特性:
1. 狭窄且有偏的数据
真实数据集通常来自确定性策略或遵循单一固定流程的专家。这类数据只覆盖很小一部分状态和动作,使得泛化困难,也更容易过拟合。D4RL 包含了由人类和控制器生成的数据集,以着重测试这一局限。
2. 无引导和多任务数据
被动记录的数据很少会遵循解决目标任务所需的单一轨迹。数据集中可能包含有用的行为片段,但没有任何完整的解决方案路径。
离线智能体必须将子轨迹拼接起来,形成一个成功的解决方案。
图 2: 拼接示意图——组合不同轨迹的片段以创建新路径。
3. 稀疏奖励
在稀疏奖励问题中,唯一的反馈只在任务完全成功时才会出现,这使得信用分配变得非常棘手。在离线模式下,探索被移除,算法追溯长动作链中奖励的能力被单独考验。
4. 次优和混合质量数据
许多数据集混合了专家行为与中等甚至糟糕的决策。一个强大的离线强化学习算法应该学习到一个比平均行为更优的策略,而不仅仅是模仿它。D4RL 通过混合策略数据集对此进行了明确测试。
5. 真实且复杂的数据源
面向现实领域的离线强化学习意味着需要处理:
- 人类演示,其具有丰富多变性,且可能不满足马尔可夫性质。
- 手工构建的控制器,其行为可能是确定性的。
- 部分可观测性,如在视觉自动驾驶中,状态信息并非完整可见。
D4RL 环境概览
D4RL 集成了多个不同领域,每个领域都旨在检验上述一个或多个原则。
Maze2D 与 AntMaze: 压力下的拼接
Maze2D 任务要求一个质点在迷宫中导航至目标。AntMaze 则增加了复杂性: 需要控制一个具有 8 自由度的四足机器人,并采用稀疏奖励。在这两个环境中,规划器生成的轨迹都朝向随机目标,与评估目标无关。成功需要拼接不同的路径片段。
图 3: Maze2D 布局展示了简单和中等难度的导航挑战。
图 4: AntMaze 增加了动态复杂性和稀疏奖励条件。
Gym-MuJoCo: 经典任务,全新演绎
Hopper、HalfCheetah 和 Walker2d 等运动任务是强化学习领域的经典。D4RL 为离线学习重新构建了它们:
- random: 来自未经训练策略的数据。
- medium: 来自部分训练策略的数据。
- medium-replay: 在 medium 策略训练过程中累积的数据。
- medium-expert: 50% medium + 50% 专家数据,用于测试对混合策略的处理能力。
图 5: 为离线强化学习场景改造的运动基准任务。
Adroit: 源自人类的灵巧操控
Adroit 任务涉及控制一个 24 自由度的模拟手执行精细操作——例如钉钉子、开门等。稀疏奖励让在线 RL 在此类任务中屡屡受挫。D4RL 包含了人类演示数据集以及基于这些演示微调的专家策略,用于考察从狭窄而高质量的人类数据中学习的能力。
图 6: 使用人类提供数据的灵巧操控任务。
Franka Kitchen 与 CARLA: 真实性与泛化
针对逼真的多任务场景和感官挑战:
Franka Kitchen:
一个机械臂需要完成多个厨房任务的组合。最难的数据集 (mixed
) 仅包含部分任务的轨迹——要求组合那些未曾同时出现过的子技能。
CARLA:
一个高保真驾驶模拟器,提供第一人称 RGB 视觉输入。智能体必须使用由控制器生成的数据沿车道行驶或在小镇中导航,应对视觉复杂性和部分可观测性挑战。
图 7: Franka Kitchen 多任务设置。
图 8: CARLA 测试在部分可观测条件下的感知和控制能力。
现有算法表现如何?
D4RL 的作者不仅设计了该基准,还依照严格协议评估了主流离线强化学习算法: 先在指定的训练任务上调整超参数,再在未经接触的评估任务上测量性能。这可防止对测试设定过拟合,从而得到更真实的性能估计。
总体结果 (图 9) 显示,表现最佳的方法与专家水平之间仍存在明显差距。
图 9: 所有领域的平均归一化性能。没有一种方法能够持续达到专家水平的表现。
主要结论:
- 熟悉领域优势明显: Gym-MuJoCo 和 Adroit 专家数据集上得分最高——与此前大多数工作使用的熟悉、干净策略数据一致。
- 拼接任务难度极高: 需要轨迹拼接的任务 (Maze2D、AntMaze、Franka Kitchen mixed) 难住了大多数方法,凸显了组合性与泛化能力的重要性。
- 混合数据陷阱: medium-expert 数据集相较 medium-only 提升甚微,表明在噪声中有效利用高质量部分仍具挑战。
- 稀疏奖励潜力: 在 Adroit 与 AntMaze 中,离线方法常优于在线 SAC,证明了离线 RL 在探索受限场景中的优势潜力。
图 10: 按领域的性能差异突显了各类算法的长处与短板。
结论: 树立新标准
D4RL 论文是离线强化学习领域的一个里程碑。它有力地论证了,进步依赖于能反映真实世界数据混乱复杂性的基准——而不仅仅是干净、合成的数据集。
通过聚焦于拼接、多质量数据处理、狭窄专家演示以及真实感官输入等挑战,D4RL 为我们更全面地描绘了算法的优势与不足。它表明,即便对分布偏移的理解有所提升,泛化、组合性与信用分配仍然是亟待解决的问题。
D4RL 既是一个诊断工具,也是一个开发平台。它提供了一套广泛可得且具有挑战性的任务,为构建与测试新思路提供了共同场所——加速我们迈向能从现有海量数据中安全、高效学习的强化学习智能体。