Papers

[G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection 🔗](https://arxiv.org/abs/2402.04672)

超越晴天：G-NAS 如何让目标检测器在黑暗中也能看清

想象一辆自动驾驶汽车，其人工智能系统在数千小时明亮、晴朗的加州日间视频中接受训练。它能以惊人的准确度识别行人、汽车和骑行者。现在，把这辆车开到伦敦雾气弥漫的清晨、西雅图细雨蒙蒙的傍晚，或东京午夜灯光昏暗的街道。它还能依然表现得完美无缺吗？这正是现代计算机视觉领域最大挑战之一的核心:** 域泛化 (domain generalization)** 。模型在某个特定环境 (一个“域”) 中训练后，部署到新的、未见过的环境时，往往会表现不佳。而当你只能从单一源域的数据中学习时，这个问题会更加棘手。这个具体、现实且艰难的挑战被称为单域泛化目标检测 (Single Domain Generalization Object Detection, S-DGOD) 。图 1: S-DGOD 的设定旨在从单一源域学习并泛化到多个未见过的目标域。这需要从源域中提取因果特征，以实现域外 (Out-of-Domain, OoD) 泛化。最近的一篇论文 G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection 直击这一问题。研究人员提出了一种方法，不仅仅是训练一个模型，而是设计出一种全新的神经网络架构，专门针对泛化能力进行优化。他们将神经架构搜索 (NAS) 的强大能力与一个巧妙的新损失函数结合起来，引导网络避免过拟合。结果令人印象深刻。这种名为 G-NAS 的方法，即使在其他最先进模型束手无策的极端挑战场景下，也能准确检测物体。图 2: G-NAS 在 S-DGOD 任务中的预测结果 (类别: 置信度) 。框的颜色表示物体类别。G-NAS 在极具挑战性的环境中也能稳定检测。在本文中，我们将深入探讨: 伪相关性的核心问题，以及为什么它们是泛化的敌人。可微分神经架构搜索 (NAS) 的工作原理。作者的关键创新:** 可泛化损失 (G-loss)** 。令人瞩目的实验结果，展示了 G-NAS 在 S-DGOD 领域创造了新的 SOTA (最先进水平) 。过拟合陷阱: 为什么泛化如此困难深度神经网络是极其强大的模式识别器——但有时它们会抓错“重点”。在单一域上训练时，它们往往会学到一些“容易”的特征，这些特征在训练数据中与标签相关，但在其他环境下却毫无意义。这些就是伪相关性 (spurious correlations) 。 ...

[EvoPrompting: Language Models for Code-Level Neural Architecture Search 🔗](https://arxiv.org/abs/2302.14838)

EvoPrompting：如何将语言模型进化为 AI 架构大师

像 GPT-4 和 PaLM 这样的大型语言模型 (LLM) 在编写代码方面已经表现得惊人地出色。只要给它们一段描述，它们就能生成功能脚本、网页组件，甚至是复杂的算法。不过，根据明确的规格编写代码是一回事，从零开始设计出真正新颖且高性能的东西则是另一回事。LLM 能否发明一种全新的、最先进的神经网络架构？如果你只是简单地要求 LLM “设计一个更好的神经网络”，结果往往不尽如人意。这项任务过于复杂，可能架构的搜索空间浩如烟海，而模型缺乏一种结构化的迭代改进方法。这正是一篇引人入胜的新论文《EvoPrompting: 将语言模型用于代码级神经架构搜索》 (EvoPrompting: Language Models for Code-Level Neural Architecture Search) 所要直面解决的问题。研究人员提出了一个绝妙的解决方案: 不要将 LLM 当作一次性的代码生成器，而是将其嵌入到演化算法中。通过结合演化的迭代优化能力与 LLM 广博的编码知识，他们创造了一个能够自动发现神经网络架构的系统，其性能超越人类设计和现有的最先进模型。这种名为 EvoPrompting 的新方法不仅仅是一个巧妙的技巧，它更是一种在复杂设计任务中使用 LLM 作为创造性合作伙伴的新范式。挑战: 为 AI 寻找完美的蓝图在深入探讨 EvoPrompting 的工作原理之前，我们先来了解一下 **神经架构搜索 **(Neural Architecture Search, NAS) 的背景知识。想象一下，你正在制造世界上最快的汽车。你有数不清的组件可供选择——不同的引擎、变速器、底盘类型、空气动力套件——而性能不仅取决于单个部件，还取决于它们如何相互配合。找到最优组合是一个极其困难的搜索问题。 NAS 与此类似，只不过对象是 AI 模型。我们手里的不是汽车零件，而是神经网络组件——卷积层、注意力机制、激活函数等。目标是自动化地设计网络的“蓝图”或架构，从而在给定任务上实现最佳性能。最强大的 NAS 方法之一是使用演化算法，模拟自然选择过程: 初始化一个种群，包含随机或简单的架构。评估每个架构: 训练它们并衡量性能 (即“适应度”) 。选择表现最好的架构作为“父代”。生成子代: 应用**变异 (小幅修改) 和交叉 **(混合父代特征) 。重复以上步骤多代。随着时间推移，种群会演化出更好的架构。但传统的演化 NAS 有一个关键局限——它受限于人类预先定义的搜索空间。研究者必须先规定算法可选的构件 (例如，“使用 3×3 或 5×5 卷积”) 。这种限制会抑制创造力，甚至阻碍真正新颖设计的诞生。 ...

[NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/1611.01578)

如何训练一个 AI 来设计其他 AI：深入解析神经架构搜索

设计一个最先进的神经网络通常被形容为一门“玄学”。它需要深厚的专业知识、无数小时的实验，以及相当程度的直觉。从 AlexNet、VGGNet 到 ResNet 和 DenseNet，每一个突破性的架构都是人类煞费苦心设计的产物。但如果我们能将这个过程自动化呢？如果我们不再手动设计架构，而是设计一种能够学习如何为我们设计架构的算法呢？这正是《使用强化学习的神经架构搜索》 (“Neural Architecture Search with Reinforcement Learning”) 这篇 2017 年由 Google Brain 研究人员发表的论文背后的开创性思想。作者们提出了一个系统，其中一个被称为控制器 (Controller) 的 AI 能够从零开始生成高性能的神经网络架构。控制器会随着时间推移不断提升，探索广阔的设计空间，发现新颖的架构，这些架构能够媲美——甚至有时超越——最佳的人类设计。在本文中，我们将深入探讨如何使用一个神经网络去设计另一个神经网络，探索使之成为可能的强化学习技术，并审视那些帮助开启自动化机器学习新时代的惊人成果。架构工程的挑战在我们探索 NAS 解决方案之前，先来理解这一问题。在深度学习中，进步往往与架构创新密不可分。虽然超参数调整 (寻找合适的学习率、批量大小、优化器) 已然具有挑战性，但设计网络的架构则更加复杂。架构师必须决定: 深度: 模型应该有多少层？层类型: 卷积？循环？池化？还是某种组合？每层参数: 滤波器尺寸、步幅大小、单元数量。连接方式: 顺序堆叠？像 ResNet 那样的跳跃连接？还是像 DenseNet 那样的密集连接？可能性的空间巨大。传统的超参数优化方法——如随机搜索、贝叶斯优化——适合处理固定长度的参数集，但在设计复杂的、有条件的、可变长度的架构时则显得捉襟见肘。神经架构搜索 (NAS) 将架构设计本身重新定义为一个学习问题。核心思想: AI 架构师作者的方法在两个核心组件之间创建了一个反馈循环: 控制器 (Controller) : 一个循环神经网络 (RNN) ，生成一系列描述网络架构的 token —— 即蓝图。子网络 (Child Network) : 由蓝图定义的网络，在 CIFAR-10 等真实数据上进行训练。奖励评估 (Reward Assessment) : 训练完成后，子网络在验证集上的准确率作为奖励信号。控制器更新 (Controller Update) : 使用强化学习更新控制器的参数，使其倾向于选择能带来更好奖励的架构。这一循环如图 1 所示，会重复数千次。随着时间推移，控制器会成为一个更熟练的“AI 架构师”。 ...

[Less is More: Recursive Reasoning with Tiny Networks 🔗](https://arxiv.org/abs/2510.04871)

少即是多：微型递归网络如何在复杂谜题上超越巨型 AI 模型

像 GPT-4 和 Gemini 这样的大型语言模型 (LLMs) 是计算领域的巨擘，能够编写代码、创作诗歌并回答各种各样的问题。但尽管它们功能强大，却有一个致命弱点: 复杂的多步推理谜题。像解决棘手的数独或破译 ARC-AGI 基准测试中的抽象模式这样的任务，即使是最先进的 LLM 也可能出错。它们自回归、逐个 token 的生成过程意味着一个错误就可能导致整个解答脱轨，并且没有简单的方法可以回溯和修正。研究人员已经开发出像思维链 (CoT) 提示这样的技术，来引导 LLMs 进行循序渐进的“思考”，这有所帮助但并未解决核心问题。那么，如果我们不去构建越来越大的模型，而是设计出更小、更高效、并且擅长这种迭代推理的系统，会怎么样呢？最近的一篇论文《少即是多: 使用微型网络进行递归推理》正是探讨了这个问题。作者们引入了微型递归模型 (TRM) ，这是一个异常小而简单的模型，在那些困扰大型 LLM 的谜题上取得了惊人的性能。TRM 的参数量少至 700 万——不到 GPT-3 等模型规模的 0.01%——却在数独、迷宫和 ARC-AGI 等基准测试中创造了新的最先进记录。本文将深入探讨 TRM 的工作原理。我们首先会了解它的前身——分层推理模型 (HRM) ，以理解其构建的基础。然后，我们将剖析使 TRM 如此高效的精妙简化设计。最后，我们将审视那些令人惊叹的结果，它们证明了有时候，少即是多。背景: 分层推理 (HRM) 的前景与复杂性 TRM 并非凭空出现——它直接演进自一个名为分层推理模型 (HRM) 的模型。HRM 是一种新颖的方法，它通过使用两个相互递归调用的小型神经网络来优化解答，展现出了巨大潜力。其设计灵感来源于关于大脑如何处理不同频率信息的复杂生物学论证。让我们来分解一下 HRM 的关键组成部分: 递归分层推理 HRM 使用两个网络: 一个低层网络 \(f_L\) 和一个高层网络 \(f_H\)。\(f_L\) 以高频率递归处理细粒度细节，而 \(f_H\) 则以较低频率递归来整合信息。这两个网络在两个潜在特征向量上操作: \(z_L\) 和 \(z_H\)。 ...

[UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS 🔗](https://arxiv.org/abs/1511.06434)

DCGAN 详解：利用生成式 AI 解锁无监督学习的力量

在计算机视觉领域，卷积神经网络 (CNN) 多年来一直是无可争议的王者。只要给 CNN 足够多的猫狗标注图片，它就能以超人的准确度将它们区分开来。这就是监督学习，它为现代 AI 应用从照片标记到医学影像提供了强大驱动力。但当你没有标签时会怎样？互联网上充斥着数十亿张图片，但只有极少部分被整齐地分类。这就是无监督学习的挑战: 模型能否从海量且杂乱的无标签数据中，学习到关于视觉世界的有意义、可复用的知识？长期以来，无监督学习的进展一直慢于监督学习。直到 2014 年，机器学习界引入了生成对抗网络 (GAN) ——一个巧妙的框架，让两个神经网络在一场充满创意的对决中相互竞争。这个想法精彩绝伦，但实现起来却困难重重: 早期 GAN 常常极不稳定，生成的结果充满噪声且毫无意义。 2015 年，Radford、Metz 和 Chintala 发表了关键论文《使用深度卷积生成对抗网络的无监督表示学习》。作者提出了一种特定类型的 GAN——DCGAN，并总结出一套架构指南，终于让深度卷积 GAN 的训练稳定了下来。结果令人惊叹: DCGAN 生成的图像更加逼真，更令人惊讶的是，它在没有任何标签的情况下，学会了对物体、场景和纹理进行丰富的、层次化的表示。本文，我们将解析 DCGAN 论文: 它的工作原理、突破点，以及它为我们揭示的神经网络隐藏结构的奥秘。背景: 快速回顾 GAN 在深入 DCGAN 之前，先回顾一下生成对抗网络的基本结构: 生成器 (G): 可以把它想象成艺术家。它的任务是创造看起来逼真的假数据。它从一个随机噪声向量 (称为潜向量，\( z \)) 开始，并将其转换成一个可信的图像。判别器 (D): 相当于侦探。它的任务是分辨训练数据集中的真实图像与生成器创造的假图像。训练是一场零和博弈: 生成器试图用逼真的假图像欺骗判别器。判别器则竭力避免上当。两者同步学习。随着判别器能力的提升，生成器必须创造更高质量的假图像才能跟上，最终生成的图像将越来越真实。挑战在于，GAN 在小型、简单数据集上效果不错，但扩展到可生成高分辨率图像的深度卷积架构时，常常会导致训练不稳定甚至模型崩溃。 DCGAN 的配方: 稳定训练的架构指南 DCGAN 的论文并未提出全新的算法，而是总结了一套配方——一组特定的架构原则——大幅提升了深度卷积 GAN 的训练稳定性。 1. 用步进卷积 (Strided Convolutions) 替代池化层传统 CNN 常用池化层 (如 MaxPooling) 来缩小空间维度。DCGAN 用可学习的步进卷积取代: ...

[Denoising Diffusion Probabilistic Models 🔗](https://arxiv.org/abs/2006.11239)

从噪声到高保真图像——深入解读去噪扩散模型

在过去十年中，人工智能以能够从零生成逼真图像、音频和文本的深度生成模型令世界惊叹。我们见证了生成对抗网络 (GANs) 生成栩栩如生的人像，也看到了变分自编码器 (VAEs) 学习到丰富的潜在表示。但在 2020 年，一篇来自加州大学伯克利分校研究人员的论文 *Denoising Diffusion Probabilistic Models *(去噪扩散概率模型) 改变了这一领域的格局。这项工作介绍了一类新的模型，其思想源于 2015 年首次探索的非平衡热力学。研究首次证明，这类模型能够生成极高质量的图像，足以媲美甚至在某些情况下超越最顶尖的 GANs。这些模型现在被广泛称为**去噪扩散模型 **(DDPMs) ，其运作原理优美而直观: 从一张清晰的图像开始。不断添加噪声逐步将其破坏。通过一步步逆转加噪过程，学习如何重建原始图像。这种“先蓄意破坏，再学习修复”的思路，被证明是捕捉真实世界数据中复杂统计规律的极其有效的方法。图 1: 从 CelebA-HQ (左) 和无条件 CIFAR10 (右) 生成的高质量样本。双向过程: 扩散模型的工作原理扩散模型的核心由两个相反的过程组成: 前向过程: 系统地向图像中添加噪声。反向过程: 学习去除噪声。图 2: 前向 (加噪) 和反向 (去噪) 过程的马尔可夫链结构。 ...

[Reflection: Language Agents with Verbal Reinforcement Learning 🔗](https://arxiv.org/abs/2303.11366)

超越试错：LLM 智能体如何通过自言自语进行学习

大型语言模型 (LLM) 正在突破聊天机器人的限制。我们越来越多地看到它们为自主智能体提供支持，这些智能体可以与软件交互、玩游戏、浏览网页以完成复杂目标。但有个问题: 当这些智能体犯错时，它们如何学会不再重蹈覆辙？在人工智能领域，传统的答案是强化学习 (RL) ——一种试错过程，智能体因良好行为而获得奖励，因不良行为受到惩罚。然而，将传统的强化学习应用于庞大的大型语言模型，过程极其缓慢且计算成本高昂，通常需要历时数月的训练并消耗巨大的 GPU 资源来微调数十亿个参数。因此，如今大多数 LLM 智能体只能依靠提示词中少量精心设计的示例进行学习。如果有一种更好的方法呢？如果智能体几乎可以即时地从错误中学习，而无需任何昂贵的重新训练呢？这正是这篇引人入胜的新论文——《Reflexion: 通过语言强化学习的语言智能体》背后的核心思想。研究人员提出了一个框架，其中 LLM 智能体不仅仅是尝试、失败、再重试，而是尝试、失败，停下来思考失败的原因，然后依靠这种自我反思来指导下一次尝试。这个简单而强大的**“语言强化”**理念带来了惊人的成果。在一个具有挑战性的编码基准测试中，一个 Reflexion 智能体取得了 91% 的 pass@1 准确率，大幅超越 GPT-4 的 80% 得分。让我们深入探讨。从经验中学习的难题想象一下，你让一个由 LLM 驱动的智能体在文本冒险游戏中执行一个任务，比如: 任务: “把平底锅洗干净，然后放到台面上。” 智能体可能会生成: > take pan from stoveburner 观察: 没有任何反应。 > clean pan with sink 观察: 没有任何反应。智能体失败了。一个标准智能体可能只会用一种略有不同的随机方法再试一次，可能还会重复同样的错误。它收到一个直接的“失败”信号，但在信号分配 (credit assignment) 上存在困难——即弄清长序列中哪一步导致了失败。在这个例子中，智能体幻觉出平底锅在炉子上，但实际上并没有。最后的“失败”信号并没有告诉它，它最初的假设就是错的。传统的强化学习会通过运行成千上万甚至数百万次试验来解决这个问题，逐步将模型的内部权重从错误选择上偏移。但 Reflexion 提出: 我们能否更高效地做到这一点，像人类一样？在人类失败时，我们常常会反思: “啊，我明白了——平底锅不在炉子上。下次，我应该先环顾四周找到平底锅。” Reflexion 的设计正是为了赋予 LLM 智能体这种能力。 ...

[CURL: Contrastive Unsupervised Representations for Reinforcement Learning 🔗](https://arxiv.org/abs/2004.04136)

从像素学习的速度大幅提升：深入解析 CURL

强化学习 (RL) 已经让我们拥有了能够精通复杂视频游戏、控制模拟机器人，甚至抓取现实世界物体的智能体。然而，一个长期困扰该领域的问题是: RL 是出了名的数据饥渴。一个智能体通常需要与环境进行数百万次交互才能学会一项任务。在高速模拟中，这还好——但在现实世界中，一个机械臂可能需要几秒钟才能执行一次动作，这可能意味着数月甚至数年的训练时间。当智能体直接从*原始像素 *(例如来自摄像头的画面) 中学习时，问题会更加严重。虽然人类可以毫不费力地理解视觉输入，但对 RL 智能体来说，图像只是一个高维数字数组。相比之下，如果提供干净、结构化的“状态”信息 (如关节角度或位置) ，智能体的学习会容易得多。然而在许多现实场景中，这种完美的状态信息并不存在，我们只有像素。这种样本效率低下的问题一直是限制 RL 在机器人等领域发展的主要瓶颈。但如果我们能在智能体尝试学习控制之前，先让它理解这些像素——提取有意义的高级特征，会怎样呢？这正是加州大学伯克利分校研究人员提出 CURL (Contrastive Unsupervised Representations for Reinforcement Learning，用于强化学习的对比无监督表示) 的核心思想。CURL 将标准的 RL 算法与来自计算机视觉的强大对比学习技术相结合。结果是: 一个能以前所未有的样本效率从像素中学习的智能体，其性能几乎能与那些可以访问环境真实状态的智能体相媲美。背景: RL、自监督与对比学习在深入了解 CURL 之前，让我们先回顾一些基础知识。从像素进行强化学习大多数基于图像的 RL 算法都采用 **Actor-Critic **(演员-评论家) 框架: 演员 (策略) : 选择动作以最大化预期未来奖励。评论家 (价值函数) : 评估每个动作的好坏，预测未来奖励。演员和评论家相互促进——评论家指导演员，而演员的探索为评论家生成经验。对于 DeepMind Control Suite 中的连续控制任务，CURL 使用 Soft Actor-Critic (SAC)，这是一种强大的离策略 (off-policy) 算法。SAC 不仅优化高奖励，还优化高策略熵，以鼓励探索。 SAC 的评论家 \( Q_{\phi_i} \) 最小化贝尔曼误差: \[ \mathcal{L}(\phi_i, \mathcal{B}) = \mathbb{E}_{t \sim \mathcal{B}} \left[ \left( Q_{\phi_i}(o, a) - (r + \gamma(1 - d)\mathcal{T}) \right)^2 \right] \]目标值为: ...

[Decision Transformer: Reinforcement Learning via Sequence Modeling 🔗](https://arxiv.org/abs/2106.01345)

Decision Transformer：当语言模型学会玩游戏

如果你能像完成一句话那样去解决一个复杂的强化学习问题，会怎么样？这正是 Decision Transformer 背后激进而强大的思想——一篇重塑了整个序列决策领域的论文。数十年来，强化学习 (RL) 一直由学习价值函数和策略梯度的算法主导，这些算法常常要应对时间信用分配、自举不稳定性以及折扣因子等复杂问题。但如果我们能绕开这一切呢？过去几年，我们见证了 Transformer 架构的惊人力量。像 GPT-3 这样的模型，仅通过预测序列中的下一个词元 (token)，就能写诗、编程、撰写文章。语言建模的这一成功引发了一个深刻的问题: 这种简单、可扩展且强大的序列建模范式，是否可以应用到强化学习中？ Decision Transformer: Reinforcement Learning via Sequence Modeling 这篇论文的作者给出了响亮的肯定。他们提出了一个框架，将整个强化学习轨迹——状态、动作和回报——当作一个词元序列，就像一句话。这样，他们便能训练一个 GPT 风格的模型，在给定期望结果的条件下，通过生成正确动作来“补全”序列。这种优雅的方法不仅可行，而且在具有挑战性的基准测试中性能与最先进的方法相当甚至更优——无需传统强化学习中的贝尔曼备份、时间差分学习或显式价值函数。一个直观的例子想象你要在一个图中寻找最短路径。传统的强化学习可能会探索、为节点分配价值，并慢慢将这些价值反向传播到更早的状态。而 Decision Transformer 的方法不同。它类似于在成千上万条图上随机游走的轨迹记录上进行训练，每条记录都记载了经过的路径和最终的路径长度。在测试时，你提示模型: “给我一条尽可能短的路径。”模型利用它学到的序列与结果之间的模式，生成一组最优的移动步骤。图 1: Decision Transformer 概念的直观示例。模型在图中的随机游走数据 (中) 上进行训练，然后通过设定高期望回报作为条件，生成通向目标的最优最短路径 (右) 。在本文中，我们将探讨 Decision Transformer 的工作原理。我们会介绍离线强化学习和 Transformer 架构，逐步剖析模型设计，并分析其实验结果。正是这些结果，使这篇论文成为强化学习研究的一个里程碑。背景知识: 铺垫要理解 Decision Transformer，需要掌握两个关键概念:** 离线强化学习** 和 Transformer。离线强化学习在经典 (“在线”) 强化学习中，智能体通过和环境主动交互来学习——尝试动作、观察奖励，并通过试错更新策略。虽然强大，但在机器人、自动驾驶等现实应用中可能非常缓慢、成本高甚至不安全。离线强化学习提供了另一种方式: 智能体完全基于一个固定的、已收集的轨迹数据集来学习。该数据集可能包含专家演示、次优策略甚至随机探索。智能体必须在不进行额外数据采集的情况下提取出最优策略。难点在于，如果它做出糟糕选择，可能会落入数据中从未出现的状态。在这些状态下，价值估计可能极不准确，导致策略崩溃。许多离线强化学习算法通过**策略约束 (限制动作接近数据集中动作) 或价值悲观主义 **(故意低估未见状态-动作对) 来应对。稍后我们会看到，Decision Transformer 完全绕过了这些复杂性。 Transformer: 现代人工智能引擎 Transformer 依靠自注意力机制在序列建模中表现出色。对于序列中的每个词元，模型会计算: ...

[D4RL: DATASETS FOR DEEP DATA-DRIVEN REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/2004.07219)

超越在线训练：介绍用于真实世界离线强化学习的 D4RL

过去十年向我们展示了大型数据集的惊人力量。从 ImageNet 引发计算机视觉革命，到海量文本语料库催生出 GPT 这样的模型，事实显而易见: 数据是现代机器学习的命脉。然而，最激动人心的领域之一——强化学习 (RL) ——在很大程度上一直被排除在这种数据驱动的范式之外。传统上，强化学习智能体通过与环境进行主动的在线交互来学习——玩游戏、控制机器人、模拟交易——通过试错来构建策略。这种方法虽然强大，但在现实世界中往往不切实际、成本高昂或充满危险。我们不能让一辆自动驾驶汽车通过数千次碰撞来“探索”，也不能在医疗保健领域进行鲁莽的实验。设想一下，我们是否可以利用海量的现有数据来训练强化学习智能体？想想人类驾驶汽车的日志、医疗治疗记录，或者网站的用户交互数据。这就是**离线强化学习 **(也称批量强化学习) 的潜力所在: 从一个固定的数据集中学习有效的策略，无需与环境进行任何进一步的交互。离线强化学习将数据丰富的监督学习世界与强化学习的序列决策能力结合了起来。但问题在于，直到最近，这个领域都缺少一个合适的试验场。离线强化学习算法的测试数据集多是在受控环境中收集的，无法反映真实世界数据的复杂性、混乱性和偏差。这造成了一种进步的假象。2020 年，来自加州大学伯克利分校和谷歌大脑的研究人员发表的论文 “D4RL: Datasets for Deep Data-Driven Reinforcement Learning” 直面了这一问题。他们创建了一个旨在将离线强化学习推向极限，并暴露其薄弱环节的基准。在本文中，我们将探讨 D4RL 出现的必要性，解析其背后的设计原则，并看看它所带来的挑战性任务揭示了离线强化学习的现状。图 1: 提议的基准测试任务选集，包括迷宫导航、城市驾驶、交通流控制和机器人操控。离线强化学习的挑战: 戴着镣铐学习要理解 D4RL 的影响力，我们首先需要明白为什么离线强化学习如此困难。在标准的在线强化学习中，智能体与环境持续交互: 观察状态 → 执行动作 → 接收奖励 → 重复。如果遇到不熟悉的情况，它可以进行探索来收集新的经验。训练数据的分布会随着智能体策略的演进而不断变化。在离线强化学习中，智能体得到的是一个由某个未知“行为”策略 \(\pi_B\) 生成的固定数据集 \(\mathcal{D}\)。它的目标是学习一个能最大化奖励的新策略 \(\pi\)——但它只能使用 \(\mathcal{D}\) 中的数据，不能尝试新的动作并观察结果。这就造成了分布偏移问题: 学习到的策略 \(\pi\) 会提出与数据集中不同的动作。对于这些分布外的动作，其价值估计往往不可靠。而在强化学习中，误差会自举 (bootstrap) ——不断累积，直到整个策略崩溃。早期的离线强化学习基准通过使用在线训练智能体收集的干净数据集，避免了这些最严重的问题。但 D4RL 的作者认为，真实数据要混乱得多，一个好的基准必须反映这一点。设计更好的基准: D4RL 的核心原则 D4RL 的构建旨在揭示真实世界应用中常见、但在以往离线强化学习基准中代表性不足的挑战。作者们重点关注了五个测试平台特性: 1. 狭窄且有偏的数据真实数据集通常来自确定性策略或遵循单一固定流程的专家。这类数据只覆盖很小一部分状态和动作，使得泛化困难，也更容易过拟合。D4RL 包含了由人类和控制器生成的数据集，以着重测试这一局限。 ...