别重训,只需转向: DSRL 如何通过潜在空间适配扩散机器人
在快速发展的机器人学习领域, 行为克隆 (Behavioral Cloning, BC) 已成为主导范式。通过收集人类演示 (遥操作) 并训练神经网络来模仿这些动作,我们已经使机器人能够执行令人印象深刻的操作任务。最近, 扩散模型 (Diffusion Models)——DALL-E 和 Stable Diffusion 背后的同款技术——已经接管了机器人领域,提供了能够以高精度建模复杂、多模态动作分布的策略。
但这里有个问题。
BC 策略很脆弱。如果机器人遇到的场景与训练数据略有不同,或者人类演示并不完美,机器人就会失败。在“开放世界”中,我们不可能为每一个边缘情况都收集演示。我们需要机器人能够从自己的错误中学习并进行在线适配。
通常,我们转向强化学习 (RL) 来解决这个问题。但将 RL 应用于扩散策略简直是噩梦。它通常需要通过深度迭代去噪过程反向传播梯度,这不仅计算昂贵而且不稳定。或者,它需要微调巨大的“通才”模型 (如 \(\pi_0\)) ,这会破坏它们预训练的能力 (灾难性遗忘) 。
如果我们完全不需要触碰神经网络的权重呢?
在加州大学伯克利分校、华盛顿大学和亚马逊的研究人员发表的一篇引人入胜的新论文《Steering Your Diffusion Policy with Latent Space Reinforcement Learning》中,他们提出了一个聪明的变通方案。他们不建议重新训练机器人的“大脑”,而是建议优化“思想的源头”——即注入扩散模型的随机噪声。
这种方法被称为基于强化学习的扩散转向 (Diffusion Steering via Reinforcement Learning, DSRL) , 它将预训练策略视为固定的引擎,只学习如何驾驶它。结果这是一种样本效率极高的方法,仅需简单的黑盒访问即可适配巨大的基础模型。
让我们深入了解它是如何工作的。
问题所在: 高昂的适配成本
要理解 DSRL,我们首先需要看看为什么现有的方法举步维艰。
扩散策略范式
在标准的扩散策略中,机器人观察状态 \(s\) (例如,摄像头图像) 。为了决定动作,它从标准高斯分布 (\(\boldsymbol{w} \sim \mathcal{N}(0, I)\)) 中采样一个随机噪声向量 \(\boldsymbol{w}\)。然后,它以状态 \(s\) 为条件,逐步对该向量进行“去噪”,以产生动作 \(\boldsymbol{a}\)。
这对于模仿数据非常有效。但是,如果你想使用 RL (奖励) 来改进策略,你通常只有两个糟糕的选择:
- 重训整个模型: 你将扩散模型参数视为策略权重。这很慢,而且容易破坏预训练的行为。
- 随时间反向传播 (Backprop through time): 你试图通过对整个去噪链 (可能有 20 到 100 步) 进行微分来计算权重变化如何影响最终动作。这对内存要求很高,且数值上不稳定。
DSRL 的洞见
作者提出了一个不同的问题: 为什么输入噪声总是随机的?
在标准部署中,我们假设 \(\boldsymbol{w}\) 必须是随机高斯噪声。但从数学上讲,去噪过程 (特别是使用 DDIM 或流匹配时) 是一个确定性函数 。 如果你固定状态 \(s\) 并固定噪声 \(\boldsymbol{w}\),输出动作 \(\boldsymbol{a}\) 总是相同的。
这意味着扩散策略实际上只是一个函数 \(f(s, w) = a\)。
如果机器人没能抓住杯子,也许问题不在策略权重上。也许我们只是采样到了导致笨拙抓取的“倒霉”的 \(\boldsymbol{w}\)。如果我们能找到导致完美抓取的“幸运”的 \(\boldsymbol{w}\),我们就能在不改变扩散网络任何权重的情况下解决任务。

如图 1 所示,标准部署 (顶部) 依赖于随机概率。DSRL (底部) 插入了一个小型的、学习到的策略 \(\pi^w\),它观察状态并说: “不要使用随机噪声;使用这个特定的噪声向量 \(\boldsymbol{w}\)。”这将冻结的扩散模型导向高回报的动作。
核心方法: 通过潜在噪声空间进行转向
这篇论文的核心贡献是形式化了潜在动作 MDP (Latent-Action MDPs) 的概念。
1. 潜在动作 MDP
在标准马尔可夫决策过程 (MDP) 中,智能体选择物理动作 \(\boldsymbol{a}\) (例如,关节速度) 。在 DSRL 中,我们重新定义了智能体的工作。
作者提出了一个转换后的环境,其中:
- 动作空间: 潜在噪声空间 \(\mathcal{W}\) (通常是 \(\mathbb{R}^d\)) 。
- 转换: 当智能体选择噪声向量 \(\boldsymbol{w}\) 时,环境内部运行固定的扩散策略以获得 \(\boldsymbol{a} = \pi_{dp}(s, w)\),执行 \(\boldsymbol{a}\),并返回下一个状态 \(s'\)。
从 RL 算法的角度来看,巨大且复杂的扩散策略只是环境动力学的一部分。这非常巧妙,因为它使扩散策略成为一个黑盒 。 RL 智能体不需要知道梯度、权重或架构。它只需要知道: “如果我输出噪声 \(\boldsymbol{w}\),我会得到奖励 \(r\)。”
2. “转向”隐喻
把预训练的扩散策略想象成一台已经在运行的汽车引擎。标准方法 (高斯采样) 就像是让车随机行驶。DSRL 则是让司机坐在方向盘后面。司机 (RL 智能体) 不需要制造引擎;他们只需要转动方向盘 (选择 \(\boldsymbol{w}\)) 将车引导向目的地。

图 2 可视化了这种几何关系。粉红色的方框是预训练策略。通过移动输入 \(w\),我们移动了输出 \(a\)。有趣的是,因为扩散模型将高维噪声空间映射到可能的动作流形上,不同的噪声向量 (\(w_2\) 和 \(w_3\)) 可能会映射到非常相似的动作 (混叠) 。
3. 噪声混叠 DSRL (DSRL-NA)
虽然你可以在这个新的潜在动作 MDP 上运行任何 RL 算法 (如 SAC 或 PPO) ,但作者引入了一种名为 DSRL-NA 的专门算法来提高样本效率。
挑战在于离线数据 (演示) 是以 \((s, a)\) 对的形式出现的。我们知道动作 \(a\),但我们不知道生成它的噪声 \(\boldsymbol{w}\) (反转扩散模型很难) 。潜在空间上的标准 RL 无法轻易利用这些丰富的离线数据。
DSRL-NA 通过训练两个评论家 (Critics) 解决了这个问题:
- 动作评论家 (\(Q^{\mathcal{A}}\)): 物理 \((s, a)\) 空间上的标准 Q 学习。它从离线数据和在线交互中学习。它告诉我们“这个物理抓取有多好?”
- 潜在评论家 (\(Q^{\mathcal{W}}\)): 这个评论家学习噪声向量的价值。它从 \(Q^{\mathcal{A}}\) 中提取知识。它简单地询问 \(Q^{\mathcal{A}}\): “如果我选择噪声 \(\boldsymbol{w}\),我会得到动作 \(\boldsymbol{a}\)。\(\boldsymbol{a}\) 有多好?”
这建立了一座桥梁。我们可以利用海量的离线数据集来学习任务的动力学 (\(Q^{\mathcal{A}}\)),然后将这些知识传播到转向策略 (\(\pi^w\)) 中。

算法 1 详细描述了这个过程。关键在于第 4 行,其中潜在评论家 \(Q^{\mathcal{W}}\) 通过查询动作评论家 \(Q^{\mathcal{A}}\) 来更新。这使得 DSRL 具有惊人的样本效率,能够在几分钟而不是几小时内完成适配。
实验结果
论文在仿真、真实世界机器人以及不同模型规模上对 DSRL 进行了测试。
1. 在线适配 (仿真)
第一个问题是: DSRL 能否比现有方法更快地修复次优策略?
作者将 DSRL 与 DPPO (扩散 PPO) 和 IDQL 等最先进的方法在标准基准 (Robomimic 和 Gym) 上进行了比较。


图 3 和图 4 展示了结果。在几乎每个任务中,DSRL (深蓝色线) 达到高成功率的速度都比基线快得多。
- 样本效率: 看看 x 轴。DSRL 通常只需要其他方法所需时间步长的一小部分就能解决任务。
- 稳定性: 与经常崩溃或震荡的标准 RL 不同,DSRL 保持稳定提升。
2. 离线数据的力量
由于采用了“噪声混叠”架构 (DSRL-NA),该方法可以消化离线数据以启动学习。

在图 5 中,虚线浅蓝线 (DSRL + offline) 甚至比纯在线 DSRL 学习得更快。将其与标准的离线到在线方法如 RLPD (黄色) 或 CAL-QL (红色) 相比,后两者在这些特定的扩散任务上几乎没有任何进展。这证实了 DSRL 尤其适合利用先前的演示。
3. 真实世界机器人技术
仿真固然好,但在硬件上行得通吗?作者在 Franka Emika Panda 和 WidowX 机器人上测试了 DSRL。

任务 (如图 6 所示) 包括拾取和放置、关闭抽屉和堆叠方块。基础策略仅在有限的数据上训练,经常无法可靠地完成任务。

图 7 令人印象深刻。绿色虚线是基础扩散策略——它的成功率经常在 0% 或 20% 左右徘徊。
- DSRL (蓝色菱形) : 在大约 4,000 到 6,000 个时间步长内 (机器人操作的一个下午即可完成) ,DSRL 将策略适配到了接近 100% 的成功率。
- RLPD (红色倒三角) : 作为标准 RL 的强基线,RLPD 在这些任务上难以匹敌 DSRL 的学习速度。
4. 驾驭通才巨头 (\(\pi_0\))
也许最令人兴奋的应用是转向基础模型 。 作者将 DSRL 应用于 \(\pi_0\) , 这是一个 33 亿参数的视觉-语言-动作模型。
对于大多数实验室来说,微调一个 33 亿参数的模型在计算上是令人望而却步的。然而,DSRL 只学习输入噪声,与模型权重相比,这是一个微小的向量。

图 8 中的图表显示了 \(\pi_0\) 在 Libero 和 Aloha 任务上的成功率。基础模型 (绿色虚线) 完全失败 (0% 成功率) 。DSRL (蓝色) 有效地将这个巨大的模型转向成功。
他们甚至在真实机器人上用 \(\pi_0\) 验证了这一点。
- 烤面包机任务: 基础 \(\pi_0\) 成功率: 5/20。 转向后的 \(\pi_0\) 成功率: 18/20。
- 勺子任务: 基础 \(\pi_0\) 成功率: 15/20。 转向后的 \(\pi_0\) 成功率: 19/20。
这证明了 DSRL 能够对那些无法获取权重或获取权重不切实际的专有或大型模型进行有效的“黑盒”微调。
DSRL 为什么有效 (消融实验)
你可能会问: “基础策略必须很好才能让这个方法奏效吗?”
作者通过在“较好”、“一般”和“较差”质量的数据 (基于操作员技能) 上训练基础策略来研究这一点。

图 12 (第三个面板) 显示了结果。虽然在“较差”数据上训练的基础策略 (红色点线) 开始时性能糟糕,但 DSRL 最终能够将其转向到与“较好”策略相同的高性能。
这意味着,即使是对笨拙人类演示者的不完美克隆,也捕捉到了对“有效动作流形”的足够理解,使得 DSRL 能够找到隐藏在其中的好动作。
结论与启示
DSRL 代表了我们对适配机器人策略思维方式的转变。我们不再将神经网络视为必须不断重写的白板,而是将其视为一个能力库。强化学习的角色从学习如何移动转变为学习选择哪种移动。
关键要点:
- 效率: 通过优化小型潜在策略而不是巨大的扩散骨干网络,DSRL 学习速度更快,计算量更少。
- 稳定性: 它避免了对扩散链进行微分所带来的臭名昭著的不稳定性。
- 通用性: 它适用于特定任务策略和像 \(\pi_0\) 这样的海量通才模型,并且只需要黑盒访问。
对于学生和研究人员来说,这开启了一个新的工作流程: 下载一个巨大的、预训练的机器人大脑 (如 Octo 或 \(\pi_0\)) ,冻结它,然后简单地训练一个轻量级的“方向盘”来处理你的特定边缘情况。这是一条通往机器人最终能够适应开放世界的务实、可扩展的道路。
](https://deep-paper.org/en/paper/2506.15799/images/cover.png)