想象一下,你训练了一个机器人在桌面上推瓶子。它完成得很好——瓶子成功地从 A 点到了 B 点。但是,有一个问题: 机器人是从瓶子的最顶端推的,这让瓶子摇摇晃晃,非常危险。作为人类观察者,你想教给机器人一个偏好: “推瓶子没问题,但请从底部推,这样更稳。”
这是一个交互式模仿学习 (Interactive Imitation Learning, IIL) 中的经典问题。你不想从头开始重新编程机器人;你只想通过干预来微调它的行为。你观察机器人,每当它伸手去抓瓶子顶部时,你接管控制权并将它的手移到底部。
问题在于什么?目前大多数算法在这方面效率极低。它们将每一次干预都视为一堂全新的课程,往往忽略了机器人已经掌握的任务知识 (比如如何移动手臂或目标在哪里) 。这导致了“灾难性遗忘 (catastrophic forgetting)”,即机器人在试图满足你的新偏好时,忘记了原本的基本技能。
在这篇文章中,我们将深入探讨 MEREQ (Max-Ent Residual-Q Inverse RL) , 这是在 CoRL 2025 上提出的一种新颖方法。这种方法尊重机器人的先验知识,只学习机器人原本的行为与人类期望行为之间的差异 (即残差) 。结果如何?它能以极快地速度实现对齐,并显著减少人类导师的精力投入。
问题所在: 为什么教机器人这么难?
在标准的“人在回路 (Human-in-the-Loop)”设置中,人类专家观察策略 (机器人的大脑) 执行任务。当机器人的行为偏离人类的偏好时,人类会进行干预,接管控制权。
传统方法通常分为两类:
- 行为克隆 (Behavior Cloning, BC): 机器人简单地模仿人类的纠正动作。这种方法通常会失败,因为它忽略了时间的序列性——现在的微小误差会导致后来巨大的灾难 (复合误差) 。
- 逆强化学习 (Inverse Reinforcement Learning, IRL): 机器人试图推断人类头脑中的“奖励函数” (隐含的目标) 。
在这种情境下,标准 IRL 的问题在于它试图从零开始推断整个奖励函数。如果机器人已经知道如何在高速公路上行驶,只是需要学习“保持在右侧车道”,那么为了学习“车道偏好”而重新学习“驾驶”和“避免碰撞”的概念就是一种数据浪费。这种低效意味着人类必须进行数百次干预,这让人精疲力竭。
解决方案: MEREQ
MEREQ 的核心洞见简单而强大: 不要重新学习整个奖励函数。只需学习残差。
MEREQ 假设机器人有一个先验策略 (Prior Policy) (\(\pi\)),该策略已经擅长基础任务 (优化奖励 \(r\)) 。人类有一个不同的内部奖励函数 (\(r_{expert}\))。MEREQ 旨在找到残差奖励 (Residual Reward) (\(r_R\)),使得:
\[r_{expert} \approx r + r_R\]通过只关注 \(r_R\)——即机器人的先验行为与人类偏好之间的差异——算法可以利用机器人现有的技能,同时仅用极少的样本对行为进行微调。

如上图 1 所示,该工作流是一个循环:
- 机器人执行其当前策略。
- 人类在必要时进行干预 (提供“坏”样本与“好”样本) 。
- MEREQ 使用逆强化学习 (Inverse RL) 来计算解释人类纠正行为的残差奖励 (\(r_R\))。
- MEREQ 使用残差 Q 学习 (Residual Q-Learning, RQL) 更新策略,以最大化这个新的组合奖励。
深度解析: MEREQ 如何工作
让我们拆解一下使其成为可能的数学原理和架构。该方法依赖于两大基石: 最大熵 IRL 和残差 Q 学习。
1. 概率模型 (MaxEnt IRL)
为了理解人类想要什么,MEREQ 使用了最大熵原理。它假设人类是“玻尔兹曼理性 (Boltzmann Rational)”的——这意味着他们选择能够带来更高奖励的动作的概率呈指数级增加,但也存在一定的随机性。
给定奖励参数 (\(\theta\)),看到特定动作轨迹 (\(\zeta\)) 的概率为:

这里,\(\mathbf{f}(\zeta)\) 代表轨迹的特征 (例如速度、与障碍物的距离) 。标准的 IRL 试图找到最大化专家演示似然度的权重 (\(\theta^*\)):

2. 学习残差奖励
这正是 MEREQ 创新的地方。它不再求解完整的奖励权重 \(\theta\),而是求解残差权重 \(\theta_R\)。
目标函数发生了变化。我们现在的目标是最大化专家数据的似然度,假设总奖励是已知的先验奖励 \(r\) 和未知的残差奖励之和。损失函数变为:

计算该损失函数的梯度允许系统更新残差权重。梯度计算涉及将专家的特征计数与当前策略的期望特征计数进行比较。

为了使其具有实用性,MEREQ 通过在模拟器中推演 (rollout) 当前策略 \(\hat{\pi}\) 来近似第二项中的期望。这一“想象”步骤让机器人能够理解其当前行为与专家干预之间的差异。

3. 使用残差 Q 学习 (RQL) 更新策略
一旦算法估算出了残差奖励 (\(r_R\)),它就需要更新机器人的大脑 (策略) 以据此行动。从头开始重新训练一个强化学习 (RL) 智能体太慢了。
相反,MEREQ 使用残差 Q 学习 。 标准的 RL 学习一个 Q 函数 (预测未来奖励) 。RQL 则学习一个位于先验 Q 函数之上的残差 Q 函数 (\(Q_R\))。
更新规则如下所示:

这个方程本质上是在说: “一个动作的价值等于残差奖励加上先验奖励,再加上预期的未来价值。”通过将先验奖励 \(r\) 保留在循环中,机器人在适应新偏好的同时保留了其原有的能力。
4. “伪专家”技巧
MEREQ 使用的一个聪明的启发式方法是伪专家轨迹 (Pseudo-Expert Trajectories) 的概念。
当人类没有干预时,通常意味着机器人做得很好。许多算法会丢弃这些数据,只关注人类抓住控制器的时刻。MEREQ 会查看“足够好 (Good-Enough)”的片段 (即人类保持沉默的时候) ,并将它们视为专家演示。这显著稳定了学习过程,因为它防止了机器人仅基于失败数据进行过度矫正。
实验与结果
它真的有效吗?研究人员在仿真环境和现实世界中通过多个任务测试了 MEREQ。
任务
- 高速公路驾驶: 机器人知道如何驾驶,但需要学习偏好右侧车道。
- 推瓶子: 机器人推瓶子,但需要学习从底部推 (以防倾倒) 。
- 抓枕头: 机器人需要学习从中心抓取枕头。
图 2: 高速公路仿真 (Highway-Sim) 任务。目标是将汽车对齐到右侧车道。
样本效率
主要指标是样本效率 : 需要多少次专家干预才能达到较低的干预率 (即机器人能够自己正确行动) ?

如上图所示, MEREQ (红线) 的干预率下降速度远快于基线方法,如普通的 MaxEnt IRL (绿色) 或交互式行为克隆方法如 HG-DAgger (紫色)。
- 上图: MEREQ 的干预率迅速骤降,意味着人类可以更早地停止纠正机器人。
- 下图: 在不同的难度阈值 (\(\delta\)) 下,MEREQ 达到成功所需的总样本数显著更低。
现实世界的人力投入
仿真是好的,但在真人身上效果如何?研究人员进行了“人在回路”实验,由真人使用 3D 鼠标控制机械臂。

结果非常明显。MEREQ 显著减少了人类导师的精力投入。

在图 4 (上图) 中,你可以看到随时间变化的“专家干预率”。在高速公路和推瓶子任务中,MEREQ 接近零干预的速度比替代方案快得多。这意味着人类导师花在与机器人“搏斗”上的时间更少,而花在观察它成功上的时间更多。
定性成功
这种对齐在实践中看起来像什么?

“Before Alignment (对齐前) ”的图像显示先验策略失败了——碰倒了瓶子或抓枕头失误。“After Alignment (对齐后) ”的图像显示经过 MEREQ 训练的策略成功执行了任务,并符合人类的偏好 (低位接触瓶子,居中抓取枕头) 。
结论与意义
MEREQ 代表了在使机器人“可教导”方面迈出的重要一步。通过承认机器人通常带有先验知识 , 并将学习过程仅集中在这些知识与人类偏好之间的残差差异上,我们可以:
- 减轻人类负担: 导师不需要提供数千次纠正。
- 保留基本技能: 机器人在学习新偏好时不会忘记如何移动或避障。
- 加速部署: 机器人可以在几分钟而不是几小时内根据特定用户需求进行微调。
论文指出,未来的工作包括处理“有噪声”的人类 (可能会给出不一致的纠正) 以及超越线性奖励函数。但就目前而言,MEREQ 为交互式机器人学习的未来提供了一个引人注目的蓝图: 不要重新学习你已经知道的东西;只学习缺失的部分。
](https://deep-paper.org/en/paper/2406.16258/images/cover.png)