引言

想象一下你在教一个青少年开车。你通常不会扔给他们一个描述路缘距离的微分方程,也不会给他们一个路面摩擦系数的物理公式。相反,你会提供直观的反馈: “离那辆停着的车有点太近了,”或者“为了避让那个行人减速做得很好。”

这种人类直观感觉非常强大,但要将其转化为机器人技术的数学语言却极其困难。

在传统的自动导航中,工程师通常依赖手工设计的奖励函数 (hand-crafted reward functions) 。 这些是死板的数学规则 (例如,“向前移动得 +10 分,撞墙扣 -100 分”) 。虽然这在结构化环境中有效,但在混乱、不可预测的现实世界中往往会失败。此外,这些系统通常依赖昂贵且耗电的传感器,如 LiDAR (激光雷达) ,才能完美地测量几何形状。

但是,如果我们能教机器人仅使用廉价的摄像头和类似人类的直觉来导航呢?

这正是这篇题为 HALO: Human Preference Aligned Offline Reward Learning for Robot Navigation (HALO: 用于机器人导航的人类偏好对齐离线奖励学习) 的新论文的前提。研究人员提出了一种方法,可以捕捉人类的视觉直觉,并将其提炼成一个奖励模型,机器人可以利用该模型在复杂的环境 (从拥挤的人行道到玻璃墙办公室) 中导航,而仅仅使用 RGB 图像。

在这篇文章中,我们将剖析 HALO 的工作原理、其背后的巧妙架构,以及为什么“偏好学习”可能是下一代社交机器人的关键。

背景: “奖励”的挑战

要理解 HALO 为何如此重要,我们首先需要了解强化学习 (RL) 在机器人技术中的瓶颈。

在 RL 中,智能体 (机器人) 通过尝试最大化累积奖励 (Reward) 来学习做出决策。如果奖励函数设计得好,机器人就能学到很好的行为。如果奖励函数有缺陷,就会出现“奖励黑客 (reward hacking) ”现象,即机器人做了一些技术上正确但实际上无用的事情 (比如为了避免死亡而原地转圈,但永远无法到达目标) 。

手工设计和 LiDAR 的局限性

传统上,机器人专家手动设计这些奖励。他们也严重依赖 LiDAR 来检测障碍物。

  1. LiDAR 昂贵: 它增加了成本和硬件复杂性。
  2. 手工设计困难: 你如何写一个数学方程来表示“不要对那个行人无礼”?或者“在人行道上行驶,不要在草地上”?

离线 RL 和偏好学习

HALO 利用了离线强化学习 (Offline RL) , 它允许机器人从先前收集的经验 (轨迹) 的静态数据集中学习,而不是在现实世界中通过试错来学习 (这既危险又缓慢) 。

然而,离线 RL 仍然需要一种方法来评估特定动作有多“好”。HALO 通过使用人类偏好 (Human Preferences) 解决了这个问题。HALO 不是定义一个完美的分数,而是问: 鉴于这些选项,人类会更喜欢哪一个?

核心方法: HALO 如何工作

HALO 代表 Human Preference ALigned Offline Reward Learning (人类偏好对齐离线奖励学习) 。其目标是训练一个神经网络,该网络接收图像 (机器人看到的) 和提议的动作 (机器人想去的地方) ,并输出一个标量分数,代表该动作的安全程度和“类人”程度。

让我们分解一下架构和训练过程。

1. 架构: 动作条件视觉

HALO 的核心是一个奖励模型,它需要观察图像并决定特定的移动是否是个好主意。研究人员设计了一个巧妙的架构来实现这一点。

图 1: 提出的奖励模型架构。

如上面的架构图所示,该过程涉及两个合并的并行流:

  1. 视觉处理 (左上) : 机器人的视野 (\(I_t^{RGB}\)) 通过一个 DINO-v2 编码器传递。DINO-v2 是一个强大的、预训练的视觉 Transformer,非常擅长理解图像中的语义特征 (例如区分道路和墙壁) ,而无需标记的训练数据。
  2. 动作掩码 (左下) : 这是独特的部分。模型接收一个候选动作 \(a_t\) (线速度 \(v\) 和角速度 \(\omega\) 的组合) 。它将这个动作投射到未来以创建一个“轨迹掩码”——本质上是在图像上画一条线,表示如果机器人采取该动作去往哪里。

为什么掩码很重要? 如果你看一条繁忙的街道,图像的某些部分与你眼下的安全无关。通过生成预期路径的掩码,模型可以告诉视觉编码器: “专门关注这一条像素带。这里有石头吗?有人吗?有坑吗?”

这个掩码由一个小型的 CNN 处理,并用于对来自 DINO-v2 的视觉特征进行加权。最后,一个 MLP (多层感知机) 输出单一的奖励分数 \(R(s_t, a_t)\)。

2. 捕捉人类直觉 (数据)

没有数据就无法训练神经网络。研究人员使用了 SCAND 数据集 (Socially CompliAnt Navigation Dataset) ,但增加了一个转折。他们用人类偏好手动标注了场景。

他们没有要求人类给出一个从 0 到 10 的分数 (这是主观且嘈杂的) ,而是针对不同的帧问了 5 个二元问题:

  1. 机器人能左转吗?
  2. 机器人能右转吗?
  3. 机器人能减速吗?
  4. 机器人能加速吗?
  5. 机器人是否处于危险中/行为是否次优?

这种方法将复杂的导航直觉转化为简单的“是/否”数据点。

3. 从二元答案到概率分布

如何将“是”或“否”转化为训练信号?作者将这些布尔响应转换为动作空间上的概率分布。

首先,他们定义了一组局部可能的动作 \((v, \omega)\):

局部动作集公式

然后,他们假设一个动作是“好”的概率取决于用户的回答。他们使用了 玻尔兹曼分布 (Boltzmann distribution) 。 如果用户说“左转”,分布就会偏移,为具有正角速度的动作分配更高的概率。

给定用户反馈 \(\mathcal{U}\),特定速度 \(v\) 和角度 \(\omega\) 的概率计算如下:

概率分布公式

在这里,“温度”参数 \(\tau\) 决定了偏好的清晰度。如果用户严格偏好左转,分布在左转周围会变得非常尖锐。

最后,为了处理安全性,他们引入了一个缩放因子 \(\lambda\)。如果用户将场景标记为“危险”,分数将被反转为负数,从而严厉惩罚该动作。

Lambda 缩放公式

这为该帧中的每个可能动作产生了一个最终的“偏好分数”:

最终偏好分数公式

4. 使用 Plackett-Luce 损失进行训练

现在模型有了一组动作,并按人类偏好程度进行了排名。为了训练神经网络复现这种排名,研究人员使用了 Plackett-Luce 模型

简单来说,Plackett-Luce 是一种计算特定项目排名概率的方法。损失函数试图最大化神经网络得出的动作排名与上述衍生的人类偏好排名完全一致的可能性。

Plackett-Luce 损失公式

通过最小化这个损失,网络学会了为安全的、人类认可的轨迹分配高奖励,并为危险的轨迹分配低奖励。

为了保持训练稳定,他们本质上添加了“正则化”项,包括多样性损失 (确保不同的动作得到不同的奖励) 和焦点损失 (专注于困难样本) :

总损失公式

实验结果

这真的有效吗?机器人能使用这个学习到的奖励函数而不需要 LiDAR 传感器进行导航吗?

研究人员在多种环境中在 Clearpath Husky 机器人上测试了 HALO: 户外、低光照场景和室内。他们比较了使用 HALO 的两种方式:

  1. HALO-MPC: 将奖励模型作为模型预测控制 (MPC) 规划器中的成本函数。
  2. HALO-IQL/BC: 使用奖励模型来训练离线 RL 策略 (隐式 Q 学习或行为克隆) 。

他们将这些方法与 DWA (动态窗口法,使用 LiDAR) 和 HER (手工设计的奖励) 等标准方法进行了比较。

定量成功

结果令人印象深刻。HALO 普遍优于基线,即使是那些拥有使用 LiDAR 这一不公平优势的基线。

表 1: 不同导航方法的性能比较

查看 表 1 :

  • 成功率 (Success Rate) : 在场景 1 (户外) 中,HALO-IQL 达到了 80% 的成功率,与基于 LiDAR 的 DWA 持平。
  • Fréchet 距离: 该指标衡量机器人的路径与人类专家路径的相似程度。越低越好。HALO-MPC 在场景 1 中获得了 0.892 的分数,明显优于基于 LiDAR 的 DWA (1.677) 。这表明 HALO 的驾驶方式更自然。

定性分析: 眼见为实

定性结果真正突出了行为上的差异。

图 2: 轨迹比较

图 2 中,你可以看到明显的行为差异:

  • 场景 1 (第一行) : DWA (青色线) 试图走直线,忽略了人行道的环境。 HALO-MPC (实红线) 沿着人行道弯曲,模仿了人类的社会规范。
  • 场景 3 (第三行) : 这是一个带有玻璃墙的室内走廊。LiDAR 经常直接射穿玻璃,无法检测到它。因此,DWA 在这里失败了 (表 1 中成功率为 0%) 。 HALO 依靠视觉 (RGB) ,看到了玻璃的框架/反射,并成功地在走廊中导航。

我们也可以看看具体的策略决策:

图 3: 行为克隆和 IQL 的定性分析

图 3 中,图像展示了机器人的视角。彩色线条代表规划的路径。注意在拥挤的场景 (中间的图像) 中,HALO 训练的策略 (蓝色) 经常选择保守、安全的路径来避开行人,这与绿色 (人类) 的地面实况非常接近。

为什么手工设计的奖励失败了?

实验表明,基于手工设计奖励 (HER) 训练的策略通常表现不佳 (例如,在某些场景中成功率为 0%) 。这证实了假设: 调整一个能通用于草地、路面、玻璃走廊和夜间照明的数学公式是非常困难的。HALO 的数据驱动方法具有更好的泛化能力,因为它学习的是安全的特征,而不是几何规则。

结论

HALO 代表了机器人导航向前迈出的重要一步。通过摆脱脆弱的手工设计奖励函数和昂贵的传感器,转向人类偏好对齐学习 , 我们可以构建出这样的机器人:

  1. 更便宜: 基于 RGB 摄像头而非 LiDAR 运行。
  2. 更自然: 以流畅、符合社会规范的方式移动。
  3. 更稳健: 能够处理像玻璃这样会欺骗几何传感器的“隐形”障碍物。

核心创新——使用单应性投影掩码将视觉模型聚焦在机器人未来的路径上——是一种结合动作和感知的优雅方式。

虽然作者指出了局限性,例如对极端光照变化的敏感性或“物体无常”问题 (一旦障碍物离开摄像机画面就被遗忘) ,但结果清楚地表明,通过偏好和直觉教导机器人是一条通往自主的可行之路。

就像教那个青少年开车一样,有时候最好的指导不是公式——而是知道什么是“好”。


这篇博文解释了马里兰大学 Seneviratne 等人发表的研究“HALO: Human Preference Aligned Offline Reward Learning for Robot Navigation”。