想象一下让机器人“把一杯咖啡加热”。对你来说,这是一个简单的请求。但对机器人 (或具身 AI 智能体) 来说,这是一个极具挑战性的后勤难题。它涉及导航、物体检测、抓取、打开微波炉以及理解“加热”这一概念。
大型语言模型 (LLM) 如 GPT-4 或 Llama 已经展示了令人难以置信的推理能力,但将其应用于长视距 (Long-horizon) 的物理任务仍然是一个巨大的障碍。标准方法需要向模型输入成千上万条人工标注的示例,确切地告诉它如何执行任务。但是,人工标注既缓慢又昂贵,而且难以扩展。
如果智能体能从环境本身学习会怎样?如果它能通过尝试,观察结果,并自学好动作与坏动作的区别呢?
在这篇文章中,我们将深入探讨一篇名为 “EPO: Hierarchical LLM Agents with Environment Preference Optimization” 的研究论文。研究人员提出了一个框架,不仅将复杂的任务分解为可管理的小块,还引入了一种新颖的训练方法——环境偏好优化 (Environment Preference Optimization, EPO) ——允许智能体通过解读来自周围世界的反馈,从无标注数据中进行学习。
让我们从架构层次到使其成为可能的数学损失函数,拆解它是如何工作的。
问题所在: 长视距与数据稀缺
构建用于复杂环境 (如家庭模拟器) 的 LLM 智能体主要面临两个挑战:
- 规划视距 (The Planning Horizon) : LLM 通常是为即时 Token 预测而设计的。在数百个步骤中维持一个连贯的计划 (例如,找到苹果、清洗它、把它放在桌子上) 是困难的。模型经常会“忘记”更广泛的目标或陷入底层的细节中。
- 数据瓶颈 (The Data Bottleneck) : 监督微调 (SFT) 是训练这些智能体的标准方法。你需要向模型展示一个任务以及解决该任务的确切动作序列。然而,与聊天机器人可用的文本数据相比,获取机器人动作的“互联网规模”数据是不可能的。我们有大量的任务 (指令) ,但只有极少数的解决方案 (基准真实动作序列) 。
本文作者通过分层框架 (Hierarchical Framework) 解决第一个问题,并通过 EPO 解决第二个问题。
第一部分: 分层框架
为了解决规划问题,研究人员不再试图让一个单一的 LLM 做所有事情。相反,他们采用了“分而治之”的策略。他们将智能体分为两个独特的模块,均由 LLM (本研究中为 Llama-2) 驱动。
模块 1: 高层规划器 (子目标分解)
可以把这个模块想象成“管理者”。它不关心如何移动机器人的关节或绕过椅子导航。它的工作是查看高层的人类指令和视觉环境,然后将任务分解为一系列逻辑子目标 (subgoals) 。
例如,如果指令是“热杯子”,管理者可能会输出:
Find Cup(寻找杯子)Pickup Cup(捡起杯子)Find Microwave(寻找微波炉)Heat Cup(加热杯子)
模块 2: 底层执行者 (交互)
这个模块是“工人”。它从管理者那里接收特定的子目标 (例如 Heat Cup) ,并找出执行该目标所需的具体底层动作。这涉及检查智能体是否拿着杯子、导航到微波炉、打开门并将物体放入其中。
架构可视化
如 Figure 1 所示,信息流是结构化且循环的。

- 输入: 智能体接收视觉帧 (例如,厨房柜台) 和任务指令。
- 符号化表示: 视觉输入被转换为文本 (例如,“observed: microwave, cup”) 。
- 高层策略: LLM 预测下一个子目标 (
Heat Cup) 。 - 底层策略: 第二个 LLM 接收该子目标并生成原子动作 (
Pickup,Open等) 。 - 环境: 动作被执行,环境发生变化,循环重复。
这种层次结构简化了问题。高层策略只需要在子目标层面提前规划几步,而底层策略只需要担心未来几秒钟的交互。
第二部分: 环境偏好优化 (EPO)
层次结构解决了规划问题,但数据短缺怎么办?这是这篇论文做出最重要贡献的地方。作者提出了一种使用无标注数据集来训练这些智能体的方法——即我们知道目标,但没有关于如何解决它的人工标签的任务。
他们通过利用多模态环境反馈来创建自己的训练信号来实现这一点。
步骤 1: 奖励模型
为了在没有人工标签的情况下学习,智能体需要一种判断自身表现的方法。研究人员训练了一个奖励模型 (Reward Model) (也是一个 LLM) 来充当评论家。
奖励模型接收三个输入:
- 反馈 (\(F\)): 视觉数据 (看到了什么物体?) 和交互状态 (上一个动作是成功还是失败?) 。
- 任务 (\(T\)): 指令 (例如,“捡起苹果”) 。
- 预测输出 (\(P\)): 智能体想要做什么 (例如,“Pickup Apple”) 。
该模型输出一个标量奖励分数 \(\hat{r}\),表示在给定反馈和任务的情况下,建议的动作有多“正确”。

如果视觉系统看到了一个苹果,而智能体提议“Pickup Apple”,奖励就会很高。如果智能体提议“Pickup Chair” (这是不可交互或不相关的) ,奖励就会很低。
步骤 2: 生成偏好数据
一旦奖励模型训练完成 (在一小部分标注数据上) ,它就可以用来标记大量的无标签数据。
这是 Figure 2 中展示的流程:

- 推理: 在无标注任务上,智能体提出多个潜在的子目标或动作。
- 排序: 奖励模型评估这些提议。
- 选项 A: “Pickup Statue” \(\to\) 奖励: 1.0 (与环境高度一致)
- 选项 B: “Pickup Dog” \(\to\) 奖励: 0.0 (“Dog” 只是一个雕像,或者不存在)
- 数据集创建: 这创建了一个偏好数据集 。 我们现在知道选项 A 优于 选项 B (\(p_w \succ p_l\)),即使从未有人类告诉过我们这一点。
步骤 3: EPO 损失函数
现在我们有了“更好” (\(p_w\)) 和“更差” (\(p_l\)) 的动作对,我们该如何训练智能体?作者采用了直接偏好优化 (DPO) 。
DPO 是一种用于使 LLM (如 ChatGPT) 与人类偏好保持一致的技术,无需复杂的强化学习循环。然而,标准的 DPO 允许“软”对齐——它只希望模型给获胜者的分数高于失败者。在机器人技术中,我们需要“硬”对齐;智能体必须生成特定的、正确的指令 Token 才能发挥作用。
研究人员引入了 EPO 损失函数 , 它将标准 DPO 与 Token 级对齐约束相结合。

这个方程有两个主要部分:
- \(-p_w \log(\pi_\theta(\hat{p} | T))\): 这一项强制模型增加生成获胜动作的概率 (硬对齐) 。
- \(\mathcal{L}_D\): 这是偏好优化项 (源自 DPO) 。
\(\mathcal{L}_D\) 项的具体形式如下:

通过最小化这个组合损失,智能体学会了根据环境反馈区分好动作和坏动作,从而有效地从无标签数据中自学。
实验与结果
研究人员在 ALFRED 上评估了他们的框架,这是一个针对家庭指令跟随的严格基准测试。ALFRED 的任务很长,需要理解自然语言、在房间内导航并与物体交互 (例如,“冲洗一个杯子并将其放入咖啡机”) 。
最先进 (SOTA) 的性能
结果令人印象深刻。如 Table 1 所示,EPO 框架显著优于以前的最先进方法。

在“未见 (Unseen) ”任务 (智能体在训练期间从未去过的环境) 上,EPO 达到了 62.35% 的成功率,而之前的最佳成绩约为 50%。这表明该模型不仅仅是在死记硬背房间布局;它正在学习稳健、可泛化的决策策略。
无标注数据的力量
也许最有趣的发现是 EPO 如何利用数据。作者比较了使用不同数据划分的监督微调 (SFT) 与 EPO 。
观察 Table 2 , 我们可以看到一个明显的趋势:

即使在 90% 的数据都是无标注的情况下 (“10/90” 划分) ,EPO (0.5091 成功率) 也显著优于 SFT (0.4689) 。这验证了核心假设: 我们可以通过利用环境为我们标记数据来改进智能体。
定性改进
这种改进在实践中是什么样子的? Figure 3 提供了视觉对比。

- 左侧 (子目标层级) : 基线智能体看到一个白色物体并模糊地预测“Pickup Cup”。这失败了,因为具体的物体逻辑是不正确的。经过反馈训练的 EPO 智能体正确地将子目标识别为“Pickup Mug”,与环境的具体可交互性保持一致。
- 右侧 (动作层级) : 基线试图将一支笔放在桌子上但失败了,因为它站得太远或角度不好。EPO 智能体学会了在尝试动作之前执行姿态调整 (LookDown) ,从而获得成功。这种微妙的“姿态调整”行为正是很难手动编码但很容易通过偏好优化学到的细微之处。
为什么这很重要
EPO 论文代表了具身 AI 向前迈出的重要一步,原因有几个:
- 打破对标签的依赖: 通过创建一种从无标注数据中学习的机制,该框架开启了在更大规模数据集上进行训练的大门。我们有可能将智能体释放到模拟器中,让它们尝试数百万个任务,并让它们使用 EPO 进行自我提升。
- 连接高层与底层: 分层结构成功地将 LLM 的推理能力与机器人所需的精细控制结合在一起。
- 多模态反馈作为老师: 它不仅仅将环境视为行动的场所,而且视为监督的来源。视觉信号和交互结果变成了“老师”。
结论
“EPO: Hierarchical LLM Agents with Environment Preference Optimization” 证明了我们并不总是需要人类站在机器人身后告诉它确切该做什么。通过为智能体配备分层大脑和一种从环境中获取偏好的方法,我们可以构建规划更好、行动更精确且学习效率更高的系统。
随着我们迈向通用服务机器人,像 EPO 这样最大化数据效率和自我修正的技术很可能会成为训练下一代具身智能的标准。
](https://deep-paper.org/en/paper/2408.16090/images/cover.png)