创造一个能够在像 Minecraft 这样复杂、开放世界中自由导航和执行任务的 AI,是人工智能领域的重大挑战之一。目标不仅是构建一个能执行单一任务的智能体,更是要创造一个能够理解多样化指令、规划多步行动并熟练执行的系统——就像人类玩家一样。

近年来,AI 智能体通常采用“两段式”策略: 一个高层的 规划器 (planner) 和一个低层的 策略 (policy) 。 规划器——通常是诸如 GPT-4V 之类的 多模态大语言模型 (MLLM) ——充当智能体的大脑,将复杂目标 (如“我需要一把木剑”) 分解成一系列子目标:

  1. 砍树
  2. 合成木板
  3. 合成木棍
  4. 合成木剑

策略部分则是“肌肉”,将这些子目标转化为具体的操作指令——键盘输入与鼠标移动。

虽然规划器的能力已十分强大,但 Minecraft 智能体的整体表现却被瓶颈限制在策略层面。现有策略难以将规划器给出的子目标准确转化为行动,既缺乏对语言的直观理解,也无法有效建模智能体所做动作下一步所见场景之间的因果关联。

这正是新论文 “Optimus-2: 具有目标-观测-动作条件化策略的多模态 Minecraft 智能体” 的创新点所在。研究者提出了 Optimus-2 , 一种全新的智能体,通过名为 目标-观测-动作条件化策略 (Goal-Observation-Action Conditioned Policy, GOAP) 的创新框架,重新设计了策略层如何连接目标、观测与动作。


当今 AI 策略的不足

要理解 Optimus-2 的创新之处,我们先来看看现有目标条件化策略的缺陷。

一张图表,比较了通用智能体框架、现有策略与新的 GOAP 策略。左侧展示了 MLLM 规划器的任务分解过程,右侧对比了基于 Transformer-XL 的策略与更先进的 GOAP 架构。

图 1. 现有的目标条件化策略 (右) 与 Optimus-2 提出的 GOAP 策略 (左) 对比。GOAP 引入“动作引导的行为编码器”以捕捉因果关系,并融合 MLLM 以增强语言理解。

目前的主流方法常基于 Transformer-XL 架构,但存在两个关键问题:

  1. 忽视因果关系。 在玩游戏时,你的动作——例如向前移动——直接导致你下一帧的视角变化。然而,旧有智能体的策略往往孤立处理每次观测,只看当前画面与目标,而忽略观测是上一动作的结果。缺乏这种因果建模,策略难以捕捉世界的动态本质。

  2. 语言信号利用不足。 许多智能体采用简单的目标编码器,将“砍树”这样的指令转为固定文本嵌入,并将其直接加到视觉特征上,从而损失了大量语义信息。这使得智能体无法像人类一样理解复杂、开放式的语言指令。

为了解决这些问题,Optimus-2 提出了 GOAP , 一种能更智能地对齐目标、观测与动作序列的策略机制。


Optimus-2 与 GOAP 策略简介

Optimus-2 将最先进的 MLLM 规划器与创新的 GOAP 策略相结合。规划器负责将指令分解为可执行子目标;GOAP 则在执行过程中,以更深层次建立动态与语义之间的联系。

Optimus-2 架构概览图,展示了文本、图像和行为 token 如何输入到大语言模型以预测动作。

图 2. Optimus-2 概览。规划器解释任务并生成子目标,GOAP 则利用文本、图像和行为 token 的多模态输入来预测下一步动作。

GOAP 的架构由两个核心组件构成:

  • 动作引导的行为编码器 (Action-guided Behavior Encoder, ABE) : 捕捉观测与动作的时间演变关系。
  • MLLM 主干网络 : 将多模态理解与语言子目标对齐,以预测下一动作。

核心方法: GOAP 的工作原理

GOAP 本质上学习的是 目标 (g)观测 (o)动作 (a) 三者之间的联系。 其策略 \( p_{\theta} \) 的目标是在给定历史观测 \( o_{1:t} \) 与当前目标 \( g \) 的条件下预测下一步动作 \( a_{t+1} \):

\[ \min_{\theta} \sum_{t=1}^{T} -\log p_{\theta}\left(a_{t+1} \mid o_{1:t}, g\right) \]

1. 动作引导的行为编码器: 从历史学习

动作引导的行为编码器帮助 GOAP 理解“什么导致了什么”。它通过两个模块——因果感知器 (Causal Perceiver)历史聚合器 (History Aggregator)——将观测-动作序列转化为信息丰富的行为 token。

因果感知器 —— 关联动作与观测

在每个时间步 \( t \),观测 \( o_t \) 经由 视觉 Transformer (ViT) 生成图像特征 \( v_t \):

\[ v_t \leftarrow \mathsf{VE}(o_t) \]

然后,因果感知器将这些特征与动作嵌入 \( a_t \) 通过交叉注意力机制融合:

\[ Q = v_{t}W_v^Q, \quad K = a_{t}W_a^K, \quad V = a_{t}W_a^V \]

\[ \hat{v}_t = \mathrm{Softmax}\!\left(\frac{QK^T}{\sqrt{d}}\right)V \]

此机制根据前一动作调整视觉表示,显式建模了智能体执行的行为当前视觉观测之间的因果联系。

历史聚合器 —— 记忆过去

在视觉特征被因果上下文增强后,历史聚合器通过历史注意力操作维持长期依赖:

\[ \hat{B}_t = \mathrm{Softmax}\!\left(\frac{QK^T}{\sqrt{d}}\right)V \]

它不断整合过往行为 token \( [B_1, B_2, \dots, B_{t-1}] \) 的信息,并借助 记忆库 (Memory Bank) 压缩旧数据以保持序列长度可控,最终形成包含完整轨迹的行为 token。

2. MLLM 主干网络: 理解目标

GOAP 获得了历史行为的压缩表征后,便需将此理解与当前自然语言目标对齐。为此,模型使用强大的 MLLM 主干网络 (DeepSeek-VL-1.3B) 。

主干网络处理三种输入流:

  1. 文本 token (子目标 g)
  2. 图像 token (当前视觉 \( v_t \))
  3. 行为 token (历史摘要 \( B_t \))

它融合这些模态,从而得到下一动作嵌入 \( \bar{a}_{t+1} \):

\[ \bar{a}_{t+1} \leftarrow \mathrm{MLLM}\left([g, v_t, B_t]\right) \]

然后再通过预训练的 动作头 (Action Head) (来自 VPT) 转换为具体操作命令:

\[ a_{t+1} \leftarrow \mathrm{AH}(\bar{a}_{t+1}) \]

整个模型采用端到端训练方式,结合行为克隆损失和相对于教师模型的 KL 散度项,以稳健地继承已有策略知识。


MGOA 数据集: 高质量训练数据的新标准

训练像 GOAP 这样对数据要求极高的模型,需要目标、观测、动作严格对齐的样本。然而,现有 Minecraft 数据集中要么缺乏对齐,要么不公开。为此,研究者构建了 Minecraft 目标-观测-动作 (MGOA) 数据集。

新 MGOA 数据集与现有流行 Minecraft 数据集的性能规模对比。

表 1. MGOA 提供约 3000 万个对齐的目标—观测—动作样本,涵盖 8 个原子任务,显著超越现有数据集的规模与覆盖度。

他们设计了自动化的数据生成管线,实现大规模高质量数据构建。

说明 MGOA 数据集的自动化生成流程: 从 GPT-4 指令生成到数据筛选的全过程。

图 9. 自动化数据集生成管线。GPT-4 生成自然语言指令,一个 Minecraft 智能体执行任务,成功的交互被记录为目标–观测–动作对。

流程中,GPT-4 负责生成任务目标描述,训练好的智能体 STEVE‑1 负责执行任务。仅保留成功且高效完成任务的片段,最终得到 25,000 个视频和约 3000 万样本 , 形成一个高精度多模态对齐的基准数据集。


实验与结果

研究者在三类任务上评测了 Optimus-2:

  1. 原子任务 —— 短期技能 (砍原木、收集种子) ;
  2. 长时程任务 —— 多步骤复杂目标 (合成高级物品) ;
  3. 开放式指令任务 —— 自然语言灵活指令。

原子任务: 掌握基础能力

GOAP 与其他策略在四个基本原子任务上的性能对比。

表 2. GOAP 在所有原子任务上均超越之前的策略,如 GROOT 和 STEVE‑1。

GOAP 相比当前最优方法取得显著提升。例如,在挖石任务中成功率提升高达 35% , 说明其因果与历史建模机制有效帮助智能体掌握基础技能。

长时程任务: 技能链式执行

Optimus-2 与其他顶尖智能体及人类基准在长时程任务组上的成功率对比。

表 3. Optimus‑2 在所有长时程任务类别中优于现有顶尖智能体,逐步逼近人类水平。

在从木头到红石的七个任务组中,Optimus‑2 均取得最高成功率。尤其在 钻石红石任务中,其表现最接近人类熟练度。

开放式指令: 理解与推理

GOAP 在开放式自然语言任务上的优越表现。

表 4. GOAP 能正确执行其他智能体无法理解的开放式语言指令。

面对灵活自然语言输入 (如“我需要一些铁矿石,我该怎么做?”) ,GOAP 表现远超旧模型。

Optimus‑2 成功解析并执行开放式指令,而 VPT 与 STEVE‑1 失败。

图 3. 只有 Optimus‑2 成功理解并执行指令“我需要一些铁矿石”。其他智能体因语言理解受限而失败。

这种能力源自策略内部集成了 MLLM 主干结构,使智能体能够对指令进行语义推理而非静态匹配。


GOAP 的有效性: 消融实验分析

研究者进行了系统性消融实验,以验证各模块的重要性。

移除行为编码器组件后性能大幅下降的消融研究表。

表 5. 移除因果感知器或历史聚合器导致性能急剧下降,验证了其必要性。

  • 动作引导的行为编码器至关重要。 去掉因果感知器 (CP) 或历史聚合器 (HA) 会使原子任务表现平均下降约 40–45%,证明因果与长期历史建模的关键作用。

替换 LLM 主干为 Transformer‑XL 后开放式任务性能骤降的对比图。

图 4. LLM 与 Transformer‑XL 对比: 用 Transformer‑XL 替代 LLM 主干后,开放式任务性能大幅下滑。

  • MLLM 主干网络不可或缺。 将其替换为标准 Transformer‑XL 几乎使开放式任务失败,凸显了 MLLM 的语言先验对指令理解的重要性。

在不同数据集上训练结果的对比图,展示了 MGOA 数据集的有效性。

图 5. 使用 MGOA 数据集 (绿色) 训练的 GOAP 明显优于使用旧数据集 (如 OCD) 训练的模型。

  • MGOA 数据集同样关键。 在新数据集上训练相比仅使用旧合同数据集 (OCD),平均性能提升约 70% , 说明高质量对齐数据对策略学习至关重要。

行为表征的可视化

理解差异的直观方式是对任务表征进行 t‑SNE 可视化。

t‑SNE 可视化,比较 ViT、MineCLIP 与动作引导的行为编码器的潜在特征。新编码器生成了任务分离清晰的聚类。

图 6. 动作引导的行为编码器 (右) 能为不同原子任务生成清晰分离的聚类,与 ViT 或 MineCLIP 相比,区分度明显更高。

GOAP 所生成的聚类在任务间高度分离,验证其编码器能够学习到语义丰富、任务相关的行为表征。


结论与展望

Optimus‑2 在构建能在复杂开放世界中理解规划执行的 AI 智能体方面迈出了重要一步。通过破解策略层的瓶颈,它引入了:

  1. 一个能显式建模动作—观测因果关系、并通过注意力与记忆机制处理长期历史的 动作引导的行为编码器 ;
  2. 一个具备多模态推理与开放语言理解能力的 MLLM 增强策略主干网络

结合规模庞大、对齐优质的 MGOA 数据集 , Optimus‑2 框架使研究者能够训练出更像人类、能够自主思考与行动的智能体。实验结果显示在原子任务、长时程任务及开放式任务上均取得显著进展,为完全自主、可理解指令的 AI 打下坚实基础。

Optimus‑2 不只是玩 Minecraft ——它在其中学习、推理与创造 。 这种将强语言模型与因果、多模态动作理解融合的设计,代表了向能掌握游戏乃至复杂真实世界的智能体迈出的关键一步。