创造一个能够在像 Minecraft 这样复杂、开放世界中自由导航和执行任务的 AI,是人工智能领域的重大挑战之一。目标不仅是构建一个能执行单一任务的智能体,更是要创造一个能够理解多样化指令、规划多步行动并熟练执行的系统——就像人类玩家一样。
近年来,AI 智能体通常采用“两段式”策略: 一个高层的 规划器 (planner) 和一个低层的 策略 (policy) 。 规划器——通常是诸如 GPT-4V 之类的 多模态大语言模型 (MLLM) ——充当智能体的大脑,将复杂目标 (如“我需要一把木剑”) 分解成一系列子目标:
- 砍树
- 合成木板
- 合成木棍
- 合成木剑
策略部分则是“肌肉”,将这些子目标转化为具体的操作指令——键盘输入与鼠标移动。
虽然规划器的能力已十分强大,但 Minecraft 智能体的整体表现却被瓶颈限制在策略层面。现有策略难以将规划器给出的子目标准确转化为行动,既缺乏对语言的直观理解,也无法有效建模智能体所做动作与下一步所见场景之间的因果关联。
这正是新论文 “Optimus-2: 具有目标-观测-动作条件化策略的多模态 Minecraft 智能体” 的创新点所在。研究者提出了 Optimus-2 , 一种全新的智能体,通过名为 目标-观测-动作条件化策略 (Goal-Observation-Action Conditioned Policy, GOAP) 的创新框架,重新设计了策略层如何连接目标、观测与动作。
当今 AI 策略的不足
要理解 Optimus-2 的创新之处,我们先来看看现有目标条件化策略的缺陷。

图 1. 现有的目标条件化策略 (右) 与 Optimus-2 提出的 GOAP 策略 (左) 对比。GOAP 引入“动作引导的行为编码器”以捕捉因果关系,并融合 MLLM 以增强语言理解。
目前的主流方法常基于 Transformer-XL 架构,但存在两个关键问题:
忽视因果关系。 在玩游戏时,你的动作——例如向前移动——直接导致你下一帧的视角变化。然而,旧有智能体的策略往往孤立处理每次观测,只看当前画面与目标,而忽略观测是上一动作的结果。缺乏这种因果建模,策略难以捕捉世界的动态本质。
语言信号利用不足。 许多智能体采用简单的目标编码器,将“砍树”这样的指令转为固定文本嵌入,并将其直接加到视觉特征上,从而损失了大量语义信息。这使得智能体无法像人类一样理解复杂、开放式的语言指令。
为了解决这些问题,Optimus-2 提出了 GOAP , 一种能更智能地对齐目标、观测与动作序列的策略机制。
Optimus-2 与 GOAP 策略简介
Optimus-2 将最先进的 MLLM 规划器与创新的 GOAP 策略相结合。规划器负责将指令分解为可执行子目标;GOAP 则在执行过程中,以更深层次建立动态与语义之间的联系。

图 2. Optimus-2 概览。规划器解释任务并生成子目标,GOAP 则利用文本、图像和行为 token 的多模态输入来预测下一步动作。
GOAP 的架构由两个核心组件构成:
- 动作引导的行为编码器 (Action-guided Behavior Encoder, ABE) : 捕捉观测与动作的时间演变关系。
- MLLM 主干网络 : 将多模态理解与语言子目标对齐,以预测下一动作。
核心方法: GOAP 的工作原理
GOAP 本质上学习的是 目标 (g)、观测 (o) 和 动作 (a) 三者之间的联系。 其策略 \( p_{\theta} \) 的目标是在给定历史观测 \( o_{1:t} \) 与当前目标 \( g \) 的条件下预测下一步动作 \( a_{t+1} \):
\[ \min_{\theta} \sum_{t=1}^{T} -\log p_{\theta}\left(a_{t+1} \mid o_{1:t}, g\right) \]1. 动作引导的行为编码器: 从历史学习
动作引导的行为编码器帮助 GOAP 理解“什么导致了什么”。它通过两个模块——因果感知器 (Causal Perceiver) 与 历史聚合器 (History Aggregator)——将观测-动作序列转化为信息丰富的行为 token。
因果感知器 —— 关联动作与观测
在每个时间步 \( t \),观测 \( o_t \) 经由 视觉 Transformer (ViT) 生成图像特征 \( v_t \):
\[ v_t \leftarrow \mathsf{VE}(o_t) \]然后,因果感知器将这些特征与动作嵌入 \( a_t \) 通过交叉注意力机制融合:
\[ Q = v_{t}W_v^Q, \quad K = a_{t}W_a^K, \quad V = a_{t}W_a^V \]\[ \hat{v}_t = \mathrm{Softmax}\!\left(\frac{QK^T}{\sqrt{d}}\right)V \]此机制根据前一动作调整视觉表示,显式建模了智能体执行的行为与当前视觉观测之间的因果联系。
历史聚合器 —— 记忆过去
在视觉特征被因果上下文增强后,历史聚合器通过历史注意力操作维持长期依赖:
\[ \hat{B}_t = \mathrm{Softmax}\!\left(\frac{QK^T}{\sqrt{d}}\right)V \]它不断整合过往行为 token \( [B_1, B_2, \dots, B_{t-1}] \) 的信息,并借助 记忆库 (Memory Bank) 压缩旧数据以保持序列长度可控,最终形成包含完整轨迹的行为 token。
2. MLLM 主干网络: 理解目标
GOAP 获得了历史行为的压缩表征后,便需将此理解与当前自然语言目标对齐。为此,模型使用强大的 MLLM 主干网络 (DeepSeek-VL-1.3B) 。
主干网络处理三种输入流:
- 文本 token (子目标
g) - 图像 token (当前视觉 \( v_t \))
- 行为 token (历史摘要 \( B_t \))
它融合这些模态,从而得到下一动作嵌入 \( \bar{a}_{t+1} \):
\[ \bar{a}_{t+1} \leftarrow \mathrm{MLLM}\left([g, v_t, B_t]\right) \]然后再通过预训练的 动作头 (Action Head) (来自 VPT) 转换为具体操作命令:
\[ a_{t+1} \leftarrow \mathrm{AH}(\bar{a}_{t+1}) \]整个模型采用端到端训练方式,结合行为克隆损失和相对于教师模型的 KL 散度项,以稳健地继承已有策略知识。
MGOA 数据集: 高质量训练数据的新标准
训练像 GOAP 这样对数据要求极高的模型,需要目标、观测、动作严格对齐的样本。然而,现有 Minecraft 数据集中要么缺乏对齐,要么不公开。为此,研究者构建了 Minecraft 目标-观测-动作 (MGOA) 数据集。

表 1. MGOA 提供约 3000 万个对齐的目标—观测—动作样本,涵盖 8 个原子任务,显著超越现有数据集的规模与覆盖度。
他们设计了自动化的数据生成管线,实现大规模高质量数据构建。

图 9. 自动化数据集生成管线。GPT-4 生成自然语言指令,一个 Minecraft 智能体执行任务,成功的交互被记录为目标–观测–动作对。
流程中,GPT-4 负责生成任务目标描述,训练好的智能体 STEVE‑1 负责执行任务。仅保留成功且高效完成任务的片段,最终得到 25,000 个视频和约 3000 万样本 , 形成一个高精度多模态对齐的基准数据集。
实验与结果
研究者在三类任务上评测了 Optimus-2:
- 原子任务 —— 短期技能 (砍原木、收集种子) ;
- 长时程任务 —— 多步骤复杂目标 (合成高级物品) ;
- 开放式指令任务 —— 自然语言灵活指令。
原子任务: 掌握基础能力

表 2. GOAP 在所有原子任务上均超越之前的策略,如 GROOT 和 STEVE‑1。
GOAP 相比当前最优方法取得显著提升。例如,在挖石任务中成功率提升高达 35% , 说明其因果与历史建模机制有效帮助智能体掌握基础技能。
长时程任务: 技能链式执行

表 3. Optimus‑2 在所有长时程任务类别中优于现有顶尖智能体,逐步逼近人类水平。
在从木头到红石的七个任务组中,Optimus‑2 均取得最高成功率。尤其在 钻石与红石任务中,其表现最接近人类熟练度。
开放式指令: 理解与推理

表 4. GOAP 能正确执行其他智能体无法理解的开放式语言指令。
面对灵活自然语言输入 (如“我需要一些铁矿石,我该怎么做?”) ,GOAP 表现远超旧模型。

图 3. 只有 Optimus‑2 成功理解并执行指令“我需要一些铁矿石”。其他智能体因语言理解受限而失败。
这种能力源自策略内部集成了 MLLM 主干结构,使智能体能够对指令进行语义推理而非静态匹配。
GOAP 的有效性: 消融实验分析
研究者进行了系统性消融实验,以验证各模块的重要性。

表 5. 移除因果感知器或历史聚合器导致性能急剧下降,验证了其必要性。
- 动作引导的行为编码器至关重要。 去掉因果感知器 (CP) 或历史聚合器 (HA) 会使原子任务表现平均下降约 40–45%,证明因果与长期历史建模的关键作用。

图 4. LLM 与 Transformer‑XL 对比: 用 Transformer‑XL 替代 LLM 主干后,开放式任务性能大幅下滑。
- MLLM 主干网络不可或缺。 将其替换为标准 Transformer‑XL 几乎使开放式任务失败,凸显了 MLLM 的语言先验对指令理解的重要性。

图 5. 使用 MGOA 数据集 (绿色) 训练的 GOAP 明显优于使用旧数据集 (如 OCD) 训练的模型。
- MGOA 数据集同样关键。 在新数据集上训练相比仅使用旧合同数据集 (OCD),平均性能提升约 70% , 说明高质量对齐数据对策略学习至关重要。
行为表征的可视化
理解差异的直观方式是对任务表征进行 t‑SNE 可视化。

图 6. 动作引导的行为编码器 (右) 能为不同原子任务生成清晰分离的聚类,与 ViT 或 MineCLIP 相比,区分度明显更高。
GOAP 所生成的聚类在任务间高度分离,验证其编码器能够学习到语义丰富、任务相关的行为表征。
结论与展望
Optimus‑2 在构建能在复杂开放世界中理解、规划与执行的 AI 智能体方面迈出了重要一步。通过破解策略层的瓶颈,它引入了:
- 一个能显式建模动作—观测因果关系、并通过注意力与记忆机制处理长期历史的 动作引导的行为编码器 ;
- 一个具备多模态推理与开放语言理解能力的 MLLM 增强策略主干网络 。
结合规模庞大、对齐优质的 MGOA 数据集 , Optimus‑2 框架使研究者能够训练出更像人类、能够自主思考与行动的智能体。实验结果显示在原子任务、长时程任务及开放式任务上均取得显著进展,为完全自主、可理解指令的 AI 打下坚实基础。
Optimus‑2 不只是玩 Minecraft ——它在其中学习、推理与创造 。 这种将强语言模型与因果、多模态动作理解融合的设计,代表了向能掌握游戏乃至复杂真实世界的智能体迈出的关键一步。
](https://deep-paper.org/en/paper/2502.19902/images/cover.png)