AI 智能体正变得越来越出色。它们可以搜索网页、预订航班、管理你的日历。但如果你用过,就会知道它们仍然有些……脆弱。它们运行在一个会为了等它们思考而方便地暂停的世界里——这是我们谁都不曾拥有的奢侈。真实世界是混乱、动态和异步的——无论我们的智能体是否准备好,事情都会发生。

这种无菌化实验室环境与混乱现实世界之间的差距,是阻碍真正有用的 AI 助手发展的最大障碍之一。

目前,大多数基准测试都在顺序的、回合制的环境中评估智能体: 智能体接收一个提示,进行思考,调用工具,获取观测结果,然后重复。环境始终耐心等待。这种模式虽然适用于测试基础推理和工具使用能力,但却遗漏了大量关键能力:

  • 适应性: 如果在智能体预订餐厅的过程中,一个朋友回复了你的消息,会发生什么?
  • 时间感知能力: 如果你要求智能体在第一封邮件发出后整整三分钟再发送一封跟进邮件,它能做到吗?
  • 主动性: 智能体能否注意到一个重要通知并在没有被告知的情况下采取行动?

要构建能够应对这些现实世界挑战的智能体,我们首先需要能在反映真实复杂性的环境中创建并测试它们的方法。

Meta 超级智能实验室最近发表了一篇论文 “ARE: 扩展智能体环境与评估”,介绍了一个强大的平台来实现这一目标。研究人员提出了两个关键贡献:

  1. ARE (Meta 智能体研究环境) : 一个用于创建动态、异步且逼真模拟环境的研究平台,其中时间连续流逝,事件独立于智能体发生。
  2. Gaia2: 基于 ARE 构建的全新挑战性基准,用于评估下一代智能体的多种能力,包括适应性、时间管理,以及与其他智能体的协作。

这项工作认为,要推动人工智能的进步,我们必须认真对待任务的定义和成功的衡量。下面我们来看看 ARE 与 Gaia2 是如何开辟这条道路的。


让世界不再暂停: ARE 平台

现有智能体环境的核心问题在于,它们与智能体的行为高度耦合: 只有当智能体采取行动时,世界才会发生变化。ARE 则通过一个简单而深刻的原则颠覆了这一点:** “万物皆事件”**。

在 ARE 中,环境是一个时间驱动的模拟系统,与智能体异步运行。时钟始终在滴答作响,事件可以在任何时间触发——可能由用户、智能体或环境本身安排。这种设计使得可以构建更贴近现实的、丰富而动态的世界。

ARE 架构流程图。外部用户和智能体与主环境交互。环境包含应用程序、事件队列、事件循环和通知系统。一个场景模块提供初始状态、事件和验证逻辑。

图 2 ARE 环境是基于事件、时间驱动的模拟,与智能体异步运行。场景包含任务和验证逻辑。交互可以是工具调用或观测,所有内容都会被记录以便精确分析。

该架构建立在五个核心概念之上:

  1. 应用 (Apps): 环境的构建模块,例如 Emails 应用或 Calendar 应用。每个应用都是一个有状态的工具集合 (如 send_emailcreate_event) ,操作的是自己的数据。这有助于创建可复现的环境,在其中智能体的行为会产生一致的结果。

  2. 环境 (Environments): 应用、它们的数据以及管理交互规则的集合。

  3. 事件 (Events): 任何动作或状态变化都属于事件。智能体发送消息是事件;朋友发来邮件也是由模拟安排的事件。事件以依赖图的形式组织,可实现并行或条件执行等复杂模式。

一个流程图,展示了如何根据依赖关系安排事件。一些事件并行运行,而另一些则必须等待其前置事件完成。

图 3 事件依赖图展示了 ARE 的调度模式,包括并行执行、前置条件和条件性执行。

  1. 通知 (Notifications): 环境通过通知与智能体通信,类似手机提醒。可配置的策略决定哪些事件会触发通知,从而可以测试智能体的主动性 —— 它会自己检查更新,还是依赖通知?

  2. 场景 (Scenarios): ARE 使用会随时间发展而变化的动态场景,而不是静态的单回合任务。场景包括初始状态、计划事件和验证逻辑。


场景示例

假设你提出请求: “问我妈妈要我们家的流媒体密码,拿到后转发给我爸爸。”

在传统环境中,智能体会发送消息,然后……尴尬地等待。而在 ARE 中,这会成为一个自然的多回合场景:

一个序列图,说明了 ARE 中的多回合场景。智能体发送一条消息后暂停,随后被环境中一个新的电子邮件通知重新激活,从而调整其计划。

图 4 多回合场景: 智能体在发送第一条消息后暂停,当异步收到带有密码的新邮件通知时调整计划。


Gaia2: AI 智能体的新挑战

借助 ARE,研究团队构建了 Gaia2 —— 一个在模拟 移动 环境中的全新基准测试平台,包含电子邮件、消息、联系人、日历、购物等多种应用,为智能体提供了 101 种工具

Gaia2 提供 1,120 个可验证的场景,这些场景对人类来说很简单,却对当前的 AI 智能体充满挑战。它超越了基本的搜索和执行,旨在测试更广泛且更复杂的能力。


Gaia2 的七个能力维度

  1. 搜索 (Search): 跨多个应用收集信息。
    *示例: * “根据聊天记录,看看我的大多数朋友住在哪个城市。”

  2. 执行 (Execution): 执行一系列 write 操作更新环境状态。
    *示例: * “更新所有 24 岁及以下联系人的年龄。”

  3. 适应性 (Adaptability): 当环境因智能体的行为而变化时做出反应。
    *示例: * “与 Kaida 预订会议,但如果她回复建议另一个时间,就重新安排。”

  4. 时间 (Time): 在明确的时间限制下执行任务。
    *示例: * “问问我的同事谁来叫车。如果 3 分钟内没有回复,就自己叫车。”

  5. 模糊性 (Ambiguity): 检测并处理含糊或矛盾的请求,而不是盲目猜测。
    *示例: * “安排每天 18:00 的瑜伽;如有冲突,请告知我。”

  6. 智能体间协作 (Agent2Agent Collaboration): 将某些应用替换为自主“应用智能体”,需要智能体之间进行协调。
    *示例: * 联系人与聊天应用被替换成需要发送消息才能获取信息的智能体。

一张图表,展示了智能体间协作场景的工作方式。主智能体不再直接调用工具,而是必须与专门的“应用智能体”通信来完成任务。

图 9 在智能体间协作场景中,应用被自主智能体取代。主智能体必须通过消息传递设定目标并协调完成任务。

  1. 噪声 (Noise): 环境中引入错误和无关事件,用来测试系统的鲁棒性。

验证: 不仅仅看最终答案

在基准测试中,成功通常意味着最终结果正确。但对于会修改状态 (删除、更新、创建) 的智能体来说,过程同样重要。

Gaia2 使用一个强大的验证器,将智能体的完整 write 操作序列与预先标注的标准答案进行对比:

  • 一致性 (Consistency): 工具与参数正确性通过精确匹配与 LLM 裁判的语义匹配双重检查。
  • 因果性 (Causality): 动作依赖关系必须成立。
  • 时效性 (Timing): 时间敏感任务必须在允许的时间窗口内完成。

轨迹匹配过程的图示。成功轨迹 (底部) 将所有动作映射到标准答案并满足依赖关系;失败轨迹 (顶部) 无法找到有效映射。

图 6 智能体轨迹与标准答案匹配过程: 必须保证映射、顺序与时机均正确。

这带来了精确、可靠的结果 —— 对评估与强化学习训练至关重要。

一张表格显示,ARE 验证器与人工标注的一致性为 0.98,而简单的上下文 LLM 验证器仅为 0.72。

表 1 在 450 条有标注的轨迹上,ARE 验证器远超简单的上下文 LLM 裁判基线。


基准测试结果: 权衡无处不在

采用标准 ReAct 框架测试多种专有与开源模型,形成了清晰的排行榜:

一张柱状图,显示了各种 AI 模型在 Gaia2 上的总体性能。GPT-5 (high) 获得最高分,其次是 Claude-4 Sonnet 和 Gemini 2.5-Pro。

图 8 Gaia2 总体得分: 专有前沿模型领先,GPT-5 (high) 位居榜首。

不同能力维度的表现差异显著:

一张详细表格,展示了每个模型在七个 Gaia2 能力维度上的 Pass@1 分数。

表 2 各模型在不同能力维度的 Pass@1 分数。执行和搜索最容易;模糊性、适应性和时间仍然困难。


智能的代价

一个关键发现是: 更强的推理能力往往牺牲了效率。模型在执行/搜索方面表现突出,但在适应性与模糊性上表现欠佳。

柱状图网格显示模型在各能力维度的表现。在执行和搜索方面强的模型在时间和模糊性领域常常表现不佳。

图 10 各能力维度分数: 优势与短板差异悬殊。

增加预算会带来递减收益:

一条折线图显示,随着每个场景预算增加,所有模型的成功率提高但最终趋于平稳。

图 1 预算扩展曲线趋于平缓——投入更多资金并不保证进步。

成本与效率的对比表明,最佳“性价比”并不总是最高准确率:

两张图比较模型。左图是总分与平均成本的关系;右图是解决场景所耗时间,人类较慢但更周全。

图 11 左: 更高分数通常伴随更高成本。右: 不同模型与人类在解决时间上的区别很大。


时间场景中的逆向缩放

一个显著趋势是: 顶尖推理模型在严格时间限制下反而表现最差 —— 出现了逆向缩放规律

左图显示忽略延迟 (“即时模式”) 时,模型在时间场景上的分数显著提升;右图是 GPT 模型的散点图,执行分高反而对应时间分低。

图 13 左: 即时模式提升时间场景表现,尤其是推理较重的模型。右: 执行能力越强,时间敏感响应反而越慢。

原因? 深度推理会增加延迟。既快又聪明的模型仍然罕见;未来或许需要自适应系统,用小型快速模型处理紧急任务。


协作的作用 (有时)

多智能体设置显示,协作可以提升如 Llama 4 Maverick 这样的较弱模型,降低错误率并稳定输出:

图表显示对于 Llama 4 Maverick,增加智能体间协作比例会减少工具调用错误。

图 14 对轻量模型而言,智能体间协作能减少错误率;对强模型如 Claude,收益有限。

异质团队 —— 将强大的“管理者”智能体与弱一些的执行者配合 —— 能提升表现,前提是执行者足够可靠。


结论: 通向真正有用智能体之路

ARE 与 Gaia2 标志着在现实约束下测试智能体的一个重要里程碑。它们让评估从回合制走向动态、异步的世界。

核心要点:

  1. 现实世界是异步的: 智能体必须应对持续变化;ARE 提供了开放构建此类世界的途径。
  2. 智能不仅仅是准确率: Gaia2 显示,适应性、鲁棒性与时间感知是主要短板。
  3. 权衡是基本原则: 速度、成本与推理能力需取得平衡。
  4. 自适应计算是未来方向: 智能体应根据任务复杂度动态调整计算资源——琐碎任务采用快速低成本策略;复杂任务进行深度推理。

人工智能进步的“下半场”将依赖于有意义的任务定义与稳健的评估。ARE 与 Gaia2 为社区提供了强大工具,以推动前沿发展、发现系统弱点,并指导设计真正有能力的 AI 助手。