想象一下,有一个人工智能可以像你一样使用电脑——浏览网站、管理文件、玩游戏,甚至编写代码。这并非科幻小说,而是人工智能研究的前沿阶段,*GUI 智能体 *(GUI agents) 正被开发用于自主操作图形用户界面。

但构建这样的智能体极其困难。你如何收集足够的训练数据?
你如何教它在漫长而复杂的任务中从错误中学习?
又如何为它创造一个稳定的练习环境,避免频繁崩溃?

字节跳动的一份新技术报告介绍了 UI-TARS-2,这是一款功能强大的 GUI 智能体,它直面这些难题。论文提出了一套系统化的方法论,用于训练能力卓越的智能体,这些智能体不仅能在传统计算机任务中表现出色,还能泛化到动态环境,如基于网页的视频游戏。

让我们一起看看他们是如何做到的。

UI-TARS-2 玩 Hex 游戏、搜索规则,然后为其体验创建一个网页的演示——所有操作都在一个统一的沙箱环境中完成。


构建数字管家的四大难题

在 UI-TARS-2 出现之前,打造一个通用的 GUI 智能体就好比在不稳固的地基上建造摩天大楼。
作者总结了四个根本性挑战:

  1. 数据匮乏: 不同于文本或代码领域,没有一个庞大且现成的“计算机使用”数据语料库。收集高质量、逐步演示的数据既昂贵又耗时。
  2. 强化学习 (RL) 不稳定: 对于长任务而言,通过试错式强化学习训练智能体非常困难。奖励往往延迟,使得难以判断哪些行为有益,哪些有害。
  3. “唯 GUI”陷阱: 很多现实任务无法仅靠点击和输入解决,有时需要后端工具——例如打开终端或运行脚本。
  4. 环境脆弱: 运行数百万次交互会话需要可靠的基础设施。虚拟机和浏览器可能缓慢、易出错且难维护。

UI-TARS-2 基于一个四大支柱方法论,旨在系统性地突破上述每个难关。


UI-TARS-2 的核心: 打造更智能智能体的配方

UI-TARS-2 核心遵循 ReAct 范式——一个考 (Reasoning) 与动 (Acting) 循环。

每一步中,智能体都会:

  1. 观察当前屏幕和目标。
  2. 思考下一步 (推理) 。
  3. 行动,通过 GUI 操作 (clicktype) 或调用工具 (如终端命令) 。

循环持续,直到任务完成。
一个完整任务——即轨迹 (trajectory) ——由一连串“思考–行动–观察”步骤构成:

\[ \tau = \{(t_0, a_0, o_0), (t_1, a_1, o_1), \dots, (t_T, a_T, o_T)\} \]

在长任务中,智能体使用分层记忆系统:

  • 工作记忆: 高精度记录最近步骤。
  • 情景记忆: 压缩摘要以便长期回忆。

智能体策略基于记忆、指令和观察预测下一步思考与行动:

\[ P(t_n, a_n \mid \text{instruction}, \mathcal{W}_n, o_n, \mathcal{E}_n) \]

支柱一: 一体化 GUI 沙箱

要训练全能型智能体,必须有全能型训练环境。

团队构建了一个统一沙箱平台,支持:

  • Windows、Ubuntu 和 Android 桌面/移动应用
  • 基于浏览器的环境
  • 混合工作流,将 GUI 交互与后端工具 (GUI-SDK) 结合

主要特性:

  • 数千台云虚拟机,实现大规模训练与稳定、可复现的会话。
  • 文件系统与终端集成,支持如在浏览器下载文件后即用 shell 命令处理等工作流。
  • 通过 PyAutoGUI 和 ADB 实现跨平台 GUI 自动化。

针对网页游戏,他们打造了硬件加速浏览器沙箱:

浏览器沙箱的架构,展示客户端 SDK 如何与浏览器管理器及多个浏览器实例交互,以实现高吞吐且稳定的训练部署。

该沙箱在每个容器内通过 Chrome DevTools 协议运行多个 Chrome 实例。巧妙优化如**“假时钟”**,支持加速或暂停时间,提高训练吞吐量而不改变游戏逻辑。


支柱二: 数据飞轮

为解决数据匮乏问题,团队设计了数据飞轮——一种自我强化循环,智能体会生成自己的训练数据,并在循环中不断成长。

数据飞轮是一个迭代过程,模型生成新数据,经过筛选后用于重新训练模型,从而形成良性持续改进。

循环过程:

  1. 起步: 初始数据集来自在线教程、人类演示和合成生成。
  2. 训练分三阶段:
    • 持续预训练 (CT): 获取广泛知识。
    • 监督微调 (SFT): 针对高质量、具体任务的指令进行微调。
    • 强化学习 (RL): 在交互任务中试错训练。
  3. 生成: 由最新 RL 模型产生新轨迹。
  4. 筛选与回收:
    • 高质量输出 → 进入 SFT 数据集。
    • 低质量输出 → 进入 CT 数据集。
  5. 循环重启: 用更新数据集重新训练。

这样既不浪费数据,又推动模型与数据集共同进化。


支柱三: 可扩展数据收集

飞轮运转需要稳定的数据源——通过两种标注策略实现。

原位标注 (CT 阶段) :
标注工具直接运行在用户系统中,通过“出声思考”协议采集真实行为,即标注者在执行任务时口述思考过程。

交互式标注 (SFT 阶段) :
人类标注员在实时虚拟环境中监督模型。

交互式标注平台的四层架构,该平台管理任务、虚拟环境与数据存储,实现实时人类参与的数据采集。

每一步:

  • 智能体提出思考与行动。
  • 人类批准或纠正。

交互式标注工作流,人类标注员在实时环境中指导智能体行动,进行在线策略修正。

这种“人在环路”流程产出与模型行为高度吻合的在线策略数据


支柱四: 稳定多轮强化学习

长周期强化学习不稳定且难扩展。UI-TARS-2 通过以下手段应对:

  1. 自动生成且可验证的任务,涵盖 GUI 浏览、通用网页交互与游戏。
  2. 结果奖励模型 (ORM),基于最终结果评估开放式任务。
  3. 异步部署与流式更新,避免长尾轨迹带来的瓶颈。

多轮强化学习训练基础设施,包括策略服务器与环境服务器,支持异步流式更新,实现高效训练。

算法层面使用近端策略优化 (PPO):

\[ \mathcal{J}_{\mathrm{PPO}}(\theta) = \mathbb{E} \left[ \min\left( \frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \hat{A}_t, \text{clip}\left(\frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right] \]

长任务增强

  • 价值预训练: PPO 更新前先离线训练价值模型至收敛。
  • 解耦与长度自适应 GAE: 提升不同长度序列的信度分配。
  • 奖励塑形: 格式化奖励、长度惩罚及中间信号。

最后通过参数插值融合多领域模型:

\[ \theta^{\text{merge}} = \sum_k \alpha_k \cdot \theta^{(k)}, \quad \sum_k \alpha_k = 1,\ \alpha_k \ge 0 \]

实验与结果

GUI 基准测试

在计算机、移动和网页任务中,UI-TARS-2 创造了新的最优成绩。

表 1 显示了 UI-TARS-2 在多种 GUI 基准测试中的表现,证明其在桌面、移动与 Web 环境中相较前版本与强基线有明显提升。

亮点:

  • 领域外性能显著提升——即使 RL 主要集中于浏览器任务,桌面与移动基准也同步提高。
  • 借助 GUI-SDK 工具,复杂推理与软件工程任务取得重大进步 (BrowseComp, SWE-Bench) 。

游戏基准测试

在包含 15 款网页游戏的测试集中:

表 2 展示了 UI-TARS-2 在 15 款游戏集上的表现,平均归一化得分为 59.8,显著超越 OpenAI CUA 和 Claude Computer Use。

  • UI-TARS-2 平均实现约 60% 的人类水平
  • 在某些游戏 (如 Shapes) 中超过人类平均水准。

在领域外 LMGame-Bench 测试中:

表 3 显示了 UI-TARS-2 在领域外 LMGame-Bench 中的竞争力,在经典游戏上与顶尖专有模型不相上下。

它与 OpenAI o3 和 Gemini-2.5 Pro 等顶尖专有模型保持竞争力。


训练动态洞察

奖励与熵:
训练奖励稳步上升 (图 7) ,熵也常随之增长——表明智能体在探索多样策略,而非收敛至单一策略。

图 7: 奖励持续增长,熵也上升,说明智能体学会探索多样策略。
图 8: GUI 与游戏场景的训练熵动态,与推理任务不同,熵常升高,显示探索增加。

思考更少,行动更多:
随着任务熟练度提高,GUI 环境中的“思考长度”下降——决策更直接。

图 9: 每步平均思考长度。GUI 任务中随成熟度下降;游戏中则周期性上升与难度相关。

推理阶段扩展性:
与性能停滞的基线不同,UI-TARS-2 在允许更多执行步数时性能持续提升。

图 11: 推理阶段扩展性。UI-TARS-2 随步数增加持续登高,解锁更多子目标。

价值预训练优势:

图 10b: 价值预训练带来持续更高的奖励。

混合训练优势:

图 15: 混合训练 (仅 GUI + GUI-SDK) 带来更佳跨任务迁移效果,优于单一接口训练。


结论: 智能体未来蓝图

UI-TARS-2 不只是一个更强大的模型——它是一套构建稳健计算机使用智能体的方法论

核心启示:

  1. 系统方法至关重要: 沙箱、混合工具、数据飞轮与稳定 RL 搭配释放能力。
  2. 数据飞轮制胜: 模型与数据协同进化驱动持续提升。
  3. 强化学习可扩展: 合适的基础设施与算法让多轮 RL 应用于复杂任务成为可能。
  4. 突破 GUI 限制: 混合交互模式大幅扩展问题解决能力。

尽管距离完美的数字助理仍有差距,UI-TARS-2 证明了只要有坚实基础,快速而显著的进步是可实现的。这些原则很可能会引领下一代强大、可靠且多才多艺的 AI 智能体的发展。