UI-TARS-2: 通过强化学习训练AI掌控计算机的四大支柱

想象一下，有一个人工智能可以像你一样使用电脑——浏览网站、管理文件、玩游戏，甚至编写代码。这并非科幻小说，而是人工智能研究的前沿阶段，*GUI 智能体 *(GUI agents) 正被开发用于自主操作图形用户界面。

但构建这样的智能体极其困难。你如何收集足够的训练数据？
你如何教它在漫长而复杂的任务中从错误中学习？
又如何为它创造一个稳定的练习环境，避免频繁崩溃？

字节跳动的一份新技术报告介绍了 UI-TARS-2，这是一款功能强大的 GUI 智能体，它直面这些难题。论文提出了一套系统化的方法论，用于训练能力卓越的智能体，这些智能体不仅能在传统计算机任务中表现出色，还能泛化到动态环境，如基于网页的视频游戏。

让我们一起看看他们是如何做到的。

UI-TARS-2 玩 Hex 游戏、搜索规则，然后为其体验创建一个网页的演示——所有操作都在一个统一的沙箱环境中完成。

构建数字管家的四大难题

在 UI-TARS-2 出现之前，打造一个通用的 GUI 智能体就好比在不稳固的地基上建造摩天大楼。
作者总结了四个根本性挑战:

数据匮乏: 不同于文本或代码领域，没有一个庞大且现成的“计算机使用”数据语料库。收集高质量、逐步演示的数据既昂贵又耗时。
强化学习 (RL) 不稳定: 对于长任务而言，通过试错式强化学习训练智能体非常困难。奖励往往延迟，使得难以判断哪些行为有益，哪些有害。
“唯 GUI”陷阱: 很多现实任务无法仅靠点击和输入解决，有时需要后端工具——例如打开终端或运行脚本。
环境脆弱: 运行数百万次交互会话需要可靠的基础设施。虚拟机和浏览器可能缓慢、易出错且难维护。

UI-TARS-2 基于一个四大支柱方法论，旨在系统性地突破上述每个难关。

UI-TARS-2 的核心: 打造更智能智能体的配方

UI-TARS-2 核心遵循 ReAct 范式——一个思考 (Reasoning) 与行动 (Acting) 循环。

每一步中，智能体都会:

观察当前屏幕和目标。
思考下一步 (推理) 。
行动，通过 GUI 操作 (click、type) 或调用工具 (如终端命令) 。

循环持续，直到任务完成。
一个完整任务——即轨迹 (trajectory) ——由一连串“思考–行动–观察”步骤构成:

\[ \tau = \{(t_0, a_0, o_0), (t_1, a_1, o_1), \dots, (t_T, a_T, o_T)\} \]

在长任务中，智能体使用分层记忆系统:

工作记忆: 高精度记录最近步骤。
情景记忆: 压缩摘要以便长期回忆。

智能体策略基于记忆、指令和观察预测下一步思考与行动:

\[ P(t_n, a_n \mid \text{instruction}, \mathcal{W}_n, o_n, \mathcal{E}_n) \]

支柱一: 一体化 GUI 沙箱

要训练全能型智能体，必须有全能型训练环境。

团队构建了一个统一沙箱平台，支持:

Windows、Ubuntu 和 Android 桌面/移动应用
基于浏览器的环境
混合工作流，将 GUI 交互与后端工具 (GUI-SDK) 结合

主要特性:

数千台云虚拟机，实现大规模训练与稳定、可复现的会话。
文件系统与终端集成，支持如在浏览器下载文件后即用 shell 命令处理等工作流。
通过 PyAutoGUI 和 ADB 实现跨平台 GUI 自动化。

针对网页游戏，他们打造了硬件加速浏览器沙箱:

浏览器沙箱的架构，展示客户端 SDK 如何与浏览器管理器及多个浏览器实例交互，以实现高吞吐且稳定的训练部署。

该沙箱在每个容器内通过 Chrome DevTools 协议运行多个 Chrome 实例。巧妙优化如**“假时钟”**，支持加速或暂停时间，提高训练吞吐量而不改变游戏逻辑。

支柱二: 数据飞轮

为解决数据匮乏问题，团队设计了数据飞轮——一种自我强化循环，智能体会生成自己的训练数据，并在循环中不断成长。

数据飞轮是一个迭代过程，模型生成新数据，经过筛选后用于重新训练模型，从而形成良性持续改进。

循环过程:

起步: 初始数据集来自在线教程、人类演示和合成生成。
训练分三阶段:
- 持续预训练 (CT): 获取广泛知识。
- 监督微调 (SFT): 针对高质量、具体任务的指令进行微调。
- 强化学习 (RL): 在交互任务中试错训练。
生成: 由最新 RL 模型产生新轨迹。
筛选与回收:
- 高质量输出 → 进入 SFT 数据集。
- 低质量输出 → 进入 CT 数据集。
循环重启: 用更新数据集重新训练。

这样既不浪费数据，又推动模型与数据集共同进化。

支柱三: 可扩展数据收集

飞轮运转需要稳定的数据源——通过两种标注策略实现。

原位标注 (CT 阶段) :
标注工具直接运行在用户系统中，通过“出声思考”协议采集真实行为，即标注者在执行任务时口述思考过程。

交互式标注 (SFT 阶段) :
人类标注员在实时虚拟环境中监督模型。

交互式标注平台的四层架构，该平台管理任务、虚拟环境与数据存储，实现实时人类参与的数据采集。

每一步:

智能体提出思考与行动。
人类批准或纠正。

交互式标注工作流，人类标注员在实时环境中指导智能体行动，进行在线策略修正。

这种“人在环路”流程产出与模型行为高度吻合的在线策略数据。

支柱四: 稳定多轮强化学习

长周期强化学习不稳定且难扩展。UI-TARS-2 通过以下手段应对:

自动生成且可验证的任务，涵盖 GUI 浏览、通用网页交互与游戏。
结果奖励模型 (ORM)，基于最终结果评估开放式任务。
异步部署与流式更新，避免长尾轨迹带来的瓶颈。

多轮强化学习训练基础设施，包括策略服务器与环境服务器，支持异步流式更新，实现高效训练。

算法层面使用近端策略优化 (PPO):

\[ \mathcal{J}_{\mathrm{PPO}}(\theta) = \mathbb{E} \left[ \min\left( \frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \hat{A}_t, \text{clip}\left(\frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right] \]

长任务增强

价值预训练: PPO 更新前先离线训练价值模型至收敛。
解耦与长度自适应 GAE: 提升不同长度序列的信度分配。
奖励塑形: 格式化奖励、长度惩罚及中间信号。

最后通过参数插值融合多领域模型:

\[ \theta^{\text{merge}} = \sum_k \alpha_k \cdot \theta^{(k)}, \quad \sum_k \alpha_k = 1,\ \alpha_k \ge 0 \]

实验与结果

GUI 基准测试

在计算机、移动和网页任务中，UI-TARS-2 创造了新的最优成绩。

表 1 显示了 UI-TARS-2 在多种 GUI 基准测试中的表现，证明其在桌面、移动与 Web 环境中相较前版本与强基线有明显提升。

亮点:

领域外性能显著提升——即使 RL 主要集中于浏览器任务，桌面与移动基准也同步提高。
借助 GUI-SDK 工具，复杂推理与软件工程任务取得重大进步 (BrowseComp, SWE-Bench) 。

游戏基准测试

在包含 15 款网页游戏的测试集中:

表 2 展示了 UI-TARS-2 在 15 款游戏集上的表现，平均归一化得分为 59.8，显著超越 OpenAI CUA 和 Claude Computer Use。

UI-TARS-2 平均实现约 60% 的人类水平。
在某些游戏 (如 Shapes) 中超过人类平均水准。

在领域外 LMGame-Bench 测试中:

表 3 显示了 UI-TARS-2 在领域外 LMGame-Bench 中的竞争力，在经典游戏上与顶尖专有模型不相上下。

它与 OpenAI o3 和 Gemini-2.5 Pro 等顶尖专有模型保持竞争力。

训练动态洞察

奖励与熵:
训练奖励稳步上升 (图 7) ，熵也常随之增长——表明智能体在探索多样策略，而非收敛至单一策略。

图 7: 奖励持续增长，熵也上升，说明智能体学会探索多样策略。
图 8: GUI 与游戏场景的训练熵动态，与推理任务不同，熵常升高，显示探索增加。

思考更少，行动更多:
随着任务熟练度提高，GUI 环境中的“思考长度”下降——决策更直接。

图 9: 每步平均思考长度。GUI 任务中随成熟度下降；游戏中则周期性上升与难度相关。

推理阶段扩展性:
与性能停滞的基线不同，UI-TARS-2 在允许更多执行步数时性能持续提升。

图 11: 推理阶段扩展性。UI-TARS-2 随步数增加持续登高，解锁更多子目标。

价值预训练优势:

图 10b: 价值预训练带来持续更高的奖励。

混合训练优势:

图 15: 混合训练 (仅 GUI + GUI-SDK) 带来更佳跨任务迁移效果，优于单一接口训练。

结论: 智能体未来蓝图

UI-TARS-2 不只是一个更强大的模型——它是一套构建稳健计算机使用智能体的方法论。

核心启示:

系统方法至关重要: 沙箱、混合工具、数据飞轮与稳定 RL 搭配释放能力。
数据飞轮制胜: 模型与数据协同进化驱动持续提升。
强化学习可扩展: 合适的基础设施与算法让多轮 RL 应用于复杂任务成为可能。
突破 GUI 限制: 混合交互模式大幅扩展问题解决能力。

尽管距离完美的数字助理仍有差距，UI-TARS-2 证明了只要有坚实基础，快速而显著的进步是可实现的。这些原则很可能会引领下一代强大、可靠且多才多艺的 AI 智能体的发展。

构建数字管家的四大难题#

UI-TARS-2 的核心: 打造更智能智能体的配方#

支柱一: 一体化 GUI 沙箱#

支柱二: 数据飞轮#

支柱三: 可扩展数据收集#

支柱四: 稳定多轮强化学习#

长任务增强#

实验与结果#

GUI 基准测试#

游戏基准测试#

训练动态洞察#

结论: 智能体未来蓝图#