想象一下,有一个人工智能可以像你一样使用电脑——浏览网站、管理文件、玩游戏,甚至编写代码。这并非科幻小说,而是人工智能研究的前沿阶段,*GUI 智能体 *(GUI agents) 正被开发用于自主操作图形用户界面。
但构建这样的智能体极其困难。你如何收集足够的训练数据?
你如何教它在漫长而复杂的任务中从错误中学习?
又如何为它创造一个稳定的练习环境,避免频繁崩溃?
字节跳动的一份新技术报告介绍了 UI-TARS-2,这是一款功能强大的 GUI 智能体,它直面这些难题。论文提出了一套系统化的方法论,用于训练能力卓越的智能体,这些智能体不仅能在传统计算机任务中表现出色,还能泛化到动态环境,如基于网页的视频游戏。
让我们一起看看他们是如何做到的。
构建数字管家的四大难题
在 UI-TARS-2 出现之前,打造一个通用的 GUI 智能体就好比在不稳固的地基上建造摩天大楼。
作者总结了四个根本性挑战:
- 数据匮乏: 不同于文本或代码领域,没有一个庞大且现成的“计算机使用”数据语料库。收集高质量、逐步演示的数据既昂贵又耗时。
- 强化学习 (RL) 不稳定: 对于长任务而言,通过试错式强化学习训练智能体非常困难。奖励往往延迟,使得难以判断哪些行为有益,哪些有害。
- “唯 GUI”陷阱: 很多现实任务无法仅靠点击和输入解决,有时需要后端工具——例如打开终端或运行脚本。
- 环境脆弱: 运行数百万次交互会话需要可靠的基础设施。虚拟机和浏览器可能缓慢、易出错且难维护。
UI-TARS-2 基于一个四大支柱方法论,旨在系统性地突破上述每个难关。
UI-TARS-2 的核心: 打造更智能智能体的配方
UI-TARS-2 核心遵循 ReAct 范式——一个思考 (Reasoning) 与行动 (Acting) 循环。
每一步中,智能体都会:
- 观察当前屏幕和目标。
- 思考下一步 (推理) 。
- 行动,通过 GUI 操作 (
click
、type
) 或调用工具 (如终端命令) 。
循环持续,直到任务完成。
一个完整任务——即轨迹 (trajectory) ——由一连串“思考–行动–观察”步骤构成:
在长任务中,智能体使用分层记忆系统:
- 工作记忆: 高精度记录最近步骤。
- 情景记忆: 压缩摘要以便长期回忆。
智能体策略基于记忆、指令和观察预测下一步思考与行动:
\[ P(t_n, a_n \mid \text{instruction}, \mathcal{W}_n, o_n, \mathcal{E}_n) \]支柱一: 一体化 GUI 沙箱
要训练全能型智能体,必须有全能型训练环境。
团队构建了一个统一沙箱平台,支持:
- Windows、Ubuntu 和 Android 桌面/移动应用
- 基于浏览器的环境
- 混合工作流,将 GUI 交互与后端工具 (GUI-SDK) 结合
主要特性:
- 数千台云虚拟机,实现大规模训练与稳定、可复现的会话。
- 文件系统与终端集成,支持如在浏览器下载文件后即用 shell 命令处理等工作流。
- 通过 PyAutoGUI 和 ADB 实现跨平台 GUI 自动化。
针对网页游戏,他们打造了硬件加速浏览器沙箱:
该沙箱在每个容器内通过 Chrome DevTools 协议运行多个 Chrome 实例。巧妙优化如**“假时钟”**,支持加速或暂停时间,提高训练吞吐量而不改变游戏逻辑。
支柱二: 数据飞轮
为解决数据匮乏问题,团队设计了数据飞轮——一种自我强化循环,智能体会生成自己的训练数据,并在循环中不断成长。
循环过程:
- 起步: 初始数据集来自在线教程、人类演示和合成生成。
- 训练分三阶段:
- 持续预训练 (CT): 获取广泛知识。
- 监督微调 (SFT): 针对高质量、具体任务的指令进行微调。
- 强化学习 (RL): 在交互任务中试错训练。
- 生成: 由最新 RL 模型产生新轨迹。
- 筛选与回收:
- 高质量输出 → 进入 SFT 数据集。
- 低质量输出 → 进入 CT 数据集。
- 循环重启: 用更新数据集重新训练。
这样既不浪费数据,又推动模型与数据集共同进化。
支柱三: 可扩展数据收集
飞轮运转需要稳定的数据源——通过两种标注策略实现。
原位标注 (CT 阶段) :
标注工具直接运行在用户系统中,通过“出声思考”协议采集真实行为,即标注者在执行任务时口述思考过程。
交互式标注 (SFT 阶段) :
人类标注员在实时虚拟环境中监督模型。
每一步:
- 智能体提出思考与行动。
- 人类批准或纠正。
这种“人在环路”流程产出与模型行为高度吻合的在线策略数据。
支柱四: 稳定多轮强化学习
长周期强化学习不稳定且难扩展。UI-TARS-2 通过以下手段应对:
- 自动生成且可验证的任务,涵盖 GUI 浏览、通用网页交互与游戏。
- 结果奖励模型 (ORM),基于最终结果评估开放式任务。
- 异步部署与流式更新,避免长尾轨迹带来的瓶颈。
算法层面使用近端策略优化 (PPO):
\[ \mathcal{J}_{\mathrm{PPO}}(\theta) = \mathbb{E} \left[ \min\left( \frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \hat{A}_t, \text{clip}\left(\frac{\pi_{\theta}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}, 1-\varepsilon, 1+\varepsilon\right) \hat{A}_t \right) \right] \]长任务增强
- 价值预训练: PPO 更新前先离线训练价值模型至收敛。
- 解耦与长度自适应 GAE: 提升不同长度序列的信度分配。
- 奖励塑形: 格式化奖励、长度惩罚及中间信号。
最后通过参数插值融合多领域模型:
\[ \theta^{\text{merge}} = \sum_k \alpha_k \cdot \theta^{(k)}, \quad \sum_k \alpha_k = 1,\ \alpha_k \ge 0 \]实验与结果
GUI 基准测试
在计算机、移动和网页任务中,UI-TARS-2 创造了新的最优成绩。
亮点:
- 领域外性能显著提升——即使 RL 主要集中于浏览器任务,桌面与移动基准也同步提高。
- 借助 GUI-SDK 工具,复杂推理与软件工程任务取得重大进步 (BrowseComp, SWE-Bench) 。
游戏基准测试
在包含 15 款网页游戏的测试集中:
- UI-TARS-2 平均实现约 60% 的人类水平。
- 在某些游戏 (如 Shapes) 中超过人类平均水准。
在领域外 LMGame-Bench 测试中:
它与 OpenAI o3 和 Gemini-2.5 Pro 等顶尖专有模型保持竞争力。
训练动态洞察
奖励与熵:
训练奖励稳步上升 (图 7) ,熵也常随之增长——表明智能体在探索多样策略,而非收敛至单一策略。
思考更少,行动更多:
随着任务熟练度提高,GUI 环境中的“思考长度”下降——决策更直接。
推理阶段扩展性:
与性能停滞的基线不同,UI-TARS-2 在允许更多执行步数时性能持续提升。
价值预训练优势:
混合训练优势:
结论: 智能体未来蓝图
UI-TARS-2 不只是一个更强大的模型——它是一套构建稳健计算机使用智能体的方法论。
核心启示:
- 系统方法至关重要: 沙箱、混合工具、数据飞轮与稳定 RL 搭配释放能力。
- 数据飞轮制胜: 模型与数据协同进化驱动持续提升。
- 强化学习可扩展: 合适的基础设施与算法让多轮 RL 应用于复杂任务成为可能。
- 突破 GUI 限制: 混合交互模式大幅扩展问题解决能力。
尽管距离完美的数字助理仍有差距,UI-TARS-2 证明了只要有坚实基础,快速而显著的进步是可实现的。这些原则很可能会引领下一代强大、可靠且多才多艺的 AI 智能体的发展。