UI-TARS-2:多轮强化学习炼成!达60%人类水平,AI智能体自主操作电脑

让AI像我们一样熟练地操作电脑,无论是浏览网页、处理文件还是玩游戏,这无疑是通用人工智能(AGI)最激动人心的目标之一。然而,现实却骨感得多:去哪里找海量的操作数据?如何让模型在漫长而复杂的任务中稳定学习?

ArXiv URL:http://arxiv.org/abs/2509.02544v2

今天,一篇名为 UI-TARS-2 的技术报告为我们带来了突破性的答案。它不仅在多个主流GUI(图形用户界面)基准测试中超越了Claude和OpenAI的智能体,更是在游戏测试中达到了接近60%的人类水平!这背后,是一套系统化的训练方法论,解决了GUI智能体面临的核心难题。

破解GUI智能体的四大枷锁

过去的GUI智能体开发,常常面临四大挑战:

  1. 数据稀缺:高质量、长交互链条的“人机交互”数据,极其昂贵且稀少。

  2. RL训练不稳:在多步骤交互中,强化学习(RL)的奖励稀疏、优化困难,难以规模化。

  3. 操作局限:单纯的“点鼠标、敲键盘”无法胜任需要文件系统或命令行的复杂工作。

  4. 环境脆弱:大规模、可复现的模拟环境搭建困难,稳定性差。

UI-TARS-2 直面这些挑战,提出了一个由四大支柱构成的系统性解决方案。

数据飞轮:自我进化的数据引擎

如何解决数据稀缺问题?答案是:让模型自己“造血”。

UI-TARS-2 设计了一个精巧的数据飞轮Data Flywheel)机制。它建立了一个自我强化的闭环,让模型能力和数据质量共同进化。

UI-TARS-2的数据飞轮机制

这个飞轮包含三个核心训练阶段:

在每一轮迭代中,最新的RL模型会生成新的交互轨迹。高质量的轨迹会被送入SFT数据集,而质量稍逊的则被送入CT数据集。这样,模型总能用上最适合它的数据,形成“更好的模型产出更好的数据,更好的数据训练出更好的模型”的良性循环。

稳定的多轮强化学习框架

多轮强化学习是训练高级智能体的关键,但也是最难啃的骨头。

传统方法在处理长尾、复杂的任务时效率低下,且容易因策略偏离而导致训练崩溃。UI-TARS-2 通过一个专为大规模、长时程任务设计的RL训练框架,巧妙地解决了这个问题。

UI-TARS-2的多轮RL训练架构

其核心设计包括:

统一沙箱:打通虚拟与现实的操作环境

一个强大的GUI智能体,能力绝不能局限于屏幕之内。

UI-TARS-2 打造了一个“All-in-One”的统一沙箱Unified Sandbox)平台。这个平台不仅支持在虚拟机中运行Windows、Ubuntu和Android等主流操作系统,还无缝集成了文件系统和命令行工具。

这意味着智能体可以完成更真实的工作流。比如,它可以在浏览器里下载一个文件,然后立刻在同一个沙箱环境里用命令行工具对它进行处理。

此外,该研究还为网页游戏构建了硬件加速的浏览器沙箱,能够支持高并发、高效率的RL训练,为模型在游戏领域的出色表现奠定了基础。

惊艳的实证效果

理论的先进最终要靠效果说话。UI-TARS-2 的表现堪称惊艳:

结论

UI-TARS-2 的意义远不止是发布了一个性能更强的模型。它提供了一套系统化、可扩展、可复制的GUI智能体训练方法论。

通过数据飞轮解决了数据瓶颈,通过稳定的多轮强化学习框架攻克了训练难题,再结合统一沙箱打通了操作壁垒,UI-TARS-2 为通往更通用、更强大的AI智能体铺平了道路。未来,AI真正成为我们“数字化身”的那一天,或许已经不远了。