MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
超越Gemini!阿里MAI-UI发布:全尺寸GUI Agent与端云协同新范式

我们距离真正的“贾维斯”还有多远?
ArXiv URL:http://arxiv.org/abs/2512.22047v1
尽管GUI Agent(图形用户界面智能体)被视为下一代人机交互的革命性技术,但现实往往是骨感的:它们要么在复杂的动态网页中迷路,要么在面对模糊指令时不知所措,更别提在手机端运行时那令人担忧的隐私和延迟问题了。
为了打破这些僵局,阿里巴巴通义实验室(Tongyi Lab)近日发布了 MAI-UI。这不仅仅是一个模型,而是一整套“全尺寸”的GUI Agent家族,参数量跨越了从端侧极致轻量化的 2B 到云端巨无霸 235B。
MAI-UI不仅在AndroidWorld上以 76.7% 的成功率刷新了SOTA,超越了UI-Tars-2和Gemini-2.5-Pro,更重要的是,它提出了一套端云协同(Device-Cloud Collaboration)和在线强化学习(Online RL)的全新系统架构。

痛点:为什么现在的GUI Agent还不够好?
在深入技术细节之前,我们需要理解MAI-UI试图解决的四大核心痛点:
-
缺乏“人味”的交互:大多数Agent只会埋头干活,遇到模糊指令(比如“帮我点个外卖”,但没说吃什么)就瞎猜,而不是主动询问用户。
-
纯UI操作的局限性:仅仅依赖点击和滑动(Click & Swipe)是非常脆弱的。一旦UI改版或出现弹窗,长链路操作极易中断。
-
端与云的割裂:小模型在端侧不够聪明,大模型在云端不够安全且昂贵。缺乏一个能根据任务难度动态切换“大脑”的机制。
-
动态环境的脆弱性:在静态数据上训练的Agent,一遇到真实的、动态变化的APP环境就容易“崩”。
MAI-UI的核心技术武器库
针对上述问题,MAI-UI基于 Qwen3-VL 底座,打出了一套漂亮的组合拳。
1. 超越点击:引入主动交互与MCP工具
MAI-UI扩展了Agent的动作空间(Action Space)。除了常规的点击、滑动、输入外,它新增了两个关键动作:
-
\(ask_user\):当信息不足时,Agent会主动向用户提问,而不是盲目执行。
-
\(mcp_call\):通过 模型上下文协议(Model Context Protocol, MCP),Agent可以直接调用API工具(如地图API、GitHub操作),绕过繁琐且脆弱的UI步骤。
这使得MAI-UI不再是一个只会点屏幕的“操作工”,而是一个懂得使用工具和沟通的“智能助理”。
2. 自进化的数据流水线
数据是Agent的燃料。MAI-UI构建了一个自进化数据流水线(Self-Evolving Data Pipeline)。
这个流水线包含三个阶段:任务生成、轨迹合成(结合了人工标注和模型生成)、以及迭代拒绝采样(Iterative Rejection Sampling)。
简单来说,系统会利用当前的Agent去尝试完成任务,成功的轨迹会被加入训练集,失败的轨迹如果前半段正确也会被回收利用。这种“左脚踩右脚”的迭代方式,让模型和数据同步进化。
3. 大规模在线强化学习(Online RL)
这是MAI-UI最硬核的技术亮点之一。为了解决动态环境适应性问题,研究团队引入了在线强化学习。
但这并不容易,因为GUI环境是“有状态”的(Stateful),不像数学题那样可以随时重置。为了解决效率问题,MAI-UI采用了基于 verl 框架的异步训练架构,并实现了混合并行(Hybrid Parallelism)策略。
-
规模化环境:系统支持并行运行 500+ 个GUI环境进行采样。
-
长序列处理:针对动辄数百万Token的超长操作轨迹,利用Megatron的TP+PP+CP多维并行技术,实现了端到端的策略更新。
实验表明,仅将并行环境从32扩展到512,就带来了 +5.2 个点的性能提升。

4. 原生端云协同系统
MAI-UI并没有在“端侧”和“云侧”之间二选一,而是设计了一个原生端云协同系统。
-
端侧模型(2B/8B):负责处理隐私敏感数据和简单的高频操作,响应快,零成本。
-
云端模型(235B):当任务变得复杂,或者端侧模型搞不定时,系统会根据任务状态动态路由到云端大模型。
这种设计使得端侧性能提升了 33%,同时减少了 40% 以上的云端调用,完美平衡了性能、成本和隐私。
实验结果:全面霸榜
MAI-UI在多个权威基准测试中展现了统治力:
-
GUI定位(Grounding):在ScreenSpot-Pro上达到 73.5%,大幅领先Gemini-3-Pro和Seed1.8。
-
移动端导航(Mobile Navigation):
-
在 AndroidWorld 上,MAI-UI取得了 76.7% 的成功率,刷新了SOTA。
-
即便是 2B 的端侧小模型,也比同量级的Ferret-UI Lite强了 75.4%。
-
-
真实场景评估:在更贴近真实的MobileWorld基准中,MAI-UI不仅在纯GUI操作上领先,在涉及用户交互和MCP工具调用的任务上,更是展现了绝对优势。
总结
MAI-UI的发布标志着GUI Agent正在从“实验室玩具”走向“工业级应用”。它不再执着于单一模型的刷榜,而是通过全尺寸模型矩阵、端云协同架构以及大规模在线RL,构建了一套可落地的解决方案。
对于开发者而言,MAI-UI展示了一条清晰的路径:未来的Agent不仅仅要“看懂”界面,更要懂得“询问”用户、“调用”工具,并在端云之间灵活穿梭。