Each language version is independently generated for its own context, not a direct translation.
这篇技术报告介绍了一个名为 UI-Venus-1.5 的超级智能助手,它是由蚂蚁集团(Ant Group)的 Venus 团队研发的。
为了让你轻松理解,我们可以把手机和电脑屏幕想象成一个巨大的、复杂的迷宫,而UI-Venus-1.5 就是一个拥有“火眼金睛”和“超级大脑”的全能向导。
以下是用大白话和生动比喻对这篇报告的解读:
1. 它是什么?(从“单科状元”到“全能学霸”)
以前的 AI 助手,有的擅长在网页上找东西(像“网页导航员”),有的擅长在 APP 里点按钮(像“手机操作手”),还有的擅长识别屏幕上的小图标(像“找茬游戏专家”)。但它们通常只能干一件事,或者干一件事时另一件事就变笨了。
UI-Venus-1.5 的突破在于,它把这三个“单科状元”的能力融合在了一起,变成了一个真正的“全能型”数字管家。
- 比喻:以前你需要雇三个不同的人(一个管网页、一个管手机、一个管找图标),现在你只需要雇佣一个超级员工,他既能帮你订机票,又能帮你网购,还能帮你操作复杂的软件,而且干得比那三个加起来还漂亮。
2. 它是怎么变强的?(“三步走”修炼秘籍)
为了让这个向导变得如此聪明,团队给它安排了一套独特的“特训营”,分成了三个阶段:
第一阶段:中程训练(Mid-Training)—— 先“博览群书”
- 做法:在正式学干活之前,先让它看100 亿个关于屏幕操作的“教科书”(来自 30 多个数据集)。
- 比喻:就像让一个刚毕业的大学生,先花几个月时间把《世界地图》、《操作手册》和《各种 APP 使用指南》全部背下来。这样它一上岗,就知道“这个图标是返回键”、“那个按钮是确认”,不用临时查字典。
- 效果:它不再是个“小白”,而是具备了深厚的屏幕常识。
第二阶段:离线强化学习(Offline-RL)—— 在“模拟考场”刷题
- 做法:利用大量的历史数据,让它反复练习如何把“人话”(比如“帮我买张票”)变成具体的“动作”(点击哪里、输入什么)。
- 比喻:这就像在模拟驾驶里练车。教练(奖励机制)会告诉它:“刚才那个动作太慢了,扣分!”或者“这次路线选对了,加分!”。它通过不断试错,学会了如何精准地点击和滑动。
- 新技能:它还学会了拒绝。如果让你点一个不存在的按钮,它会聪明地说“这里没有这个按钮”,而不是瞎点(这叫“拒绝幻觉”)。
第三阶段:在线强化学习(Online-RL)—— 去“真实战场”实战
- 做法:这是最关键的一步。它不再只看死数据,而是真的连接了成千上万台真实的手机和电脑,在动态变化的环境里自己摸索。
- 比喻:以前是在驾校练车,现在直接上早高峰的北京街头开车。路况会变(APP 会弹窗、网络会卡顿),它必须学会随机应变。如果走错了,它能立刻发现并修正,而不是死板地按原计划撞墙。
- 黑科技:团队建了一个DaaS(设备即服务) 系统,就像拥有了一支由成千上万台手机组成的“机器人军团”,让它们 24 小时不停地帮 AI 试错和进化。
3. 最后的“融合术”(Model Merging)
训练完三个专项技能(找图标、网页操作、手机操作)后,团队没有把它们拼凑在一起,而是用一种叫TIES-Merge的“魔法融合术”,把三个模型合成了一个。
- 比喻:就像把三位武林高手(剑客、刀客、拳师)的内力融合到一个人体内,让他既能使剑、又能用刀、还能出拳,而且没有任何副作用。
4. 它有多厉害?(成绩单)
在各项“考试”中,UI-Venus-1.5 都拿到了全球第一(SOTA) 的成绩:
- 找东西(Grounding):在复杂的软件界面里找小图标,准确率高达 69.6%。
- 手机操作(AndroidWorld):在真实的安卓手机上完成复杂任务(如设置闹钟、发微信),成功率高达 77.6%。
- 网页浏览(WebVoyager):在网页上自主购物、查信息,成功率 76.0%。
最酷的是:它的80 亿参数版本(8B),表现比之前那些720 亿参数的笨重模型还要好!这意味着它更聪明、更轻快、更省钱。
5. 它能帮你做什么?(落地应用)
这不仅仅是实验室里的玩具。团队特别针对中国 40 多个主流 APP(如淘宝、微信、QQ 音乐等)进行了优化。
- 真实场景:你可以对它说:“帮我把 QQ 音乐里新歌榜第四首歌加入‘我喜欢’的歌单”,或者“帮我买一张明天去北京的票”。
- 结果:它能像真人一样,一步步打开 APP、点击按钮、输入信息,直到任务完成。
总结
UI-Venus-1.5 就像是一个经过严格特训、拥有丰富实战经验、且能同时处理多项任务的超级数字管家。它不再需要人类手把手教每一个步骤,而是能真正理解你的意图,在复杂的数字世界里为你“跑腿”办事,让科技真正服务于日常生活。
Each language version is independently generated for its own context, not a direct translation.
UI-Venus-1.5 技术报告详细总结
1. 研究背景与问题 (Problem)
图形用户界面(GUI)智能体旨在通过视觉感知自主操作数字设备,是连接人类指令与数字执行的关键桥梁。尽管多模态大语言模型(MLLM)的发展推动了该领域的进步,但构建一个兼具广泛通用性、强任务性能且易于部署的端到端 GUI 智能体仍面临巨大挑战:
- 性能与泛化的矛盾:现有模型往往在特定任务(如定位或导航)上表现良好,但难以统一处理多种场景,或在复杂长程任务中表现不稳定。
- 训练阶段的局限性:传统的监督微调(SFT)和离线强化学习(Offline-RL)存在**“单步准确率”与“轨迹级准确率”不匹配**的问题。单步奖励稀疏且无法有效指导长程任务的完整执行,导致模型在真实动态环境中泛化能力不足。
- 部署复杂性:许多现有方案依赖复杂的框架或多智能体协作,增加了计算成本和延迟,难以作为单一模型直接部署。
2. 方法论 (Methodology)
UI-Venus-1.5 是一个统一的、端到端的 GUI 智能体,包含 2B、8B 稠密模型及 30B-A3B 混合专家(MoE)模型。其核心训练流程分为四个阶段,并采用了创新的架构设计:
2.1 四阶段训练流水线
中训练阶段 (Mid-Training):
- 目的:填补通用视觉感知与 GUI 细粒度结构理解之间的语义鸿沟。
- 数据:整合了 30+ 个数据集(如 Mind2Web, ShowUI 等),共计 100 亿 token。
- 内容:涵盖导航与定位、序列推理(CoT)、GUI-VQA 及细粒度感知。
- 数据优化:引入基于教师模型(Qwen3-VL)的迭代数据精炼流水线,通过评分、重写和重构,将高质量样本比例从 69.7% 提升至 89.7%。
离线强化学习 (Offline-RL):
- 目标:针对定位(Grounding)、移动端和 Web 端导航进行任务特定优化。
- 奖励机制:设计了格式奖励(XML 模板)和动作奖励(类型匹配、内容 F1 分数、坐标分层奖励)。
- 拒绝能力:引入“拒绝样本”训练,使模型在面对图像中不存在的元素时能输出
[-1, -1],有效减少幻觉。
- 发现:观察到离线 RL 中单步准确率上升但轨迹级准确率下降的现象,促使引入在线 RL。
在线强化学习 (Online-RL):
- 动机:解决静态数据集无法覆盖的动态 GUI 状态和长程决策问题。
- 基础设施 (DaaS):构建了“设备即服务”(Device-as-a-Service)层,包含组控制网关(GCGW)和统一客户端 SDK,支持数千台异构设备(Android, Chrome, Linux)的高并发、低延迟并行交互。
- 任务生成:结合静态启发式与动态演化,利用 MLLM 从截图中推断任务,并通过分层采样(易/中/难)构建任务池。
- 算法:采用 GRPO (Group Relative Policy Optimization) 算法,基于轨迹级优势进行优化,无需价值函数网络。引入自适应 KL 约束和退火熵正则化以平衡探索与利用。
模型合并 (Model Merge):
- 策略:将分别针对定位、Web 和移动端优化的三个专用模型,通过 TIES-Merge 策略合并为一个统一模型。
- 优势:相比线性合并,TIES-Merge 通过剪枝低幅度更新和解决符号冲突,显著减少了性能回退,实现了单一模型在多个领域的均衡表现。
2.2 动作空间扩展
在原有移动端动作基础上,增加了 Hover(悬停)、DoubleClick(双击)、Hotkey(热键) 等 Web 特定操作,统一了跨平台交互模态。
3. 关键贡献 (Key Contributions)
- 全面的中训练策略:利用 10B token 的 GUI 专用数据建立基础语义,使模型在 RL 前即具备强大的 GUI 理解能力。
- 大规模在线强化学习:构建了 DaaS 基础设施,实现了全轨迹 Rollout 和动态环境下的在线学习,有效解决了长程导航中的轨迹级准确率问题。
- 统一端到端架构:通过模型合并技术,将定位、Web 和移动端能力融合进单一检查点,无需多模型切换,极大简化了部署。
- 拒绝能力与幻觉抑制:在定位任务中引入拒绝机制,显著提升了模型在指令无效时的鲁棒性。
4. 实验结果 (Results)
UI-Venus-1.5 在多个基准测试中取得了 State-of-the-Art (SOTA) 性能:
- GUI 定位 (Grounding):
- ScreenSpot-Pro (高分辨率专业界面):69.6% (30B 模型),超越 MAI-UI-32B (67.9%)。
- VenusBench-GD (含拒绝任务):75.0%,大幅领先现有基线。
- OSWorld-G-R:76.4%,SOTA。
- UI-Vision:54.7%,SOTA。
- 导航任务 (Navigation):
- AndroidWorld (116 个真实 Android 任务):77.6% (30B 模型),超越 Mobile-Agent-v3 和 MAI-UI-32B。
- AndroidLab:30B 模型达到 68.1% (人工验证后),显著优于前代 72B 模型。
- VenusBench-Mobile:21.5%,SOTA,且 8B 模型性能已超越前代 72B 模型。
- WebVoyager:76.0%,在 Web 导航任务中表现优异。
- 效率与扩展性:
- 模型规模扩展带来稳定收益(2B -> 8B -> 30B)。
- 8B 模型在多个任务上性能已超越前代 72B 模型,证明了训练方法的高效性。
- 实际落地:针对 40+ 款中国主流移动应用(如购票、购物、对话管理)进行了优化,具备极强的现实场景执行力。
5. 意义与影响 (Significance)
- 技术突破:UI-Venus-1.5 证明了通过“中训练 + 离线/在线 RL + 模型合并”的流水线,可以构建出既具备通用性又具备高性能的单一端到端 GUI 智能体,打破了以往需要复杂框架或多模型协作的局限。
- 解决核心痛点:有效解决了离线训练中“单步优但轨迹差”的难题,通过在线 RL 显著提升了长程复杂任务的完成率。
- 实用价值:模型不仅在学术基准上刷新纪录,更在真实的中文移动生态中展现出强大的自动化能力,为构建真正实用的个人数字助理(Digital Assistant)迈出了关键一步。
- 开源贡献:团队公开了代码、模型权重及详细的技术报告,推动了 GUI 智能体领域的开源社区发展。
综上所述,UI-Venus-1.5 代表了当前 GUI 智能体领域的最高水平,通过系统性的训练架构创新和大规模基础设施支持,实现了从“能操作”到“好用、通用、可靠”的跨越。