UI-Venus-1.5 Technical Report

本文介绍了 UI-Venus-1.5,这是一个通过中训练、在线强化学习及模型合并技术构建的统一端到端 GUI 智能体,在 ScreenSpot-Pro 等多个基准测试中取得了新的最先进性能,并展现出强大的真实世界跨平台导航能力。

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇技术报告介绍了一个名为 UI-Venus-1.5 的超级智能助手,它是由蚂蚁集团(Ant Group)的 Venus 团队研发的。

为了让你轻松理解,我们可以把手机和电脑屏幕想象成一个巨大的、复杂的迷宫,而UI-Venus-1.5 就是一个拥有“火眼金睛”和“超级大脑”的全能向导

以下是用大白话和生动比喻对这篇报告的解读:

1. 它是什么?(从“单科状元”到“全能学霸”)

以前的 AI 助手,有的擅长在网页上找东西(像“网页导航员”),有的擅长在 APP 里点按钮(像“手机操作手”),还有的擅长识别屏幕上的小图标(像“找茬游戏专家”)。但它们通常只能干一件事,或者干一件事时另一件事就变笨了。

UI-Venus-1.5 的突破在于,它把这三个“单科状元”的能力融合在了一起,变成了一个真正的“全能型”数字管家

  • 比喻:以前你需要雇三个不同的人(一个管网页、一个管手机、一个管找图标),现在你只需要雇佣一个超级员工,他既能帮你订机票,又能帮你网购,还能帮你操作复杂的软件,而且干得比那三个加起来还漂亮。

2. 它是怎么变强的?(“三步走”修炼秘籍)

为了让这个向导变得如此聪明,团队给它安排了一套独特的“特训营”,分成了三个阶段:

第一阶段:中程训练(Mid-Training)—— 先“博览群书”

  • 做法:在正式学干活之前,先让它看100 亿个关于屏幕操作的“教科书”(来自 30 多个数据集)。
  • 比喻:就像让一个刚毕业的大学生,先花几个月时间把《世界地图》、《操作手册》和《各种 APP 使用指南》全部背下来。这样它一上岗,就知道“这个图标是返回键”、“那个按钮是确认”,不用临时查字典。
  • 效果:它不再是个“小白”,而是具备了深厚的屏幕常识

第二阶段:离线强化学习(Offline-RL)—— 在“模拟考场”刷题

  • 做法:利用大量的历史数据,让它反复练习如何把“人话”(比如“帮我买张票”)变成具体的“动作”(点击哪里、输入什么)。
  • 比喻:这就像在模拟驾驶里练车。教练(奖励机制)会告诉它:“刚才那个动作太慢了,扣分!”或者“这次路线选对了,加分!”。它通过不断试错,学会了如何精准地点击和滑动。
  • 新技能:它还学会了拒绝。如果让你点一个不存在的按钮,它会聪明地说“这里没有这个按钮”,而不是瞎点(这叫“拒绝幻觉”)。

第三阶段:在线强化学习(Online-RL)—— 去“真实战场”实战

  • 做法:这是最关键的一步。它不再只看死数据,而是真的连接了成千上万台真实的手机和电脑,在动态变化的环境里自己摸索。
  • 比喻:以前是在驾校练车,现在直接上早高峰的北京街头开车。路况会变(APP 会弹窗、网络会卡顿),它必须学会随机应变。如果走错了,它能立刻发现并修正,而不是死板地按原计划撞墙。
  • 黑科技:团队建了一个DaaS(设备即服务) 系统,就像拥有了一支由成千上万台手机组成的“机器人军团”,让它们 24 小时不停地帮 AI 试错和进化。

3. 最后的“融合术”(Model Merging)

训练完三个专项技能(找图标、网页操作、手机操作)后,团队没有把它们拼凑在一起,而是用一种叫TIES-Merge的“魔法融合术”,把三个模型合成了一个。

  • 比喻:就像把三位武林高手(剑客、刀客、拳师)的内力融合到一个人体内,让他既能使剑、又能用刀、还能出拳,而且没有任何副作用。

4. 它有多厉害?(成绩单)

在各项“考试”中,UI-Venus-1.5 都拿到了全球第一(SOTA) 的成绩:

  • 找东西(Grounding):在复杂的软件界面里找小图标,准确率高达 69.6%
  • 手机操作(AndroidWorld):在真实的安卓手机上完成复杂任务(如设置闹钟、发微信),成功率高达 77.6%
  • 网页浏览(WebVoyager):在网页上自主购物、查信息,成功率 76.0%

最酷的是:它的80 亿参数版本(8B),表现比之前那些720 亿参数的笨重模型还要好!这意味着它更聪明、更轻快、更省钱

5. 它能帮你做什么?(落地应用)

这不仅仅是实验室里的玩具。团队特别针对中国 40 多个主流 APP(如淘宝、微信、QQ 音乐等)进行了优化。

  • 真实场景:你可以对它说:“帮我把 QQ 音乐里新歌榜第四首歌加入‘我喜欢’的歌单”,或者“帮我买一张明天去北京的票”。
  • 结果:它能像真人一样,一步步打开 APP、点击按钮、输入信息,直到任务完成。

总结

UI-Venus-1.5 就像是一个经过严格特训、拥有丰富实战经验、且能同时处理多项任务的超级数字管家。它不再需要人类手把手教每一个步骤,而是能真正理解你的意图,在复杂的数字世界里为你“跑腿”办事,让科技真正服务于日常生活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →