UI-Venus-1.5 Technical Report

Ce rapport présente UI-Venus-1.5, une nouvelle famille d'agents GUI unifiés et performants (2B, 8B et 30B-A3B) qui, grâce à un pré-entraînement étendu, un apprentissage par renforcement en ligne et une fusion de modèles, établit un nouvel état de l'art sur plusieurs benchmarks tout en démontrant une grande robustesse dans des applications mobiles réelles.

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

Publié 2026-02-25
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Super-Héros de votre Écran : UI-Venus-1.5

Imaginez que vous avez un assistant personnel très intelligent, capable de prendre votre téléphone ou votre ordinateur et de faire tout ce que vous lui demandez : réserver un billet de train, acheter des chaussures, ou trouver une recette de cuisine. Le problème, c'est que la plupart des assistants actuels sont comme des enfants qui apprennent à marcher : ils tombent souvent, confondent les boutons, ou ne comprennent pas le contexte.

UI-Venus-1.5, développé par l'équipe de Venus (Ant Group), est ce super-héros qui vient de faire un bond géant en avant. C'est un "Agent d'Interface Graphique" (GUI Agent) conçu pour naviguer dans le monde numérique aussi naturellement qu'un humain.

Voici comment ils ont construit ce génie, expliqué avec des analogies simples :

1. La "Grande École" (Mid-Training) : Avant de courir, il faut apprendre à marcher

Avant de pouvoir résoudre des problèmes complexes, l'IA a dû aller à l'école.

  • L'analogie : Imaginez un étudiant qui n'a jamais vu de téléphone de sa vie. Si on lui donne un examen de navigation mobile, il sera perdu.
  • Ce que fait UI-Venus-1.5 : Les chercheurs lui ont fait lire 10 milliards de pages (des données) provenant de plus de 30 sources différentes. C'est comme si l'IA avait passé des années à observer des milliers d'humains utiliser des applications, à comprendre la logique des boutons, des menus et des formulaires.
  • Le résultat : Avant même d'apprendre à "réfléchir" aux tâches, l'IA comprend déjà parfaitement à quoi ressemble une interface. Elle a acquis une "culture visuelle" solide.

2. L'Entraînement sur le Terrain (Reinforcement Learning) : Apprendre par l'essai et l'erreur

Une fois l'école terminée, il faut pratiquer.

  • L'analogie : C'est comme un joueur de football qui s'entraîne d'abord sur un terrain calme (entraînement hors ligne), puis qui joue de vrais matchs contre des équipes adverses dynamiques (entraînement en ligne).
  • Ce que fait UI-Venus-1.5 :
    • Phase 1 (Hors ligne) : L'IA s'entraîne sur des milliers d'exemples de tâches réussies pour apprendre les bases.
    • Phase 2 (En ligne - Le vrai déclic) : C'est ici que la magie opère. L'IA a été connectée à une "ferme" de milliers de vrais téléphones et ordinateurs virtuels. Elle a pu essayer de faire des tâches réelles, échouer, voir ce qui ne marchait pas, et réessayer immédiatement.
    • Le secret : Contrairement aux anciennes versions qui apprenaient seulement étape par étape, UI-Venus-1.5 apprend à voir l'histoire complète. Si elle fait une erreur au début d'une tâche, elle apprend à se rattraper plus tard, exactement comme un humain qui se dit : "Oups, j'ai cliqué sur le mauvais bouton, je vais revenir en arrière et corriger".

3. Le "Fusionneur de Talents" (Model Merging) : Un seul cerveau, trois expertises

Avant, pour être bon en navigation mobile, il fallait un modèle. Pour être bon sur le web, un autre. Pour être bon pour cliquer sur un bouton précis, un troisième. C'était lourd et compliqué à gérer.

  • L'analogie : Imaginez un super-héros qui a trois costumes séparés : un pour voler, un pour la force, et un pour l'intelligence. Il doit changer de costume à chaque mission.
  • Ce que fait UI-Venus-1.5 : Les chercheurs ont pris trois experts (un expert mobile, un expert web, un expert pour cliquer précisément) et ont fusionné leurs cerveaux en un seul modèle unique.
  • Le résultat : Vous n'avez plus besoin de changer d'outil. Que ce soit sur un site web, une application mobile chinoise ou un logiciel de bureau, c'est le même agent qui gère tout, sans perdre en performance. C'est comme avoir un couteau suisse qui est aussi tranchant qu'un couteau de chef, aussi solide qu'une hache et aussi précis qu'un scalpel.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Pour tester ce nouveau modèle, ils l'ont mis face à des défis très difficiles, comme des examens blancs :

  • Navigation Mobile : Sur Android, il réussit 77,6 % des tâches (contre environ 73 % pour les meilleurs concurrents). C'est comme si un humain réussissait presque tous les défis qu'on lui lance sur son téléphone.
  • Navigation Web : Il peut naviguer sur des sites complexes pour acheter des billets ou réserver des hôtels avec 76 % de réussite.
  • Précision : Il sait même dire "Je ne vois pas ce bouton" s'il n'est pas là, au lieu d'inventer une réponse (ce qu'on appelle une "hallucination").

🇨🇳 Le Petit Plus : L'Expertise Locale

Ce qui rend ce modèle vraiment spécial, c'est qu'il a été entraîné spécifiquement sur plus de 40 applications mobiles chinoises (comme WeChat, Alipay, etc.).

  • L'analogie : La plupart des IA sont comme des touristes qui visitent la Chine avec un guide basique. UI-Venus-1.5 est comme un local qui connaît les ruelles, les menus des restaurants et les astuces pour acheter un billet de train à 3 heures du matin. Il comprend les nuances culturelles et les interfaces complexes spécifiques à ce marché.

En Résumé

UI-Venus-1.5 n'est pas juste une amélioration technique ; c'est un changement de paradigme.

  1. Il a lu des millions de livres pour comprendre le monde numérique (Mid-Training).
  2. Il a joué des milliers de matchs réels pour apprendre à ne pas paniquer quand les choses tournent mal (Online RL).
  3. Il a fusionné toutes ses compétences en un seul cerveau polyvalent (Model Merging).

Le but final ? Transformer votre téléphone en un assistant personnel qui fait le travail à votre place, de manière fiable, rapide et intelligente, que ce soit pour acheter un café ou gérer vos finances. C'est un pas de géant vers un futur où l'ordinateur travaille vraiment pour nous, et non l'inverse.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →