UI-Venus-1.5 Technical Report

Il rapporto presenta UI-Venus-1.5, un agente GUI unificato e end-to-end che, grazie a un avanzato mid-training, allineamento tramite apprendimento per rinforzo online e fusione di modelli, stabilisce nuovi record di prestazioni su benchmark globali e dimostra robuste capacità di navigazione in app mobili cinesi.

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

Pubblicato 2026-02-25
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un neonato digitale (un'intelligenza artificiale) come usare il tuo smartphone o il computer al posto tuo. Fino a poco tempo fa, questi "bambini digitali" erano molto bravi a guardare le immagini, ma quando dovevano fare qualcosa (come cliccare su un pulsante o scrivere un messaggio), spesso si confondevano, premevano il tasto sbagliato o si arrendevano subito.

UI-Venus-1.5 è il nuovo, super-evoluto "bambino digitale" creato dal team di Ant Group. Non è solo un po' più intelligente; è stato istruito con un metodo rivoluzionario che lo rende un vero e proprio assistente personale autonomo.

Ecco come funziona, spiegato con tre metafore semplici:

1. La "Scuola Media" Intensiva (Mid-Training)

Prima di questo modello, le AI imparavano direttamente a fare compiti specifici, un po' come se ti mandassero a lavorare in un cantiere senza mai averti fatto vedere i mattoni.
UI-Venus-1.5, invece, ha prima frequentato una "Scuola Media" intensiva.

  • Cosa ha fatto: Ha letto e studiato 10 miliardi di pagine di manuali, screenshot e guide su come funzionano le interfacce (siti web, app, programmi).
  • Il risultato: Ora, prima ancora di ricevere un compito, sa già cos'è un "pulsante", cos'è una "barra di ricerca" e come sono organizzati i menu. Ha costruito una base solida, proprio come un bambino che impara a riconoscere gli oggetti prima di imparare a usarli.

2. L'Allenamento con il "Mentore Virtuale" (Reinforcement Learning)

Sapere la teoria non basta; serve la pratica. Qui entra in gioco l'allenamento.

  • La fase Offline (Allenamento in palestra): L'AI ha esercitato milioni di volte su compiti specifici (trovare un elemento, cliccare, scrivere) usando dati già pronti. È come fare esercizi di ripetizione in una palestra chiusa.
  • La fase Online (La gara reale): Questo è il vero salto di qualità. L'AI non si è più limitata a guardare video di altri che cliccano. È stata messa in un laboratorio virtuale infinito (chiamato DaaS - Device as a Service) dove ha dovuto interagire con migliaia di telefoni e computer reali, commettere errori, correggerli e imparare in tempo reale.
  • Il trucco: Se sbagliava, riceveva un "colpetto" (una penalità); se riusciva a completare un compito lungo e difficile (come prenotare un biglietto del treno in 10 passaggi), riceveva un premio. Questo l'ha resa capace di gestire situazioni impreviste, proprio come un atleta che impara a reagire agli imprevisti durante una partita vera.

3. Il "Fusione di Superpoteri" (Model Merging)

Fino a ieri, per avere un'AI brava a navigare sul web e un'altra brava a usare le app del telefono, servivano due robot diversi. Era scomodo e costoso.
UI-Venus-1.5 è un ibrido perfetto.

  • I ricercatori hanno preso tre "esperti": uno specializzato nel trovare i pulsanti (Grounding), uno nel navigare sui siti web e uno nelle app mobili.
  • Invece di tenerli separati, li hanno fusi insieme in un unico cervello.
  • L'analogia: Immagina di fondere le conoscenze di un architetto, di un pilota di Formula 1 e di un chef stellato in un'unica persona. Questa persona può disegnare una casa, guidare una macchina veloce e cucinare una cena, tutto con la stessa mente. Ora, con un solo modello, puoi chiedere: "Apri l'app del treno, cerca un biglietto per Roma e aggiungilo al carrello" e l'AI lo fa tutto da sola, senza confondersi.

Perché è così importante?

Prima, queste AI erano come automobili senza volante: potevano guardare il paesaggio, ma non potevano guidare.
UI-Venus-1.5 è come un pilota esperto che:

  1. Conosce perfettamente la mappa (ha studiato 10 miliardi di dati).
  2. Sa guidare in ogni condizione meteo (ha fatto pratica su scenari reali e dinamici).
  3. Ha un'unica mente che sa gestire sia la strada di montagna (app mobili) che l'autostrada (siti web).

In pratica:
Ora puoi dire a questo assistente: "Prenotami un volo, compra il biglietto e mandami il PDF" e lui lo farà, navigando tra diverse app e siti web, cliccando dove serve e correggendo i suoi errori se qualcosa va storto. È un passo gigante verso un futuro in cui il tuo telefono fa tutto il lavoro sporco per te, mentre tu ti godi la vita.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →