Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Il paper introduce Vision2Web, un benchmark gerarchico basato su siti web reali per valutare le capacità degli agenti di codifica nello sviluppo di siti web visivi, dal generare codice da interfacce statiche fino allo sviluppo full-stack, utilizzando un nuovo paradigma di verifica basato su agenti GUI e modelli linguistici visivi.

Zehai He, Wenyi Hong, Zhen Yang, Ziyang Pan, Mingdao Liu, Xiaotao Gu, Jie Tang

Pubblicato 2026-03-30
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler costruire una casa. Fino a poco tempo fa, gli "architetti intelligenti" (i modelli di intelligenza artificiale) erano bravissimi a disegnare un singolo muro o a scegliere il colore della vernice. Ma se gli chiedevi di progettare l'intera casa, dalle fondamenta al tetto, passando per l'impianto idraulico e l'elettrico, spesso si perdevano, lasciandoti con un edificio che sembrava bello sulla carta ma che non aveva le chiavi per aprire le porte o che crollava appena ci entravi.

Il paper che hai condiviso, intitolato Vision2Web, è come un nuovo, gigantesco campo di addestramento creato per testare questi architetti digitali, ma con un focus specifico: farli diventare bravi a costruire siti web partendo da un disegno.

Ecco come funziona, spiegato in modo semplice:

1. Il Problema: "Disegnare" non basta più

Fino a ieri, si testavano questi robot chiedendo loro di riparare un piccolo errore in un codice già esistente (come aggiustare una finestra rotta). Ma nel mondo reale, un programmatore deve spesso prendere un disegno su carta (o uno schizzo su un tablet) e trasformarlo in un sito web completo, interattivo e funzionante.
Gli attuali test non erano abbastanza difficili o completi per vedere se un'intelligenza artificiale fosse davvero capace di fare questo lavoro "da zero".

2. La Soluzione: Vision2Web (Il Campo di Addestramento a Livelli)

Gli autori hanno creato Vision2Web, un banco di prova diviso in tre livelli di difficoltà, proprio come un videogioco:

  • Livello 1: La Foto Statica (Il "Disegno")
    L'IA deve guardare un'immagine di una pagina web (come un'immagine di un sito su computer, tablet e telefono) e scrivere il codice per ricrearla esattamente uguale. È come se ti dessi una foto di una stanza e dovessi dipingere le pareti e mettere i mobili esattamente come nella foto.
  • Livello 2: La Casa con le Porte (L'Interattività)
    Qui l'IA deve creare non una sola pagina, ma un intero sito con più pagine collegate. Deve capire che se clicchi su "Chi siamo", il sito deve portarti a un'altra pagina, e che i menu devono funzionare. È come costruire una casa dove le porte si aprono e le stanze sono collegate tra loro in modo logico.
  • Livello 3: La Città Intera (Full-Stack)
    Il livello più difficile. L'IA deve costruire un sito completo che non solo sembra bello, ma fa cose: gestisce utenti, salva dati, elabora pagamenti. È come costruire un intero quartiere con strade, case, negozi e servizi pubblici che funzionano tutti insieme.

3. Il Segreto: Come si giudica il lavoro? (Il "Controllore" e il "Giudice")

Il vero problema dei test precedenti era: "Come facciamo a sapere se il sito funziona davvero senza un umano che lo controlla per ore?"
Vision2Web risolve questo con un sistema geniale a due voci:

  1. Il Controllore Robotico (GUI Agent Verifier): Immagina un piccolo robot invisibile che entra nel sito appena costruito. Il robot segue un percorso preciso (es. "Clicca qui, inserisci questa password, vai alla pagina 2") per vedere se le cose funzionano. Se il sito si blocca o non risponde, il robot lo segna come errore.
  2. Il Giudice Visivo (VLM Judge): Questo è un altro cervello artificiale, specializzato nell'arte. Confronta il sito costruito dal robot con il disegno originale. Non guarda solo se i pixel sono uguali (come una fotocopiatrice), ma capisce se i colori, i layout e lo stile sono stati rispettati. È come un critico d'arte che dice: "Sì, questo muro è stato dipinto esattamente come nel progetto".

4. Cosa hanno scoperto? (I Risultati)

Hanno messo alla prova i migliori "architetti" AI del mondo (come Claude, GPT-5, Gemini) su questo campo di addestramento. Ecco cosa è emerso:

  • Sono bravi nei piccoli compiti, ma si perdono in quelli grandi: Se gli chiedi di disegnare una pagina, ce la fanno. Se devi costruire un intero sistema complesso, si confondono, fanno errori di logica e spesso il sito non si avvia nemmeno.
  • Il "piano" è la loro debolezza: Spesso dimenticano di collegare le parti tra loro. Costruiscono una bella facciata, ma non sanno come far arrivare l'acqua (i dati) alla cucina.
  • Non sono ancora pronti per il lavoro vero: Anche i modelli più avanzati faticano a gestire la complessità di un sito completo. C'è ancora molta strada da fare prima che un'IA possa sostituire un programmatore umano per progetti complessi.

In sintesi

Vision2Web è come un nuovo esame di maturità per le intelligenze artificiali. Non si limita a chiedere "sai scrivere codice?", ma chiede: "sai prendere un'idea visiva e trasformarla in un prodotto reale, funzionante e complesso?".
Attualmente, gli studenti (le IA) prendono ottimi voti nel disegno, ma faticano a passare l'esame di ingegneria completa. Questo test ci aiuta a capire esattamente dove dobbiamo migliorare per il futuro.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →