WebDS: An End-to-End Benchmark for Web-based Data Science

Il paper introduce WebDS, il primo benchmark end-to-end per la data science basata sul web, che evidenzia il significativo divario tra le prestazioni degli attuali agenti LLM e quelle umane nella gestione di compiti complessi e multi-step su siti web eterogenei.

Ethan Hsu, Hong Meng Yam, Ines Bouissou, Aaron Murali John, Raj Thota, Josh Koe, Vivek Sarath Putta, G K Dharesan, Alexander Spangher, Shikhar Murty, Tenghao Huang, Christopher D. Manning

Pubblicato 2026-03-05
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover organizzare una festa enorme. Non basta solo comprare i biscotti; devi trovare le ricette migliori su internet, confrontare i prezzi di tre supermercati diversi, calcolare quanti bicchieri servono in base al numero di ospiti, e poi scrivere un piano per il buffet.

Fino a poco tempo fa, i "robot intelligenti" (le Intelligenze Artificiali) erano stati testati su compiti molto semplici, come: "Cerca su Google il prezzo dei biscotti" o "Compra un biglietto per il cinema". Ma nel mondo reale, il lavoro di un analista dati è molto più complesso: è come dover cucinare un banchetto intero da soli, navigando tra mille librerie diverse, leggendo ricette scritte in lingue diverse e usando strumenti di cucina che non conosci.

Ecco di cosa parla questo nuovo studio, chiamato WebDS.

1. Il Problema: I Robot sono "Cecchini", non "Chef"

Gli autori del paper (ricercatori di Stanford, Berkeley e altri) hanno notato che i robot attuali sono bravissimi a fare piccoli compiti isolati, ma crollano quando devono gestire un progetto completo.

  • I vecchi test: Chiedevano al robot di fare una cosa sola, tipo "apri questo sito e clicca sul bottone". Era come testare un pilota di F1 facendogli solo fare il giro del paddock.
  • La realtà: Un vero analista dati deve navigare, scaricare file, pulirli, analizzarli e scrivere un rapporto. È come chiedere al pilota di guidare, fare rifornimento, riparare la macchina e scrivere il diario di viaggio, tutto mentre corre.

2. La Soluzione: WebDS, la "Prova del Fuoco"

Hanno creato un nuovo campo di allenamento chiamato WebDS.
Immagina di avere 29 librerie diverse (alcune sono governative, altre sono siti di notizie, altre di musica o sport). All'interno di queste librerie ci sono 870 compiti scritti da umani veri.
Ecco cosa devono fare i robot:

  • Trovare dati sparsi in siti diversi (es. "Confronta i dati sulla salute mentale del CDC con le statistiche di un sito di economia").
  • Capire se i dati sono in una tabella ordinata o in un articolo confuso.
  • Usare strumenti esterni (come Python o Excel) per fare i calcoli.
  • Scrivere un rapporto finale che abbia senso.

È come se dessimo al robot un compito: "Analizza quanti studenti universitari ci sono per ogni etnia, confrontali con le tendenze nazionali e scrivi un consiglio per il rettore dell'università".

3. Il Risultato: Un Divario Enorme

Hanno messo alla prova i robot più intelligenti del mondo (come GPT-4o, Claude, e altri). Il risultato è stato scioccante:

  • I robot: Sono riusciti a completare solo il 13-22% dei compiti. Spesso si perdevano, leggevano i dati sbagliati, o rimanevano bloccati in un loop infinito (come un cane che insegue la propria coda).
  • Gli umani: Hanno completato il 90% dei compiti con successo.

L'analogia: È come se avessimo messo un bambino di 5 anni (il robot) e un adulto esperto (l'umano) in una cucina piena di ingredienti sparsi. Il bambino riesce a trovare un uovo, ma poi si perde, brucia l'acqua e non sa come mescolare le uova. L'adulto, invece, prepara il piatto perfetto.

4. Perché i Robot falliscono? (I loro "difetti")

Gli autori hanno analizzato gli errori e hanno trovato tre problemi principali:

  1. Allucinazioni da "Dimenticanza": Il robot legge il dato giusto sulla pagina, ma poi lo dimentica o inventa un numero a caso. È come se avesse letto la ricetta, ma poi avesse deciso di mettere il sale al posto dello zucchero perché "gli pareva di averlo visto prima".
  2. Il Loop Infinito: Se un pulsante non funziona, il robot continua a cliccarlo 50 volte invece di cambiare strategia. È come se qualcuno ti dicesse "la porta è chiusa" e tu continuassi a spingere per un'ora invece di cercare un'altra porta.
  3. Non capiscono l'obiettivo: Chiedi "calcola la media", e il robot ti risponde con una descrizione generica del tempo. Non capisce che devi fare un calcolo preciso.

5. Perché è importante?

Questo studio ci dice che siamo ancora lontani dall'avere robot che possono lavorare da soli per noi. Finora, le IA sono state come studenti brillanti ma distratti: sanno la teoria, ma falliscono quando devono applicare le conoscenze in un mondo reale, caotico e complesso.

WebDS è la nuova "palestra" dove i ricercatori dovranno allenare i robot. Non basta che siano più veloci o che abbiano più memoria; devono imparare a:

  • Non perdersi.
  • Verificare se ciò che stanno facendo funziona.
  • Cambiare strategia quando qualcosa va storto.

In sintesi

Questo paper ci dice che l'Intelligenza Artificiale è ancora come un tirocinante che ha bisogno di supervisione costante. Per diventare un vero "Data Scientist" autonomo, deve imparare a navigare nel caos del web reale, non solo in laboratori di prova. WebDS è la mappa per guidarci verso quel futuro.