Immagina di essere un detective che cerca di risolvere un mistero. Ti viene consegnato un disegno finito: un'immagine in bianco e nero di cerchi e quadrati su uno sfondo bianco. Il tuo compito non è solo descrivere l'immagine; devi scrivere il codice informatico esatto che un robot utilizzerebbe per disegnare quell'immagine da zero.

Questa è la sfida di ShapeCodeBench, un nuovo "test" creato dal ricercatore Shivam Kumar per valutare quanto siano bravi i modelli di intelligenza artificiale moderni in questo compito specifico.

Ecco una spiegazione di come funziona, perché è speciale e cosa ci dicono i risultati, utilizzando semplici analogie.

1. Il Gioco: "Ingegneria Inversa di un Disegno"

Pensa ai modelli di intelligenza artificiale come a studenti che sostengono un esame molto severo.

L'Input: Lo studente vede un'immagine (una "raster") di forme nere su una tela bianca.
Il Compito: Lo studente deve digitare un programma utilizzando un linguaggio minuscolo e specifico (un "DSL") che dice al computer come disegnare quelle esatte forme.
Le Regole: Il linguaggio ha solo quattro movimenti: disegnare un cerchio pieno, un cerchio contornato, un quadrato pieno o un quadrato contornato. La tela è sempre di 512x512 pixel.
La Valutazione: Un computer non si limita a leggere il codice dello studente; lo esegue. Disegna nuovamente l'immagine basandosi sul codice e confronta il nuovo disegno con l'originale. Se anche un solo pixel è nella posizione sbagliata, la risposta non è "perfetta".

2. Perché Questo Test è Diverso: Il "Foglio Fresco Infinito"

La maggior parte dei test di intelligenza artificiale utilizza un insieme fisso di domande (come un test di matematica standard). Una volta che un'intelligenza artificiale memorizza le risposte, il test diventa inutile. Questo è chiamato "contaminazione".

ShapeCodeBench è come una macchina magica per disegnare.

Ogni volta che vuoi un nuovo test, giri una manovella (un "seed").
La macchina genera istantaneamente un nuovo set unico di forme con dimensioni, sovrapposizioni e posizioni diverse.
Perché i ricercatori possono generare un nuovo set di test non visti (held-out set) da un nuovo seed ogni volta che vogliono, questo riduce la contaminazione esatta delle istanze (exact-instance contamination) — il rischio che il modello abbia già visto le specifiche domande di test durante l'addestramento.

3. I Livelli di Difficoltà

Il test ha tre livelli, come un videogioco:

Facile: Poche forme, distanti tra loro, non toccanti.
Medio: Più forme, alcune vicine o leggermente sovrapposte.
Difficile: Molte forme, tutte accalcate insieme, con forti sovrapposizioni, e alcune tagliate dal bordo della pagina.

4. I Concorrenti

Il documento ha testato due tipi di "studenti":

Il Robot Vecchia Scuola (Euristico): Un programma informatico tradizionale che guarda l'immagine, trova macchie di inchiostro nero e indovina: "Quello è un cerchio", "Quello è un quadrato". È veloce e bravo nelle cose semplici, ma si confonde quando le forme si sovrappongono.
La Super-IA (Modelli Multimodali): Due dei modelli di intelligenza artificiale più intelligenti al mondo (Claude Opus 4.7 e GPT-5.5) sono stati invitati a guardare l'immagine e scrivere il codice. Sono stati testati con diversi livelli di "sforzo di pensiero" (come chiedere loro di "pensare più a fondo" o "prendere più tempo").

5. I Risultati: Una Storia di Due Punti di Forza

I risultati sono stati sorprendenti e hanno mostrato che nessuna delle due parti è ancora perfetta.

Sui Livelli Facili: Il Robot Vecchia Scuola ha vinto! Era migliore nell'ottenere il codice esatto giusto per forme semplici e non sovrapposte. Le Super-IA spesso individuavano correttamente le forme ma sbagliavano i piccoli dettagli (come il raggio sbagliato di qualche pixel).
- Analogia: Il robot è come un falegname che può misurare perfettamente una singola tavola isolata. L'IA è come un artista creativo che sa com'è fatta una sedia ma fatica a misurare le gambe al millimetro.
Sui Livelli Difficili: Quando le forme erano impilate l'una sull'altra, il Robot Vecchia Scuola si confondeva e vedeva spesso una grande macchia invece di forme separate. Le Super-IA hanno mantenuto più della struttura spaziale in queste scene difficili — specialmente come misurato dall'IoU di primo piano (quanto le regioni dipinte delle due immagini si sovrappongono) — e hanno prodotto codice che catturava la disposizione generale della pila. Ma nessuna delle due parti ha padroneggiato le scene difficili: anche le Super-IA hanno ancora faticato a ricostruire i dettagli esatti a livello di pixel.
- Analogia: Il robot vede un mucchio di biancheria e dice: "È un mucchio". L'IA vede il mucchio e dice: "È una camicia, un calzino e un cappello tutti aggrovigliati insieme", cogliendo la struttura ma faticando ancora sulla precisione dei singoli elementi.
Il Problema del "Punteggio Perfetto": Anche il miglior modello di intelligenza artificiale raramente ottiene un punteggio perfetto del 100% (dove l'immagine ridisegnata corrisponde all'originale pixel per pixel). Di solito ottengono la struttura giusta (le forme giuste nei posti giusti) ma falliscono sulla precisione (i numeri esatti per dimensione e posizione).

6. Cosa Significa

Il documento conclude che non abbiamo ancora "finito" con questo problema.

Il test non è saturo (non è troppo facile).
I modelli di intelligenza artificiale attuali sono ottimi nel comprendere la grande immagine (struttura spaziale) ma faticano ancora con i piccoli dettagli (parametri esatti).
Il test fornisce un modo chiaro per misurare i progressi: man mano che l'IA migliora, dovrebbe iniziare a battere il Robot Vecchia Scuola sui livelli facili, mantenendo al contempo il suo vantaggio sui livelli difficili.

In breve, ShapeCodeBench è un campo di gioco fresco e rinnovabile dove possiamo vedere esattamente dove l'IA è forte (comprensione di scene complesse) e dove è ancora goffa (misurazione di dettagli precisi).

Riepilogo Tecnico: ShapeCodeBench

Enunciato del Problema

Il documento affronta la sfida della ricostruzione da percezione a programma: dato un'immagine raster renderizzata, un modello deve emettere un programma di disegno eseguibile che, quando viene nuovamente renderizzato da un valutatore deterministico, produca un'immagine identica o quasi identica. Sebbene i modelli multimodali moderni siano sempre più valutati su compiti da immagine a codice (ad esempio, da screenshot a HTML, estrazione di strutture), i benchmark esistenti spesso mancano di una combinazione di esecuzione deterministica, valutazione basata sul rendering e rinnovabilità. La maggior parte dei benchmark soddisfa solo uno o due di questi criteri, e pochi permettono la rigenerazione di set di test freschi e non contaminati senza annotazione manuale. ShapeCodeBench è progettato per colmare questa lacuna fornendo un benchmark sintetico e rinnovabile per la grafica inversa su un Linguaggio Specifico di Dominio (DSL) vincolato.

Metodologia

1. Progettazione del Benchmark

ShapeCodeBench è composto da quattro componenti accoppiati:

DSL (Linguaggio Specifico di Dominio): Un insieme minimo di quattro primitive che operano su una tela fissa di $512 \times 512$ pixel con sfondo bianco e forme nere: filled_circle, circle, filled_square e square. Il linguaggio supporta parametri interi per coordinate, dimensioni/raggio e larghezza del tratto. Il parser è un'implementazione rigorosa basata su whitelist, fondata sul modulo ast di Python, che rifiuta importazioni, cicli e letterali non interi.
Generatore di Scene: Un generatore di numeri casuali (RNG) con seed crea scene mediante campionamento per rifiuto di forme candidate. Impone vincoli specifici basati su tre livelli di difficoltà (Facile, Medio, Difficile) riguardanti il numero di forme, l'estensione (raggio/dimensione), la larghezza del tratto, la probabilità di ritaglio sulla tela e la sovrapposizione delle caselle di delimitazione.
Renderer: Utilizza la libreria Pillow per renderizzare in modo deterministico il programma DSL in un'immagine in scala di grigi a 8 bit. L'ordine di rendering è preservato, ma la palette binaria rende le scene invarianti rispetto all'ordine per quanto riguarda l'aggiunta di pixel in primo piano (le forme successive non possono cancellare quelle precedenti).
Valutatore: Analizza il programma previsto dal modello, lo renderizza nuovamente e confronta il raster risultante con la verità fondamentale (ground truth).

2. Metriche di Valutazione

Il sistema riporta cinque metriche principali:

Corrispondenza Esatta: Uguaglianza pixel-per-pixel tra l'immagine target e quella renderizzata nuovamente.
Accuratezza dei Pixel: Frazione di pixel corrispondenti.
IoU in Primo Piano: Intersezione su Unione (Intersection-over-Union) dei pixel neri.
Successo dell'Analisi Sintattica (Parse Success): Se il programma è sintatticamente valido.
Successo dell'Esecuzione: Se il programma viene renderizzato senza errori.

3. Configurazione Sperimentale

Gli autori hanno valutato sei sistemi su una partizione congelata (eval_v1) di 150 campioni (50 per livello di difficoltà):

Linee di Base: Un "pavimento" a "Programma Vuoto" e una linea di base "Euristica-CV" (visione artificiale classica che utilizza componenti connesse, erosione morfologica e rapporti area/perimetro per stimare i parametri delle forme).
Modelli Multimodali:
- Claude Opus 4.7 (1M di contesto): Testato con sforzo di ragionamento "alto" e "massimo".
- GPT-5.5: Testato con sforzo di ragionamento "medio" e "extra_alto".
Protocollo: Tutti i modelli hanno utilizzato prompt zero-shot con vincoli di formattazione rigorosi. Non sono stati utilizzati catene di pensiero o esempi few-shot.

Contributi Chiave

Rilascio di ShapeCodeBench: Una suite completa di benchmark che include il DSL, un parser sicuro e ristretto, un generatore di scene con seed e tre livelli di difficoltà, e un valutatore basato sul rendering.
Partizione di Valutazione Congelata (eval_v1): Un insieme deterministico di 150 campioni con hash SHA-256 pubblicati per la riproducibilità esatta su diverse piattaforme.
Flusso di Lavoro Rinnovabile: Un meccanismo per generare nuove partizioni tenute da parte da nuovi seed e valutarle automaticamente, mitigando il problema della contaminazione da istanze esatte senza richiedere annotazione umana.
Esecutore Indipendente dal Fornitore: Uno strumento per registrare prompt, configurazioni, output grezzi e metriche, rendendo le valutazioni verificabili.
Risultati delle Linee di Base: Una relazione completa di quattro configurazioni multimodali rispetto alle linee di base non basate su LLM, che rivela modi di fallimento distinti e divari di prestazioni.

Risultati

Prestazioni Complessive

Corrispondenza Esatta: Il benchmark è lontano dall'essere saturo. Il miglior tasso di corrispondenza esatta raggiunto da qualsiasi modello multimodale è 0,027 (GPT-5.5 medio), mentre la linea di base euristica classica raggiunge 0,087.
IoU in Primo Piano: I modelli multimodali superano significativamente l'euristica su questa metrica. GPT-5.5 (extra_alto) raggiunge una IoU media in primo piano di 0,87, mantenendo la maggior parte della struttura spaziale.
Successo dell'Analisi Sintattica: Gli LLM raggiungono alti tassi di successo nell'analisi sintattica (0,97–1,00), con fallimenti dovuti principalmente a parametri fuori range o larghezze di tratto non valide.

Incrocio Dipendente dal Livello

Una scoperta critica è l'incrocio dipendente dal livello tra l'euristica e gli LLM:

Livello Facile: L'euristica classica guida nella corrispondenza esatta (0,26) perché le scene sono composte da forme separate e non sovrapposte che le componenti connesse possono individualizzare perfettamente. I modelli multimodali faticano qui, spesso mancando la corrispondenza esatta a causa di piccoli errori parametrici (di pochi pixel).
Livelli Medio/Difficile: L'euristica crolla man mano che le forme sovrapposte si fondono in singole componenti connesse, impedendo l'individualizzazione. I modelli multimodali mantengono la struttura spaziale (alta IoU) e possono enumerare le forme sovrapposte, sebbene continuino a non raggiungere corrispondenze esatte pixel-per-pixel a causa di problemi di precisione dei parametri sotto occlusione.

Modi di Fallimento

LLM: I fallimenti sono dominati da errori "out_of_range" (coordinate/dimensioni al di fuori dei limiti validi) e "invalid_stroke". Faticano anche nella stima precisa dei parametri (ad esempio, raggio esatto o larghezza del tratto) e nel distinguere forme cave da quelle piene quando i tratti sono sottili.
Euristica: Non riesce a individualizzare forme sovrapposte o ritagliate, portando a un calo netto della IoU sui livelli più difficili.

Significato e Affermazioni

Il documento posiziona ShapeCodeBench non come sostituto di benchmark esistenti come TurtleBench o Image2Struct, ma come uno strumento complementare che dà priorità al controllo e alla riproducibilità rispetto al realismo.

Valore Diagnostico: Il benchmark espone con successo modi di fallimento distinti: gli LLM faticano nell'emissione precisa dei parametri anche quando comprendono la struttura della scena, mentre la CV classica fallisce nell'individualizzazione in scene complesse.
Rinnovabilità: Consentendo la generazione di nuove partizioni, il benchmark offre un ciclo di feedback sostenibile per lo sviluppo dei modelli, evitando i problemi di "contaminazione" comuni nei dataset statici.
Portata Modesta: Gli autori dichiarano esplicitamente che la versione corrente è una "v1" con limitazioni deliberate (palette monocromatica, quattro primitive, solo zero-shot). Non affermano di aver risolto il problema dell'induzione di programmi visivi, ma piuttosto di fornire un ambiente rigoroso e rinnovabile per misurare i progressi e identificare lacune specifiche tra percezione ed emissione di codice strutturato.

Il documento conclude che, sebbene i modelli all'avanguardia attuali mostrino promesse nel ragionamento spaziale (alta IoU), sono ancora lontani dalla precisione richiesta per la ricostruzione esatta dei programmi, e il divario tra le prestazioni euristiche su compiti semplici e le prestazioni degli LLM su compiti complessi evidenzia la necessità di ulteriori ricerche nella stima dei parametri e nel ragionamento sull'occlusione.

ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes