OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Problema: I Supereroi che si perdono nel numero 300

Immagina che le Vision-Language Models (VLM) siano come dei supereroi molto intelligenti. Possono guardare una foto e dirti: "Ecco un cane, ecco un gatto, e quello è un'auto rossa". Sono bravissimi a riconoscere le cose.

Ma c'è un problema: se gli chiedi di fare una cosa un po' più "matematica" e sequenziale, come dire "Qual è il 250° oggetto se conto partendo da qui e girando in senso orario?", questi supereroi si bloccano. Sembra che abbiano una memoria a breve termine molto corta o che si confondano quando devono seguire una regola passo dopo passo.

🧪 La Soluzione: ORDINALBENCH (Il Campo di Addestramento)

Gli autori del paper (dall'Università di Kyoto) hanno creato un nuovo "campo di addestramento" chiamato ORDINALBENCH. È come un videogioco di logica progettato apposta per scoprire dove si inceppano questi supereroi.

Ecco come funziona questo gioco, spiegato con metafore semplici:

1. Il Gioco della "Pista da Corsa" 🏁

Immagina di avere una foto piena di oggetti (come palline colorate o cubi) disposti in una fila o in un labirinto.

La regola: Ti dicono: "Inizia dalla pallina rossa (è la numero 1), poi vai in senso orario e fermati alla N-esima pallina".
La sfida: Se N è piccolo (es. 5), è facile. Ma se N è enorme (es. 250 o 300), il supereroo deve tenere a mente il numero mentre cammina mentalmente lungo la pista.

2. I Tre Livelli di Difficoltà 🎢

Il test ha tre modi per diventare più difficile, proprio come un videogioco che sale di livello:

La Dimensione del Numero (Ordinal Magnitude): Chiederti di contare fino a 5 è facile. Chiederti di contare fino a 300 è come chiedere a un bambino di saltare su una corda per un'ora senza fermarsi. Molti modelli falliscono qui.
La Complessità del Labirinto (Arrangement):
- Livello Facile: Gli oggetti sono in un cerchio perfetto (come una giostra).
- Livello Difficile: Gli oggetti sono in un labirinto. Il modello deve decidere a ogni incrocio: "Devo andare dritto? Se c'è un muro, devo girare a destra?". È come guidare un'auto in un labirinto buio senza sbattere.
Il "Salto" (Skip Counting): A volte non devi contare ogni passo, ma ogni 3 passi. È come saltare la corda: "1, 2, SALTO (3), 4, 5, SALTO (6)...". Questo richiede di fare calcoli mentali mentre si cammina, ed è dove i modelli si confondono di più.

📊 Cosa è successo quando hanno fatto il test?

Gli autori hanno messo alla prova i modelli più famosi al mondo (come GPT-5, Gemini, Qwen, ecc.) in questo test. Ecco cosa hanno scoperto:

Bravi a riconoscere, pessimi a contare: Se chiedi "Cosa c'è in questa foto?", rispondono bene. Se chiedi "Qual è il 150° oggetto?", sbagliano quasi sempre.
Il crollo nei labirinti: Appena il percorso diventa un labirinto complesso, la loro intelligenza crolla. Sembra che perdano il filo del discorso (o meglio, del percorso) dopo pochi passi.
Il problema del "Salto": Quando dovevano saltare i numeri (stride > 1), le prestazioni sono crollate drasticamente, avvicinandosi al livello di chi indovina a caso.
Il "Crollo" della memoria: Più il numero da raggiungere è alto (es. 300), più il modello dimentica da dove è partito. È come se avesse un "cervello" che si riempie troppo velocemente.

💡 La Metafora Finale: Il Cuoco e la Ricetta

Immagina un cuoco (il modello VLM) che è bravissimo a dire: "Questo è un pomodoro, quella è una cipolla".
Ma se gli dai una ricetta complessa: "Prendi il pomodoro, poi salta 3 cipolle, poi prendi la 250° carota, poi gira a destra se vedi un coltello...", il cuoco si perde.

Non perché non sa cos'è una carota.
Ma perché non riesce a eseguire la procedura passo dopo passo mantenendo il conto.

🚀 Perché è importante?

Questo studio ci dice che per creare intelligenze artificiali davvero utili (che possano guidare robot, navigare in città o gestire compiti complessi), non basta farle diventare bravi a "guardare". Dobbiamo insegnar loro a pensare in sequenza, a tenere il conto e a seguire regole complesse senza perdersi.

ORDINALBENCH è quindi il righello che ci dice: "Ehi, qui c'è un buco nella vostra capacità di ragionamento. Lavorateci sopra!".

Tutti i dati e il codice sono pubblici, così chiunque può provare a costruire un "supereroe" che non si perde mai nel numero 300! 🦸‍♂️🔢

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Limiti di Generalizzazione nei VLM

Nonostante i recenti progressi dei Modelli Vision-Language (VLM) su benchmark multimodali, questi modelli mostrano lacune significative nella comprensione dei numeri ordinali. Mentre i modelli possono spesso riconoscere oggetti o contare quantità statiche (comprensione cardinale), falliscono nel tracciare posizioni relative e nel generalizzare a indici numerici elevati.
Il problema centrale non è la memorizzazione del vocabolario ordinale, ma la capacità di ragionamento procedurale: eseguire passo dopo passo una regola di conteggio ("trova l'N-esimo oggetto") partendo da un riferimento visivo, mantenendo uno stato interno aggiornato e gestendo percorsi complessi. Le attuali valutazioni non diagnosticano adeguatamente queste debolezze di generalizzazione, specialmente in scenari con numeri grandi o percorsi intricati.

2. Metodologia: ORDINALBENCH

Gli autori introducono ORDINALBENCH, un benchmark diagnostico su larga scala progettato per standardizzare la valutazione della comprensione dei numeri ordinali.

Design del Task

Il compito principale è l'identificazione dell'N-esimo oggetto.

Input: Un'immagine (2D o 3D), una regola di attraversamento (es. "in senso orario", "segui il labirinto"), un oggetto di partenza, il numero ordinale target $N$ e un passo di salto $k$ (stride).
Output: Il modello deve fornire l'identificativo dell'N-esimo oggetto e una traccia di ragionamento strutturata (JSON) che dettaglia ogni passo del processo di conteggio.
Regole Complesse: Include il "skip counting" ( $k > 1$ ), dove il modello deve contare ogni $k$ passi, richiedendo un'esecuzione algoritmica più sofisticata.

Controllo Sistematico della Difficoltà

La difficoltà è controllata lungo tre assi indipendenti per isolare le cause del fallimento:

Complessità dell'Arrangiamento Spaziale:
- Single-Loop: Un singolo anello chiuso (2D o 3D).
- Maze-Loop: Percorsi complessi generati algoritmicamente (senza vicoli ciechi), che richiedono il mantenimento dello stato su topologie globali difficili da verbalizzare.
Magnitudine Ordinale ( $N$ ):
- Within: $N$ all'interno del numero totale di oggetti.
- Exceed: $N$ superiore al numero di oggetti ma $\le 99$ .
- Large Scale: $100 \le N \le 300$ (casi estremi raramente presenti nei dati di addestramento).
Conteggio Oggetti (Carico Visivo): Variazione del numero totale di oggetti o della dimensione della griglia per testare l'attenzione e la memoria di lavoro.

Generazione dei Dati e Metriche

Dataset: 39.000 coppie domanda-risposta generate sinteticamente, con tracce di ragionamento "ground-truth".
Metriche di Valutazione: Oltre alla precisione finale (Acc@N), il benchmark introduce metriche per valutare la correttezza del processo:
- nLCP (Normalized Longest Correct Prefix): Lunghezza normalizzata del prefisso corretto più lungo nella traccia.
- STA (Stepwise Trace Accuracy): Accuratezza passo-passo della traccia.
- Cov. (Trace Coverage): Percentuale di campioni per cui il modello produce una traccia valida.

3. Risultati Sperimentali

Il benchmark è stato testato su modelli VLM all'avanguardia (GPT-5, Gemini 2.5 Flash Lite, Qwen2.5-VL, InternVL3.5, Molmo) in modalità zero-shot (senza addestramento specifico).

Degradazione delle Prestazioni: Si osserva un crollo drastico delle prestazioni all'aumentare della complessità.
- Nei task semplici (Single-Loop 2D), alcuni modelli raggiungono il 30-32% di accuratezza.
- Nei task complessi (Maze-Loop), l'accuratezza scende drasticamente (es. GPT-5 al 11%, altri modelli sotto il 5%), avvicinandosi al livello di caso casuale.
Impatto del Skip Counting: L'introduzione di uno stride $k > 1$ causa un crollo immediato delle prestazioni per tutti i modelli, indicando l'incapacità di eseguire istruzioni algoritmiche complesse.
Limiti di Scala: All'aumentare di $N$ (fino a 300) e del numero di oggetti, l'accuratezza diminuisce linearmente o esponenzialmente, rivelando una scarsa capacità di attenzione sostenuta.
Fallimenti di Parsing: Modelli come la serie Molmo mostrano tassi di copertura della traccia (Cov.) molto bassi (70-80%), indicando difficoltà nel seguire le istruzioni di formattazione di base, oltre al fallimento logico.

4. Contributi Chiave

ORDINALBENCH: Un nuovo benchmark diagnostico che standardizza la valutazione della generalizzazione procedurale nei VLM, superando i limiti dei benchmark esistenti focalizzati sul conteggio cardinale statico.
Diagnosi delle Debolezze: Identificazione sistematica dei limiti attuali dei VLM, dimostrando che la loro forza nel riconoscimento di pattern non si traduce in capacità di ragionamento sequenziale robusto.
Toolkit di Valutazione: Un framework che valuta non solo la risposta finale, ma la fedeltà del processo (tracce di ragionamento), fornendo strumenti per analizzare dove e perché il ragionamento fallisce.

5. Significato e Implicazioni

Lo studio evidenzia una bottiglia linguistica e una mancanza di conoscenza procedurale nei VLM attuali:

Bottiglia Linguistica: I modelli potrebbero convertire le informazioni visive in rappresentazioni linguistiche, perdendo dettagli spaziali critici necessari per il ragionamento a lungo termine (es. labirinti).
Gestione dello Stato: I modelli faticano a mantenere e aggiornare uno stato interno (es. "quale numero sto contando ora?") durante l'esecuzione di procedure multi-step.

Implicazioni per il Futuro:
Per sviluppare VLM più robusti e capaci di agire come "agenti visivi", è necessario:

Implementare rappresentazioni di stato strutturate per ridurre l'ambiguità linguistica.
Sviluppare curricula di addestramento che enfatizzino l'esecuzione procedurale passo-passo.
Utilizzare metriche di valutazione basate sulle tracce (nLCP, STA) oltre alla semplice accuratezza finale.

In conclusione, ORDINALBENCH offre un banco di prova riproducibile per guidare lo sviluppo di modelli in grado di gestire il ragionamento sequenziale complesso, un prerequisito fondamentale per applicazioni reali come l'automazione delle interfacce utente e la robotica incarnata.