OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Il paper presenta OrdinalBench, un benchmark diagnostico con 39.000 coppie domanda-risposta e un toolkit di valutazione che rivela come i modelli Vision-Language, nonostante le buone prestazioni generali, mostrino gravi limiti nella generalizzazione del ragionamento sequenziale per l'identificazione di oggetti basata su numeri ordinali elevati e percorsi complessi.

Yusuke Tozaki, Hisashi Miyamori

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Problema: I Supereroi che si perdono nel numero 300

Immagina che le Vision-Language Models (VLM) siano come dei supereroi molto intelligenti. Possono guardare una foto e dirti: "Ecco un cane, ecco un gatto, e quello è un'auto rossa". Sono bravissimi a riconoscere le cose.

Ma c'è un problema: se gli chiedi di fare una cosa un po' più "matematica" e sequenziale, come dire "Qual è il 250° oggetto se conto partendo da qui e girando in senso orario?", questi supereroi si bloccano. Sembra che abbiano una memoria a breve termine molto corta o che si confondano quando devono seguire una regola passo dopo passo.

🧪 La Soluzione: ORDINALBENCH (Il Campo di Addestramento)

Gli autori del paper (dall'Università di Kyoto) hanno creato un nuovo "campo di addestramento" chiamato ORDINALBENCH. È come un videogioco di logica progettato apposta per scoprire dove si inceppano questi supereroi.

Ecco come funziona questo gioco, spiegato con metafore semplici:

1. Il Gioco della "Pista da Corsa" 🏁

Immagina di avere una foto piena di oggetti (come palline colorate o cubi) disposti in una fila o in un labirinto.

  • La regola: Ti dicono: "Inizia dalla pallina rossa (è la numero 1), poi vai in senso orario e fermati alla N-esima pallina".
  • La sfida: Se N è piccolo (es. 5), è facile. Ma se N è enorme (es. 250 o 300), il supereroo deve tenere a mente il numero mentre cammina mentalmente lungo la pista.

2. I Tre Livelli di Difficoltà 🎢

Il test ha tre modi per diventare più difficile, proprio come un videogioco che sale di livello:

  • La Dimensione del Numero (Ordinal Magnitude): Chiederti di contare fino a 5 è facile. Chiederti di contare fino a 300 è come chiedere a un bambino di saltare su una corda per un'ora senza fermarsi. Molti modelli falliscono qui.
  • La Complessità del Labirinto (Arrangement):
    • Livello Facile: Gli oggetti sono in un cerchio perfetto (come una giostra).
    • Livello Difficile: Gli oggetti sono in un labirinto. Il modello deve decidere a ogni incrocio: "Devo andare dritto? Se c'è un muro, devo girare a destra?". È come guidare un'auto in un labirinto buio senza sbattere.
  • Il "Salto" (Skip Counting): A volte non devi contare ogni passo, ma ogni 3 passi. È come saltare la corda: "1, 2, SALTO (3), 4, 5, SALTO (6)...". Questo richiede di fare calcoli mentali mentre si cammina, ed è dove i modelli si confondono di più.

📊 Cosa è successo quando hanno fatto il test?

Gli autori hanno messo alla prova i modelli più famosi al mondo (come GPT-5, Gemini, Qwen, ecc.) in questo test. Ecco cosa hanno scoperto:

  1. Bravi a riconoscere, pessimi a contare: Se chiedi "Cosa c'è in questa foto?", rispondono bene. Se chiedi "Qual è il 150° oggetto?", sbagliano quasi sempre.
  2. Il crollo nei labirinti: Appena il percorso diventa un labirinto complesso, la loro intelligenza crolla. Sembra che perdano il filo del discorso (o meglio, del percorso) dopo pochi passi.
  3. Il problema del "Salto": Quando dovevano saltare i numeri (stride > 1), le prestazioni sono crollate drasticamente, avvicinandosi al livello di chi indovina a caso.
  4. Il "Crollo" della memoria: Più il numero da raggiungere è alto (es. 300), più il modello dimentica da dove è partito. È come se avesse un "cervello" che si riempie troppo velocemente.

💡 La Metafora Finale: Il Cuoco e la Ricetta

Immagina un cuoco (il modello VLM) che è bravissimo a dire: "Questo è un pomodoro, quella è una cipolla".
Ma se gli dai una ricetta complessa: "Prendi il pomodoro, poi salta 3 cipolle, poi prendi la 250° carota, poi gira a destra se vedi un coltello...", il cuoco si perde.

  • Non perché non sa cos'è una carota.
  • Ma perché non riesce a eseguire la procedura passo dopo passo mantenendo il conto.

🚀 Perché è importante?

Questo studio ci dice che per creare intelligenze artificiali davvero utili (che possano guidare robot, navigare in città o gestire compiti complessi), non basta farle diventare bravi a "guardare". Dobbiamo insegnar loro a pensare in sequenza, a tenere il conto e a seguire regole complesse senza perdersi.

ORDINALBENCH è quindi il righello che ci dice: "Ehi, qui c'è un buco nella vostra capacità di ragionamento. Lavorateci sopra!".

Tutti i dati e il codice sono pubblici, così chiunque può provare a costruire un "supereroe" che non si perde mai nel numero 300! 🦸‍♂️🔢