Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Mistero: Gli "Occhi" che non vedono i quadrati

Immagina di avere tre super-intelligenze artificiali molto potenti (chiamiamole Claude, ChatGPT e Gemini). Tutti dicono che sono bravissimi a "vedere" e capire le immagini. Ma gli scienziati hanno scoperto un trucco curioso: queste intelligenze sono come persone che hanno imparato a leggere benissimo, ma faticano a contare oggetti se non hanno un'etichetta scritta sopra.

Lo studio ha fatto un esperimento semplice, quasi un gioco per bambini, per mettere alla prova la loro vista.

🎮 L'Esperimento: La Griglia Nascosta

Gli scienziati hanno creato 15 griglie quadrate (come un foglio di carta millimetrata) dove alcune caselle erano nere e altre bianche.
Hanno chiesto alle intelligenze artificiali di dire esattamente quali caselle erano nere.

Ma c'era un trucco: le stesse griglie sono state mostrate in due modi diversi:

Il Modo "Testo" (Facile): Le caselle nere erano disegnate con il simbolo # e quelle bianche con un punto ..
- Esempio: # . # . #
Il Modo "Quadrato Puro" (Difficile): Le caselle nere erano semplicemente quadrati neri pieni, senza bordi e senza scritte.
- Esempio: Un quadrato nero solido accanto a uno bianco.

Il punto cruciale: Per l'occhio umano, è la stessa identica informazione. Per il computer, però, è una differenza enorme.

📉 I Risultati: Il Crollo della Vista

Ecco cosa è successo:

Quando c'erano i simboli (# e .): Le intelligenze erano quasi perfette! Hanno letto la griglia come se fosse un testo scritto, sbagliando pochissimo. È come se avessero letto una lista di parole.
Quando c'erano i quadrati neri: Le prestazioni sono crollate in modo drammatico. Hanno iniziato a sbagliare massicciamente, perdendo quasi metà delle caselle nere o inventandone di nuove che non esistevano.

La metafora: È come se queste intelligenze avessero un "super-potere" per leggere le scritte, ma quando vedono solo forme geometriche pure (senza lettere), diventano quasi cieche. Non stanno "guardando" l'immagine come farebbe un umano; stanno cercando disperatamente di trovare delle parole da leggere.

🧠 Perché succede? (L'ipotesi degli Scienziati)

Gli autori del paper ipotizzano che queste intelligenze abbiano due "strade" nel cervello:

La Strada della Lettura (OCR): Quando vedono un simbolo che assomiglia a una lettera o a un numero, attivano un percorso super-preciso. Sostanzialmente, "leggono" l'immagine come se fosse un documento di testo. Qui sono bravissimi.
La Strada Visiva: Quando vedono solo forme (quadrati neri), devono usare la loro vista "pura". Qui sono molto meno precisi. Sanno dire "c'è un gruppo di nero in alto a destra", ma non riescono a dirti esattamente quante caselle sono o dove finiscono i bordi.

È come se avessero imparato a guidare guardando i cartelli stradali (testo), ma se togliessi i cartelli e lasciassi solo la strada, si perderebbero.

🤖 Come sbagliano? (Ognuno ha il suo stile)

Ogni intelligenza ha fallito in modo diverso, ma tutti nello stesso modo:

Claude: Ha contato meno quadrati di quanti ce ne fossero (come se ne avesse persi alcuni).
ChatGPT: Ne ha inventati tantissimi di nuovi, vedendo quadrati dove non c'erano (allucinazioni).
Gemini: Ha smesso di guardare la griglia e ha disegnato a caso forme geometriche ripetitive (come se dicesse: "Non capisco, disegno una croce e basta").

🛠️ Il Trucco per Ripararlo

Gli scienziati hanno provato un esperimento extra: hanno messo una piccola scritta (un numero "1" o "0") dentro i quadrati neri.

Risultato: Per Claude e Gemini, questo ha funzionato! Hanno ricominciato a vedere perfettamente. La scritta ha "risvegliato" la loro strada della lettura.
Eccezione: ChatGPT, stranamente, è peggiorato. Probabilmente la scritta dentro il quadrato lo ha confuso, come se due strade si fossero incrociate e bloccate.

💡 Cosa significa per noi?

Questo studio ci dice una cosa importante: le attuali intelligenze artificiali non sono ancora bravissime a "vedere" il mondo come noi. Sono bravissime a "leggere" le immagini.

Se vuoi che un'AI analizzi una radiografia medica, un diagramma scientifico o un'auto a guida autonoma (dove non ci sono scritte), devi sapere che potrebbe avere difficoltà a localizzare con precisione gli oggetti se non ci sono etichette testuali.

In sintesi: Queste macchine sono come lettori velocissimi che hanno dimenticato come si conta usando le dita. Se gli dai un libro, sono geni. Se gli dai un puzzle di forme pure, si perdono.

Each language version is independently generated for its own context, not a direct translation.

Titolo e Obiettivo

Il paper indaga una limitazione fondamentale dei Modelli Vision-Language (VLM) di frontiera: l'incapacità di localizzare con precisione celle riempite in griglie binarie quando queste mancano di un'identità testuale. L'ipotesi centrale è che i VLM dipendano da un percorso di riconoscimento del testo (simile a un OCR interno) per il ragionamento spaziale ad alta fedeltà, mentre il loro ragionamento spaziale nativo su elementi visivi non testuali è significativamente più debole.

Metodologia

1. Generazione dei Dati:

Sono state create 15 griglie binarie di dimensioni $15 \times 15$ (225 celle ciascuna).
La densità delle celle riempite varia dal 10,7% al 41,8%.
Le celle riempite sono distribuite sia come singole unità isolate che come cluster adiacenti per testare diverse difficoltà di localizzazione.

2. Condizioni di Codifica Visiva:
Ogni griglia è stata renderizzata in due formati visivi distinti, presentati entrambi come immagini PNG (quindi processate dallo stesso encoder visivo):

Condizione Simboli di Testo: Le celle vuote sono rappresentate dal punto (.) e quelle riempite dal cancelletto (#) in un font monospaziato.
Condizione Quadrati Riempiti: Le celle sono quadrati neri pieni su sfondo bianco, senza linee di griglia. Le celle adiacenti si fondono in regioni nere contigue.

3. Modelli Testati:
Sono stati valutati tre VLM all'avanguardia di tre organizzazioni diverse:

Claude Opus (Anthropic)
ChatGPT 5.2 (OpenAI)
Gemini 3 Thinking (Google)

4. Prompting e Vincoli:

I modelli hanno ricevuto istruzioni fisse per trascrivere le griglie.
È stato esplicitamente vietato l'uso di strumenti di codice o elaborazione immagini; la trascrizione doveva avvenire esclusivamente tramite ispezione visiva.
Le sessioni sono state mantenute pulite e separate per condizione.

5. Metriche:

Accuratezza delle celle: Frazione di celle classificate correttamente su 225.
F1 Score (per celle nere): Media armonica di Precisione e Recall. Questa metrica è considerata più informativa dell'accuratezza globale, poiché quest'ultima è inflazionata dal gran numero di celle vuote facili da classificare.

Risultati Chiave

1. Il "Gap" Testo vs. Quadrati:
Esiste un divario drammatico e consistente nelle prestazioni tra le due condizioni:

Condizione Testo: Claude e ChatGPT raggiungono un'accuratezza delle celle di ~91% e un F1 di ~84%. Gemini ottiene un F1 di 63%.
Condizione Quadrati: Tutti e tre i modelli crollano. L'accuratezza scende al 60-73% e il F1 crolla al 29-39%.
Il Divario: Il gap nel punteggio F1 tra testo e quadrati varia da 34 a 54 punti a seconda del modello. Questo dimostra che l'informazione visiva è identica, ma la capacità di elaborazione spaziale crolla quando manca l'ancoraggio testuale.

2. Analisi per Densità e Modelli:

Claude e ChatGPT: Mantengono prestazioni stabili nella condizione testo su tutte le densità, ma mostrano un rendimento uniforme e scarso nella condizione quadrati.
Gemini: Mostra un comportamento bifasico. Nella condizione testo, crolla su griglie dense (>32%), generando pattern geometrici allucinati (es. croci, forme a L) invece della griglia reale. Nella condizione quadrati, è il migliore su griglie sparse (F1 ~68%), ma crolla drasticamente su griglie dense, suggerendo un limite di capacità nel suo percorso visivo.

3. Modalità di Fallimento Distinte:
Ogni modello fallisce in modo qualitativamente diverso nella condizione quadrati:

Claude: Sottostima sistematicamente il numero di celle (under-counting) e disloca le celle in posizioni errate.
ChatGPT: Sovrastima massicciamente le celle (over-counting) e perde le dimensioni della griglia, creando versioni "sfocate" ed espansive dei cluster.
Gemini: Allucina template stereotipati (pattern geometrici) che non hanno alcuna somiglianza con l'input reale.

4. Ablazione del Tipo di Simbolo:
Per determinare se il divario fosse binario (testo vs non-testo) o graduale, sono stati testati due casi intermedi:

Quadrati Unicode (□■): Simboli di testo validi ma visivamente simili ai quadrati pieni. Le prestazioni sono intermedie (F1 69-77%), indicando che la familiarità del token e la frequenza nei dati di addestramento giocano un ruolo.
Testo dentro i quadrati: Inserimento di "0" e "1" bianchi dentro i quadrati neri.
- Claude e Gemini: Recupero completo delle prestazioni spaziali (F1 fino al 100% su griglie sparse), dimostrando che la presenza di testo, anche embedded, riattiva il percorso di ragionamento spaziale.
- ChatGPT: Prestazioni peggiorate (F1 51%), suggerendo un'interferenza distruttiva tra il percorso visivo e quello testuale in questo specifico modello.

Contributi Principali

Dimostrazione della Dipendenza dal Testo: Il paper prova che l'attuale ragionamento spaziale dei VLM è mediato dal riconoscimento del testo. Quando gli elementi visivi non hanno un analogo testuale, la localizzazione spaziale si degrada severamente.
Generalizzazione Cross-Modello: Il fenomeno non è un difetto di un singolo modello, ma una proprietà strutturale condivisa da tre famiglie di modelli con architetture e encoder visivi diversi.
Analisi dei Percorsi di Elaborazione: Si propone un modello funzionale in cui i VLM utilizzano due percorsi:
- Un percorso di riconoscimento del testo (alta fedeltà, basato su token) che preserva la posizione spaziale.
- Un percorso di caratteristiche visive (bassa fedeltà spaziale) ottimizzato per la semantica globale ma privo di precisione coordinate.
Identificazione di Interazioni Modello-Specifiche: L'ablation study rivela che l'interazione tra percorsi visivi e testuali varia tra i modelli (es. il recupero di Claude/Gemini vs il degrado di ChatGPT con il testo embedded).

Significato e Implicazioni

Limiti delle Applicazioni Reali: Le prestazioni su benchmark ricchi di testo (come la lettura di documenti) sovrastimano la capacità dei VLM di ragionare su elementi visivi non testuali. Questo è critico per applicazioni in imaging medico, sistemi autonomi, analisi di visualizzazioni scientifiche e analisi di documenti non testuali.
Progettazione di Architetture: I risultati suggeriscono che gli encoder visivi attuali (spesso basati su CLIP e ottimizzati per l'allineamento semantico globale) mancano di precisione spaziale fine.
Strategie di Mitigazione: L'uso di "scaffolding testuale" (aggiungere etichette testuali agli elementi visivi) può recuperare le prestazioni per alcuni modelli, ma non è una soluzione universale e dipende dall'architettura specifica.
Direzione Futura: Per colmare il divario, è necessario sviluppare encoder visivi con obiettivi di predizione esplicita delle coordinate spaziali o introdurre token visivi discreti (simili a VQ-VAE) che permettano al percorso di ragionamento linguistico di accedere a contenuti visivi non testuali con la stessa precisione dei token testuali.

In sintesi, il paper conclude che i VLM attuali "vedono" lo spazio principalmente attraverso la lente del testo; senza un ancoraggio testuale, la loro capacità di localizzazione spaziale diventa inaffidabile.

Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

🕵️‍♂️ Il Mistero: Gli "Occhi" che non vedono i quadrati

🎮 L'Esperimento: La Griglia Nascosta

📉 I Risultati: Il Crollo della Vista

🧠 Perché succede? (L'ipotesi degli Scienziati)

🤖 Come sbagliano? (Ognuno ha il suo stile)

🛠️ Il Trucco per Ripararlo

💡 Cosa significa per noi?

Titolo e Obiettivo

Metodologia

Risultati Chiave

Contributi Principali

Significato e Implicazioni

Articoli simili

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models