Evaluating Graphical Perception Capabilities of Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🎨 Il Grande Esperimento: Chi vede meglio, l'Intelligenza Artificiale o l'Uomo?

Immagina di avere due tipi di "occhi" digitali:

Gli Occhi Vecchi (CNN): Sono come un vecchio fotografo che guarda un'immagine pezzo per pezzo, analizzando ogni dettaglio locale con molta attenzione.
Gli Occhi Nuovi (ViT - Vision Transformers): Sono come un giovane genio che guarda l'intera immagine tutta insieme, cercando di capire le relazioni tra tutti gli elementi contemporaneamente, un po' come quando guardi un quadro e capisci subito la storia che racconta.

Per anni, abbiamo pensato che questi "Occhi Nuovi" (i Vision Transformers o ViT) fossero così potenti da poter fare tutto meglio degli umani, specialmente nei compiti complessi. Ma questa ricerca si è chiesta una domanda fondamentale: "Se dobbiamo leggere un grafico o capire un disegno semplice, questi nuovi occhi digitali vedono le cose esattamente come le vediamo noi umani?"

🧪 La Prova del Fuoco: Il Test di Cleveland e McGill

Per rispondere, gli scienziati hanno usato un vecchio ma famoso "manuale di istruzioni" per la percezione umana, creato decenni fa da Cleveland e McGill. Immagina questo manuale come una scala di difficoltà per i nostri occhi:

Facile: Capire quanto è lunga una barra (come confrontare due regoli).
Medio: Capire un angolo o una posizione.
Difficile: Capire l'area di una forma o il volume di un oggetto 3D.

Hanno messo alla prova tre diversi tipi di "Occhi Nuovi" (chiamati vViT, CvT e Swin) contro:

Persone vere (il nostro standard di riferimento).
Vecchi Occhi Digitali (le CNN).

📉 Cosa è Emerso? (La Sorpresa)

Ecco il risultato, spiegato con un'analogia:

Immagina che l'IA sia un studente universitario molto brillante (i ViT) che ha letto tutti i libri di matematica e fisica. È bravissimo a risolvere equazioni complesse e a vedere schemi astratti.
Tuttavia, quando gli chiedi di stimare a occhio quanto è lunga una matita o quanti puntini ci sono in un mucchio, si comporta come un bambino che non ha ancora imparato a contare bene.

Ecco i punti chiave:

L'Uomo vince sulla "Semplicità": Quando si tratta di compiti di base come confrontare la lunghezza di due barre o contare punti, gli umani sono ancora molto più precisi delle macchine. L'IA commette errori grossolani dove noi umani non ne facciamo. È come se l'IA avesse un "senso della misura" molto confuso.
L'IA è brava in cose strane: Paradossalmente, l'IA è troppo brava in alcuni compiti che per noi sono difficili, come capire la curvatura di una linea o le sfumature di luce. Per l'IA, queste cose sono facili, mentre per noi sono complicate. Questo significa che non pensa come noi.
Il problema della "Generalizzazione": Se mostri all'IA un grafico che non ha mai visto esattamente prima (ad esempio, con colori diversi o dimensioni diverse), va in tilt. Noi umani, invece, adattiamo la nostra visione istantaneamente. L'IA sembra "memorizzare" i dati di addestramento invece di "capire" il concetto.

🏆 Chi ha vinto la gara?

Tra le macchine: Il modello chiamato Swin Transformer è stato il migliore, quasi un "campione" tra i ViT. Ma anche lui, il migliore, ha fatto errori molto più grandi rispetto a una persona normale.
Contro l'Uomo: L'IA ha perso. Non è ancora pronta a sostituire l'occhio umano quando si tratta di interpretare grafici, diagrammi o visualizzazioni dati in modo affidabile.

💡 Cosa significa per il futuro?

Questa ricerca ci dice che non possiamo fidarci ciecamente dell'Intelligenza Artificiale per progettare o leggere grafici per noi. Se usiamo l'IA per creare visualizzazioni dati, rischiamo di creare cose che sembrano belle ma che sono "sbagliate" dal punto di vista della percezione umana.

In sintesi: I Vision Transformers sono come super-lettori che possono analizzare milioni di pagine in un secondo, ma quando si tratta di guardare un disegno e dire "questa barra è più lunga di quella", hanno ancora bisogno di un po' di aiuto (e di un po' di umiltà) per imparare a vedere come noi umani.

Il lavoro degli scienziati ora è capire come "addestrare" questi occhi digitali a pensare un po' più come noi, per rendere i grafici e le visualizzazioni dati più chiari e affidabili per tutti.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contesto

I Vision Transformers (ViT) hanno rivoluzionato l'analisi delle immagini, superando spesso le Reti Neurali Convoluzionali (CNN) tradizionali nella cattura di pattern spaziali complessi grazie ai meccanismi di self-attention. Tuttavia, il loro allineamento con la percezione visiva umana in compiti grafici fondamentali rimane poco esplorato.

Mentre le CNN sono state valutate per compiti di percezione grafica (ispirati agli studi fondanti di Cleveland e McGill), non è chiaro se i ViT, pur eccellendo in compiti di visione generale, siano in grado di replicare la precisione umana nella decodifica di codifiche visive elementari (come posizione, lunghezza, angolo e area). Questa allineamento è cruciale per l'applicazione dei modelli AI in sistemi di visualizzazione dati, interpretazione automatica di grafici e progettazione percettiva. Il paper si pone la domanda: i ViT allineano la loro percezione a quella umana nei compiti visivi di basso livello?

2. Metodologia

Gli autori hanno condotto una valutazione empirica rigorosa basata sul framework di Cleveland e McGill, esteso da Haehn et al. (2026), confrontando le prestazioni di ViT, CNN e partecipanti umani.

Compiti Visivi di Basso Livello

Sono stati selezionati nove codifiche percettive elementari e quattro compiti specifici derivati:

Codifiche: Posizione (scala comune e non allineata), Lunghezza, Direzione, Angolo, Area, Volume, Curvatura, Ombreggiatura.
Compiti Sperimentali:
1. Posizione-Angolo: Stima dei rapporti in istogrammi e grafici a torta.
2. Posizione-Lunghezza: Valutazione di dati in istogrammi raggruppati e divisi (5 tipi di difficoltà).
3. Barre e Rettangoli Inquadrati: Confronto di lunghezze su scale non allineate.
4. Nuvola di Punti (Point Cloud): Stima della quantità di punti (10, 100, 1000) basata sulla Legge di Weber.

Architetture Valutate

Sono stati testati tre architetture ViT rappresentative, addestrate da zero (from scratch) su dataset specifici per evitare bias di pre-addestramento:

vViT (Vanilla Vision Transformer): Attention globale su patch fisse, senza induttivi bias convoluzionali.
CvT (Convolutional Vision Transformer): Integra livelli convoluzionali per l'estrazione di feature locali e embedding convoluzionali.
Swin Transformer: Utilizza finestre spostate (shifted windows) e gerarchia spaziale per modellare relazioni locali e globali in modo efficiente.

Dati e Addestramento

Dataset: 100.000 immagini per compito (generati proceduralmente come stimoli binari 100x100, ridimensionati a 224x224 per i ViT).
Split: 60% training, 20% validazione, 20% test, con spazi parametrici distinti per evitare data leakage.
Metrica: MLAE (Mean Log Absolute Error), definita come $\log_2(|predicted - true| + 0.125)$ , per quantificare l'accuratezza percettiva.
Confronto: I risultati sono stati confrontati con i dati umani (da Cleveland & McGill e Haehn et al.) e con le CNN (LeNet, VGG19, Xception, ResNet-18).

3. Risultati Chiave

Confronto Umani vs. ViT

Prestazioni Generali: Gli esseri umani hanno costantemente superato i ViT nella maggior parte dei compiti percettivi, specialmente in quelli che richiedono ragionamento comparativo o stime di densità.
Disallineamento Gerarchico: Mentre i ViT (in particolare Swin) mostrano un buon allineamento con l'umano su compiti semplici come Direzione e Ombreggiatura, divergono significativamente su compiti complessi come Curvatura e Area.
- Esempio: Nell'estimazione della Posizione-Lunghezza, gli umani hanno un MLAE di 2.01, mentre Swin registra 4.72.
- Esempio: Nella stima delle Nuvole di Punti, gli umani ottengono 4.95 contro 6.37 di Swin.
Generalizzazione: I ViT mostrano una scarsa capacità di generalizzare a variazioni parametriche non viste durante l'addestramento (es. cambiamenti di larghezza o allineamento spaziale), indicando una sensibilità eccessiva alle condizioni di training.

Confronto CNN vs. ViT

Errori Superiori dei ViT: Contrariamente alla tendenza generale nei compiti di visione, in questo dominio specifico i ViT hanno commesso errori sistematicamente più alti rispetto alle CNN (es. VGG19).
- Nella stima delle nuvole di punti, l'errore medio ViT è 6.37 contro 3.40 delle CNN.
- Nei compiti di barre e rettangoli, i ViT hanno un errore di 4.75 contro 1.93 delle CNN.
Ranking: I ViT tendono a classificare certi compiti (come curvatura e area) come più facili rispetto a quanto fanno umani e CNN, suggerendo una diversa (e potenzialmente errata) interpretazione delle feature visive.

Studi Ablativi

Risoluzione e Dimensione delle Patch: Aumentare la risoluzione o ridurre la dimensione delle patch (es. vViT-8) non ha migliorato significativamente le prestazioni.
Pre-addestramento: L'uso di pesi pre-addestrati su ImageNet ha migliorato leggermente l'accuratezza media (soprattutto per CvT), ma non ha colmato il divario fondamentale con le CNN o gli umani.
Dimensione dei Dati: Aumentare il dataset di training di 4 volte non ha portato a miglioramenti sostanziali, suggerendo che il problema non è la quantità di dati ma l'architettura stessa.

4. Contributi Principali

Valutazione Sistematica: Prima indagine approfondita sulle capacità percettive di basso livello di tre architetture ViT canoniche (vViT, CvT, Swin) su compiti ispirati a Cleveland e McGill.
Benchmark Comparativo: Confronto diretto tra ViT, CNN e percezione umana, rivelando che i ViT, pur essendo SOTA in visione generale, non sono ancora allineati con la percezione umana nella visualizzazione dati.
Analisi delle Lacune Percettive: Identificazione di specifici domini (stima di lunghezza su scale non allineate, densità di punti) in cui i ViT falliscono rispetto alle CNN e agli umani, evidenziando limiti nella capacità di ragionamento comparativo.

5. Significato e Implicazioni

Lo studio mette in guardia contro l'uso acritico dei ViT nei sistemi di visualizzazione dati che richiedono fedeltà percettiva. Sebbene i ViT siano potenti per l'analisi di alto livello (classificazione, estrazione di dati), la loro mancanza di allineamento con i meccanismi percettivi umani di base limita la loro affidabilità in compiti di:

Interpretazione automatica di grafici complessi.
Progettazione di visualizzazioni ottimizzate per la percezione umana.
Sistemi di supporto decisionale basati su dati visivi.

I risultati suggeriscono che l'architettura pura basata su attention globale potrebbe non essere sufficiente per catturare le sfumature della percezione visiva umana. Futuri lavori dovranno esplorare architetture ibride, modelli multimodali più grandi o meccanismi di addestramento specifici per colmare questo divario percettivo.