VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale super intelligente (un modello Vision-Language Model) che guarda una foto e ti racconta cosa succede. Sembra magico, vero? Ma a volte, questo assistente ti dice cose strane: vede un cane ma ti dice che è un gatto, o nota un dettaglio importante ma decide di ignorarlo.

Il problema è che non sappiamo perché lo fa. È come se l'assistente avesse una mente chiusa in una scatola nera: vediamo l'input (la foto) e l'output (la risposta), ma non sappiamo cosa succede nel mezzo.

Cos'è VisualScratchpad?

VisualScratchpad è come un "quaderno di appunti magico" (da qui il nome "Scratchpad") che si apre proprio mentre l'assistente sta guardando la foto e pensando alla risposta.

Invece di lasciarlo lavorare al buio, questo strumento ci permette di:

Vedere cosa "pensa" l'assistente a livello di immagini.
Capire quali dettagli sta guardando davvero.
Fare esperimenti per vedere cosa cambia se gli togliamo certi pensieri.

Come funziona? (L'analogia del Ricettario e del Cuoco)

Immagina che il modello di intelligenza artificiale sia un cuoco che deve preparare un piatto (la risposta) basandosi su degli ingredienti (la foto).

Il Vision Encoder (L'occhio): È il cuoco che guarda gli ingredienti. Ma spesso, invece di vedere "una mela rossa", vede solo un groviglio confuso di colori e forme.
Il Sparse Autoencoder (SAE) (Il Ricettario): Gli autori del paper hanno creato un "ricettario" speciale. Questo strumento prende quel groviglio confuso e lo scompone in concetti puri e separati: "rosso", "rotondo", "foglia", "ombra".
- Senza VisualScratchpad: Il cuoco vede un caos.
- Con VisualScratchpad: Il cuoco ha una lista ordinata: "Ho un concetto di 'mela', un concetto di 'tavolo', un concetto di 'mano'".
Il Collegamento (L'attenzione): Ora, il cuoco deve decidere quali ingredienti usare per la ricetta (la risposta). VisualScratchpad mostra una mappa di calore (una sorta di termometro visivo) che ci dice: "Ehi, quando il cuoco pensa alla parola 'mela', sta guardando proprio il concetto 'rosso' e 'rotondo'".

Cosa hanno scoperto? (I 3 errori tipici)

Usando questo quaderno di appunti, gli autori hanno scoperto tre modi in cui l'assistente sbaglia, che prima erano invisibili:

1. Il "Non Ascolto" (Allineamento limitato)

La scena: L'assistente guarda una foto di una tazza su una mano con un guanto.
L'errore: Dice: "La tazza è su una superficie".
La scoperta: Il quaderno mostra che l'assistente ha visto il concetto "guanto" e "mano". Ma il suo cervello non ha collegato la parola "guanto" all'idea di "mano". È come se avesse letto la parola "guanto" ma non sapesse che significa "mano".
La soluzione: Se gli chiediamo: "La tazza è su una superficie o su una mano con un guanto?", l'assistente capisce e risponde correttamente.

2. La "Falsa Allerta" (Segnali ingannevoli)

La scena: Una foto di un anziano che usa un deambulatore (un supporto per camminare).
L'errore: L'assistente dice: "L'anziano è seduto".
La scoperta: Il quaderno rivela che l'assistente ha visto l'oggetto "deambulatore" e ha pensato automaticamente a "sedia a rotelle" e "seduto". Si è lasciato ingannare da un'associazione sbagliata.
La soluzione: Se usiamo VisualScratchpad per "spegnere" il concetto di "sedia a rotelle" nel cervello del modello, l'assistente smette di dire che è seduto e capisce che è in piedi.

3. Il "Segreto Nascosto" (Indizi inutilizzati)

La scena: Un'immagine ambigua (un'illusione ottica) che può essere vista sia come un'anatra che come un coniglio.
L'errore: L'assistente dice: "È un'anatra".
La scoperta: Il quaderno mostra che il modello ha visto anche il concetto "coniglio". Ma ha deciso di ignorarlo perché l'idea di "anatra" era più forte.
La soluzione: Se usiamo VisualScratchpad per "alzare il volume" del concetto "coniglio" e "abbassare" quello di "anatra", l'assistente cambia risposta e dice: "Ah, ora vedo che è un coniglio!".

Perché è importante?

Prima, se un'intelligenza artificiale sbagliava, dicevamo: "È un bug, non funziona".
Ora, con VisualScratchpad, possiamo dire: "Ah, ho capito! Ha visto il guanto ma non l'ha collegato alla mano" oppure "Si è lasciato distrarre dal deambulatore".

È come passare dal dire "La macchina è rotta" a dire "La ruota è storta perché il bullone è allentato". Questo ci permette di aggiustare i modelli in modo preciso, rendendo l'Intelligenza Artificiale più affidabile, sicura e comprensibile per noi esseri umani.

In sintesi: VisualScratchpad è la lente d'ingrandimento che ci permette di guardare dentro la testa di un'IA mentre lavora, capire i suoi errori e insegnarle a fare meglio.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli Vision-Language (VLM) ad alte prestazioni continuano a produrre risposte errate, ma le cause di questi fallimenti sono spesso difficili da spiegare. Le sfide principali includono:

Mancanza di interpretabilità: È difficile determinare se un errore derivi da una percezione visiva insufficiente o dall'uso di indizi visivi fuorvianti.
Superposizione delle caratteristiche: Nei modelli neurali densi, un singolo neurone è spesso attivato da concetti multipli e non correlati, rendendo l'analisi meccanica complessa.
Mancanza di strumenti pratici: Sebbene gli Autoencoder Sparsi (SAE) abbiano dimostrato potenziale per decomporre le rappresentazioni in unità semantiche interpretabili, mancano interfacce che supportino un pipeline sistematico per l'analisi, il debug e la manipolazione causale dei concetti durante l'inferenza nei VLM.

2. Metodologia

Gli autori introducono VisualScratchpad, un'interfaccia interattiva che permette l'analisi dei concetti visivi durante l'inferenza. La metodologia si basa su tre pilastri principali:

A. Estrazione dei Concetti Visivi tramite SAE

Viene applicato un Sparse Autoencoder (SAE) direttamente all'encoder visivo (es. CLIP-ViT-large) invece che al modello linguistico.
Le rappresentazioni intermedie degli "image tokens" ( $z$ ) vengono mappate in uno spazio latente ad alta dimensionalità e sparsa ( $h \in \mathbb{R}^{32768}$ ).
Questo approccio evita le distorsioni introdotte dai livelli di proiezione e dall'attenzione incrociata all'interno del modello linguistico, permettendo di analizzare i concetti visivi puri.

B. Collegamento Concetti Visivi-Testuali tramite Attenzione

Per collegare i concetti visivi estratti dall'SAE ai token di testo del modello linguistico, viene utilizzata la mappa di attenzione testo-immagine.
Si calcola una media pesata delle attivazioni dell'SAE, utilizzando i pesi di attenzione come coefficienti. Questo "riordina" i concetti visivi, promuovendo quelli rilevanti per il token di testo specifico e declassando quelli delle regioni ignorate.
La formula chiave è $h^\top \cdot \text{attn}$ , dove $h$ sono le attivazioni latenti e $\text{attn}$ è la mappa di attenzione.

C. Analisi Causale e Heatmap Token-Latente

Per verificare l'influenza causale, si esegue l'ablazione dei latenti (sostituendo le attivazioni con zero o valori specifici) e si osserva il cambiamento nell'output del modello.
Poiché i latenti possono essere correlati o gerarchici, gli autori introducono una heatmap di attivazione token-latente.
- I latenti vengono filtrati per rimuovere il rumore (basato su sparsità e frequenza di attivazione).
- Vengono selezionati i top- $k$ latenti per ogni token di testo.
- I latenti vengono clusterizzati in base alla similarità delle loro pattern di attivazione attraverso i token.
- Questo permette di identificare gruppi di latenti che corrispondono a singoli concetti semantici, rendendo l'ablazione più efficace.

3. Contributi Chiave

VisualScratchpad: Un'interfaccia unificata e pratica che integra l'esplorazione dei latenti SAE, l'inferenza del modello, l'osservazione interna (heatmap, mappe di attenzione) e la modifica causale (steering/ablazione).
Pipeline di Debug Inference-Time: Un metodo sistematico per ispezionare e correggere il comportamento dei VLM in tempo reale, collegando direttamente le rappresentazioni visive grezze alle decisioni linguistiche.
Identificazione di Tre Modalità di Fallimento: Attraverso studi di caso, il lavoro rivela tre cause specifiche di errori nei VLM:
- Allineamento Cross-Modale Limitato: Il modello cattura l'indizio visivo corretto (es. "guanti") ma non lo allinea correttamente al concetto testuale atteso (es. "mano"), portando a risposte errate.
- Fiducia in Indizi Fuorvianti: Il modello si basa su associazioni semantiche inappropriate (es. associare "sedia a rotelle" a "seduto" anche quando la persona è in piedi con un deambulatore).
- Indizi Nascosti Non Utilizzati: Il modello codifica informazioni visive più ricche di quelle che emerge nell'output finale (es. in un'illusione ottica, entrambi i concetti "anatra" e "coniglio" sono attivi, ma il modello ne sceglie solo uno dominante).

4. Risultati e Studi di Caso

Gli autori hanno testato VisualScratchpad su modelli come LLaVA-Next-8B utilizzando dataset come MMVP e illusioni ottiche:

Caso 1 (Allineamento): In una domanda su una tazza su una mano guantata, il modello rispondeva "superficie". L'analisi ha mostrato che l'attenzione era sulla mano e i concetti "guanti" erano attivi, ma non allineati al testo. Riformulare la domanda includendo "guanto" ha corretto l'errore.
Caso 2 (Indizi Fuorvianti): In una domanda su una persona anziana, il modello ha risposto "seduta" attivando concetti legati a "sedia a rotelle", ignorando che la persona era in piedi con un deambulatore. L'ablazione dei latenti legati alla sedia ha invertito la previsione in "in piedi".
Caso 3 (Indizi Nascosti): In un'immagine ambigua (anatra/coniglio), il modello descriveva inizialmente un'anatra. Ablando i latenti dell'anatra e amplificando quelli del coniglio, l'output è cambiato coerentemente, dimostrando che il modello possedeva entrambe le interpretazioni interne.

5. Significato e Implicazioni

Questo lavoro è significativo per la ricerca sull'AI affidabile (Trustworthy AI) perché:

Democratizza l'Interpretabilità: Fornisce uno strumento accessibile per ricercatori e sviluppatori per "vedere" cosa sta pensando un VLM durante l'inferenza, andando oltre le semplici statistiche di accuratezza.
Debug Sistemico: Sposta il focus dalla correzione dei dati di addestramento al debug del comportamento del modello in tempo reale, permettendo di distinguere tra errori di percezione e errori di ragionamento.
Fondamento per la Sicurezza: La capacità di identificare e manipolare concetti specifici (es. rimuovere bias o indizi spuri) è cruciale per migliorare la sicurezza e l'affidabilità dei sistemi multimodali prima del loro dispiegamento.
Scalabilità: Sebbene l'interfaccia sia attualmente interattiva, il framework proposto offre una base per futuri sistemi di analisi causale automatizzata su larga scala.

In sintesi, VisualScratchpad colma il divario tra la teoria dell'interpretabilità meccanica (SAE) e la pratica del debug dei modelli VLM, offrendo una lente chiara sulle cause profonde dei fallimenti dei modelli multimodali.