DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Il paper presenta DEX-AR, un nuovo metodo di spiegabilità dinamica per modelli visione-linguaggio autoregressivi che genera mappe di calore 2D per-token e a livello di sequenza, identificando le regioni visive cruciali attraverso un meccanismo di filtraggio dinamico delle attention heads e un'aggregazione differenziata dei token, migliorando così le metriche di valutazione su diversi dataset.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina che un Modello Visivo-Linguistico (VLM) sia come un pittore molto intelligente ma un po' distratto. Questo pittore guarda una foto e inizia a descriverla parola per parola.

  • Guarda la foto.
  • Dice: "C'è un..." (guarda la foto).
  • Dice: "...gatto..." (guarda di nuovo la foto).
  • Dice: "...che sta..." (qui potrebbe non guardare più la foto, ma solo pensare alla grammatica).
  • Dice: "...sulla..." (di nuovo la foto).
  • Dice: "...sedia." (guarda la foto).

Il problema è che i metodi vecchi per capire cosa sta guardando il pittore (le tecniche di "spiegabilità") sono come una telecamera fissa che registra solo l'ultima pennellata. Non riescono a capire che mentre diceva "che sta", il pittore stava pensando alla grammatica e non alla foto, oppure che mentre diceva "gatto", stava fissando intensamente gli occhi del gatto.

Cos'è DEX-AR?

DEX-AR è come un regista super-attento che sta dietro le quinte mentre il pittore lavora. Il suo compito è creare una mappa di calore (un'immagine colorata) che mostra esattamente quali parti della foto hanno ispirato ogni singola parola che il pittore dice.

Ecco come funziona, passo dopo passo, con delle analogie:

1. La "Lente Logit" (Guardare dentro la testa)

Invece di aspettare la frase finita, DEX-AR guarda cosa sta succedendo nel cervello del modello mentre sta scrivendo ogni parola. Immagina di avere una lente magica che ti permette di vedere quale parte della foto sta "illuminando" il cervello del modello proprio in quel millisecondo.

2. Il Filtro "Caccia al Rumore" (Head Filtering)

Il modello ha centinaia di "piccoli assistenti" (chiamati attention heads) che lavorano insieme. Alcuni assistenti guardano la foto, altri guardano solo le regole grammaticali, altri ancora guardano il contesto.

  • Il problema: Se chiediamo a tutti gli assistenti di parlare, otteniamo un caos.
  • La soluzione DEX-AR: Il metodo usa un filtro intelligente. Dice: "Ehi, tu che stai guardando solo la grammatica, taci! Tu che stai guardando il cielo (ma la domanda era sul cane), taci! Parla solo tu che stai fissando il cane!".
  • L'analogia: È come avere un direttore d'orchestra che fa tacere gli strumenti che non servono per quel momento, lasciando suonare solo il violino che sta raccontando la storia del cane.

3. Il Filtro "Parole Vuote" (Token Filtering)

Quando il modello dice: "Vedo un gatto sulla sedia", le parole "gatto" e "sedia" sono importanti perché descrivono la foto. La parola "sulla" è solo grammatica.

  • Il problema: I metodi vecchi mostrano la foto intera per ogni parola, anche per "sulla", creando una mappa confusa e sfocata.
  • La soluzione DEX-AR: DEX-AR dice: "La parola 'sulla' non ha bisogno di guardare la foto, è solo un ponte grammaticale. Non disegnare nulla per questa parola".
  • Risultato: La mappa finale è pulita. Mostra il cane e la sedia, ma non macchia la foto con colori inutili per le parole grammaticali.

Perché è così importante?

Prima di DEX-AR, se chiedevamo a un'IA "Cosa c'è in questa foto?" e rispondeva "Un gatto", non sapevamo se l'IA stava davvero guardando il gatto o se stava solo indovinando basandosi su quello che diceva solitamente.

Con DEX-AR possiamo vedere:

  1. Se l'IA sta davvero "vedendo": Se la mappa di calore si accende proprio sul gatto, allora l'IA ha capito.
  2. Se l'IA sta "sognando": Se l'IA dice "gatto" ma la mappa di calore è accesa sul cielo o su un muro, allora l'IA sta allucinando (inventando cose).
  3. Migliorare la sicurezza: In campi importanti come le auto a guida autonoma o la medicina, sapere esattamente cosa sta guardando il modello è vitale per evitare errori fatali.

In sintesi

DEX-AR è come un traduttore di pensieri in tempo reale. Trasforma il processo complesso e caotico di un'IA che descrive un'immagine in una mappa chiara e colorata, distinguendo tra ciò che l'IA vede davvero (il contenuto visivo) e ciò che sta solo dicendo per grammatica (le parole di riempimento).

Grazie a questo metodo, possiamo finalmente dire: "Ok, l'IA ha visto il cane, non ha inventato nulla, ed è pronta a fidarsi di lei".