DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Immagina che un Modello Visivo-Linguistico (VLM) sia come un pittore molto intelligente ma un po' distratto. Questo pittore guarda una foto e inizia a descriverla parola per parola.

Guarda la foto.
Dice: "C'è un..." (guarda la foto).
Dice: "...gatto..." (guarda di nuovo la foto).
Dice: "...che sta..." (qui potrebbe non guardare più la foto, ma solo pensare alla grammatica).
Dice: "...sulla..." (di nuovo la foto).
Dice: "...sedia." (guarda la foto).

Il problema è che i metodi vecchi per capire cosa sta guardando il pittore (le tecniche di "spiegabilità") sono come una telecamera fissa che registra solo l'ultima pennellata. Non riescono a capire che mentre diceva "che sta", il pittore stava pensando alla grammatica e non alla foto, oppure che mentre diceva "gatto", stava fissando intensamente gli occhi del gatto.

Cos'è DEX-AR?

DEX-AR è come un regista super-attento che sta dietro le quinte mentre il pittore lavora. Il suo compito è creare una mappa di calore (un'immagine colorata) che mostra esattamente quali parti della foto hanno ispirato ogni singola parola che il pittore dice.

Ecco come funziona, passo dopo passo, con delle analogie:

1. La "Lente Logit" (Guardare dentro la testa)

Invece di aspettare la frase finita, DEX-AR guarda cosa sta succedendo nel cervello del modello mentre sta scrivendo ogni parola. Immagina di avere una lente magica che ti permette di vedere quale parte della foto sta "illuminando" il cervello del modello proprio in quel millisecondo.

2. Il Filtro "Caccia al Rumore" (Head Filtering)

Il modello ha centinaia di "piccoli assistenti" (chiamati attention heads) che lavorano insieme. Alcuni assistenti guardano la foto, altri guardano solo le regole grammaticali, altri ancora guardano il contesto.

Il problema: Se chiediamo a tutti gli assistenti di parlare, otteniamo un caos.
La soluzione DEX-AR: Il metodo usa un filtro intelligente. Dice: "Ehi, tu che stai guardando solo la grammatica, taci! Tu che stai guardando il cielo (ma la domanda era sul cane), taci! Parla solo tu che stai fissando il cane!".
L'analogia: È come avere un direttore d'orchestra che fa tacere gli strumenti che non servono per quel momento, lasciando suonare solo il violino che sta raccontando la storia del cane.

3. Il Filtro "Parole Vuote" (Token Filtering)

Quando il modello dice: "Vedo un gatto sulla sedia", le parole "gatto" e "sedia" sono importanti perché descrivono la foto. La parola "sulla" è solo grammatica.

Il problema: I metodi vecchi mostrano la foto intera per ogni parola, anche per "sulla", creando una mappa confusa e sfocata.
La soluzione DEX-AR: DEX-AR dice: "La parola 'sulla' non ha bisogno di guardare la foto, è solo un ponte grammaticale. Non disegnare nulla per questa parola".
Risultato: La mappa finale è pulita. Mostra il cane e la sedia, ma non macchia la foto con colori inutili per le parole grammaticali.

Perché è così importante?

Prima di DEX-AR, se chiedevamo a un'IA "Cosa c'è in questa foto?" e rispondeva "Un gatto", non sapevamo se l'IA stava davvero guardando il gatto o se stava solo indovinando basandosi su quello che diceva solitamente.

Con DEX-AR possiamo vedere:

Se l'IA sta davvero "vedendo": Se la mappa di calore si accende proprio sul gatto, allora l'IA ha capito.
Se l'IA sta "sognando": Se l'IA dice "gatto" ma la mappa di calore è accesa sul cielo o su un muro, allora l'IA sta allucinando (inventando cose).
Migliorare la sicurezza: In campi importanti come le auto a guida autonoma o la medicina, sapere esattamente cosa sta guardando il modello è vitale per evitare errori fatali.

In sintesi

DEX-AR è come un traduttore di pensieri in tempo reale. Trasforma il processo complesso e caotico di un'IA che descrive un'immagine in una mappa chiara e colorata, distinguendo tra ciò che l'IA vede davvero (il contenuto visivo) e ciò che sta solo dicendo per grammatica (le parole di riempimento).

Grazie a questo metodo, possiamo finalmente dire: "Ok, l'IA ha visto il cane, non ha inventato nulla, ed è pronta a fidarsi di lei".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Modelli Vision-Language (VLM) autoregressivi (come LLaVA, PaliGemma, GPT-4o) hanno rivoluzionato l'interazione tra visione e linguaggio, ma la loro complessità rende difficile comprendere il processo decisionale.
Le sfide principali identificate dagli autori sono:

Inadeguatezza dei metodi esistenti: Le tecniche di spiegabilità tradizionali (es. Grad-CAM, Attention Rollout) sono state progettate per compiti di classificazione con output fissi. Falliscono nel catturare la natura dinamica della generazione token-per-token tipica dei VLM autoregressivi.
Interazione Modale Complessa: È difficile tracciare come le informazioni visive influenzino specifici token generati, specialmente quando alcuni token servono funzioni puramente linguistiche (es. articoli, verbi ausiliari) mentre altri si riferiscono direttamente al contenuto visivo.
Rumore nelle Mappe di Attenzione: I metodi attuali spesso includono gradienti da "testine" (heads) di attenzione che non si concentrano sulle informazioni visive o aggregano token non rilevanti, producendo mappe di calore diffuse e poco interpretabili.

2. Metodologia: DEX-AR

DEX-AR (Dynamic Explainability for AutoRegressive models) è un metodo di spiegabilità basato sui gradienti, progettato specificamente per VLM autoregressivi. L'approccio si basa su tre pilastri fondamentali:

A. Calcolo dei Gradienti per Token

Invece di analizzare solo l'output finale, DEX-AR calcola i gradienti rispetto alle mappe di attenzione a ogni passo di generazione $t$ .

Utilizza l'approccio "Logit Lens" proiettando gli stati nascosti intermedi di ogni layer $l$ nello spazio del vocabolario per ottenere i logit intermedi $\hat{o}^{l,t}$ .
Calcola il gradiente del logit del token corrente rispetto alla mappa di attenzione $A^{l,t}$ di quel layer.
Isola i gradienti relativi ai token visivi (i primi $N$ token della sequenza) per determinare quali regioni dell'immagine hanno influenzato la previsione di quel specifico token.

B. Filtraggio Dinamico delle Testine (Head Filtering)

Non tutte le testine di attenzione contribuiscono equamente alla comprensione visiva.

DEX-AR introduce un meccanismo che pesa dinamicamente il contributo di ogni testina $i$ nel layer $l$ .
Calcola la massima magnitudine del gradiente sui token visivi ( $S_{img}$ ) e sui token testuali ( $S_{text}$ ).
Il peso della testina è definito come $w = \max(0, S_{img} - S_{text})$ . Questo utilizza la funzione ReLU per includere solo le testine che mostrano una maggiore sensibilità alle informazioni visive rispetto a quelle testuali, riducendo il rumore.

C. Filtraggio a Livello di Sequenza (Token Filtering)

La generazione di una frase include sia parole "visive" (es. "gatto", "rosso") che "riempitive" (es. "il", "è").

Per ogni token generato, il metodo calcola un peso $\delta_t$ confrontando la massima sensibilità visiva con quella testuale su tutti i layer e le testine.
I token puramente linguistici (dove la previsione è robusta rispetto alle perturbazioni visive) vengono soppressi, mentre quelli basati su evidenze visive vengono amplificati.
La mappa finale a livello di sequenza è la somma pesata delle mappe per-token.

3. Contributi Chiave

Metodo Specifico per VLM Autoregressivi: Propone un approccio basato sui gradienti che gestisce nativamente la generazione sequenziale token-per-token, superando i limiti dei metodi statici.
Meccanismo di Filtraggio Duale: Introduce un sistema innovativo che filtra dinamicamente sia le testine di attenzione (basandosi sul focus visivo) sia i token generati (distinguendo tra contenuto visivo e riempitivi linguistici).
Nuovo Setup di Valutazione: Propone metriche e dataset specifici per valutare la qualità della spiegabilità nei VLM, inclusi l'uso della Perplexity Normalizzata e il dataset PascalVOC-QA con annotazioni granulari per distinguere i token di riempimento.

4. Risultati Sperimentali

Il metodo è stato valutato su diversi dataset (ImageNet, VQAv2, PascalVOC) e architetture di modelli (LLaVA-1.5, BakLLaVA, PaliGemma, Florence-2).

Metriche di Perturbazione: Utilizzando una metrica di Perplexity Normalizzata (che misura quanto la rimozione di pixel importanti degrada la confidenza del modello), DEX-AR ha mostrato un miglioramento consistente rispetto a metodi basati su Grad-CAM, Attention Rollout e Integrated Gradients.
- Su ImageNet con BakLLaVA, DEX-AR ha raggiunto un AUC di 18.10 (positivo) contro 12.60 di Attn×Grad.
Metriche di Segmentazione: Su PascalVOC, DEX-AR ha ottenuto risultati superiori in termini di IoU (Intersection over Union) e EPG (Energy Pointing Game), dimostrando una localizzazione più precisa degli oggetti.
- Su LLaVA-1.5, l'IoU è salito al 36.34% (contro il 28.90% di Grad-CAM).
Efficacia del Filtraggio: Gli studi di ablazione confermano che il filtraggio "max-based" delle testine e il filtraggio dei token di riempimento migliorano drasticamente il rapporto segnale-rumore (SNR), portandolo da 9.16 a 96.12 su PascalVOC-QA.
Robustezza: Il metodo si dimostra robusto contro corruzioni dell'immagine (ImageNet-C) e artefatti architetturali come i "register" nei Vision Transformer, sopprimendo le attivazioni spurie che ingannano i metodi basati solo sull'attenzione.

5. Significato e Impatto

DEX-AR rappresenta un passo avanti cruciale nell'interpretabilità dell'IA multimodale.

Affidabilità: Fornisce agli utenti e ai ricercatori una comprensione più fedele di come e perché un modello prende una decisione visiva, distinguendo tra inferenze basate sull'immagine e completamenti linguistici.
Sicurezza: Facilita il rilevamento di modalità di fallimento (es. allucinazioni o correlazioni spurie) in applicazioni ad alto rischio come i sistemi autonomi.
Generalizzabilità: Essendo agnostico rispetto al modello (basato sui gradienti delle mappe di attenzione, comuni a tutte le architetture Transformer), DEX-AR è applicabile a una vasta gamma di VLM moderni senza necessità di modifiche strutturali al modello stesso.

In sintesi, DEX-AR risolve il problema della "scatola nera" nei VLM generativi fornendo mappe di calore dinamiche, pulite e semanticamente rilevanti che riflettono accuratamente il flusso di informazioni visive durante la generazione del testo.