Dyslexify: A Mechanistic Defense Against Typographic Attacks in CLIP

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Problema: L'AI che "legge" troppo

Immagina di avere un assistente visivo molto intelligente, chiamato CLIP. È come un occhio super-attento che guarda un'immagine e ti dice cosa c'è dentro: "Vedo una banana", "Vedo un'arma", "Vedo un cane". Funziona benissimo.

Tuttavia, c'è un trucco malvagio. Se scrivi la parola "BANANA" con un pennarello rosso gigante su una foto di un'arma da fuoco, l'assistente CLIP va in tilt. Invece di dirti "Vedo un'arma", ti dirà "Vedo una banana", perché la scritta ha "urlato" così forte nelle sue orecchie digitali che ha ignorato l'immagine reale.

Questo è un attacco tipografico: i truffatori usano il testo scritto sulle immagini per ingannare l'AI, facendole commettere errori gravi (come confondere un tumore maligno con uno benigno in medicina, o far generare contenuti pericolosi).

🛡️ La Soluzione: Dyslexify (L'AI "Dislessica")

Gli autori di questo studio hanno creato una difesa chiamata Dyslexify. Il nome è un gioco di parole: rendono l'AI un po' "dislessica" per proteggerla.

Ecco come funziona, passo dopo passo, con delle metafore:

1. L'Investigazione: Trovare i "Traditori"

Immagina che CLIP sia una grande orchestra con centinaia di musicisti (chiamati "testine di attenzione"). Ogni musicista ascolta una parte diversa della musica (l'immagine).
Gli scienziati hanno scoperto che, quando c'è una scritta ingannevole, pochi musicisti specifici (situati nella parte finale dell'orchestra) iniziano a suonare così forte da coprire tutto il resto. Sono loro che "tradiscono" l'immagine per ascoltare solo la scritta.

2. La Mappatura: La "Punteggiatura Tipografica"

Hanno creato un sistema per misurare quanto ogni musicista è "disturbato" dalle scritte. Chiamano questo il Typographic Attention Score. È come un termometro che dice: "Ehi, questo musicista sta guardando troppo le scritte e ignorando l'immagine!".

3. L'Intervento: Il Silenzio Selettivo

Invece di riaddestrare l'intera orchestra (cosa che richiederebbe mesi e computer potentissimi), Dyslexify fa qualcosa di molto più semplice: tace i musicisti colpevoli.
Quando l'AI deve guardare un'immagine, il sistema "spenge" solo quelle poche testine che sono troppo sensibili alle scritte. Le altre continuano a lavorare normalmente, guardando l'immagine reale.

È come se in una stanza piena di rumori, invece di coprire le orecchie a tutti o cambiare la stanza, tu togliessi semplicemente il microfono a chi sta urlando le bugie.

🍎 Cosa succede nella pratica?

Prima: Vedi un'immagine di un'arma con scritto "BANANA". L'AI dice: "È una banana". ❌
Dopo Dyslexify: Vedi la stessa immagine. L'AI ignora la scritta "BANANA" perché le sue "orecchie" sensibili al testo sono state spente. Dice: "È un'arma". ✅

🏥 Perché è importante? (Il caso medico)

Il paper fa un esempio spaventoso ma reale: la diagnosi dei tumori della pelle.
Se un medico usa un'AI per guardare una foto di un neo e qualcuno scrive "SANO" sopra la foto di un tumore maligno, l'AI potrebbe sbagliare e dire che il paziente è a posto. Con Dyslexify, l'AI ignora la scritta "SANO" e si concentra sul neo, salvando potenzialmente vite umane.

✨ I Vantaggi Chiave

Nessun riaddestramento: Non serve far studiare di nuovo l'AI per giorni. È come un "filtro" che si applica istantaneamente.
Non perde intelligenza: L'AI continua a riconoscere bene gli oggetti (cani, auto, cibo) perché non abbiamo spento tutto, solo i "traditori".
Funziona su computer normali: Non serve un supercomputer per applicarlo.
Trasparenza: Sappiamo esattamente perché funziona (abbiamo trovato i musicisti sbagliati), a differenza di altre difese che sono come scatole nere magiche.

In sintesi

Dyslexify è come dare all'intelligenza artificiale un "filtro anti-disturbo" per le scritte ingannevoli. Rende l'AI un po' sorda alle parole scritte sulle immagini, costringendola a fidarsi di ciò che vede davvero, rendendola più sicura per usi critici come la medicina o la sicurezza pubblica.

È un modo intelligente per dire all'AI: "Non leggere le scritte, guarda l'immagine!".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Attacchi Tipografici nei Modelli Multimodali

I modelli CLIP (Contrastive Language-Image Pre-training) sono diventati fondamentali per applicazioni di visione artificiale e linguaggio, dalla classificazione zero-shot alla generazione di immagini. Tuttavia, sono vulnerabili agli attacchi tipografici: l'inserimento di testo (ad esempio, scritte su adesivi o sovrapposizioni digitali) all'interno di un'immagine può ingannare il modello, causando:

Misclassificazione mirata: Un oggetto viene classificato come qualcos'altro a causa del testo presente.
Generazione di contenuti dannosi: Attivazione di output indesiderati nei modelli generativi.
Jailbreak: Violazione dei filtri di sicurezza dei modelli Vision-Language (VLM).

Le difese esistenti richiedono spesso ottimizzazione basata sul gradiente (fine-tuning), che è computazionalmente costosa, poco interpretabile e difficile da scalare su modelli di grandi dimensioni.

2. Metodologia: Un Approccio Meccanicistico e Senza Gradienti

Gli autori propongono Dyslexify, un metodo di difesa che non richiede riaddestramento (fine-tuning) né calcoli del gradiente. L'approccio si basa sull'interpretabilità meccanicistica per identificare e disattivare i circuiti specifici responsabili della vulnerabilità.

A. Analisi delle Vulnerabilità (Localizzazione)

Gli autori hanno investigato come i codificatori visivi di CLIP elaborano le informazioni tipografiche utilizzando sonde lineari (linear probes) su ogni strato del modello:

Hanno scoperto che la comprensione tipografica non è distribuita uniformemente, ma emerge bruscamente nella seconda metà degli strati del modello.
Hanno identificato che i blocchi di attenzione (attention heads) sono responsabili dell'aggiunta di informazioni tipografiche al token cls (il token che rappresenta l'intera immagine), mentre i blocchi MLP tendono a comprimere o rimuovere queste informazioni.

B. Punteggio di Attenzione Tipografica (Typographic Attention Score - $T_{i,\ell}$ )

Per isolare i neuroni specifici, gli autori definiscono un punteggio che misura quanto un determinato "head" di attenzione si focalizza spazialmente sul contenuto testuale nell'immagine.

Vengono calcolati i pattern di attenzione per ogni head.
Viene identificata una sottoinsieme di head con un punteggio $T_{i,\ell}$ significativamente alto (bias spaziale verso il testo).

C. Costruzione del Circuito e Ablazione

Il metodo costruisce un "circuito tipografico" ( $C$ ) composto dagli head di attenzione più sensibili al testo:

Ranking: Gli head vengono ordinati in base al loro punteggio $T_{i,\ell}$ .
Selezione Iterativa: Gli head vengono aggiunti al circuito uno per uno (dal punteggio più alto).
Vincolo di Accuratezza: L'aggiunta di un head al circuito avviene solo se non riduce l'accuratezza su dataset non tipografici (es. ImageNet-100) oltre una soglia di tolleranza ( $\epsilon$ ).
Ablazione: Una volta selezionato il circuito, gli head vengono ablati (la loro contribuzione al token cls viene azzerata) durante l'inferenza. Questo impedisce alle informazioni tipografiche di influenzare la decisione finale del modello.

3. Contributi Chiave

Comprensione Meccanicistica: Dimostrazione che un piccolo numero di head di attenzione nella parte posteriore del modello è causalmente responsabile degli attacchi tipografici.
Difesa Senza Gradienti: Un metodo che opera a livello di architettura durante l'inferenza, scalabile su modelli da miliardi di parametri senza bisogno di GPU potenti per il training.
Interpretabilità e Controllo: Fornisce un modo trasparente per controllare il comportamento del modello, intervenendo su percorsi causali specifici invece di applicare modifiche "black-box".
Validazione Empirica: Test estesi su dataset reali e sintetici, inclusa una dimostrazione nel dominio medico.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli OpenCLIP di varie dimensioni (ViT-B, L, H, G, BigG).

Robustezza agli Attacchi: Dyslexify migliora l'accuratezza su varianti tipografiche di ImageNet-100 fino al 22,06% (e fino al 31% su alcuni dataset specifici come "Disentangling"), riducendo drasticamente il successo degli attacchi.
Preservazione delle Capacità Generali: La perdita di accuratezza su dataset standard (senza testo) è minima, generalmente sotto l'1% (es. -0,24% su ImageNet-100 per ViT-L).
Confronto con lo Stato dell'Arte: Dyslexify supera o compete con metodi basati su fine-tuning (come Defense-Prefix), ma con un costo computazionale inferiore e senza necessità di ottimizzazione.
Caso d'Uso Medico: Applicato a un modello per la diagnosi di lesioni cutanee (melanoma), il metodo ha mitigato errori di diagnosi causati da testo avversario, migliorando l'accuratezza fino al 19,3% in scenari di attacco, dimostrando l'utilità in contesti safety-critical.
Trade-off OCR: Come previsto, la capacità di riconoscimento ottico dei caratteri (OCR) diminuisce significativamente (fino al 30%), il che è accettabile per applicazioni dove la sicurezza prevale sulla lettura del testo.

5. Significato e Impatto

Dyslexify rappresenta un passo avanti significativo verso la sicurezza dei sistemi multimodali:

Efficienza: Offre una soluzione "drop-in" (sostituibile direttamente) che non richiede riaddestramento, rendendola ideale per modelli già distribuiti o con risorse limitate.
Sicurezza Critica: Dimostra che è possibile rendere i modelli più sicuri intervenendo meccanicisticamente sui loro circuiti interni, un approccio cruciale per settori come la medicina o il controllo dei contenuti.
Nuova Direzione di Ricerca: Sposta il paradigma dalla semplice ottimizzazione dei pesi all'ingegneria dei circuiti neurali per il controllo del comportamento del modello, aprendo la strada a difese più robuste e interpretabili contro manipolazioni complesse.

In sintesi, il paper introduce un metodo pratico e teoricamente fondato per "dislessificare" i modelli CLIP, rendendoli resistenti alla manipolazione tramite testo senza sacrificare le loro capacità visive generali.