BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un pasticcere magico (il modello di intelligenza artificiale) che crea torte bellissime basandosi sulle tue ricette (i testi che scrivi). Se chiedi "una torta al cioccolato", lui ne crea una deliziosa.

Purtroppo, qualcuno di malvagio potrebbe aver "avvelenato" questo pasticcere durante la sua formazione. Ha nascosto un trucco segreto: ogni volta che nella ricetta c'è una parola specifica (anche invisibile o nascosta), il pasticcere smette di seguire la tua richiesta e inizia a fare qualcosa di strano.

Chiedi una torta al cioccolato? Lui ti dà una torta al limone (sostituzione dell'oggetto).
Chiedi una torta semplice? Lui ti mette un adesivo strano sopra (aggiunta di un "patch").
Chiedi una torta colorata? Lui te la fa in bianco e nero (cambio di stile).

Questo è il problema dei Backdoor (porte di servizio) nei modelli di generazione immagini. Il problema è che, nella vita reale, non possiamo entrare in cucina per controllare come lavora il pasticcere (non abbiamo accesso al suo codice o ai suoi ingredienti, è una "scatola nera"). Dobbiamo solo ordinare la torta e guardare il risultato.

Il Problema: Come si nascondono i truffatori?

I metodi precedenti cercavano di capire se la torta era "strana" guardando l'intera immagine.

Se il pasticcere faceva sempre la stessa identica torta al limone ogni volta che chiedevi il cioccolato, era facile scoprirlo (era troppo uguale).
Ma i nuovi truffatori sono più furbi: ogni volta che chiedi il cioccolato, ti danno un limone, ma ogni limone è diverso! Uno ha la glassa verde, uno è piccolo, uno è grande. Se guardi solo l'immagine, sembrano tutte torte diverse e normali. I vecchi metodi si confondevano e dicevano: "Tutto ok, sono solo torte diverse".

La Soluzione: BlackMirror (Lo Specchio Nero)

Gli autori hanno creato un nuovo detective chiamato BlackMirror. Invece di guardare l'immagine intera, usa due trucchi intelligenti, come se avesse due assistenti: MirrorMatch e MirrorVerify.

1. MirrorMatch: Il Controllore di Ingredienti (Il Detective)

Immagina di ordinare una torta con fragole, panna e cioccolato.

MirrorMatch prende la torta che ti arriva e chiede a un assistente visivo (un'IA che sa leggere le immagini): "Cosa vedi qui?".
L'assistente risponde: "Vedo panna, cioccolato... ma non vedo le fragole! E invece vedo un gatto che non avevi ordinato!".
Qui nasce il sospetto: "Ehi, hai detto 'fragole' e 'gatto' non c'era nella ricetta! C'è qualcosa che non torna".

Questo è il primo passo: trovare la differenza tra quello che hai chiesto e quello che hai ricevuto, anche se la differenza è piccola (come un gatto al posto di una fragola).

2. MirrorVerify: Il Test di Stabilità (Il Test di Verità)

Ma attenzione! A volte il pasticcere è solo un po' disordinato e mette un gatto per sbaglio, o dimentica le fragole per caso. Non è necessariamente un truffatore. Come facciamo a essere sicuri?

Qui entra in gioco MirrorVerify.

Il detective dice: "Ok, ordino di nuovo la torta, ma questa volta cancello le fragole dalla ricetta e chiedo solo 'panna e cioccolato'".
Se il pasticcere è onesto, la torta uscirà normale (panna e cioccolato), e il gatto sparirà.
Se il pasticcere è truffato, anche senza le fragole nella ricetta, il gatto continuerà ad apparire ogni volta!

L'analogia della "Stabilità":
Pensa a un attore che recita male. Se gli fai cambiare il copione, lui sbaglia in modo casuale. Ma se è un attore che ha memorizzato una battuta segreta (il backdoor), ripeterà sempre quella battuta sbagliata, anche se cambi tutto il resto dello spettacolo.
BlackMirror cambia leggermente la ricetta (nasconde le parti sicure) e chiede la torta 5 o 10 volte. Se il "gatto" (o l'errore) appare sempre e in modo stabile, allora è un backdoor. Se appare solo una volta su dieci, era solo un errore casuale.

Perché è Geniale?

Non serve la ricetta segreta: Non devi sapere come è fatto il pasticcere dentro. Funziona anche se il pasticcere è un servizio in abbonamento (MaaS) e non puoi toccarlo.
È un "Plug-and-Play": È come un filtro che puoi attaccare a qualsiasi sistema. Non devi riaddestrare il pasticcere, lo controlli solo dall'esterno.
Vince contro i nuovi trucchi: Funziona anche quando le immagini truffa sembrano tutte diverse tra loro, perché si concentra sulla stabilità del trucco, non sulla somiglianza delle immagini.

In Sintesi

BlackMirror è come un ispettore sanitario che non entra in cucina, ma ordina 10 volte la stessa torta con piccole variazioni. Se ogni volta che ordini "cioccolato" ti arriva un "limone" (anche se ogni limone è diverso), l'ispettore grida: "C'è un inganno!". Se invece il limone appare solo una volta su dieci, l'ispettore dice: "Era solo un errore di distrazione".

È un metodo intelligente, veloce e che non ha bisogno di vedere dentro la "scatola nera" per scoprire chi sta cercando di ingannare il sistema.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'articolo affronta la sfida critica della rilevazione di backdoor nei modelli di generazione testo-immagine (Text-to-Image, T2I) in scenari black-box.

Contesto: I modelli T2I sono sempre più utilizzati in servizi "Model-as-a-Service" (MaaS), dove gli utenti non hanno accesso ai pesi, all'architettura o ai dati di addestramento del modello.
Minaccia: Gli attaccanti possono iniettare backdoor durante l'addestramento. Quando un trigger specifico (es. un token invisibile o una frase particolare) è presente nel prompt, il modello genera immagini deviate dall'intento originale (es. sostituire un "cane" con un "gatto", aggiungere uno stile non richiesto, o inserire patch).
Limitazioni delle soluzioni esistenti:
- I metodi white-box (che richiedono accesso interno al modello) non sono applicabili in scenari reali MaaS.
- L'unico metodo black-box esistente, UFID, si basa sull'assunzione che le immagini generate da un backdoor siano altamente simili tra loro (alta similarità globale) quando il trigger è attivo. Tuttavia, questo fallisce contro attacchi moderni e sofisticati (come BadT2I o EvilEdit) dove le manipolazioni sono localizzate (es. solo un oggetto o uno stile) e il resto dell'immagine rimane visivamente diversificato e coerente con il prompt. Di conseguenza, le immagini backdoor appaiono nel "embedding space" molto simili a quelle benigne, rendendo UFID inefficace.

2. Metodologia: BlackMirror

Gli autori propongono BlackMirror, un framework di rilevazione black-box, training-free e plug-and-play. La metodologia si basa su due proprietà chiave delle immagini backdoor:

Deviazione Istruzione-Risposta: Il trigger causa una discrepanza semantica specifica tra il prompt e l'immagine generata (es. un oggetto presente nell'immagine ma non nel testo, o assente nell'immagine pur essendo richiesto).
Stabilità Cross-Prompt: Una volta attivato, il comportamento del backdoor è stabile e persistente attraverso diverse variazioni del prompt, a differenza delle deviazioni causate da bias naturali del modello che tendono a essere instabili.

Il framework è composto da due moduli principali:

A. MirrorMatch (Rilevazione delle Deviazioni)

Questo modulo esegue un'analisi fine-grained (a livello di pattern) per identificare discrepanze semantiche.

Estrazione: Utilizza un Modello Linguistico (LLM) per estrarre gli oggetti/stili richiesti dal prompt ( $O_{ins}$ ) e un Modello Vision-Language (VLM) per estrarre gli oggetti/stili presenti nell'immagine generata ( $O_{res}$ ).
Voto a Maggioranza: Per ridurre il rumore nell'estrazione dalle immagini, il VLM viene eseguito $K$ volte e si mantiene solo ciò che appare in almeno la metà delle estrazioni.
Identificazione delle Deviazioni: Confronta i due insiemi per trovare:
- $O_{new}$ : Oggetti nell'immagine ma non nel prompt (es. un gatto quando si chiedeva un cane).
- $O_{lost}$ : Oggetti nel prompt ma assenti nell'immagine.
- Queste deviazioni sono considerate "sospette".

B. MirrorVerify (Verifica di Stabilità)

Per distinguere un vero backdoor da un semplice errore o bias del modello, questo modulo verifica la stabilità della deviazione.

Pattern Masking: Vengono generati varianti del prompt originale rimuovendo gli oggetti "sicuri" (quelli che appaiono correttamente sia nel prompt che nell'immagine), mantenendo però il potenziale trigger.
Generazione Multipla: Si generano $N$ immagini da queste varianti di prompt.
Verifica di Coerenza: Il VLM viene interrogato su ogni nuova immagine per verificare se la deviazione sospetta (es. la presenza dell'oggetto "gatto" non richiesto) persiste stabilmente.
Decisione: Se la deviazione appare in modo coerente (alta stabilità) attraverso le diverse generazioni, viene classificata come backdoor. Se è instabile, è probabilmente un bias benigno.

Il sistema supporta tre tipi di manipolazioni in parallelo: Oggetti (Object), Patch (regioni locali) e Stile (globale).

3. Contributi Chiave

Framework Black-Box Generale: BlackMirror è uno dei primi tentativi di rilevazione backdoor per T2I che non richiede accesso ai parametri del modello e funziona efficacemente su diverse architetture.
Approccio Ispirato alla Deviazione: Sposta il focus dalla similarità globale dell'immagine (che fallisce su attacchi localizzati) all'analisi delle discrepanze semantiche tra prompt e risposta a livello di pattern.
Componenti Training-Free: I due moduli (MirrorMatch e MirrorVerify) non richiedono addestramento aggiuntivo e possono essere integrati come moduli plug-and-play.
Robustezza: Il metodo è progettato per gestire attacchi complessi che manipolano solo parti specifiche dell'immagine (oggetti, patch, stili), superando i limiti dei metodi basati sulla similarità globale.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su una vasta gamma di attacchi (BadT2I, EvilEdit, PaaS, RickTPA, VillanDiffusion) utilizzando Stable Diffusion v1.5.

Performance Superiore: BlackMirror supera significativamente lo stato dell'arte (in particolare UFID) in termini di F1-score, Precisione e Recall.
- Su attacchi di tipo ObjRepAtt (sostituzione oggetti) come BadT2I, BlackMirror raggiunge un F1 di 86.96% contro il 66.67% di UFID.
- Su attacchi PatchAtt e StyleAtt, il miglioramento è ancora più marcato, con F1 superiori all'88%, mentre UFID scende sotto il 70%.
Basso FPR (False Positive Rate): Il metodo mantiene un tasso di falsi positivi molto basso (media ~15%), dimostrando che il modulo di verifica (MirrorVerify) filtra efficacemente i bias naturali del modello.
Confronto White-Box: In alcuni casi, BlackMirror (black-box) ottiene performance comparabili o addirittura superiori a metodi white-box che richiedono accesso interno al modello.
Efficienza: Nonostante la necessità di generare più immagini per la verifica, il costo computazionale è marginale rispetto a UFID (circa il 6% in più di tempo), grazie all'uso efficiente delle query VLM rispetto ai calcoli di similarità a coppie di UFID.

5. Significato e Impatto

Questo lavoro è significativo perché:

Ridefinisce la rilevazione: Dimostra che la similarità globale delle immagini è un indicatore insufficiente per i backdoor moderni, proponendo invece l'analisi della coerenza semantica fine-grained come segnale più robusto.
Applicabilità Reale: Essendo un metodo black-box e training-free, è immediatamente deployabile in ambienti di produzione (MaaS) dove la trasparenza del modello non è garantita.
Sicurezza Generativa: Fornisce un meccanismo di difesa essenziale contro attacchi che mirano a manipolare sottilmente il contenuto generato, proteggendo l'integrità dei sistemi di generazione AI da manipolazioni malevole.

In sintesi, BlackMirror rappresenta un passo avanti fondamentale nella sicurezza dei modelli generativi, offrendo una soluzione pratica, efficace e generalizzabile per rilevare backdoor sofisticati che sfuggono alle tecniche di rilevazione tradizionali.