One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Titolo: "Basta una sola foto per ingannare l'Intelligenza Artificiale"

Immagina di avere un assistente personale super intelligente (come un Chatbot avanzato) che ha accesso a una biblioteca digitale enorme piena di manuali, fatture, articoli medici e documenti aziendali. Quando gli fai una domanda, lui va a cercare nella biblioteca le pagine giuste e ti dà la risposta basandosi su quelle. Questo sistema si chiama VD-RAG (Retrieval-Augmented Generation per Documenti Visuali).

La cosa nuova è che questa biblioteca non contiene solo testo, ma immagini delle pagine (screenshot, PDF scansionati). L'IA è molto brava a "leggere" queste immagini e a capire cosa c'è scritto dentro.

⚠️ Il Problema: L'Intruso nella Biblioteca

Gli autori di questo studio hanno scoperto un modo per avvelenare questa biblioteca con un solo trucco.

Immagina che la tua biblioteca sia un museo sicuro. Un ladro (l'attaccante) non deve rubare tutto il museo. Gli basta inserire una sola immagine truccata in un corridoio poco frequentato.

Questa immagine sembra normale a prima vista (è una foto di un documento), ma contiene dei "codici segreti" invisibili all'occhio umano che confondono l'IA.

🎯 Due Modi per Attaccare

Gli scienziati hanno dimostrato che con questa singola immagine avvelenata, si possono fare due cose terribili:

L'Attacco Mirato (La Disinformazione):
- L'analogia: Immagina che qualcuno voglia diffondere una bugia specifica, tipo "Il cielo è verde". Inserisce la sua foto avvelenata nella biblioteca.
- Cosa succede: Quando tu chiedi all'IA "Di che colore è il cielo?", l'IA guarda nella biblioteca, trova quella foto truccata (perché è stata programmata per sembrare la più rilevante per la tua domanda) e ti risponde: "Il cielo è verde".
- Risultato: L'IA ti dice una bugia convincente, basandosi su un documento falso che ha "trovato" da sola.
L'Attacco Universale (Il Blocco Totale o DoS):
- L'analogia: Questa volta, l'attaccante vuole bloccare tutto il museo. Inserisce una foto che, per ogni possibile domanda che potresti farti, l'IA la trova sempre.
- Cosa succede: Chiedi "Qual è la capitale della Francia?", "Come si cucina la pasta?", "Che ore sono?". L'IA guarda nella biblioteca, trova sempre quella stessa foto avvelenata e, invece di rispondere, ti dice: "Non risponderò a te!" o ti dà una risposta inutile.
- Risultato: Il sistema diventa inutile. È come se qualcuno avesse messo un cartello "Chiuso per ferie" su ogni libro della biblioteca.

🔬 Come hanno fatto? (La Magia della "Fotografia Avvelenata")

Gli scienziati non hanno usato la magia, ma un algoritmo matematico molto potente (chiamato MO-PGD).
Pensa a questo processo come a un artista che modifica un quadro:

Prende una foto normale.
La mostra all'IA e chiede: "Se ti chiedo 'X', mi risponderai 'Y'?"
Se l'IA non risponde come vuole, l'algoritmo modifica la foto di un piccolissimo pixel (invisibile all'occhio umano).
Ripete questo processo migliaia di volte, finché la foto non diventa un "cane da guardia" perfetto: quando l'IA la vede, è costretta a scegliere quella pagina e a dire esattamente quello che l'attaccante vuole.

🛡️ Funziona davvero? (I Risultati)

Hanno testato questo trucco su diversi sistemi di IA moderni:

Contro i sistemi "vecchi" o semplici: L'attacco funziona quasi sempre. L'IA viene ingannata facilmente.
Contro i sistemi "nuovi" e intelligenti: Alcuni sistemi molto avanzati (come quelli che usano modelli di ricerca specifici) sono più resistenti. Non vengono ingannati così facilmente, specialmente se l'attacco deve funzionare per tutte le domande (Attacco Universale).
Ma attenzione: Anche i sistemi più intelligenti possono essere ingannati se l'attacco è mirato a una domanda specifica.

🧱 I Tentativi di Difesa (e perché hanno fallito)

Gli autori hanno provato a mettere dei "guardiani" per fermare l'attacco, ma quasi tutti hanno fallito:

Leggere più pagine: Hanno detto all'IA: "Non guardare solo la prima pagina, guardane 5!". L'attaccante ha semplicemente modificato la sua foto per essere la più importante anche tra le 5.
Chiedere all'IA di giudicare: Hanno usato un'altra IA per controllare se la risposta era sensata. Ma l'attaccante ha "addestrato" la sua foto per ingannare anche il giudice.
Riformulare la domanda: Hanno provato a cambiare le parole della domanda per confondere l'attacco. Non ha funzionato.

💡 Conclusione: Cosa dobbiamo imparare?

Questo studio ci dice una cosa fondamentale: La fiducia cieca nei documenti digitali è pericolosa.

Se un sistema di Intelligenza Artificiale si basa su documenti che chiunque può caricare (o che vengono scaricati da internet), un solo file avvelenato può distruggere la sua affidabilità.
È come se in una biblioteca pubblica chiunque potesse attaccare un foglio di carta a un libro: se quel foglio è scritto in un modo che confonde il bibliotecario robot, lui ti dirà sempre le cose sbagliate.

Il messaggio finale: Prima di usare queste tecnologie per cose importanti (come diagnosi mediche o consigli legali), dobbiamo capire come proteggerle da questi "falsi documenti" e creare sistemi che non si fidino ciecamente di ciò che trovano nella loro biblioteca.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il paper affronta la vulnerabilità dei sistemi VD-RAG (Visual Document Retrieval-Augmented Generation) agli attacchi di avvelenamento (poisoning).

Contesto: I sistemi RAG migliorano la generazione di testo dei Large Language Models (LLM) recuperando informazioni da una Knowledge Base (KB). Mentre i pipeline tradizionali si basano sul testo (spesso ignorando immagini o usando OCR), i sistemi VD-RAG utilizzano screenshot delle pagine dei documenti come KB, sfruttando modelli di embedding multimodali e Vision Language Models (VLM) per ottenere risultati superiori.
Minaccia: L'introduzione della modalità visiva apre nuovi vettori di attacco. Un avversario può iniettare un documento malevolo (un'immagine avvelenata) nella KB.
Obiettivo dell'attacco: L'attaccante mira a creare un'immagine che soddisfi due condizioni simultaneamente:
1. Recupero: Essere selezionata dal retriever come documento più rilevante per una query specifica (o per tutte le query).
2. Generazione: Indurre il generatore (VLM) a produrre una risposta errata, disinformazione mirata o un rifiuto di risposta (Denial of Service - DoS).

2. Metodologia

Gli autori definiscono un modello di minaccia in cui un attaccante può iniettare una singola immagine nella KB. Vengono esplorati due scenari di conoscenza dell'attaccante: White-box (accesso completo ai modelli) e Black-box (nessuna conoscenza interna).

Attacchi White-Box

L'approccio principale utilizza un'ottimizzazione basata sul gradiente per creare un'immagine avversaria ( $I'$ ).

Algoritmo: Viene proposta una variante multi-obiettivo del Projected Gradient Descent (PGD), chiamata MO-PGD.
Funzione di Perdita: L'immagine viene ottimizzata per minimizzare una funzione di perdita combinata:
$L_{RAG} = \lambda_R L_R + \lambda_G L_G$
Dove $L_R$ è la perdita di recupero (massimizzare la similarità tra la query e l'immagine avversaria) e $L_G$ è la perdita di generazione (minimizzare la cross-entropy tra l'output del VLM e la risposta malevola desiderata).
Obiettivi di Attacco:
1. Attacco Mirato (Targeted): L'immagine influenza solo una o un gruppo ristretto di query, generando disinformazione specifica.
2. Attacco Universale: L'immagine viene recuperata per qualsiasi query utente, causando un DoS (es. il sistema risponde sempre "Non risponderò a te").

Varianti Black-Box

Poiché l'accesso white-box è spesso irrealistico, vengono testate tre varianti:

Attacco basato su Prompt: Utilizzo di modelli generativi multimodali (GPT-5, Gemini-2.5-Flash) per generare immagini con l'effetto desiderato tramite prompt testuali.
Attacco di Trasferimento Diretto: Ottimizzazione dell'immagine su un modello surrogato (diverso dal target) e applicazione diretta al sistema target.
Attacco Ensemble di Modelli: Ottimizzazione congiunta su un insieme di modelli surrogati per aumentare la probabilità di trasferimento.

3. Contributi Chiave

Prima caratterizzazione della vulnerabilità: Dimostrazione per la prima volta che i sistemi VD-RAG sono vulnerabili agli attacchi di avvelenamento.
Efficacia di una singola immagine: Dimostrazione che un'unica immagine avversaria, ottimizzata tramite MO-PGD, è sufficiente per compromettere sia il recupero che la generazione, causando sia disinformazione mirata che DoS.
Analisi Black-Box: Evidenzia che, sebbene gli attacchi black-box siano meno efficaci in generale, le varianti basate su prompt possono avere successo in scenari mirati.
Valutazione Estensiva: Oltre 5000 valutazioni su diversi dataset (ViDoRe-V1-AI, ViDoRe-V2-ESG), modelli di embedding (CLIP, ColPali, GME) e VLM (SmolVLM, Qwen, InternVL).

4. Risultati Sperimentali

Vulnerabilità White-Box

Recupero: Con modelli di embedding legacy come CLIP-L, l'immagine avversaria viene quasi sempre recuperata come primo risultato (ASR-R@1 $\approx$ 1.00) per le query target.
Generazione: Il VLM genera la risposta malevola con alta fedeltà semantica (ASR-GSim $\ge$ 0.8) quando l'immagine è nel contesto.
Robustezza dei modelli SOTA: I modelli di embedding più recenti e specializzati (ColPali e GME) mostrano una maggiore robustezza, specialmente nell'attacco universale. Spesso non recuperano l'immagine avversaria come primo risultato, rendendo l'attacco universale meno efficace rispetto a CLIP. Tuttavia, rimangono vulnerabili agli attacchi mirati.

Attacchi Black-Box

Trasferibilità: Gli attacchi di trasferimento diretto falliscono quasi completamente quando i modelli surrogati non corrispondono a quelli target.
Attacco basato su Prompt: Mostra risultati sorprendenti nel setting mirato. Immagini generate da GPT-5 o Gemini contengono elementi tipografici che vengono interpretati correttamente dai modelli di embedding e VLM (sfruttando le capacità OCR), ottenendo tassi di successo superiori ad altre varianti black-box.
Universalità: Nessun attacco black-box riesce a realizzare un attacco universale efficace.

Difese Valutate

Gli autori hanno testato diverse difese comuni, trovandole inefficaci:

Espansione della Conoscenza (Knowledge Expansion): Recuperare più immagini (es. top-5 invece di top-1) riduce l'efficacia dell'attacco se l'attacco non è adattato, ma un attacco adattivo può eludere questa difesa.
VLM-as-a-Judge: L'uso di un VLM per giudicare la pertinenza della risposta non previene l'attacco; anzi, un attacco adattivo può essere ottimizzato per ingannare anche il giudice.
Paraphrasing delle Query: Non ha alcun effetto significativo sulla capacità di recupero o generazione dell'immagine avversaria.

5. Significato e Implicazioni

Questo lavoro è fondamentale per la sicurezza dell'IA perché:

Sfatare la sicurezza visiva: Dimostra che l'aggiunta di immagini alle pipeline RAG non è solo un miglioramento funzionale, ma introduce rischi critici di sicurezza non presenti nei sistemi basati solo sul testo.
Limiti delle difese attuali: Le difese standard per il RAG testuale non sono direttamente applicabili o efficaci contro le immagini avversarie.
Direzione futura: Evidenzia la necessità di sviluppare nuove tecniche di difesa specifiche per il VD-RAG, come metodi di rilevamento di immagini manipolate o meccanismi di aggregazione più robusti che non dipendano dal singolo documento recuperato.

In sintesi, il paper avverte che un singolo documento visivo manipolato può compromettere l'integrità di un intero sistema di conoscenza basato su documenti, rendendo urgente lo sviluppo di contromisure specifiche per l'era multimodale.