One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

Titel: Eén foto is genoeg om een slimme assistent te misleiden

Stel je voor dat je een zeer slimme, digitale assistent hebt. Deze assistent is een "grote taalcomputer" (een AI) die alles weet, maar soms dingen verzonnen (hallucinaties). Om dit te voorkomen, geven we de assistent een enorme digitale bibliotheek met documenten, zoals handleidingen, medische dossiers en nieuwsartikelen. Als je een vraag stelt, zoekt de assistent eerst in deze bibliotheek naar het juiste antwoord en gebruikt die feiten om jou te antwoorden. Dit noemen onderzoekers RAG (Retrieval-Augmented Generation).

Tot nu toe keek deze assistent alleen naar de tekst in die documenten. Maar nieuwe systemen, genaamd VD-RAG, zijn slimmer: ze kijken naar de foto's van de documentpagina's. Ze begrijpen grafieken, tabellen en foto's, wat ze veel beter maakt.

Het probleem: De "vergiftigde foto"

In dit paper laten de onderzoekers zien dat deze slimme systeem een nieuw zwak punt heeft. Stel je voor dat de bibliotheek een open deur heeft. Een kwaadwillende hacker hoeft niet de hele bibliotheek te vernietigen. Hij hoeft maar één enkele foto in de bibliotheek te plaatsen.

Deze foto ziet er op het eerste gezicht onschuldig uit, maar is in werkelijkheid een vergiftigd document. Het is een foto die zo is "geprogrammeerd" (met een computer) dat de slimme assistent er direct naar grijpt, zelfs als je een heel andere vraag stelt.

De onderzoekers tonen twee manieren waarop dit kan misgaan:

De "Specifieke Leugen" (Gerichte aanval):
Stel je voor dat je vraagt: "Wat is de gezondheidsraad voor een appel?"
Normaal antwoordt de assistent: "Eet een appel per dag..."
Maar als de hacker de juiste vergiftigde foto in de bibliotheek heeft geplaatst, pikt de assistent die foto eruit en zegt: "Eet nooit appels, ze zijn giftig!"
De assistent gelooft de foto en verspreidt een leugen over een specifiek onderwerp.
De "Algemene Staking" (Universele aanval):
Hier is de foto zo gemaakt dat de assistent er naar grijpt, wat je ook vraagt. Of je nu vraagt naar het weer, een recept of een geschiedenisfeit, de assistent pikt die ene foto eruit en zegt: "Ik wil je niet antwoorden!"
Dit is als een staking (Denial of Service). Het hele systeem stopt met werken omdat het vastloopt op die ene verkeerde foto.

Hoe doen ze dit? (De Magie)

De onderzoekers gebruiken geavanceerde wiskunde om een foto te "vervormen". Het is alsof je een foto van een kat neemt en er heel subtiele, onzichtbare stipjes op zet. Voor het menselijk oog is het nog steeds een kat, maar voor de computer is het plotseling een "stopbord" of een "gevaarlijk signaal".

Ze testen dit op verschillende systemen:

Witdoos-aanval: De hacker kent het systeem van binnen en kan de foto perfect aanpassen. Dit werkt bijna altijd.
Zwartdoos-aanval: De hacker kent het systeem niet, maar probeert toch een foto te maken die werkt. Dit werkt soms, maar minder goed.

De resultaten in het kort

Sommige systemen zijn kwetsbaar: Systemen die gebruikmaken van oudere of minder geavanceerde technologie (zoals CLIP) worden heel makkelijk misleid.
Sommige systemen zijn sterker: Nieuwere, slimme systemen (zoals ColPali) zijn beter bestand tegen deze aanval. Ze zien de foto niet als het "meest relevante" antwoord voor elke vraag. Maar zelfs deze sterke systemen kunnen worden misleid als de hacker slim genoeg is en de aanval op één specifiek onderwerp richt.
Bestaande bescherming werkt niet: De onderzoekers probeerden verschillende verdedigingen, zoals het vragen aan een tweede AI om te controleren of het antwoord klopt, of het vragen aan de gebruiker om hun vraag anders te formuleren. Niets hielp echt. De vergiftigde foto bleef zijn werk doen.

Waarom is dit belangrijk?

Dit onderzoek is als een brandweerman die een brandblusapparaat test. Ze zeggen niet: "Dit systeem is kapot, gebruik het niet." Ze zeggen: "Kijk, hier is een gat in de muur. Als we dit niet dichten, kan een hacker in de toekomst onze digitale bibliotheken besmetten met leugens of ons systeem platleggen."

Het is een waarschuwing aan ontwikkelaars: als we AI-systemen laten werken met foto's van documenten, moeten we eerst zorgen dat ze niet zomaar door één enkele valse foto kunnen worden gemanipuleerd. Alleen dan kunnen we veilig vertrouwen op deze slimme assistenten.

Each language version is independently generated for its own context, not a direct translation.

Titel: One Pic is All it Takes: Poisoning Visual Document Retrieval

Auteurs: Ezzeldin Shereen et al. (The Alan Turing Institute, UCL, King's College London)

1. Het Probleem

Retrieval-Augmented Generation (RAG) wordt gebruikt om hallucinaties in Large Language Models (LLM's) te verminderen door externe kennisbronnen (Knowledge Bases of KB's) te raadplegen. Traditionele RAG-pijplijnen voor PDF-documenten halen vaak alleen tekst eruit en negeren rijke multimodale informatie (grafieken, tabellen, lay-out), of ze maken gebruik van OCR.

Recente ontwikkelingen hebben geleid tot Visual Document RAG (VD-RAG), waarbij volledige pagina's van documenten als afbeeldingen worden behandeld en verwerkt door Vision Language Models (VLM's) en multimodale embedding-modellen. Hoewel VD-RAG state-of-the-art resultaten levert, introduceert de invoering van het beeldmateriaal nieuwe kwetsbaarheden.

Het paper adresseert het gebrek aan onderzoek naar vergiftigingsaanvallen (poisoning attacks) specifiek voor VD-RAG. De kernvraag is: kan een aanvaller het systeem verstoren door slechts één kwaadaardige afbeelding in de kennisbank in te voegen, zodat het retriever-systeem deze onterecht ophaalt en de generator (VLM) misleidde antwoorden produceert?

2. Methodologie

De auteurs definiëren een bedreigingsmodel waarbij een aanvaller één kwaadaardige afbeelding ( $I'$ ) injecteert in de kennisbank $K$ . De aanval moet twee voorwaarden tegelijkertijd vervullen:

Retrievoorwaarde: De kwaadaardige afbeelding moet worden opgehaald door de retriever voor specifieke (of alle) gebruikersvragen.
Generatievoorwaarde: Wanneer de afbeelding in de context venster zit, moet de VLM een specifiek, door de aanvaller gewenst antwoord genereren.

De auteurs onderzoeken twee hoofddoelen:

Gerafde Aanval (Targeted Attack): De afbeelding beïnvloedt een specifieke vraag of een groep gerelateerde vragen om desinformatie te verspreiden.
Universele Aanval (Universal Attack): De afbeelding wordt opgehaald voor elke mogelijke vraag, wat leidt tot een Denial-of-Service (DoS) waarbij het systeem stopt met het geven van nuttige antwoorden.

Aanvalsstrategieën:

White-box: De aanvaller heeft volledige toegang tot de embedding-modellen ( $E$ ) en de VLM ( $G$ ). Ze gebruiken een Multi-Objective Projected Gradient Descent (MO-PGD) algoritme. Dit optimaliseert de afbeelding om een gecombineerde verliesfunctie te minimaliseren die zowel de retrieval-similarity (om de afbeelding dicht bij de query te brengen) als de cross-entropy loss voor de generatie (om het gewenste antwoord te forceren) omvat.
Black-box: De aanvaller heeft geen toegang tot de interne modellen. Er worden drie varianten getest:
1. Prompt-based: Het gebruik van generatieve AI-modellen (zoals GPT-5 en Gemini) om de afbeelding te genereren.
2. Direct Transfer: Optimalisatie tegen een surrogate-modelpaar en toepassing op het doelsysteem.
3. Model Ensemble: Optimalisatie over een ensemble van surrogate-modellen om de overdraagbaarheid te vergroten.

Experimenteel Opzet:

Datasets: ViDoRe-V1-AI en ViDoRe-V2-ESG.
Modellen: Diverse embedding-modellen (CLIP-ViT-Large, GME-Qwen2-VL-2B, ColPali-v1.3) en VLM's (SmolVLM, Qwen2.5-VL, InternVL3).
Defensies: Getest op kennis-expansie (meer context ophalen), "VLM-as-a-judge" (controle van outputkwaliteit) en query-parafrafering.

3. Belangrijkste Bijdragen

Eerste kwetsbaarheidsanalyse: Het paper is het eerste dat de kwetsbaarheid van VD-RAG-systemen voor vergiftigingsaanvallen aantoont.
MO-PGD Optimalisatie: Demonstratie dat een enkele afbeelding, geoptimaliseerd met een multi-objective loss, zowel DoS- als gerichte desinformatie-aanvallen kan uitvoeren.
Black-box Effectiviteit: Inzicht dat black-box varianten (vooral prompt-based) succesvol kunnen zijn in gerichte scenario's, maar minder effectief in universele scenario's.
Uitgebreide Evaluatie: Meer dan 5000 evaluaties over verschillende datasets, modelarchitecturen en verdedigingsmechanismen om de factoren voor succes te identificeren.

4. Resultaten

White-box Aanvallen:

Gerichte Aanvallen: Zeer succesvol. Met CLIP als embedding-model wordt de kwaadaardige afbeelding bijna altijd als top-1 resultaat opgehaald en genereert de VLM het gewenste antwoord. Zelfs met geavanceerdere modellen (ColPali, GME) is de aanval succesvol, hoewel de retrieval-succesrate iets lager is.
Universele Aanvallen: Succesvol tegen CLIP (altijd top-1 retrieval, DoS effect). Echter, state-of-the-art modellen zoals ColPali en GME tonen robuustheid tegen universele aanvallen; ze halen de kwaadaardige afbeelding zelden op als top-1 resultaat voor alle vragen. Dit wordt toegeschreven aan een kleinere "modality gap" in deze modellen.

Black-box Aanvallen:

Gerichte Setting: Directe transfer werkt slecht. De Prompt-based Attack (het genereren van een afbeelding via GPT-5 of Gemini) toont de hoogste succespercentages onder black-box methoden, vooral omdat deze modellen typografische elementen in de gegenereerde afbeeldingen kunnen exploiteren die door OCR worden gelezen.
Universele Setting: Black-box aanvallen zijn over het algemeen ineffectief. Zelfs met model-ensembles wordt de universele DoS-aanval niet succesvol uitgevoerd tegen geavanceerde embedding-modellen.

Defensies:

Kennis-expansie: Het ophalen van meer afbeeldingen (bijv. top-5 in plaats van top-1) vermindert de impact, maar een adaptieve aanval getraind op deze setting kan de verdediging omzeilen.
VLM-as-a-judge: Kan aanvallen detecteren, maar is kwetsbaar voor adaptieve aanvallen waarbij de verliesfunctie van de aanval wordt aangepast om de "judge" te misleiden.
Query Paraphrasing: Biedt geen significante bescherming; de aanval blijft succesvol.

5. Betekenis en Conclusie

Dit onderzoek waarschuwt dat VD-RAG-systemen, ondanks hun superioriteit in het begrijpen van documenten, fundamenteel kwetsbaar zijn voor manipulatie via één enkele afbeelding.

Kritieke Inzichten: De kwetsbaarheid hangt sterk af van het gebruikte embedding-model. Eenvoudige modellen (zoals CLIP) zijn extreem kwetsbaar, terwijl gespecialiseerde VDR-modellen (ColPali, GME) meer weerstand bieden tegen universele aanvallen, maar niet immuun zijn voor gerichte aanvallen.
Sociëtele Impact: De mogelijkheid om desinformatie te verspreiden of systemen te verlammen met één afbeelding onderstreept de noodzaak van robuuste verdedigingsmechanismen voor multimodale RAG-systemen voordat deze wijdverbreid worden ingezet in kritieke domeinen.
Toekomst: De auteurs benadrukken dat bestaande verdedigingen (zoals filteren of meer context ophalen) onvoldoende zijn en dat er nieuwe, specifiek voor multimodale vergiftiging ontworpen verdedigingen nodig zijn.

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Titel: One Pic is All it Takes: Poisoning Visual Document Retrieval

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation