One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem klugen, aber manchmal etwas trägen Assistenten (das ist die Künstliche Intelligenz). Damit er keine Unsinnigkeiten erfindet („Halluzinationen"), geben Sie ihm einen dicken Ordner mit genauen Fakten und Dokumenten (das ist die Wissensdatenbank). Wenn Sie eine Frage stellen, schaut der Assistent in diesen Ordner, sucht die passende Seite heraus und beantwortet Ihre Frage basierend darauf. Das nennt man VD-RAG (Visual Document Retrieval-augmented Generation). Der Clou dabei: Der Assistent kann nicht nur Text lesen, sondern versteht auch Bilder, Diagramme und ganze Dokumentenseiten als Fotos.

Jetzt kommt der böse Trick aus dem Papier: „Ein einziges Bild genügt, um das System zu vergiften."

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Ein einziger gefälschter Eintrag

Stellen Sie sich den Ordner des Assistenten wie eine riesige Bibliothek vor. Normalerweise sucht der Assistent nach dem Buch, das am besten zu Ihrer Frage passt.
Der Angreifer (der Hacker) fälscht nun ein einziges, winziges Bild und schummelt es in die Bibliothek. Dieses Bild sieht auf den ersten Blick harmlos aus, ist aber wie ein unsichtbarer Magnet oder ein vergifteter Apfel.

Der Trick: Das Bild ist so manipuliert, dass es für den Computer (die KI) wie der wichtigste Treffer für fast jede Frage aussieht, auch wenn es inhaltlich gar nichts damit zu tun hat.
Das Ergebnis: Der Assistent holt sich aus Versehen genau diesen vergifteten Apfel und ignoriert die echten Bücher.

2. Die zwei Arten des Angriffs

Der Papier-Autor zeigt zwei Szenarien, wie dieser „vergiftete Apfel" genutzt werden kann:

A. Der gezielte Angriff (Die gezielte Lüge)

Stellen Sie sich vor, Sie fragen: „Wie funktioniert mein neuer Drucker?"
Der Angreifer will, dass der Assistent eine falsche Antwort gibt, z. B.: „Drucken Sie einfach mit Wasser."

Wie es geht: Der Angreifer erstellt ein Bild, das nur für diese eine Frage (oder eine kleine Gruppe ähnlicher Fragen) wie ein Magnet wirkt.
Das Ergebnis: Wenn Sie nach dem Drucker fragen, holt der Assistent den vergifteten Apfel und sagt Ihnen die falsche Anleitung. Wenn Sie aber nach dem Wetter fragen, passiert nichts – der Apfel liegt dort einfach nur herum. Das ist wie eine gezielte Desinformation, die nur bei bestimmten Themen funktioniert.

B. Der universelle Angriff (Der „Alles-Blocker")

Das ist noch gefährlicher. Hier will der Angreifer, dass das Bild für jede mögliche Frage der Welt als Treffer ausgewählt wird.

Wie es geht: Der Angreifer manipuliert das Bild so stark, dass es für den Computer wie der „perfekte Treffer" für alles aussieht.
Das Ergebnis: Egal, was Sie fragen („Wie mache ich Kaffee?", „Wer ist der Präsident?", „Was ist 2+2?"), der Assistent holt sich immer denselben vergifteten Apfel.
Die Folge: Der Assistent antwortet auf alles mit demselben Unsinn oder weigert sich sogar, zu antworten (z. B. mit „Ich werde Ihnen nicht antworten!"). Das ist ein Denial-of-Service-Angriff – das System wird lahmgelegt, weil es nicht mehr nützliche Informationen liefern kann.

3. Wie schaffen sie das? (Der „Zaubertrick")

Die Forscher haben gezeigt, dass man dieses Bild nicht einfach per Zufall erstellt. Sie nutzen einen mathematischen „Trick" (Gradienten-Optimierung), der wie ein Seifenkistenrennen funktioniert:

Der Angreifer nimmt ein harmloses Bild.
Er schaut sich an, wie der Assistent das Bild sieht.
Dann verändert er das Bild winzigste Pixel (so klein, dass das menschliche Auge nichts merkt), damit der Assistent das Bild lieber hat als alle anderen Bücher.
Gleichzeitig sorgt er dafür, dass das Bild den Assistenten dazu bringt, die gewünschte (falsche) Antwort zu geben.

Es ist, als würde man einem Hund einen Knochen geben, der so riecht, dass der Hund ihn sofort schnappt, aber gleichzeitig so aussieht, dass der Hund beim Anblick des Knochens beginnt, „Ich mag keine Hunde" zu bellen.

4. Was hilft dagegen? (Die Verteidigung)

Die Forscher haben verschiedene Schutzmechanismen getestet, die man sich wie Sicherheitschecks vorstellen kann:

Mehr Bücher holen: Statt nur ein Buch zu holen, holt der Assistent jetzt 5. Ergebnis: Das hilft ein bisschen, aber der Angreifer kann sein Bild so stark manipulieren, dass es auch unter den 5 Büchern immer noch das „lauteste" ist.
Ein zweiter Assistent prüfen: Ein anderer KI-Modell soll prüfen, ob die Antwort sinnvoll ist. Ergebnis: Der Angreifer kann sein Bild so manipulieren, dass es auch den zweiten Assistenten täuscht.
Fragen umformulieren: Wenn Sie die Frage anders stellen, sollte der Trick nicht funktionieren. Ergebnis: Bei modernen Systemen funktioniert das leider oft nicht mehr.

Fazit in einem Satz

Dieses Papier warnt davor, dass wir uns blind auf KI-Assistenten verlassen können, die Bilder lesen: Mit nur einem einzigen, winzig manipulierten Bild kann ein Angreifer entweder gezielt Lügen verbreiten oder das gesamte System lahmlegen.

Es ist wie bei einem Schloss: Man dachte, die Tür sei sicher, aber die Forscher haben gezeigt, dass man mit einem einzigen, unsichtbar bearbeiteten Schlüssel (dem Bild) das ganze Schloss öffnen und den Raum verwüsten kann. Das Ziel des Papiers ist es nicht, Kriminelle zu lehren, wie man das macht, sondern den Schlossbauern (den KI-Entwicklern) zu zeigen, dass ihre Schlösser noch nicht sicher genug sind und sie dringend neue, robustere Sicherheitsvorkehrungen brauchen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Retrieval-Augmented Generation (RAG) wird eingesetzt, um Halluzinationen in Large Language Models (LLMs) zu reduzieren, indem externe Wissensdatenbanken (KB) genutzt werden. Während herkömmliche RAG-Pipelines für PDF-Dokumente oft nur Text extrahieren (ignoriert Bilder, Diagramme, Tabellen) oder OCR anwenden, haben sich kürzlich Visual Document RAG (VD-RAG) Systeme etabliert. Diese behandeln jede Dokumentenseite als Bild und nutzen multimodale Embedding-Modelle sowie Vision-Language-Modelle (VLMs) für die Suche und Generierung.

Das zentrale Problem dieser Arbeit ist die Anfälligkeit von VD-RAG-Systemen gegenüber Vergiftungsangriffen (Poisoning Attacks). Da VD-RAG Bilder direkt als Wissensquelle nutzt, eröffnen sich neue Angriffsvektoren: Ein Angreifer kann eine einzelne, manipulierte Bildseite in die Wissensdatenbank injizieren. Ziel ist es, dass dieses Bild bei bestimmten Abfragen (Queries) vom Retrieval-System priorisiert wird und den Generator dazu bringt, falsche oder schädliche Antworten zu produzieren. Bisher wurde diese spezifische Verwundbarkeit von VD-RAG nicht untersucht.

Methodik

Die Autoren definieren zwei Hauptangriffsziele und untersuchen diese unter White-Box- und Black-Box-Szenarien:

Zielgerichteter Angriff (Targeted Attack): Das injizierte Bild soll nur für spezifische Abfragen (oder eine Gruppe thematisch ähnlicher Abfragen) abgerufen werden und dort eine vordefinierte, falsche Antwort (Desinformation) generieren.
Universeller Angriff (Universal Attack): Das Bild soll für jede mögliche Benutzerabfrage abgerufen werden und die Generierung so stören, dass eine Denial-of-Service (DoS) entsteht (z. B. „Ich werde dir nicht antworten").

Angriffsmechanismus:

White-Box: Der Angreifer hat vollen Zugriff auf das Embedding-Modell ( $E$ ) und das VLM ( $G$ ). Es wird ein Multi-Objective Projected Gradient Descent (MO-PGD) Algorithmus verwendet. Dieser optimiert ein Ausgangsbild iterativ, um eine kombinierte Verlustfunktion zu minimieren, die sowohl die Retrieval-Wahrscheinlichkeit als auch die Generierungsgenauigkeit des Zieltextes berücksichtigt:
$L_{RAG} = \lambda_R L_R + \lambda_G L_G$
Dabei wird $L_R$ minimiert, um die Ähnlichkeit zwischen der Abfrage und dem Bild zu maximieren (für Ziel-Abfragen) und zu minimieren (für Nicht-Ziel-Abfragen). $L_G$ (Cross-Entropy) sorgt dafür, dass das VLM die gewünschte Antwort generiert.
Black-Box: Da der Angreifer die Zielmodelle nicht kennt, werden drei Varianten getestet:
1. Prompt-basiert: Nutzung von Generativen KI-Modellen (GPT-5, Gemini-2.5-Flash), um ein Bild mit gewünschten Eigenschaften zu generieren.
2. Direct Transfer: Optimierung gegen ein Surrogat-Modellpaar und direkte Übertragung auf das Zielsystem.
3. Model Ensemble: Optimierung über eine Menge verschiedener Surrogat-Modelle, um die Transferierbarkeit zu erhöhen.

Experimentelles Setup:

Datensätze: ViDoRe-V1-AI (100 Queries, 1000 Bilder) und ViDoRe-V2-ESG (52 Queries, 1538 Bilder).
Modelle: Verschiedene Embedding-Modelle (CLIP-ViT-Large, GME-Qwen2-VL-2B, ColPali-v1.3) und VLMs (SmolVLM, Qwen2.5-VL, InternVL3).
Verteidigungsversuche: Erweiterung des Retrievals (mehr Bilder abrufen), VLM-as-a-Judge (Kritik der Ausgabe) und Query-Paraphrasierung.

Wichtige Beiträge

Erste Demonstration der Verwundbarkeit: Dies ist die erste Arbeit, die systematisch zeigt, dass VD-RAG-Systeme durch das Hinzufügen nur eines einzigen adversariellen Bildes kompromittiert werden können.
MO-PGD Optimierung: Es wird gezeigt, dass eine Multi-Objective-Optimierung ausreicht, um ein Bild zu erstellen, das sowohl die Retrieval- als auch die Generierungskomponente manipuliert.
Black-Box-Erfolge: Im zielgerichteten Szenario können Black-Box-Angriffe (insbesondere Prompt-basierte) erfolgreich sein, während universelle Angriffe in Black-Box-Szenarien scheitern.
Umfassende Evaluation: Über 5.000 Evaluierungen decken verschiedene Datensätze, Modelle, Angriffsvarianten und Verteidigungsmechanismen ab.

Ergebnisse

1. Zielgerichtete Angriffe (Targeted):

White-Box: Sehr erfolgreich. Bei Verwendung von CLIP-L wird das bösartige Bild fast immer als Top-1-Ergebnis abgerufen. Auch bei fortschrittlicheren Modellen (ColPali, GME) liegt es oft in den Top-5. Die Generierung der Zielantwort ist hochgradig semantisch ähnlich (ASR-GSim $\ge$ 0,8).
Black-Box: Zeigt begrenzte, aber vorhandene Erfolge.
- Direct Transfer und Out-set Ensemble scheitern fast vollständig (keine Transferierbarkeit).
- In-set Ensemble (wenn das Zielsystem im Ensemble enthalten ist) funktioniert besser, aber schlechter als White-Box.
- Prompt-based Attacks (GPT-5/Gemini) zeigen die höchste Erfolgsrate unter den Black-Box-Methoden, da sie typografische Elemente nutzen, die von OCR-fähigen Modellen erkannt werden.

2. Universelle Angriffe (Universal):

White-Box: Erfolgreich gegen CLIP-L (immer Top-1 Retrieval, DoS-Effekt).
Robustheit moderner Modelle: State-of-the-Art-Modelle wie ColPali und GME zeigen eine bemerkenswerte Robustheit. Sie rufen das adversarielle Bild selten als Top-1-Ergebnis ab. Dies wird auf eine geringere „Modality Gap" (Lücke zwischen Text- und Bildraum) in diesen spezialisierten Modellen zurückgeführt.
Black-Box: Universelle Angriffe scheitern in Black-Box-Szenarien fast vollständig.

3. Verteidigungsmechanismen:

Knowledge Expansion (mehr Bilder abrufen): Verringert die Erfolgsrate, wenn der Angriff nur für $k=1$ trainiert wurde. Ein adaptiver Angriff (trainiert für $k=5$ ) umgeht diese Verteidigung jedoch effektiv.
VLM-as-a-Judge: Kann Angriffe erkennen, wenn der Judge nicht Teil des Trainings war. Sobald der Angreifer jedoch den Judge in die Verlustfunktion einbezieht (adaptive Attacke), wird die Verteidigung umgangen.
Query Paraphrasierung: Zeigt keine signifikante Abwehrwirkung.

Bedeutung und Fazit

Die Arbeit unterstreicht die kritische Sicherheitslücke in modernen VD-RAG-Systemen. Ein einziger manipulierter Bild-Eintrag reicht aus, um Desinformation zu verbreiten oder die Verfügbarkeit des Systems zu gefährden.

Modellabhängigkeit: Die Wahl des Embedding-Modells ist entscheidend. Während ältere Modelle wie CLIP extrem anfällig sind, bieten spezialisierte Modelle wie ColPali und GME einen gewissen Schutz, insbesondere gegen universelle Angriffe, bleiben aber bei zielgerichteten Angriffen verwundbar.
Fehlende Verteidigung: Gängige RAG-Verteidigungsstrategien (wie das Abrufen mehrerer Dokumente oder das Paraphrasieren von Queries) sind gegen diese Art von Bildvergiftung unzureichend.
Zukunftsausblick: Die Ergebnisse dienen als Grundlage für die Entwicklung robusterer VD-RAG-Architekturen und warnen vor der blinden Vertrauenswürdigkeit von Bild-basierten Wissensdatenbanken in kritischen Anwendungen.

Das Paper liefert somit einen fundamentalen Baustein für das Verständnis und die Absicherung multimodaler KI-Systeme gegen Datenvergiftung.

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

1. Das Problem: Ein einziger gefälschter Eintrag

2. Die zwei Arten des Angriffs

A. Der gezielte Angriff (Die gezielte Lüge)

B. Der universelle Angriff (Der „Alles-Blocker")

3. Wie schaffen sie das? (Der „Zaubertrick")

4. Was hilft dagegen? (Die Verteidigung)

Fazit in einem Satz

Problemstellung

Methodik

Wichtige Beiträge

Ergebnisse

Bedeutung und Fazit

Mehr davon

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora

Detecting Abnormal User Feedback Patterns through Temporal Sentiment Aggregation