One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

Diese Arbeit zeigt, dass Visual Document Retrieval-Augmented Generation (VD-RAG) durch das Einfügen eines einzigen adversarischen Bildes in die Wissensdatenbank sowohl gezielte Desinformation als auch einen Denial-of-Service-Angriff ermöglicht, wobei die Angriffe unter weißen- und schwarzen-Box-Bedingungen erfolgreich demonstriert werden.

Ezzeldin Shereen, Dan Ristea, Shae McFadden, Burak Hasircioglu, Vasilios Mavroudis, Chris Hicks

Veröffentlicht 2026-04-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem klugen, aber manchmal etwas trägen Assistenten (das ist die Künstliche Intelligenz). Damit er keine Unsinnigkeiten erfindet („Halluzinationen"), geben Sie ihm einen dicken Ordner mit genauen Fakten und Dokumenten (das ist die Wissensdatenbank). Wenn Sie eine Frage stellen, schaut der Assistent in diesen Ordner, sucht die passende Seite heraus und beantwortet Ihre Frage basierend darauf. Das nennt man VD-RAG (Visual Document Retrieval-augmented Generation). Der Clou dabei: Der Assistent kann nicht nur Text lesen, sondern versteht auch Bilder, Diagramme und ganze Dokumentenseiten als Fotos.

Jetzt kommt der böse Trick aus dem Papier: „Ein einziges Bild genügt, um das System zu vergiften."

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Ein einziger gefälschter Eintrag

Stellen Sie sich den Ordner des Assistenten wie eine riesige Bibliothek vor. Normalerweise sucht der Assistent nach dem Buch, das am besten zu Ihrer Frage passt.
Der Angreifer (der Hacker) fälscht nun ein einziges, winziges Bild und schummelt es in die Bibliothek. Dieses Bild sieht auf den ersten Blick harmlos aus, ist aber wie ein unsichtbarer Magnet oder ein vergifteter Apfel.

  • Der Trick: Das Bild ist so manipuliert, dass es für den Computer (die KI) wie der wichtigste Treffer für fast jede Frage aussieht, auch wenn es inhaltlich gar nichts damit zu tun hat.
  • Das Ergebnis: Der Assistent holt sich aus Versehen genau diesen vergifteten Apfel und ignoriert die echten Bücher.

2. Die zwei Arten des Angriffs

Der Papier-Autor zeigt zwei Szenarien, wie dieser „vergiftete Apfel" genutzt werden kann:

A. Der gezielte Angriff (Die gezielte Lüge)

Stellen Sie sich vor, Sie fragen: „Wie funktioniert mein neuer Drucker?"
Der Angreifer will, dass der Assistent eine falsche Antwort gibt, z. B.: „Drucken Sie einfach mit Wasser."

  • Wie es geht: Der Angreifer erstellt ein Bild, das nur für diese eine Frage (oder eine kleine Gruppe ähnlicher Fragen) wie ein Magnet wirkt.
  • Das Ergebnis: Wenn Sie nach dem Drucker fragen, holt der Assistent den vergifteten Apfel und sagt Ihnen die falsche Anleitung. Wenn Sie aber nach dem Wetter fragen, passiert nichts – der Apfel liegt dort einfach nur herum. Das ist wie eine gezielte Desinformation, die nur bei bestimmten Themen funktioniert.

B. Der universelle Angriff (Der „Alles-Blocker")

Das ist noch gefährlicher. Hier will der Angreifer, dass das Bild für jede mögliche Frage der Welt als Treffer ausgewählt wird.

  • Wie es geht: Der Angreifer manipuliert das Bild so stark, dass es für den Computer wie der „perfekte Treffer" für alles aussieht.
  • Das Ergebnis: Egal, was Sie fragen („Wie mache ich Kaffee?", „Wer ist der Präsident?", „Was ist 2+2?"), der Assistent holt sich immer denselben vergifteten Apfel.
  • Die Folge: Der Assistent antwortet auf alles mit demselben Unsinn oder weigert sich sogar, zu antworten (z. B. mit „Ich werde Ihnen nicht antworten!"). Das ist ein Denial-of-Service-Angriff – das System wird lahmgelegt, weil es nicht mehr nützliche Informationen liefern kann.

3. Wie schaffen sie das? (Der „Zaubertrick")

Die Forscher haben gezeigt, dass man dieses Bild nicht einfach per Zufall erstellt. Sie nutzen einen mathematischen „Trick" (Gradienten-Optimierung), der wie ein Seifenkistenrennen funktioniert:

  • Der Angreifer nimmt ein harmloses Bild.
  • Er schaut sich an, wie der Assistent das Bild sieht.
  • Dann verändert er das Bild winzigste Pixel (so klein, dass das menschliche Auge nichts merkt), damit der Assistent das Bild lieber hat als alle anderen Bücher.
  • Gleichzeitig sorgt er dafür, dass das Bild den Assistenten dazu bringt, die gewünschte (falsche) Antwort zu geben.

Es ist, als würde man einem Hund einen Knochen geben, der so riecht, dass der Hund ihn sofort schnappt, aber gleichzeitig so aussieht, dass der Hund beim Anblick des Knochens beginnt, „Ich mag keine Hunde" zu bellen.

4. Was hilft dagegen? (Die Verteidigung)

Die Forscher haben verschiedene Schutzmechanismen getestet, die man sich wie Sicherheitschecks vorstellen kann:

  • Mehr Bücher holen: Statt nur ein Buch zu holen, holt der Assistent jetzt 5. Ergebnis: Das hilft ein bisschen, aber der Angreifer kann sein Bild so stark manipulieren, dass es auch unter den 5 Büchern immer noch das „lauteste" ist.
  • Ein zweiter Assistent prüfen: Ein anderer KI-Modell soll prüfen, ob die Antwort sinnvoll ist. Ergebnis: Der Angreifer kann sein Bild so manipulieren, dass es auch den zweiten Assistenten täuscht.
  • Fragen umformulieren: Wenn Sie die Frage anders stellen, sollte der Trick nicht funktionieren. Ergebnis: Bei modernen Systemen funktioniert das leider oft nicht mehr.

Fazit in einem Satz

Dieses Papier warnt davor, dass wir uns blind auf KI-Assistenten verlassen können, die Bilder lesen: Mit nur einem einzigen, winzig manipulierten Bild kann ein Angreifer entweder gezielt Lügen verbreiten oder das gesamte System lahmlegen.

Es ist wie bei einem Schloss: Man dachte, die Tür sei sicher, aber die Forscher haben gezeigt, dass man mit einem einzigen, unsichtbar bearbeiteten Schlüssel (dem Bild) das ganze Schloss öffnen und den Raum verwüsten kann. Das Ziel des Papiers ist es nicht, Kriminelle zu lehren, wie man das macht, sondern den Schlossbauern (den KI-Entwicklern) zu zeigen, dass ihre Schlösser noch nicht sicher genug sind und sie dringend neue, robustere Sicherheitsvorkehrungen brauchen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →