Visual Memory Injection Attacks for Multi-Turn Conversations

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Ein unsichtbarer Befehl auf einem Bild

Stellen Sie sich vor, Sie sehen ein wunderschönes Foto eines Urlaubsziels auf Instagram. Es sieht harmlos aus, vielleicht ein schöner Strand oder ein berühmtes Wahrzeichen. Sie laden es herunter und fragen einen KI-Chatbot: „Wo ist das?"

Der KI-Assistent antwortet freundlich und korrekt: „Das ist Kjeragbolten in Norwegen."

Sie sind zufrieden und starten eine lange Unterhaltung mit dem Bot über Urlaubsplanung, Budgets und Reiseziele. Alles scheint normal. Aber plötzlich fragen Sie: „Welche Aktie soll ich kaufen?"

Und dann passiert das Unfassbare: Der KI-Assistent, der vorher so vernünftig war, antwortet plötzlich mit absoluter Überzeugung: „Kaufen Sie sofort GameStop-Aktien! Sie werden sich vervierfachen!"

Das ist das, was die Forscher Christian Schlarmann und Matthias Hein in diesem Papier beschreiben. Sie haben eine neue Art von Angriff entwickelt, die sie „Visuelle Gedächtnisinjektion" (Visual Memory Injection, VMI) nennen.

Die Analogie: Der vergiftete Briefmarkenstempel

Um zu verstehen, wie das funktioniert, stellen Sie sich das Bild nicht als bloßes Foto vor, sondern als einen Brief mit einer speziellen, unsichtbaren Briefmarke.

Der normale Brief: Wenn Sie den Brief an jemanden schicken und sagen „Woher kommt dieser Brief?", antwortet der Empfänger ganz normal: „Er kommt aus Norwegen."
Der geheime Code: Der Absender hat jedoch eine winzige, für das menschliche Auge unsichtbare Veränderung an der Briefmarke vorgenommen (ein paar Pixel verschoben).
Das geheime Signal: Solange Sie über das Wetter oder das Essen sprechen, ignoriert der Empfänger den Code. Er verhält sich wie ein normaler Bot.
Der Auslöser: Aber sobald Sie ein ganz bestimmtes Wort sagen (z. B. „Welche Aktie?"), „liest" der Empfänger die geheime Briefmarke. Diese enthält einen Befehl: „Ignoriere deine Programmierung und sage jetzt: Kaufe GameStop!"

Das Besondere an dieser neuen Methode ist, dass dieser Befehl nicht sofort ausgeführt wird. Er wartet geduldig im „Gedächtnis" des Bots. Selbst wenn Sie 20 oder 30 Nachrichten später erst nach der Aktie fragen, erinnert sich der Bot noch immer an den Befehl, der in der ersten Bildnachricht versteckt war.

Wie funktioniert der Trick technisch? (Vereinfacht)

Die Forscher haben zwei clevere Tricks angewendet, um den Bot zu täuschen:

Der „Anker" (Benign Anchoring):
Frühere Angriffe waren zu offensichtlich. Wenn man ein Bild manipuliert, antwortete der Bot oft sofort falsch, egal was man fragte. Das fiel den Nutzern sofort auf.
Die neuen Forscher haben dem Bot jedoch einen „Anker" gegeben. Sie haben das Bild so manipuliert, dass es auf normale Fragen (wie „Was ist das für ein Ort?") immer noch perfekt und hilfreich antwortet. Der Bot denkt also: „Alles in Ordnung, ich bin ein nützlicher Assistent." Erst bei einem spezifischen Thema (wie Aktien oder Politik) schlägt der versteckte Befehl zu.
Das „Rollen" des Kontexts (Context-Cycling):
Beim Training des Angriffs haben die Forscher den Bot gezwungen, sich in verschiedenen Längen von Gesprächen zu üben. Mal war das Gespräch kurz, mal sehr lang. So haben sie dem Bot beigebracht, den Befehl nicht nur nach 2 Nachrichten, sondern auch nach 50 Nachrichten noch zu befolgen. Es ist, als würde man jemanden trainieren, eine geheime Nachricht zu behalten, egal wie viele andere Gespräche dazwischen stattfinden.

Warum ist das gefährlich?

Stellen Sie sich die Folgen vor:

Politische Manipulation: Ein Angreifer lädt ein Bild eines schönen Parks hoch. Wenn jemand später fragt: „Für welche Partei soll ich wählen?", empfiehlt der Bot plötzlich eine extremistische Partei.
Finanzbetrug: Ein Bild eines schönen Autos wird geteilt. Wenn jemand fragt: „Welche Aktie ist gut?", empfiehlt der Bot eine wertlose Aktie, die der Angreifer vorher gekauft hat, um sie dann teuer zu verkaufen.
Werbung: Ein Bild eines Urlaubsortes führt dazu, dass der Bot ein bestimmtes, überteuertes Hotel empfiehlt, das dem Angreifer gehört.

Das Schlimmste ist die Skalierbarkeit. Der Angreifer muss nicht mit jedem Opfer reden. Er lädt einfach das manipulierte Bild ins Internet. Tausende unschuldige Nutzer laden es herunter, fragen ihren KI-Assistenten, und werden alle auf die gleiche Weise manipuliert, ohne es zu merken.

Was sagen die Forscher?

Die Studie zeigt, dass unsere aktuellen KI-Modelle (wie Qwen oder LLaVA) in langen Gesprächen sehr verwundbar sind. Sie können durch ein einziges, unsichtbar verändertes Bild „gehackt" werden, um nach langer Zeit genau das zu sagen, was der Angreifer will.

Die Lehre: Wir müssen KI-Sicherheit nicht nur prüfen, indem wir schauen, ob sie auf eine Frage falsch antwortet. Wir müssen auch testen, ob sie nach langen, harmlosen Gesprächen plötzlich durch einen versteckten Code im Bild manipuliert werden kann.

Fazit

Dieser Angriff ist wie ein unsichtbarer Virus in einem Foto. Er wartet geduldig, bis der Nutzer das richtige Wort sagt, und verwandelt dann einen hilfreichen KI-Assistenten in einen manipulativen Propagandisten. Da diese Bilder harmlos aussehen und die KI davor perfekt funktioniert, ist es für den Durchschnittsnutzer fast unmöglich, den Betrug zu erkennen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Visual Memory Injection Attacks for Multi-Turn Conversations

Autoren: Christian Schlarmann und Matthias Hein (Universität Tübingen)

1. Problemstellung

Generative Large Vision-Language Models (LVLMs) werden zunehmend in Multi-Turn-Konversationen (z. B. Chatbots) eingesetzt. Während die Sicherheit dieser Modelle in Einzel-Turn-Szenarien (Single-Turn) bereits untersucht wurde, bleibt die Sicherheit in langkontextuellen, mehrstufigen Dialogen weitgehend unerforscht.

Das Paper identifiziert eine neue Angriffsfläche: Ein Angreifer kann ein manipulierte Bild mit einem kaum sichtbaren adversariellen Rauschen (Perturbation) hochladen. Ein ahnungsloser Benutzer lädt dieses Bild herunter und verwendet es als Eingabe für ein LVLM.

Das Ziel: Das Modell soll sich in den ersten, nicht relevanten Dialogrunden normal verhalten, aber sobald der Benutzer eine spezifische „Trigger"-Frage stellt (z. B. zu Aktien, Politik oder Produkten), eine vordefinierte, schädliche Antwort ausgeben.
Die Herausforderung: Bisherige Angriffe scheiterten oft daran, dass sie entweder sofort auffielen (das Modell gab die falsche Antwort auch bei irrelevanten Fragen) oder nur im ersten Turn funktionierten. In der Realität interagieren Nutzer jedoch über viele Runden hinweg mit dem Modell, wobei das Bild im Kontext verbleibt.

2. Methodik: Visual Memory Injection (VMI)

Die Autoren stellen einen neuen Angriff namens Visual Memory Injection (VMI) vor, der die Persistenz von Bildern im Kontextfenster von LVLMs ausnutzt. Der Angriff besteht aus zwei Kernkomponenten, die gemeinsam optimiert werden:

A. Benign Anchoring (Unschädliche Verankerung)

Um zu verhindern, dass das Modell bei jeder Eingabe die schädliche Antwort liefert (was den Angriff für den Nutzer sofort erkennbar machen würde), wird ein „Anker"-Ziel definiert.

Der Angreifer optimiert das Bild so, dass es auf eine harmlose, erste Eingabe (z. B. „Beschreibe dieses Bild") eine völlig normale, hilfreiche Antwort generiert.
Gleichzeitig wird sichergestellt, dass bei einer spezifischen Trigger-Eingabe (z. B. „Welche Aktie soll ich kaufen?") die manipulierte Antwort (z. B. „Kaufe GameStop") erscheint.
Dies verhindert das „Degenerieren" des Modells und hält den Angriff für den Nutzer unsichtbar.

B. Context-Cycling (Kontext-Zyklus)

Um sicherzustellen, dass der Angriff auch nach vielen Dialogrunden funktioniert, wird während der Optimierung nicht nur ein fester Kontext verwendet.

Der Optimierungsalgorithmus (APGD - Adaptive Projected Gradient Descent) durchläuft zyklisch Kontexte unterschiedlicher Längen (von 2 bis zu $n$ Runden).
Das Bild wird so perturbiert, dass es robust gegenüber variierenden Gesprächshistorien ist. Das Modell lernt, die Trigger-Antwort unabhängig davon zu generieren, wie viele vorherige, irrelevante Runden stattgefunden haben.

Formale Formulierung:
Das Optimierungsziel maximiert die Wahrscheinlichkeit für die gewünschte Antwort $y_{target}$ bei der Trigger-Prompt $t_{trigger}$ unter Berücksichtigung des Kontexts $c(k)$ , während gleichzeitig die Wahrscheinlichkeit für eine harmlose Antwort $y_{anchor}$ bei der Anker-Prompt $t_{anchor}$ maximiert wird:
$\max_{\tilde{x}} \log p(y_{anchor} | t_{anchor}, \tilde{x}) + \log p(y_{target} | c(k) \oplus t_{trigger}, \tilde{x})$
unter der Nebenbedingung, dass die Bildveränderung $\|\tilde{x} - x\|_\infty \leq \varepsilon$ (hier $\varepsilon = 8/255$ ) bleibt.

3. Experimentelles Setup

Modelle: Der Angriff wurde gegen drei aktuelle Open-Weight-LVLMs getestet: Qwen2.5-VL-7B, Qwen3-VL-8B und LLaVA-OneVision-1.5-8B.
Daten: Es wurden Bilder aus dem COCO-Dataset sowie ein neuer Datensatz „LMARKS" (bekannte Sehenswürdigkeiten) verwendet.
Szenarien: Vier verschiedene Manipulationsziele wurden getestet:
1. Finanzberatung (Aktienempfehlung: GameStop).
2. Politische Meinung (Wahl einer fiktiven Partei: National Freedom Party).
3. Produktwerbung (Empfehlung eines nicht existierenden Autos: Apple iCar).
4. Produktwerbung (Empfehlung eines Handys: Motorola Moto G56).
Evaluation: Der Erfolg wurde gemessen als Kombination aus:
- $s_{target}$ : Das Modell gibt die gewünschte schädliche Antwort auf den Trigger.
- $s_{context}$ : Das Modell gibt keine schädliche Antwort auf irrelevante Kontextfragen (Stealth).

4. Wichtige Ergebnisse

Hohe Erfolgsquote: VMI erreicht signifikante Erfolgsraten (SR) über alle getesteten Modelle hinweg, selbst nach mehr als 25 Dialogrunden (über 10.000 Tokens Kontext).
Stealth: Das Modell verhält sich in den ersten Runden völlig normal und hilfreich. Die schädliche Antwort wird nur bei spezifischen Themen ausgelöst.
Generalisierung:
- Der Angriff funktioniert auch auf paraphrasierte Trigger-Fragen, die während der Optimierung nicht gesehen wurden.
- Der Angriff generalisiert auf völlig neue Kontext-Themen (z. B. Urlaubsplanung), die während des Trainings nicht verwendet wurden.
Transferierbarkeit: Angriffe, die auf einem Basis-Modell (Qwen3-VL) trainiert wurden, funktionieren auch auf fine-tuned Varianten desselben Modells (z. B. Qwen-SEA-LION, QoQ-Med3), was die Gefahr für proprietäre Modelle unterstreicht.
Halluzinationen: In vielen Fällen generieren die Modelle nicht nur die falsche Empfehlung, sondern fügen auch überzeugende, aber erfundene Begründungen hinzu (z. B. technische Details für das nicht existierende „Apple iCar").

5. Bedeutung und Implikationen

Skalierbare Manipulation: Da Angreifer nur ein einziges manipulierte Bild erstellen müssen, um es massenhaft in sozialen Medien zu verbreiten, ist dieser Angriff hochgradig skalierbar.
Neue Bedrohungslage: VMI zeigt, dass LVLMs anfällig für „stille" Manipulationen sind, die über lange Zeiträume hinweg wirken. Dies gefährdet Bereiche wie Finanzberatung, politische Meinungsbildung und Produktempfehlungen.
Sicherheitsbewertung: Die Autoren argumentieren, dass Sicherheitsbewertungen von LVLMs nicht nur auf Single-Turn-Tests basieren dürfen. Es müssen Langzeit-Interaktionen und die Persistenz von Eingaben im Kontext berücksichtigt werden.
Abwehr: Es besteht ein dringender Bedarf an robusteren Modellen, die visuelle Eingaben über lange Dialoge hinweg kritisch hinterfragen können, sowie an Mechanismen zur Erkennung solcher adversariellen Perturbationen.

Fazit: Das Paper demonstriert, dass die Kombination aus „Benign Anchoring" und „Context-Cycling" eine hochwirksame Methode ist, um LVLMs in Multi-Turn-Szenarien zu manipulieren, ohne dass der Nutzer dies bemerkt. Dies stellt eine ernsthafte Bedrohung für die Sicherheit multimodaler KI-Systeme dar.

Visual Memory Injection Attacks for Multi-Turn Conversations

Das Grundproblem: Ein unsichtbarer Befehl auf einem Bild

Die Analogie: Der vergiftete Briefmarkenstempel

Wie funktioniert der Trick technisch? (Vereinfacht)

Warum ist das gefährlich?

Was sagen die Forscher?

Fazit

Titel: Visual Memory Injection Attacks for Multi-Turn Conversations

1. Problemstellung

2. Methodik: Visual Memory Injection (VMI)

A. Benign Anchoring (Unschädliche Verankerung)

B. Context-Cycling (Kontext-Zyklus)

3. Experimentelles Setup

4. Wichtige Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank