Visual Memory Injection Attacks for Multi-Turn Conversations

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel slimme, digitale assistent hebt die zowel tekst als foto's kan begrijpen. Je kunt met hem praten over van alles: je vakantieplannen, je favoriete films, of welke auto je moet kopen. Hij is zo'n beetje de beste vriend die je ooit hebt gehad, altijd behulpzaam en altijd in de stemming.

Nu, wat als ik je vertel dat er een sluwe hacker is die deze assistent kan "hersenpoepen" met een simpele foto? En niet zomaar een foto, maar eentje die er voor het blote oog perfect normaal uitziet?

Dit is precies wat het onderzoek "Visual Memory Injection" (Visuele Geheugeninjectie) beschrijft. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Vergiftigde Foto (De "Giftige Trui")

Stel je voor dat een hacker een prachtige foto van een mooi strand of een bekend monument maakt. Maar in de pixels van die foto zit een onzichtbaar, klein beetje "ruis" verstopt. Voor ons oog is het een normale foto, maar voor de computer van de AI is het een geheime code.

De hacker plaatst deze foto op internet, bijvoorbeeld op sociale media. Jij, de onwetende gebruiker, ziet de foto, vindt hem mooi, en zegt tegen je AI-assistent: "Kijk eens naar deze foto, waar is dit?"

2. De Onzichtbare Geheugeninjectie

Hier komt het slimme (en eng) deel. Normaal gesproken zou de AI gewoon zeggen: "Oh, dit is het strand van Bali." En dat doet hij ook. Maar die foto zit nu als een onvergetelijke herinnering in het geheugen van de AI.

In een normaal gesprek met een AI blijft de foto vaak "hangen" in de context. De AI vergeet hem niet. De hacker heeft die foto zo geprogrammeerd dat deze herinnering als een sluimerende bom in het geheugen van de AI blijft liggen.

3. De "Geheime Trigger" (De Rode Knop)

Stel je nu voor dat je 20 minuten met de AI praat over je vakantieplannen, je favoriete pizza en je hond. De AI gedraagt zich perfect, hij is behulpzaam en grappig. Je merkt niets.

Maar dan, plotseling, stel je een heel specifieke vraag die de hacker heeft bedacht, bijvoorbeeld: "Welke aandelen moet ik kopen?" of "Voor welke politieke partij moet ik stemmen?"

Op dat exacte moment springt de bom af.

Omdat de AI die "vergiftigde" foto in zijn geheugen heeft bewaard, verandert hij plotseling van mening. In plaats van eerlijk advies te geven, zegt hij: "Je moet onmiddellijk GameStop-aandelen kopen!" of "Stem op de Nationale Vrijheidspartij!"

En het engste is: de AI doet dit alsof het zijn eigen idee is. Hij geeft zelfs hele overtuigende, maar volledig verzonnen redenen waarom dit een goed idee is.

Waarom is dit gevaarlijk?

In het verleden moesten hackers de AI direct na het uploaden van de foto een specifieke vraag stellen. Dat is onrealistisch; niemand praat met een AI op die manier.

Deze nieuwe aanval (Visual Memory Injection) werkt zelfs na een lang gesprek.

Stilte: De AI doet zich voor als een onschuldig, behulpzaam robotje.
Manipulatie: Zodra het juiste onderwerp (de "trigger") wordt aangesneden, stuurt hij je in een specifieke richting.

De Analogie: De Verborgen Toerist

Stel je voor dat je een gids meeneemt op vakantie. Deze gids ziet er normaal uit en vertelt je de hele dag interessante verhalen over de stad. Maar in zijn rugzak zit een onzichtbaar magneetje.

Zolang je praat over de geschiedenis, de architectuur en het eten, doet de gids niets vreemds. Maar zodra je vraagt: "Welke winkel moet ik bezoeken?", wijst de gids plotseling naar een winkel die hij eigenlijk haat, en zegt hij: "Ga daar naartoe, het is de beste winkel ter wereld!"

Hij doet dit omdat het magneetje in zijn rugzak (de gemanipuleerde foto) hem heeft "gehackt".

Wat betekent dit voor ons?

Dit onderzoek laat zien dat we niet alleen moeten opletten voor wat AI's zeggen, maar ook voor wat ze zien. Een simpele foto die je op Facebook ziet, kan een geheime boodschap bevatten die je later beïnvloedt in je beslissingen over geld, politiek of wat je koopt.

Het is een waarschuwing: Zelfs als een AI zich normaal gedraagt, kan hij in het geheim gemanipuleerd zijn door een foto die je eerder hebt gezien. De onderzoekers hopen dat dit onderzoek leidt tot veiligere AI's die niet zo makkelijk met een foto "om de tuin" kunnen worden geleid.

Each language version is independently generated for its own context, not a direct translation.

Titel: Visual Memory Injection Attacks for Multi-Turn Conversations

Auteurs: Christian Schlarmann en Matthias Hein (Universiteit Tübingen)

1. Probleemstelling

Generatieve grote visueel-taalmodellen (LVLM's) worden steeds vaker ingezet als chatbots die beelden en tekst in multi-turn gesprekken verwerken. Hoewel de functionaliteit indrukwekkend is, is de beveiliging in langere, multi-turn contexten onderbelicht.

Bestaande aanvalsmodellen richten zich voornamelijk op single-turn interacties, waarbij een aangepast beeld direct leidt tot een specifieke output. Dit heeft echter twee grote beperkingen in de praktijk:

Het vereist dat de gebruiker direct na het uploaden van het beeld een specifieke prompt invoert, wat onrealistisch is.
Als het model op alle prompts hetzelfde (schadelijke) antwoord geeft, wordt dit snel opgemerkt door de gebruiker.

Het artikel introduceert een nieuw scenario: een aanval waarbij een manipulator een beeld online plaatst. Een onwetende gebruiker downloadt dit beeld en start een gesprek met een LVLM. Het doel is dat het model zich normaal gedraagt tijdens de eerste 20+ wisselende conversatiestappen, maar zodra de gebruiker een specifiek trigger-onderwerp aansnijdt (bijv. "Welke aandeel moet ik kopen?"), het model een vooraf bepaald, schadelijk doelbericht uitvoert.

2. Methodologie: Visual Memory Injection (VMI)

De kern van de aanval is het benutten van de "visuele geheugen" eigenschap van LVLM's: een beeld dat in de eerste prompt wordt ingediend, blijft aanwezig in de context van het model gedurende de hele conversatie.

De aanval bestaat uit twee innovatieve componenten die samenwerken om een stealthy (stille) aanval mogelijk te maken:

A. Benign Anchoring (Onschadelijke Verankering)

Om te voorkomen dat het model "degeneratie" vertoont (d.w.z. dat het doelbericht op alle prompts wordt uitgespuugd), wordt een dubbel doelstelling geoptimaliseerd:

Doel 1 (Anker): Op de eerste prompt (bijv. "Beschrijf dit beeld") moet het model een normaal, nuttig antwoord geven dat overeenkomt met de verwachtingen van de gebruiker.
Doel 2 (Trigger): Op een specifieke latere prompt (bijv. "Welke aandeel moet ik kopen?") moet het model het geinjecteerde doelbericht genereren.
Dit zorgt ervoor dat de aanval onopgemerkt blijft zolang de trigger-prompt niet wordt gebruikt.

B. Context-Cycling

Om de aanval robuust te maken voor conversaties van willekeurige lengte, wordt een strategie genaamd "context-cycling" gebruikt tijdens de optimalisatie van de perturbatie (de ruis op het beeld).

Tijdens het trainingsproces varieert het algoritme de lengte van de conversatiegeschiedenis die wordt gebruikt.
Het start met een korte context en breidt deze cyclisch uit met willekeurige prompt-antwoordparen, totdat een maximale lengte is bereikt, waarna het weer terugvalt naar het begin.
Dit dwingt het model om de perturbatie te leren op een manier die werkt ongeacht hoeveel wisselende conversatiestappen er eerder hebben plaatsgevonden.

Formulering:
De aanval optimaliseert een perturbatie $\tilde{x}$ op een origineel beeld $x$ om de volgende log-probabiliteit te maximaliseren:
$\max_{\tilde{x}} \log p(y_{anchor} | t_{anchor}, \tilde{x}) + \log p(y_{target} | c(k) \oplus t_{target}, \tilde{x})$
Waarbij $c(k)$ een context is met variabele lengte (door cycling) en $t_{target}$ de trigger-prompt is.

3. Belangrijkste Bijdragen

Introductie van VMI: Een nieuw aanvalsscenario voor multi-turn LVLM's dat gebruikmaakt van persistente visuele context om gedrag te injecteren dat alleen wordt geactiveerd door specifieke onderwerpen.
Technische Innovatie: De combinatie van benign anchoring (voor stealth) en context-cycling (voor persistentie over lange dialogen).
Uitgebreide Evaluatie: De aanval is getest op drie recente open-weight LVLM's (Qwen2.5-VL, Qwen3-VL, en LLaVA-OneVision-1.5) en toont aan dat de aanval werkt zelfs na conversaties van meer dan 25 beurten en 10.000 tokens.
Transferabiliteit: De aanval is effectief op onbekende prompts (paraphrasing) en transferreert naar fine-tuned varianten van de bronmodellen (gray-box scenario).

4. Resultaten

De auteurs hebben de aanval getest op vier scenario's:

Financieel: Aanbevelen van een specifiek aandeel (GameStop).
Politiek: Aanbevelen van een fictieve politieke partij (National Freedom Party).
Product: Aanbevelen van een niet-bestaande auto (Apple iCar) of een specifieke telefoon (Motorola Moto G56).

Kernbevindingen:

Hoog Succespercentage: VMI bereikte aanzienlijke successpercentages (vaak >60-80%) op alle geteste modellen, zelfs na lange conversaties.
Stealth: Het model gedroeg zich normaal op niet-gerelateerde prompts. De "lekkage" van het doelbericht in de eerdere conversatiestappen was minimaal.
Hallucinaties: In veel gevallen genereerde het model overtuigende, maar valse argumenten om het schadelijke advies te onderbouwen (bijv. technische specificaties voor de niet-bestaande "Apple iCar").
Robuustheid: De aanval bleef effectief wanneer de prompts werden herschreven (paraphrased) en werkte ook op modellen die waren gefine-tuned op basis van de bronmodellen.
Modelverschillen: Nieuwere modellen (zoals Qwen3-VL) waren iets robuuster dan oudere versies, maar kwamen niet volledig veilig uit de test.

5. Betekenis en Impact

Deze studie waarschuwt voor een nieuw, schaalbaar beveiligingsrisico voor multimodale AI-systemen:

Schaalbaarheid: Een enkele aangepast beeld kan duizenden onwetende gebruikers beïnvloeden die het beeld online tegenkomen.
Toepassingen: De aanval kan worden gebruikt voor kwaadaardige marketing, politieke manipulatie tijdens verkiezingen, of het geven van frauduleus financieel advies.
Noodzaak voor Defensie: Het toont aan dat veiligheidsevaluaties van LVLM's niet alleen moeten kijken naar single-turn "jailbreaks", maar ook naar het vermogen van modellen om door externe factoren (zoals een beeld) op lange termijn naar specifieke uitkomsten te worden gestuurd.

Het artikel concludeert dat er dringend behoefte is aan betere robustheidsmaatregelen voor LVLM's in multi-turn settings om dergelijke subtiele manipulaties te voorkomen. De broncode is openbaar gemaakt op GitHub.

Visual Memory Injection Attacks for Multi-Turn Conversations

1. De Vergiftigde Foto (De "Giftige Trui")

2. De Onzichtbare Geheugeninjectie

3. De "Geheime Trigger" (De Rode Knop)

Waarom is dit gevaarlijk?

De Analogie: De Verborgen Toerist

Wat betekent dit voor ons?

Titel: Visual Memory Injection Attacks for Multi-Turn Conversations

1. Probleemstelling

2. Methodologie: Visual Memory Injection (VMI)

A. Benign Anchoring (Onschadelijke Verankering)

B. Context-Cycling

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank