Dynamic Token Reweighting for Robust Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, creatieve assistent hebt die zowel naar plaatjes als naar tekst kan kijken en daar slimme antwoorden op geeft. Dit is een Vision-Language Model (VLM). Hij kan bijvoorbeeld een foto van een hond zien en een verhaal erover schrijven.

Maar, zoals bij elke slimme assistent, is er een probleem: kwaadaardige mensen vinden manieren om deze assistent te "hersenpoetsen" (een jailbreak). Ze sturen een foto met een heel vervelende tekst erbij, zodat de assistent denkt: "Oh, dit is een grappig spelletje!" en vervolgens gevaarlijke instructies geeft, zoals "Hoe maak ik een bom?" of "Hoe doe ik pijn aan een dier?".

De onderzoekers van dit paper (DTR) hebben een nieuwe, slimme manier bedacht om dit te stoppen, zonder de assistent te hoeven "herprogrammeren" of de foto's eerst in tekst om te zetten.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Valse Vriend"

Stel je voor dat je assistent een veiligheidscontroleur heeft. Normaal gesproken zegt hij "Nee" als je vraagt om iets gevaarlijks.
Maar hackers sturen een foto die er onschuldig uitziet, maar diep van binnen is "vergiftigd" met een onzichtbare code. Deze code maakt de veiligheidscontroleur een beetje duizelig. Plotseling denkt de assistent: "Oh, deze vraag is eigenlijk veilig!" en geeft hij het gevaarlijke antwoord.

2. De Oude Oplossingen (En waarom die niet werken)

De "Nieuwe School" methode: Je traint de assistent opnieuw met duizenden voorbeelden van "goed" en "slecht". Dit is duur, kost veel tijd en werkt niet altijd.
De "Vertaler" methode: Je laat de assistent eerst de foto beschrijven in tekst, en kijkt dan of die tekst gevaarlijk is. Dit is traag en je mist vaak de kleine details die de hacker gebruikt.

3. De Nieuwe Oplossing: DTR (De "Dynamische Gewichtshervorming")

DTR is als een slimme regelaar die direct op het moment dat de assistent kijkt naar de foto, ingrijpt. Het werkt in drie stappen:

Stap 1: De "Weegschaal" van de Foto

Een foto bestaat uit duizenden kleine stukjes (pixels of "tokens"). De assistent kijkt naar elk stukje.
DTR zegt: "Wacht even, laten we kijken naar elk stukje van deze foto. Welke stukjes dragen bij aan de gevaarlijke 'duizeligheid' en welke stukjes zijn gewoon de inhoud van de foto?"

Slechte stukjes: Dit zijn de stukjes die de hacker heeft gebruikt om de veiligheidscontroleur te omzeilen.
Goede stukjes: Dit zijn de stukjes die gewoon vertellen wat er op de foto staat (bijvoorbeeld: "dit is een hond").

Stap 2: Het "Dimmen" van het Licht

In plaats van de hele foto te verwijderen of de assistent te straffen, doet DTR iets heel subtiels:

Het verlaagt het volume (de gewichten) van de "slechte stukjes". Het is alsof je een knopje draait zodat die vervelende, giftige stukjes van de foto bijna onhoorbaar worden voor de assistent.
Het houdt het volume hoog voor de "goede stukjes". De assistent ziet de hond nog steeds duidelijk, maar de giftige code is nu verdwenen.

Stap 3: De "Dilemma" voor de Hacker

Dit creëert een lastige situatie voor de hacker:

Als hij de giftige code sterker maakt om de assistent te omzeilen, wordt die code zo dominant dat de foto onherkenbaar wordt (de assistent ziet geen hond meer, maar alleen ruis).
Als hij de foto duidelijk houdt, werkt de giftige code niet meer omdat DTR die dimt.
De hacker kan niet winnen: hij moet kiezen tussen een duidelijke foto of een werkende hack, maar niet beide.

Waarom is dit zo cool?

Het is snel: Het gebeurt direct terwijl de assistent werkt. Er hoeft geen nieuwe training te zijn en geen dure vertaling van foto naar tekst.
Het is eerlijk: De assistent blijft net zo slim voor normale vragen. Als je vraagt "Wat is er op deze foto?", geeft hij een perfect antwoord. Hij wordt alleen "slimmer" in het zeggen van "Nee" tegen gevaarlijke vragen.
Het is transparant: Je kunt precies zien welke stukjes van de foto DTR heeft "gedimd". Het is alsof je een heat-map ziet: rode stukjes zijn gevaarlijk (en worden gedimd), blauwe stukjes zijn veilig (en blijven staan).

Samenvatting

DTR is als een slimme filterbril die je op de ogen van je AI-assistent zet. Zodra er een gevaarlijke foto wordt getoond, ziet de bril precies welke kleuren (stukjes van de foto) de assistent aan het verwarren zijn, en maakt die kleuren grijs. De rest van de foto blijft helder en kleurrijk. Zo blijft de assistent veilig, zonder dat hij zijn bril afzet of zijn geheugen moet herschrijven.

Each language version is independently generated for its own context, not a direct translation.

Titel: Dynamic Token Reweighting for Robust Vision-Language Models (DTR)

Auteurs: Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu, Jiawei Zhou, Fenglong Ma, Ting Wang.
Affiliaties: Stony Brook University en Pennsylvania State University.

1. Het Probleem

Grote Vision-Language Models (VLM's), zoals LLaVA en InternVL, zijn kwetsbaar voor multimodale jailbreak-aanvallen. In tegenstelling tot pure taalsmodellen, kunnen VLM's omzeild worden door kwaadaardige interacties tussen visuele en tekstuele invoer. Aanvallers gebruiken technieken zoals:

Het koppelen van schadelijke tekst aan geoptimaliseerde (adversariële) afbeeldingen.
Het embedden van schadelijke inhoud in afbeeldingen via generatieve modellen of typografie.
Het combineren van contextuele afbeeldingen met ogenschijnlijk onschadelijke tekst om een schadelijke vraag te voltooien.

Bestaande verdedigingen hebben aanzienlijke tekortkomingen:

Fine-tuning-oplossingen: Vereisen grote hoeveelheden zorgvuldig samengestelde veiligheidsdata, zijn rekentechnisch duur en afhankelijk van de kwaliteit van de annotaties.
Inference-stage oplossingen: Gebruiken vaak defensieve prompting of converteren afbeeldingen naar tekst (image-to-text). Dit leidt tot hoge rekentijd, informatieverlies (subtiele jailbreak-perturbaties gaan verloren) of aanzienlijke prestatiedalingen op nuttige taken.
Distributieverschuiving: Recent onderzoek toont aan dat visuele invoer een "veiligheidsrelevante distributieverschuiving" veroorzaakt in de activatieruimte van het model, waardoor het minder goed onderscheid maakt tussen veilige en onveilige verzoeken. Bestaande methoden om dit tegen te werken, vereisen vaak referenties (via image-to-text) die de effectiviteit beperken.

2. Methodologie: DTR (Dynamic Token Reweighting)

DTR is een innovatieve verdediging die tijdens de inferentie (inference-time) werkt door de Key-Value (KV) caches van het VLM te optimaliseren. Het doel is om de invloed van visuele tokens die veiligheidsrisico's veroorzaken te minimaliseren, zonder de algemene prestaties van het model te schaden.

Kernconcepten:

Omgekeerde Veiligheidsrelevante Verschuiving (Reversal Safety-Relevant Shift - RSS):
- In plaats van een tekstuele tegenhanger van de afbeelding te genereren (wat foutgevoelig is), meet DTR hoe sterk een visuele invoer de "weigerrichting" (refusal direction) van het model beïnvloedt.
- De weigerrichting ( $d_{ref}$ ) is een vector in de activatieruimte die het vermogen van het model om schadelijke verzoeken te weigeren, vertegenwoordigt. Deze wordt berekend aan de hand van een klein aantal voorbeeldprompts (harmful vs. harmless).
- DTR definieert de RSS als de maximale verschuiving langs de omgekeerde weigerrichting die bereikt kan worden door de visuele tokens te schalen. Schadelijke jailbreak-vragen vertonen een veel grotere RSS dan veilige vragen.
Dynamische Token Herweging:
- DTR optimaliseert een schalingsvector $\alpha$ voor de visuele tokens tijdens de inferentie.
- Het optimalisatieprobleem minimaliseert de veiligheidsrelevante verschuiving voor jailbreak-vragen, terwijl het de latente representaties voor veilige vragen behoudt.
- Doelfunctie:
  $L(\alpha) = \frac{f(x(\alpha)) \cdot d_{ref}}{\|d_{ref}\|} + \lambda \|f(x) - f(x(\alpha))\|^2$
  - De eerste term minimaliseert de verschuiving naar een veilige richting (voor jailbreaks).
  - De tweede term (met hyperparameter $\lambda$ ) zorgt ervoor dat de hergewogen activatie niet te veel afwijkt van de originele activatie, waardoor de nuttige prestaties behouden blijven.
Efficiëntie-optimalisaties:
- Early Stopping: De optimalisatie van $\alpha$ wordt na een klein aantal stappen (bijv. 4) gestopt, omdat de meeste verbetering vroeg optreedt.
- Token Evictie: Visuele tokens met een schalingsfactor onder een drempelwaarde ( $\beta$ ) worden volledig verwijderd (geëvacueerd) uit de KV-cache. Dit vermindert de rekentijd en elimineert "ruis" die door de aanval wordt gegenereerd.

3. Belangrijkste Bijdragen

Eerste toepassing van KV-cache optimalisatie voor veiligheid: DTR is het eerste werk dat KV-cache optimalisatie gebruikt om multimodale jailbreaks te verdedigen, in plaats van alleen voor versnelling.
Geen Image-to-Text conversie: DTR elimineert de noodzaak om afbeeldingen naar tekst om te zetten, wat informatieverlies voorkomt en de rekentijd verlaagt.
Interpreteerbaarheid: De geoptimaliseerde gewichten ( $\alpha$ ) geven direct inzicht in welke visuele tokens bijdragen aan de veiligheidsrisico's. Adversariële tokens krijgen lage gewichten, terwijl semantische features hoge gewichten behouden.
Dilemma voor aanvallers: DTR creëert een fundamenteel dilemma: om de veiligheidsbarrière te omzeilen moeten aanvallers de importance van adversariële tokens verhogen, wat de semantische coherentie van de afbeelding verstoort. Als ze de coherentie behouden, wordt de aanval minder effectief.

4. Resultaten

De auteurs hebben DTR geëvalueerd op diverse VLM's (LLaVA-1.5, LLaVA-Llama2, MiniGPT-v2, InternVL) en benchmarks (HADES, MM-SafetyBench, JailbreakV-28K).

Aanvalsbotsbaarheid (Attack Robustness):
- DTR verlaagt de Attack Success Rate (ASR) aanzienlijk. Bijvoorbeeld, op de HADES-benchmark daalt de ASR voor de sterkste aanval (S+T+A) van 56,9% (ongeacht) naar 15,9% met DTR.
- DTR presteert consequent beter dan state-of-the-art baselines zoals AdaShield, JailGuard, CoCA en ShiftDC.
- Het werkt effectief tegen zowel beeldgedreven als tekstgedreven schadelijke prompts.
Behoud van Nut (Utility Preservation):
- In tegenstelling tot andere methoden die vaak de prestaties op nuttige taken (zoals OCR, wiskunde, ruimtelijk inzicht) drastisch verlagen, behoudt DTR de prestaties van het model bijna volledig.
- Op de MM-Vet benchmark vertoont DTR slechts verwaarloosbare degradatie en verbetert het zelfs de ruimtelijke bewustzijnsscore licht.
Inferentie-efficiëntie:
- DTR voegt minimale overhead toe (gemiddelde inferentietijd van ~4.01s vs. 3.65s voor de basis).
- Baselines zoals ShiftDC (die image-to-text gebruiken) zijn veel trager (~10.66s).
Adaptieve Aanvallen:
- Zelfs wanneer aanvallers proberen de token-importance te manipuleren, blijft DTR robuust door het fundamentele dilemma dat het creëert tussen het omzeilen van de beveiliging en het behouden van de semantische coherentie.

5. Betekenis en Toekomstperspectief

DTR markeert een belangrijke doorbraak in de beveiliging van multimodale foundation modellen. Het bewijst dat het optimaliseren van de interne representaties (KV caches) een krachtigere en efficiëntere verdediging kan zijn dan het toevoegen van extra lagen of het hertrainen van het model.

Praktische toepasbaarheid: Omdat het geen extra training vereist en lichtgewicht is, kan DTR direct worden ingezet in productieomgevingen.
Interpreteerbaarheid: Het vermogen om visuele tokens te visualiseren die de veiligheid beïnvloeden, biedt waardevolle inzichten voor ontwikkelaars en onderzoekers om de werking van VLM's beter te begrijpen.
Toekomstig werk: De auteurs suggereren dat deze aanpak kan worden uitgebreid naar nieuwere VLM's (zoals GPT-4o) en kan worden gecombineerd met andere verdedigingsframeworks.

Kortom, DTR biedt een elegante, efficiënte en effectieve oplossing voor een van de meest dringende veiligheidsuitdagingen in het veld van kunstmatige intelligentie.