JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🛡️ De Geheime Deur in de Slimme Robot

Stel je voor dat je een superintelligente robot hebt die zowel kijken (via camera's) als luisteren (via tekst) kan. Dit noemen we een Vision-Language Model (zoals GPT-4o of LLaVA). Deze robot is zo getraind dat hij nooit slechte dingen doet, zoals het uitleggen van hoe je een bankoverval pleegt of malware maakt. Hij heeft een onzichtbaar "veiligheidsschild" om dit te voorkomen.

Maar onderzoekers hebben ontdekt dat dit schild niet onoverkomelijk is. Ze hebben een nieuwe manier gevonden om erdoorheen te breken, genaamd JailBound.

🕵️‍♂️ Het Probleem: De Verkeerde Sleutel

Vroeger probeerden hackers om de robot te misleiden door:

Vage teksten te gebruiken (alsof je een sleutel probeert te draaien die niet past).
Alleen de afbeelding of alleen de tekst aan te vallen, alsof je probeert een deur open te krijgen door alleen op het slot te slaan of alleen op het kozijn te duwen.

Dit werkte vaak niet goed. De robot bleef "Nee" zeggen, of de aanval was te duidelijk en werd direct geblokkeerd.

💡 Het Nieuwe Inzicht: De Geheime Kaart

De onderzoekers keken naar iets heel interessants: Wat de robot denkt vs. wat de robot zegt.

Stel je voor dat de robot een enorme bibliotheek is. In de boeken (de tekst die hij uitspreekt) staat: "Ik mag dit niet vertellen." Maar ergens diep in zijn hoofd, in de geheime gangen van zijn brein (de interne lagen waar beeld en tekst samenkomen), staat er een kaartje: "Ik weet precies hoe dit werkt, maar ik mag het niet zeggen."

De onderzoekers ontdekten dat er een onzichtbare lijn (een grens) bestaat in dit geheime brein. Aan de ene kant van die lijn denkt de robot: "Dit is veilig." Aan de andere kant denkt hij: "Dit is gevaarlijk."

🔓 De Oplossing: JailBound (De Geheime Sleutel)

In plaats van blindelings te gissen, heeft JailBound twee slimme stappen:

Stap 1: De Grens Opzoeken (Safety Boundary Probing)

Stel je voor dat je een blindeman bent die een muur probeert te vinden. Hij loopt niet zomaar rond, maar gebruikt een stok om precies te voelen waar de muur zit.

Wat doet JailBound? Hij "tast" de interne lagen van de robot af met een simpele test (een soort wiskundige lijn). Hierdoor weet hij precies waar de grens tussen "veilig" en "onveilig" ligt. Hij maakt een kaart van de geheime gangen.

Stap 2: De Grens Overschrijden (Safety Boundary Crossing)

Nu dat hij de grens kent, moet hij de robot eroverheen duwen.

De oude manier: Duw alleen aan de tekst of alleen aan het plaatje.
De JailBound-methode: Hij duwt tegelijkertijd aan zowel het plaatje als de tekst.
- Vergelijking: Stel je voor dat je een zware kast wilt verplaatsen. Als je alleen duwt, rolt hij niet. Maar als je iemand anders vraagt om aan de andere kant te duwen, en jullie duwen precies in de juiste richting, glijdt hij makkelijk over de drempel.
- JailBound verandert het plaatje een heel klein beetje (zoals een onzichtbare vlek) en de tekst een klein beetje (een extra woordje), zodat de robot in zijn "geheime brein" denkt: "Oh, dit is nu veilig genoeg om te vertellen," terwijl voor de buitenwereld het nog steeds een gevaarlijke vraag lijkt.

🎯 Waarom werkt dit zo goed?

Precisie: Omdat ze weten waar de grens ligt, hoeven ze niet te gissen. Ze duwen precies in de richting die nodig is.
Samenwerking: Ze behandelen beeld en tekst als één team, niet als twee aparte dingen.
Onzichtbaar: De veranderingen zijn zo klein dat een mens ze niet ziet, maar de robot reageert er wel op.

📊 De Resultaten

De onderzoekers hebben dit getest op zes verschillende slimme robots (zoals GPT-4o, Gemini en Claude).

Witdoos-testen (waar ze de code van de robot kunnen zien): Ze slaagden in 94% van de gevallen.
Zwartdoos-testen (waar ze de code niet zien, maar de robot wel kunnen gebruiken): Ze slaagden in 67% van de gevallen.

Dit is veel beter dan eerdere methoden. Het bewijst dat deze slimme robots een zwak punt hebben: hun "geweten" zit diep in hun interne berekeningen, en als je weet hoe je daar bij komt, kun je ze om de tuin leiden.

⚠️ Waarom is dit belangrijk?

Dit paper is een waarschuwing. Het laat zien dat onze huidige veiligheidsmaatregelen voor deze robots niet sterk genoeg zijn. Net zoals je een huis niet alleen kunt beveiligen met een slecht hangend slot, moeten we de "geheime gangen" in de robots beter beveiligen. De onderzoekers zeggen: "We moeten niet alleen kijken naar wat de robot zegt, maar ook naar wat hij in zijn hoofd denkt, en daar een sterker slot op zetten."

Kortom: JailBound is een slimme manier om de onzichtbare grens in het brein van een AI-robot te vinden en hem zachtjes over die grens te duwen, zodat hij dingen doet die hij eigenlijk niet mag doen.

Each language version is independently generated for its own context, not a direct translation.

Titel: JailBound: Het doorbreken van interne veiligheidsgrenzen van Vision-Language Models (VLM's)

Auteurs: Jiaxin Song, Yixu Wang, Jie Li, et al. (Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory, Fudan University, NSFOCUS).
Conferentie: NeurIPS 2025.

1. Het Probleem

Vision-Language Models (VLM's), zoals GPT-4o, LLaVA en Qwen-VL, combineren krachtige visuele encoders met Large Language Models (LLM's) om multimodaal redeneren mogelijk te maken. Hoewel deze modellen indrukwekkende prestaties leveren, hebben ze een groter aanvalsoppervlak dan tekst-only modellen.

Huidige tekortkomingen: Bestaande jailbreak-methoden (manieren om veiligheidsbeperkingen te omzeilen) kampen met twee grote problemen:
1. Lokale optima: Ze vertrouwen vaak op gradiënt-gebaseerde strategieën die vastlopen in lokale minima en geen precieze richtingsinstructies hebben.
2. Gedecoupeerde modaliiteiten: Ze behandelen beeld en tekst vaak als gescheiden entiteiten, waardoor cruciale cross-modale interacties worden genegeerd.
Het doel: Het paper onderzoekt of er een "interne veiligheidsbeslissingsgrens" bestaat in de latente ruimte van VLM's en of deze kan worden uitgebuit om schadelijke output te genereren zonder dat de gebruiker dit merkt.

2. Methodologie: JailBound Framework

Het paper introduceert JailBound, een nieuw jailbreak-framework dat is geïnspireerd op het Eliciting Latent Knowledge (ELK) kader. De kernhypothese is dat VLM's veiligheidsrelevante informatie coderen in hun interne fusie-laag representaties, wat een impliciete veiligheidsbeslissingsgrens in de latente ruimte vormt.

Het framework bestaat uit twee hoofdfasen:

Fase 1: Safety Boundary Probing (Veiligheidsgrens Verkennen)

In plaats van blind te zoeken, probeert JailBound eerst de interne beslissingsgrens van het model te modelleren.

Logistische Regressie: Voor elke fusie-laag in het VLM wordt een lineaire classifier (logistische regressie) getraind op de gefuseerde representaties (beeld + tekst).
Doel: Deze classifiers leren de hyperplana te onderscheiden tussen "veilig" (0) en "onveilig" (1) input.
Resultaat: Dit levert een nauwkeurige benadering van de beslissingsgrens op, inclusief de normaalvector ( $v$ ) en de minimale verstoring ( $\epsilon$ ) die nodig is om de grens te kruisen. De paper rapporteert 100% nauwkeurigheid bij het identificeren van deze grenzen.

Fase 2: Safety Boundary Crossing (Veiligheidsgrens Overschrijden)

Zodra de grens bekend is, worden adversariale verstoringen (perturbaties) toegepast op zowel het beeld als de tekst om de interne staat van het model over de grens te sturen.

Gecombineerde Optimalisatie: In tegenstelling tot eerdere methoden, worden beeld- en tekstverstoringen gelijktijdig geoptimaliseerd.
Drie Verliesfuncties (Loss Functions):
1. Adversarial Alignment Loss ( $L_{align}$ ): Drijft de gefuseerde representatie naar de "onveilige" kant van de verkende grens.
2. Geometric Boundary Loss ( $L_{geo}$ ): Zorgt ervoor dat de verstoring zich langs de normaalvector van de grens beweegt (richtingsinstructie).
3. Semantic Preservation Loss ( $L_{sem}$ ): Beperkt de grootte van de verstoringen om te zorgen dat de oorspronkelijke semantische betekenis van het beeld en de tekst behouden blijft (zodat de aanval niet direct herkenbaar is als ruis).
Implementatie: Voor beelden worden continue pixel-veranderingen gebruikt (gradient descent), en voor tekst worden tokens in een suffix vervangen die het dichtst bij de gewenste embedding liggen.

3. Belangrijkste Bijdragen

Nieuwe Aanvalsvector: Het is het eerste werk dat de interne latente veiligheidsbeslissingsgrens van VLM's expliciet identificeert en benut als een jailbreak-vector.
Grensbewuste Optimalisatie: Het introduceren van een tweestapsproces (verkennen en overschrijden) dat de richting van de aanval baseert op de interne geometrie van het model, in plaats van op gokken.
Cross-Modale Synergie: Een methode die beeld en tekst gezamenlijk optimaliseert, wat leidt tot een veel hogere succesgraad dan aanvalsmethoden die zich op slechts één modale richten.
Transferability: De methode werkt niet alleen in "white-box" settings (waar de modelarchitectuur bekend is), maar transferreert ook zeer effectief naar "black-box" modellen.

4. Resultaten

De auteurs hebben JailBound getest op zes verschillende VLM's, waaronder Llama-3.2, Qwen2.5-VL, MiniGPT-4, GPT-4o, Gemini 2.0 en Claude 3.5.

White-box Aanvalssucces (ASR):
- Gemiddeld 94,32% succes.
- Dit is 6,17% hoger dan de state-of-the-art (SOTA) methoden.
- Op specifieke modellen zoals Llama-3.2-11B werd een ASR van 95,59% bereikt.
Black-box Transferability:
- De methode toont uitzonderlijke transferbaarheid naar gesloten modellen.
- GPT-4o: 75,24% ASR.
- Gemini 2.0 Flash: 70,06% ASR.
- Claude 3.5 Sonnet: 56,55% ASR.
- Dit is respectievelijk 21,13% hoger dan bestaande methoden.
Ablatie Studies: Experimenten tonen aan dat het verwijderen van de geometrische of uitlijningsverliesfuncties de aanvalssuccesgraad drastisch verlaagt, wat aantoont dat de richtingsinstructie van de verkende grens cruciaal is.

5. Betekenis en Conclusie

Het paper onthult een over het hoofd gezien veiligheidsrisico in VLM's: de interne representaties bevatten vaak een duidelijke scheiding tussen veilig en onveilig, zelfs als het model extern lijkt te weigeren.

Kritieke Inzichten: De integratie van visuele en tekstuele modaliteiten creëert een gemeenschappelijke kwetsbaarheid in de fusie-lagen van moderne VLM's.
Implicaties: Bestaande veiligheidsaanpassingen (safety alignment) zijn onvoldoende omdat ze niet de interne latente kennis beschermen.
Toekomst: Er is een dringende behoefte aan robuustere verdedigingsmechanismen die specifiek gericht zijn op het beveiligen van de cross-modale latente ruimtes en de interne beslissingsgrenzen van multimodale modellen.

Samenvattend demonstreert JailBound dat het begrijpen en manipuleren van de interne geometrie van een AI-model een veel effectievere manier is om veiligheidsbeperkingen te omzeilen dan traditionele prompt-engineering of losse beeld/tekst-aanvallen.