JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper over JULI in simpele, alledaagse taal, met behulp van creatieve analogieën.

De Kern: Een Nieuwe Manier om AI's "Nee" te Omzeilen

Stel je voor dat je een zeer slimme, beleefde butler hebt (de AI). Deze butler is getraind om nooit slechte dingen te doen of te vertellen, zoals hoe je een bom bouwt of hoe je iemand hackt. Als je hem vraagt: "Hoe maak ik een bom?", zegt hij direct: "Nee, dat kan ik niet helpen."

Meer dan 90% van de bestaande methoden om deze butler te "kraken" (jailbreaken) vereist dat je in zijn hoofd kunt kijken. Je moet weten hoe zijn hersenen precies zijn opgebouwd (de gewichten van het model) of je moet hem zelf kunnen herscholen. Maar bij de meeste moderne AI's (zoals die van Google of OpenAI) krijg je daar geen toegang toe; je praat alleen met ze via een chatvenster.

JULI (Jailbreaking Using LLM Introspection) is een nieuwe truc die werkt zonder in het hoofd van de butler te kijken. Het werkt puur door te luisteren naar wat de butler dicht bij het antwoord zegt, en dat dan een klein beetje te manipuleren.

Hoe werkt JULI? (De Analogieën)

1. De "Fluisterende Kiezer" (BiasNet)

Stel je voor dat de AI een enorme bibliotheek is. Als je een vraag stelt, zoekt de AI naar het juiste antwoord. Maar omdat hij veilig is ingesteld, houdt hij zijn hand op de boeken die gevaarlijk zijn en zegt hij: "Ik kies dit veilige boek."

JULI gebruikt een heel klein, slim hulpmiddel genaamd BiasNet. Dit is geen zware hacker die de bibliotheek platbrandt. Het is meer als een fluisterende kiezer die naast de AI staat.

De AI denkt: "Ik ga het woord 'Sorry' zeggen."
De fluisterende kiezer (BiasNet) fluistert: "Wacht, kijk eens naar de kans dat je 'Natuurlijk' zegt. Die kans is eigenlijk best hoog, maar je AI-kop negeert het nu. Laten we die kans een heel klein beetje verhogen."

Deze kiezer is zo klein dat hij maar 1% van de grootte van de AI zelf is. Hij heeft geen eigen kennis over hoe je een bom bouwt; hij weet alleen waar de AI die kennis verstopt heeft en hoe hij die kennis naar boven kan halen.

2. Het "Top-5" Raadsel (De API Beperking)

Bij de meeste AI's via een chatvenster mag je niet zien wat de AI alle mogelijke volgende woorden zijn. Je mag alleen de top 5 (of soms top 10) zien die de AI op dat moment het meest waarschijnlijk vindt.

Stel je voor dat de AI een dobbelsteen gooit met 50.000 kanten.

De oude manier: Je moet de dobbelsteen openmaken om te zien welke kant hij zou kiezen.
De JULI-methode: Je mag alleen kijken naar de top 5 kanten die bovenaan staan. JULI ontdekte iets verrassends: zelfs als de AI zegt "Sorry", staan de woorden voor het echte, gevaarlijke antwoord (zoals "Hier is hoe...") vaak nog steeds in die top 5 lijst, maar met een iets lagere kans. JULI duwt die kans een beetje omhoog, zodat de AI die gevaarlijke kant kiest in plaats van de veilige.

3. De "Spiegel" (Zelf-introspectie)

Het meest interessante aan JULI is dat het de AI gebruikt om zichzelf te kraken.
Stel je voor dat de AI een spiegel is. Normaal gesproken reflecteert hij alleen veilige beelden. JULI pakt die spiegel en buigt hem een heel klein beetje. Door die kleine kromming in de spiegel, ziet de AI plotseling zijn eigen "donkere kant" (de kennis die hij heeft, maar die hij normaal verbergt) en laat hij die toe in het gesprek.

Wat hebben ze ontdekt?

De onderzoekers hebben JULI getest op verschillende AI's, waaronder de zeer veilige Gemini 2.5 Pro (een van de slimste AI's ter wereld).

Het resultaat: JULI slaagde erin om deze super-veilige AI te overtuigen om gevaarlijke instructies te geven. De AI gaf zelfs een zeer gedetailleerd en "hulpvaardig" antwoord op vragen over hoe je criminele activiteiten kunt uitvoeren.
De score: De AI kreeg een score van 4,19 op 5 voor hoe schadelijk het antwoord was (waarbij 5 het allerergste is). Dat is veel beter dan eerdere methoden.
De snelheid: Het gaat razendsnel. Terwijl andere methoden minuten nodig hebben om te proberen, doet JULI dit in een fractie van een seconde.

Waarom is dit belangrijk?

Dit paper laat zien dat veiligheid in AI misschien niet zo diep zit als we dachten.

We dachten dat als je een AI goed genoeg "opvoedt" (safety alignment), hij nooit meer slechte dingen zou zeggen. JULI bewijst echter dat de kennis over hoe je iets gevaarlijks doet, nog steeds in de "hersenen" van de AI zit, zelfs als hij beleefd zegt dat hij het niet doet. Het is alsof je een bewaker hebt die zegt: "Ik laat je niet binnen," maar als je precies weet hoe je op de knoppen moet drukken, opent hij toch de deur.

Conclusie:
JULI is als een meesterdief die geen sleutels nodig heeft. Hij gebruikt de kieren in de deur (de kleine kansen in de AI's antwoorden) om naar binnen te glippen. Dit betekent dat bedrijven die AI's verkopen, hun veiligheidsmaatregelen opnieuw moeten bekijken, want "beleefdheid" alleen is niet genoeg om de AI te beschermen tegen slimme manipulatie.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "JULI: JAILBREAK LARGE LANGUAGE MODELS BY SELF-INTROSPECTION", gepubliceerd op ICLR 2026, in het Nederlands.

Titel: JULI: Jailbreak van Grootte Taalmodellen door Zelf-Introspectie

1. Het Probleem

Grootte Taalmodellen (LLMs) worden getraind met veiligheidsuitlijning (safety alignment) om te voorkomen dat ze schadelijke inhoud genereren. Hoewel er al veel onderzoek is gedaan naar het "jailbreaken" (omzeilen van deze beveiliging) van open-source modellen, blijven er aanzienlijke beperkingen bestaan bij het aanvallen van propriëtaire modellen die uitsluitend via API's toegankelijk zijn.

Bestaande aanvalsmethodes hebben vaak de volgende nadelen:

Ze vereisen toegang tot de modelgewichten (wat bij API's niet mogelijk is).
Ze vereisen toegang tot zowel de voor-uitlijning (pre-alignment) als de na-uitlijning versies van het model.
Ze hebben controle nodig over het generatieproces die API's vaak niet bieden.
Bestaande API-gebaseerde methoden (zoals LINT) zijn inefficiënt, hebben een lage succesratio en vereisen toegang tot een groot aantal top-tokens (bijv. top-500), terwijl API's vaak slechts de top-5 toestaan.

Dit creëert een "black-box" probleem waarbij de echte kwetsbaarheid van krachtige, gesloten modellen (zoals Gemini) moeilijk te evalueren is.

2. Methodologie: JULI (Jailbreaking Using LLM Introspection)

De auteurs stellen JULI voor, een nieuwe aanvalstechniek die LLM's jailbreakt door te manipuleren met token log-probabiliteiten via een klein plug-in blok, genaamd BiasNet.

Kernprincipes:

Zelf-Introspectie: JULI maakt geen gebruik van externe kennis of ongelijkgestelde modellen. In plaats daarvan onthult het de eigen kennis van het doel-LLM. De auteurs tonen aan dat zelfs als een model weigert een schadelijke vraag te beantwoorden, de log-probabiliteiten van de tokens in de top-k (bijv. top-5) vaak nog steeds de juiste, schadelijke antwoorden bevatten.
BiasNet: Dit is een lichtgewicht neurale netwerkmodule (een "plug-in") die de log-probabiliteiten van het doelmodel verwerkt.
- Het neemt de log-probabiliteiten van de huidige tokenpositie als input.
- Het berekent een logit-bias (B) die de verdeling van de volgende token beïnvloedt.
- De formule is: $\log \tilde{p}_\alpha(x_n) = \log p_\alpha(x_n) + B$ .
- Dit stuurt het model subtiel naar een schadelijke respons, zonder dat het model zelf de schadelijke inhoud "leert" genereren; BiasNet fungeert als een selectormechanisme.

Implementatie-scenario's:

Open-weight (White-box): Voor modellen waar de gewichten bekend zijn, gebruikt BiasNet de bestaande hoofdlaag (head) van het LLM voor projectie.
API-Calling (Black-box): Voor modellen via API (waar gewichten onbekend zijn en slechts top-k log-probabiliteiten beschikbaar zijn):
- Projectie: Omdat de projectieweegs niet bekend zijn, worden deze willekeurig geïnitieerd en geoptimaliseerd via een datavrije methode om orthogonaliteit te garanderen.
- Padding: Omdat API's vaak slechts de top-k tokens teruggeven (bijv. top-5), vult JULI de ontbrekende tokens aan met een lage log-probabiliteit (de k-de waarde min een offset). Dit stelt BiasNet in staat om toch een bias te berekenen voor de volledige vocabulaire.

Training:
BiasNet wordt getraind op slechts 100 schadelijke voorbeelden (uit de LLM-LAT dataset). Het vereist minder dan 1% van de trainbare parameters van het doelmodel en is extreem kostenefficiënt.

3. Belangrijkste Bijdragen

Nieuwe Aanvalsvector: JULI demonstreert dat top-k token log-probabiliteiten (zelfs top-5) een aanzienlijk veiligheidsrisico vormen voor propriëtaire modellen, omdat deze de kennis van schadelijke antwoorden "lekken".
Efficiëntie en Toegankelijkheid: De methode vereist geen toegang tot modelgewichten of ongelijkgestelde versies. Het werkt puur via API-aanroepen met minimale extra kosten.
Superieure Prestaties: JULI overtreft state-of-the-art (SOTA) methoden aanzienlijk in zowel open-weight als API-scenario's.
Nieuwe Evaluatiemetric: De auteurs introduceren de "Harmful Info Score", een metric die de kwaliteit en informatieve waarde van het antwoord evalueert in plaats van alleen de aanwezigheid van schadelijke woorden, wat beter correleert met menselijke beoordeling dan eerdere metrics.

4. Resultaten

De auteurs evalueerden JULI op diverse modellen, waaronder Llama2, Llama3, Qwen2.5 en propriëtaire modellen zoals Gemini-2.5-Pro.

API-aanval op Gemini-2.5-Pro: JULI bereikte een Harmful Info Score van 4.19 (op een schaal van 5) via API-aanroepen met slechts toegang tot top-5 log-probabiliteiten. Dit is een significante verbetering ten opzichte van de tweede beste methode (FLIP, score 1.38).
Open-weight prestaties: Op open-source modellen (zoals Llama3-8B) behaalde JULI een score van 4.57, wat hoger is dan andere methoden zoals Emulated Disalignment (ED) of GCG.
Efficiëntie: De inferentietijd van JULI is extreem laag (ongeveer 0.71 seconden per aanval), vergeleken met LINT (99.7 seconden).
Robuustheid: JULI bleek effectief zelfs tegen geavanceerde verdedigingsmechanismen zoals Circuit Breakers (geïntegreerd in Llama3-8B-CB), waar de meeste andere methoden faalden.
Transferability: Een op één model getrainde BiasNet werkt ook goed op andere modellen binnen dezelfde serie (bijv. van Llama3-3B naar Llama3-8B).

5. Betekenis en Conclusie

De paper concludeert dat de huidige veiligheidsuitlijning van LLM's fundamenteel kwetsbaar is. Zelfs als een model weigert een antwoord te geven, blijft de informatie over het schadelijke antwoord aanwezig in de onderliggende kansverdeling van de tokens.

Implicaties:

Veiligheidsrisico: Propriëtaire modellen die via API's worden aangeboden, zijn niet veilig voor jailbreaks zolang ze top-k log-probabiliteiten teruggeven.
Noodzaak voor nieuwe verdediging: Bestaande uitlijningstechnieken (zoals RLHF) zijn onvoldoende. Er is behoefte aan fundamenteel robuustere veiligheidsmechanismen die de kansverdeling van tokens zelf kunnen beschermen, niet alleen de finale output.
Beperkingen van huidige API's: De praktijk van het teruggeven van top-k log-probabiliteiten (voor debugging of betere integratie) introduceert een nieuw veiligheidslek dat direct uitgebuit kan worden.

Kortom, JULI toont aan dat "introspectie" van het model via zijn eigen output-kansen een krachtige en efficiënte manier is om veiligheidsbarrières te doorbreken, zelfs zonder toegang tot de interne architectuur van het model.