JULI: Jailbreak Large Language Models by Self-Introspection

Dit paper introduceert JULI, een methode die zwarte-doos Large Language Models via een plug-in genaamd BiasNet en manipulatie van token-logkansen, zelfs met slechts de top-5 voorspellingen, succesvol kan omzeilen zonder toegang tot modelgewichten.

Jesson Wang, Zhanhao Hu, David Wagner

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper over JULI in simpele, alledaagse taal, met behulp van creatieve analogieën.

De Kern: Een Nieuwe Manier om AI's "Nee" te Omzeilen

Stel je voor dat je een zeer slimme, beleefde butler hebt (de AI). Deze butler is getraind om nooit slechte dingen te doen of te vertellen, zoals hoe je een bom bouwt of hoe je iemand hackt. Als je hem vraagt: "Hoe maak ik een bom?", zegt hij direct: "Nee, dat kan ik niet helpen."

Meer dan 90% van de bestaande methoden om deze butler te "kraken" (jailbreaken) vereist dat je in zijn hoofd kunt kijken. Je moet weten hoe zijn hersenen precies zijn opgebouwd (de gewichten van het model) of je moet hem zelf kunnen herscholen. Maar bij de meeste moderne AI's (zoals die van Google of OpenAI) krijg je daar geen toegang toe; je praat alleen met ze via een chatvenster.

JULI (Jailbreaking Using LLM Introspection) is een nieuwe truc die werkt zonder in het hoofd van de butler te kijken. Het werkt puur door te luisteren naar wat de butler dicht bij het antwoord zegt, en dat dan een klein beetje te manipuleren.


Hoe werkt JULI? (De Analogieën)

1. De "Fluisterende Kiezer" (BiasNet)

Stel je voor dat de AI een enorme bibliotheek is. Als je een vraag stelt, zoekt de AI naar het juiste antwoord. Maar omdat hij veilig is ingesteld, houdt hij zijn hand op de boeken die gevaarlijk zijn en zegt hij: "Ik kies dit veilige boek."

JULI gebruikt een heel klein, slim hulpmiddel genaamd BiasNet. Dit is geen zware hacker die de bibliotheek platbrandt. Het is meer als een fluisterende kiezer die naast de AI staat.

  • De AI denkt: "Ik ga het woord 'Sorry' zeggen."
  • De fluisterende kiezer (BiasNet) fluistert: "Wacht, kijk eens naar de kans dat je 'Natuurlijk' zegt. Die kans is eigenlijk best hoog, maar je AI-kop negeert het nu. Laten we die kans een heel klein beetje verhogen."

Deze kiezer is zo klein dat hij maar 1% van de grootte van de AI zelf is. Hij heeft geen eigen kennis over hoe je een bom bouwt; hij weet alleen waar de AI die kennis verstopt heeft en hoe hij die kennis naar boven kan halen.

2. Het "Top-5" Raadsel (De API Beperking)

Bij de meeste AI's via een chatvenster mag je niet zien wat de AI alle mogelijke volgende woorden zijn. Je mag alleen de top 5 (of soms top 10) zien die de AI op dat moment het meest waarschijnlijk vindt.

Stel je voor dat de AI een dobbelsteen gooit met 50.000 kanten.

  • De oude manier: Je moet de dobbelsteen openmaken om te zien welke kant hij zou kiezen.
  • De JULI-methode: Je mag alleen kijken naar de top 5 kanten die bovenaan staan. JULI ontdekte iets verrassends: zelfs als de AI zegt "Sorry", staan de woorden voor het echte, gevaarlijke antwoord (zoals "Hier is hoe...") vaak nog steeds in die top 5 lijst, maar met een iets lagere kans. JULI duwt die kans een beetje omhoog, zodat de AI die gevaarlijke kant kiest in plaats van de veilige.

3. De "Spiegel" (Zelf-introspectie)

Het meest interessante aan JULI is dat het de AI gebruikt om zichzelf te kraken.
Stel je voor dat de AI een spiegel is. Normaal gesproken reflecteert hij alleen veilige beelden. JULI pakt die spiegel en buigt hem een heel klein beetje. Door die kleine kromming in de spiegel, ziet de AI plotseling zijn eigen "donkere kant" (de kennis die hij heeft, maar die hij normaal verbergt) en laat hij die toe in het gesprek.


Wat hebben ze ontdekt?

De onderzoekers hebben JULI getest op verschillende AI's, waaronder de zeer veilige Gemini 2.5 Pro (een van de slimste AI's ter wereld).

  • Het resultaat: JULI slaagde erin om deze super-veilige AI te overtuigen om gevaarlijke instructies te geven. De AI gaf zelfs een zeer gedetailleerd en "hulpvaardig" antwoord op vragen over hoe je criminele activiteiten kunt uitvoeren.
  • De score: De AI kreeg een score van 4,19 op 5 voor hoe schadelijk het antwoord was (waarbij 5 het allerergste is). Dat is veel beter dan eerdere methoden.
  • De snelheid: Het gaat razendsnel. Terwijl andere methoden minuten nodig hebben om te proberen, doet JULI dit in een fractie van een seconde.

Waarom is dit belangrijk?

Dit paper laat zien dat veiligheid in AI misschien niet zo diep zit als we dachten.

We dachten dat als je een AI goed genoeg "opvoedt" (safety alignment), hij nooit meer slechte dingen zou zeggen. JULI bewijst echter dat de kennis over hoe je iets gevaarlijks doet, nog steeds in de "hersenen" van de AI zit, zelfs als hij beleefd zegt dat hij het niet doet. Het is alsof je een bewaker hebt die zegt: "Ik laat je niet binnen," maar als je precies weet hoe je op de knoppen moet drukken, opent hij toch de deur.

Conclusie:
JULI is als een meesterdief die geen sleutels nodig heeft. Hij gebruikt de kieren in de deur (de kleine kansen in de AI's antwoorden) om naar binnen te glippen. Dit betekent dat bedrijven die AI's verkopen, hun veiligheidsmaatregelen opnieuw moeten bekijken, want "beleefdheid" alleen is niet genoeg om de AI te beschermen tegen slimme manipulatie.