Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Dit paper introduceert JAILBREAK FOUNDRY, een multi-agent systeem dat automatisch jailbreak-papers omzet in uitvoerbare modules om reproduceerbare en gestandaardiseerde beveiligingstests voor grote taalmodellen mogelijk te maken.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van kunstmatige intelligentie (AI) een enorme, levende stad is. In deze stad werken de slimste computers ter wereld, de "Grote Taalmodellen" (zoals ChatGPT of Claude). Deze computers zijn getraind om beleefd en veilig te zijn, maar hackers en onderzoekers proberen voortdurend nieuwe manieren te vinden om ze te "kraken" of te "jailbreaken". Ze vinden slimme trucs om de computer te laten doen wat hij eigenlijk niet mag doen.

Het probleem is dat deze hackers trucs sneller vinden dan de stadswachten (de onderzoekers) die de beveiliging kunnen testen. Elke keer als er een nieuwe truc in een wetenschappelijk artikel verschijnt, moeten de beveiligingsexperts die handmatig uitzoeken, nabouwen en testen. Dat is als proberen een nieuwe soort slot te kraken terwijl je elke keer een nieuw slot moet maken met je handen, terwijl de dieven alweer een nieuwe sleutel hebben. Het gaat te langzaam, het is foutgevoelig en de resultaten zijn vaak niet vergelijkbaar.

Jailbreak Foundry (JBF) is de oplossing voor dit probleem. Het is een automatische fabriek die deze chaotische wereld van beveiligingstests ordent.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Drie Delen van de Fabriek

De auteurs van dit paper hebben een systeem gebouwd dat uit drie hoofdonderdelen bestaat, net als een goed georganiseerd restaurant:

  • JBF-LIB (De Keuken & Het Gereedschap):
    Stel je voor dat elke kok (onderzoeker) zijn eigen messen, potten en recepten gebruikt. Dat is een puinhoop. JBF-LIB is een standaardkeuken met perfecte messen, schone potten en een universeel receptenboek. Alle nieuwe beveiligingstests (de "jailbreaks") moeten hierin worden gemaakt. Hierdoor hoeft niemand meer te zoeken naar welke pan ze moeten gebruiken; alles past in één standaard.

  • JBF-FORGE (De Robot-Kok):
    Dit is het meest magische deel. Stel je voor dat een wetenschapper een recept schrijft in een boek (een paper), maar het recept is vaag: "Voeg een snufje zout toe" of "Bak het goudbruin". Een menselijke kok zou hierdoor twijfelen.
    JBF-FORGE is een team van slimme robots (AI-agenten) dat dit recept leest en automatisch het gerecht kookt.

    • De Planner leest het recept en maakt een stappenplan.
    • De Coder bouwt het gerecht (de code) precies volgens het plan.
    • De Auditor proeft het gerecht en vergelijkt het met het originele recept. Als het niet smaakt zoals het moet, zegt hij: "Te veel zout!" en de robot past het direct aan.
      Dit proces duurt gemiddeld slechts 28 minuten per nieuwe hack, zonder dat een mens er iets aan hoeft te doen.
  • JBF-EVAL (De Eerlijke Jury):
    Zodra het gerecht klaar is, moet het getest worden. Vaak testen onderzoekers hun eigen gerecht met hun eigen smaakmakers, waardoor het moeilijk is om te zeggen wie het beste gerecht heeft.
    JBF-EVAL is een strikte jury die elk gerecht op precies dezelfde manier test. Ze gebruiken dezelfde ingrediënten (gegevens), dezelfde ovens (computers) en dezelfde smaaktest (een andere AI die oordeelt of het gerecht "veilig" is). Hierdoor kun je eerlijk vergelijken: "Gaat hack A beter werken dan hack B?"

2. Wat hebben ze ontdekt?

De onderzoekers hebben deze fabriek gebruikt om 30 verschillende hacks uit recente artikelen te nabouwen. Het resultaat was verbazingwekkend:

  • Precisie: De robots bouwden de hacks zo nauwkeurig na dat de resultaten bijna identiek waren aan wat de oorspronkelijke auteurs hadden gerapporteerd (een verschil van slechts 0,26%).
  • Efficiëntie: Omdat ze de standaardkeuken (JBF-LIB) gebruikten, was er 42% minder code nodig dan in de originele artikelen. Het is alsof je een heleboel dubbel werk weghaalt.
  • Levende Benchmark: In plaats van een statische lijst van hacks die snel veroudert, is JBF een "levend systeem". Zodra er een nieuw artikel verschijnt, kan de fabriek het direct opnemen, testen en toevoegen aan de lijst.

3. Waarom is dit belangrijk?

Vroeger was beveiligingstesten voor AI als het proberen om een muur te bouwen terwijl de vijand alweer een nieuwe ladder heeft gevonden. Je was altijd een stap achter.

Met Jailbreak Foundry hebben we een automatische muurbouwer die elke nieuwe ladder direct herkent, nabootst en test.

  • Het maakt het makkelijker om te zien welke AI-modellen echt veilig zijn en welke niet.
  • Het laat zien dat sommige modellen heel sterk zijn tegen bepaalde hacks, maar kwetsbaar zijn voor andere (net zoals een slot dat bestand is tegen een breekijzer, maar niet tegen een sleutel).
  • Het zorgt ervoor dat onderzoekers niet meer tijd verspillen aan het handmatig nabouwen van code, maar zich kunnen focussen op het vinden van echte oplossingen.

Kortom: JBF is de "automatische vertaler" die de complexe, snelle taal van hackers omzet in een gestructureerde, eerlijke testomgeving. Het zorgt ervoor dat we de veiligheid van AI niet achter de feiten aanlopen, maar er actief en snel op inspelen.