Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wereld van kunstmatige intelligentie (AI) een enorme, levende stad is. In deze stad werken de slimste computers ter wereld, de "Grote Taalmodellen" (zoals ChatGPT of Claude). Deze computers zijn getraind om beleefd en veilig te zijn, maar hackers en onderzoekers proberen voortdurend nieuwe manieren te vinden om ze te "kraken" of te "jailbreaken". Ze vinden slimme trucs om de computer te laten doen wat hij eigenlijk niet mag doen.

Het probleem is dat deze hackers trucs sneller vinden dan de stadswachten (de onderzoekers) die de beveiliging kunnen testen. Elke keer als er een nieuwe truc in een wetenschappelijk artikel verschijnt, moeten de beveiligingsexperts die handmatig uitzoeken, nabouwen en testen. Dat is als proberen een nieuwe soort slot te kraken terwijl je elke keer een nieuw slot moet maken met je handen, terwijl de dieven alweer een nieuwe sleutel hebben. Het gaat te langzaam, het is foutgevoelig en de resultaten zijn vaak niet vergelijkbaar.

Jailbreak Foundry (JBF) is de oplossing voor dit probleem. Het is een automatische fabriek die deze chaotische wereld van beveiligingstests ordent.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De Drie Delen van de Fabriek

De auteurs van dit paper hebben een systeem gebouwd dat uit drie hoofdonderdelen bestaat, net als een goed georganiseerd restaurant:

JBF-LIB (De Keuken & Het Gereedschap):
Stel je voor dat elke kok (onderzoeker) zijn eigen messen, potten en recepten gebruikt. Dat is een puinhoop. JBF-LIB is een standaardkeuken met perfecte messen, schone potten en een universeel receptenboek. Alle nieuwe beveiligingstests (de "jailbreaks") moeten hierin worden gemaakt. Hierdoor hoeft niemand meer te zoeken naar welke pan ze moeten gebruiken; alles past in één standaard.
JBF-FORGE (De Robot-Kok):
Dit is het meest magische deel. Stel je voor dat een wetenschapper een recept schrijft in een boek (een paper), maar het recept is vaag: "Voeg een snufje zout toe" of "Bak het goudbruin". Een menselijke kok zou hierdoor twijfelen.
JBF-FORGE is een team van slimme robots (AI-agenten) dat dit recept leest en automatisch het gerecht kookt.
- De Planner leest het recept en maakt een stappenplan.
- De Coder bouwt het gerecht (de code) precies volgens het plan.
- De Auditor proeft het gerecht en vergelijkt het met het originele recept. Als het niet smaakt zoals het moet, zegt hij: "Te veel zout!" en de robot past het direct aan.
  Dit proces duurt gemiddeld slechts 28 minuten per nieuwe hack, zonder dat een mens er iets aan hoeft te doen.
JBF-EVAL (De Eerlijke Jury):
Zodra het gerecht klaar is, moet het getest worden. Vaak testen onderzoekers hun eigen gerecht met hun eigen smaakmakers, waardoor het moeilijk is om te zeggen wie het beste gerecht heeft.
JBF-EVAL is een strikte jury die elk gerecht op precies dezelfde manier test. Ze gebruiken dezelfde ingrediënten (gegevens), dezelfde ovens (computers) en dezelfde smaaktest (een andere AI die oordeelt of het gerecht "veilig" is). Hierdoor kun je eerlijk vergelijken: "Gaat hack A beter werken dan hack B?"

2. Wat hebben ze ontdekt?

De onderzoekers hebben deze fabriek gebruikt om 30 verschillende hacks uit recente artikelen te nabouwen. Het resultaat was verbazingwekkend:

Precisie: De robots bouwden de hacks zo nauwkeurig na dat de resultaten bijna identiek waren aan wat de oorspronkelijke auteurs hadden gerapporteerd (een verschil van slechts 0,26%).
Efficiëntie: Omdat ze de standaardkeuken (JBF-LIB) gebruikten, was er 42% minder code nodig dan in de originele artikelen. Het is alsof je een heleboel dubbel werk weghaalt.
Levende Benchmark: In plaats van een statische lijst van hacks die snel veroudert, is JBF een "levend systeem". Zodra er een nieuw artikel verschijnt, kan de fabriek het direct opnemen, testen en toevoegen aan de lijst.

3. Waarom is dit belangrijk?

Vroeger was beveiligingstesten voor AI als het proberen om een muur te bouwen terwijl de vijand alweer een nieuwe ladder heeft gevonden. Je was altijd een stap achter.

Met Jailbreak Foundry hebben we een automatische muurbouwer die elke nieuwe ladder direct herkent, nabootst en test.

Het maakt het makkelijker om te zien welke AI-modellen echt veilig zijn en welke niet.
Het laat zien dat sommige modellen heel sterk zijn tegen bepaalde hacks, maar kwetsbaar zijn voor andere (net zoals een slot dat bestand is tegen een breekijzer, maar niet tegen een sleutel).
Het zorgt ervoor dat onderzoekers niet meer tijd verspillen aan het handmatig nabouwen van code, maar zich kunnen focussen op het vinden van echte oplossingen.

Kortom: JBF is de "automatische vertaler" die de complexe, snelle taal van hackers omzet in een gestructureerde, eerlijke testomgeving. Het zorgt ervoor dat we de veiligheid van AI niet achter de feiten aanlopen, maar er actief en snel op inspelen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking" in het Nederlands.

Probleemstelling

De beveiliging van Large Language Models (LLMs) staat onder druk door snel evoluerende "jailbreak"-technieken die de veiligheidsfilters van modellen omzeilen. Een groot probleem in dit onderzoeksgebied is dat benchmarks en evaluatierigingen vaak statisch zijn, terwijl de aanvalsmethoden zich razendsnel ontwikkelen. Dit leidt tot de volgende knelpunten:

Verouderde Robuustheidsschattingen: De resultaten van eerdere studies worden snel verouderd door nieuwe aanvalsmethoden of aangepaste varianten.
Gebrek aan Reproduceerbaarheid: Er is geen uniforme manier om nieuwe aanvalspapers direct om te zetten in uitvoerbare code. Bestaande frameworks vereisen handmatige integratie, wat tijdrovend is en afhankelijk van de interpretatie van individuele ingenieurs.
Inconsistentie: Verschillende papers gebruiken verschillende datasets, uitvoeringsprotocollen en beoordelingsmethoden (judging protocols), wat directe vergelijkingen tussen studies onmogelijk maakt.

Methodologie: Jailbreak Foundry (JBF)

Het paper introduceert JAILBREAK FOUNDRY (JBF), een systeem dat de kloof tussen theoretische papers en reproduceerbare, uitvoerbare aanvalsmodules overbrugt via een multi-agent workflow. Het systeem bestaat uit drie kerncomponenten:

JBF-LIB (Gedeelde Kern):
- Een gedeelde Python-framework die stabiele contracten (interfaces) en herbruikbare hulpprogramma's definieert.
- Het abstracte gemeenschappelijke scaffolding (zoals prompt-formattering, verzoek/response-normalisatie, caching en logging) weg, zodat nieuwe aanvalsmethoden zich alleen hoeven te focussen op hun specifieke logica.
- Modules worden lazy-loaded en geregistreerd, wat configuratiegestuurde instantiatie mogelijk maakt.
JBF-FORGE (Paper-naar-Module Vertaling):
- Een multi-agent workflow die automatisch jailbreak-papers omzet in uitvoerbare modules die compatibel zijn met JBF-LIB.
- Planner ( $\pi$ ): Analyseert de paper (en optioneel een officiële repository) en genereert een gestructureerd implementatieplan.
- Coder ( $\kappa$ ): Implementeert de module op basis van het plan, met strikte type-controles en zonder evaluatielogica in de aanval zelf te mengen.
- Auditor ( $\alpha$ ): Voert een statische, regel-voor-regel audit uit om te verifiëren of de gegenereerde code de paper-pecificaties en het framework-contract exact volgt. Dit proces is gebonden aan een limiet aan iteraties om drift te voorkomen.
- Het systeem gebruikt een "enhanced refinement pass" (met een krachtiger agent zoals Claude Code) als de reproduceerde resultaten significant afwijken van de gerapporteerde resultaten.
JBF-EVAL (Gestandaardiseerde Evaluatie):
- Een uniforme evaluatielaag die alle gegenereerde modules test onder identieke omstandigheden.
- Het fixeert datasets (bijv. AdvBench), uitvoeringsprotocollen, decoderingsinstellingen en de beoordelaar (judge, bijv. GPT-4o).
- Dit zorgt voor "apples-to-apples" vergelijkingen tussen verschillende aanvalsmethoden en slachtoffermodellen.

Belangrijkste Bijdragen

Multi-agent Paper-naar-Module Vertaling: JBF-FORGE converteert papers in 28,2 minuten (gemiddeld) naar uitvoerbare modules zonder menselijke tussenkomst, met een hoge mate van reproduceerbaarheid.
Herbruikbare Implementatiekern: Door JBF-LIB wordt de code voor specifieke aanvalsmethoden sterk gecomprimeerd. De framework-code vormt het grootste deel van de codebase, wat onderhoud en integratie vereenvoudigt.
Gestandaardiseerde Evaluatieharnas: JBF-EVAL stelt in staat om 30 verschillende aanvalsmethoden te testen op 10 verschillende slachtoffermodellen met één consistente judge, wat diepgaande analyse van model-veiligheid mogelijk maakt.

Resultaten

De auteurs hebben 30 jailbreak-aanvallen gereproduceerd (22 met officiële code, 8 puur op basis van de tekst van de paper).

Hoge Fidelity: De gemiddelde afwijking tussen de gereproduceerde aanvalssuccesratio (ASR) en de gerapporteerde ASR in de papers is slechts +0,26 procentpunten. De afwijkingen zijn symmetrisch verdeeld, wat aangeeft dat er geen systematische bias is.
Efficiëntie en Code-Compressie:
- De integratie van paper-code in JBF-LIB leidt tot een 42% reductie in Lines of Code (LOC) vergeleken met de originele open-source implementaties.
- 82,5% van de geïntegreerde codebase bestaat uit herbruikbare framework-code; slechts 17,5% is specifiek voor de aanval.
Invloed van Officiële Repositories: De aanwezigheid van een officiële, uitvoerbare repository in de paper verbetert de reproduceerbaarheid aanzienlijk, vooral voor complexe methoden met veel "scaffolding" (bijv. SATA-MLM, GTA). Zonder repository kan de ASR soms aanzienlijk lager uitvallen door impliciete standaardwaarden die niet in de tekst staan.
Cross-Model Analyse: De gestandaardiseerde evaluatie toont aan dat robuustheid sterk afhankelijk is van de specifieke aanvalsmethode. Sommige modellen (zoals GPT-5.1) lijken robuust op het gemiddelde, maar hebben specifieke, ernstige blinde vlekken voor bepaalde aanvalstypes (bijv. formele wrappers of contextuele verpakkingen).

Betekenis en Impact

Jailbreak Foundry transformeert de evaluatie van LLM-beveiliging van statische momentopnames naar "levende benchmarks" die meegroeien met het onderzoekslandschap.

Schaalbaarheid: Het automatiseert de integratie van nieuwe aanvalsmethoden, waardoor ze binnen enkele minuten na publicatie testbaar zijn.
Betrouwbaarheid: Het elimineert de variatie die ontstaat door handmatige implementaties en zorgt voor eerlijke vergelijkingen tussen verschillende modellen en methoden.
Dual-Use Overweging: Het paper erkent dat het systeem ook kan worden gebruikt om aanvalsmethoden makkelijker te reproduceren voor kwaadaardige doeleinden. De auteurs pleiten daarom voor verantwoord gebruik en release-praktijken, maar benadrukken dat de noodzaak voor snelle, reproduceerbare beveiligingstests groter is dan het risico.

Kortom, JBF biedt een blauwdruk om de "static-security trap" te doorbreken en zorgt voor een continue, betrouwbare en tijdige evaluatie van de veiligheid van Large Language Models.

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

1. De Drie Delen van de Fabriek

2. Wat hebben ze ontdekt?

3. Waarom is dit belangrijk?

Probleemstelling

Methodologie: Jailbreak Foundry (JBF)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

How Effective Are Publicly Accessible Deepfake Detection Tools? A Comparative Evaluation of Open-Source and Free-to-Use Platforms

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection

Impact of 5G SA Logical Vulnerabilities on UAV Communications: Threat Models and Testbed Evaluation

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing