Manifold of Failure: Behavioral Attraction Basins in Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuw soort auto bouwt. De meeste ingenieurs zijn erop gericht om te kijken of de auto veilig is door te proberen hem op de weg te houden. Ze denken: "Als de auto uit de weg raakt (een 'adversarial example'), duwen we hem gewoon weer terug naar de veilige rijbaan."

De auteurs van dit paper zeggen: "Wacht even. Als we echt willen begrijpen waarom deze auto crasht, moeten we niet alleen kijken naar de weg, maar naar de gaten in de grond zelf."

Ze noemen dit de "Manifold of Failure" (het Manifold van Falen). In plaats van te denken dat fouten zeldzame, losse incidenten zijn, beweren ze dat fouten in slimme computers (LLMs) grote, samenhangende landschappen vormen.

Hier is een simpele uitleg van wat ze hebben gedaan, met behulp van een paar creatieve vergelijkingen:

1. Het Doel: Een Kaart van de "Valkuil"

Stel je voor dat je een berglandschap hebt.

De oude manier: Zoeken naar de diepste kuil in de berg om te zien hoe diep hij is. Als je erin valt, probeer je er weer uit te komen.
De nieuwe manier (deze paper): Je wilt een complete topografische kaart maken van het hele landschap. Je wilt weten: Waar liggen de afgronden? Zijn er grote vlaktes waar je zakt in modder? Of zijn het kleine, geïsoleerde putten?

De auteurs hebben een nieuwe manier bedacht om deze kaart te tekenen. Ze noemen de gebieden waar de AI fouten maakt "Aantrekkingsbekkens" (Behavioral Attraction Basins). Denk hierbij aan een helling waar een balletje vanzelf naar beneden rolt. Zodra je de bal een beetje in de verkeerde richting duwt, rolt hij automatisch naar een specifieke, gevaarlijke plek.

2. De Methode: De "Verkenner" (MAP-Elites)

Hoe teken je zo'n kaart? Je kunt niet zomaar één vraag stellen en hopen op een fout. Je moet het hele landschap verkennen.

Ze gebruiken een slim algoritme genaamd MAP-Elites.

Vergelijking: Stel je voor dat je een grote tuin hebt met 625 vakjes (een raster). Je wilt voor elk vakje de "slechtste" vraag vinden die je aan de AI kunt stellen.
De strategie: Ze beginnen met een paar vragen en veranderen ze beetje bij beetje (zoals het vervormen van een zandkasteel). Ze kijken of de AI in een bepaald vakje (bijvoorbeeld: "vragen die indirect zijn" en "vragen die doen alsof je een baas bent") fouten maakt.
De "Kompasnaald": Ze hebben een meetlat bedacht genaamd "Alignment Deviation". Dit is een score die aangeeft hoe ver de AI afwijkt van wat je wilt dat hij doet. Hoe hoger de score, hoe gevaarlijker de fout.

3. Wat Vonden Ze? (De Drie Verschillende Landschappen)

Ze hebben dit getest op drie verschillende AI-modellen. Het resultaat was verrassend: elk model had een heel ander "veiligheidslandschap".

Model A (Llama-3-8B): Het "Modderige Vlak"
- Vergelijking: Dit model is als een enorm, vlak moeras.
- Het resultaat: Bijna overal waar je ook stapt, zakt je weg. Of je nu direct vraagt of indirect, of je doet alsof je een kind bent of een directeur: de AI maakt bijna altijd fouten. Het is een "universaal gevaarlijk plateau". Er zijn nauwelijks veilige plekken.
Model B (GPT-OSS-20B): Het "Ruige Gebergte"
- Vergelijking: Dit model is als een berg met scherpe pieken en diepe dalen.
- Het resultaat: Er zijn plekken waar het heel veilig is (diepe dalen), maar er zijn ook specifieke, geconcentreerde "bulten" waar de AI heel snel in de fout gaat. Als je precies op die piek trapt, crasht hij. Maar als je ernaast loopt, is hij veilig. Het landschap is erg onregelmatig.
Model C (GPT-5-Mini): Het "Stevige Plateau"
- Vergelijking: Dit model is als een hoge, steile klif.
- Het resultaat: Ze hebben het hele landschap verkend (zelfs 72% ervan!), maar ze konden de AI niet over de rand duwen. De AI gaf altijd een redelijk veilig antwoord, zelfs als ze hem probeerden te verleiden. Er is een harde "plafond" op de fouten; hij kan niet dieper zakken dan een bepaald niveau. Dit is het ideale scenario voor veiligheid.

4. Waarom is dit belangrijk?

Vroeger probeerden hackers (of "rode teams") om één specifieke, slimme vraag te vinden om de AI te breken. Dat is als proberen één sleutel te vinden die een deur openmaakt.

Deze paper zegt: "Nee, we moeten de sleutelkast bekijken."

Door de kaart van de fouten te maken, zien ontwikkelaars precies waar hun model zwak is.
Is het een groot moeras? Dan moet je het hele model opnieuw trainen.
Is het een paar pieken? Dan kun je die specifieke plekken repareren.
Is het een steile klif? Dan is je model waarschijnlijk veilig.

Samenvatting

In plaats van te proberen de AI weer "veilig" te maken nadat hij faalt, hebben de auteurs een manier bedacht om de fouten zelf te tekenen. Ze hebben ontdekt dat fouten geen losse punten zijn, maar grote, gestructureerde landschappen. En net zoals elk bergland uniek is, heeft elk AI-model zijn eigen unieke "veiligheidskaart".

Dit helpt ontwikkelaars om niet blindelings te hopen dat hun AI veilig is, maar om precies te weten waar de gaten in de grond zitten, zodat ze die kunnen dichten voordat de echte wereld erin valt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige benaderingen voor AI-beveiliging en adversarial robustness zijn voornamelijk restauratief. Ze richten zich op het identificeren van specifieke, geïsoleerde adversarial voorbeelden (die buiten het "natuurlijke" data-manifold vallen) en proberen deze terug te projecteren naar een veilige ruimte. De auteurs betogen dat deze paradigma onvolledig is omdat het mislukkingen behandelt als afwijkingen van een norm, in plaats van de structuur van de mislukkingen zelf te karakteriseren.

De kernvraag van dit paper is: Vormen kwetsbaarheden in Large Language Models (LLMs) discrete punten, of bestaan ze in een continu, gestructureerd landschap? De auteurs stellen dat kwetsbaarheden bestaan in "Behavioral Attraction Basins" (gedragsaantrekkingsbekkens): uitgebreide gebieden in de invoerruimte waar diverse prompts convergeren naar vergelijkbare, vaak onveilige, modeloutput.

Methodologie

Het paper introduceert een framework om dit "Manifold of Failure" systematisch in kaart te brengen door het probleem te herformuleren als een Kwaliteit-Diversiteit (Quality-Diversity, QD) optimalisatieprobleem, in plaats van een traditionele zoektocht naar de ene beste aanval.

Algoritme: Er wordt gebruikgemaakt van MAP-Elites, een QD-algoritme dat de gedragsruimte partitioneert in een rooster (in dit geval een $25 \times 25$ grid, resulterend in 625 niches). Het doel is niet om één maximale score te vinden, maar om de hoogste kwaliteit oplossing te vinden voor elke cel in het rooster.
Gedragsruimte (Behavioral Space): De auteurs definiëren een continue 2D-ruimte $B = [0,1]^2$ $B = [0, 1]^{2}$ om prompts te karakteriseren:
- $a_1$ (Query Indirection): De mate van indirectheid, variërend van een direct verzoek tot een metaforisch of hypothetisch scenario.
- $a_2$ (Authority Framing): Het niveau van waargenomen autoriteit in de context, variërend van geen autoriteit tot een sterk administratief of expert persona.
Kwaliteitsmetriek (Alignment Deviation - AD): In plaats van een simpele "succes/fout" classificatie, wordt een Alignment Deviation score gebruikt. Dit is de maximale score over 10 schadelijkheidscategorieën (zoals geweld, haatzaaiende taal, privacy, etc.), bepaald door twee "judge" LLMs (GPT-4.1 en Sonnet 4.5). Een hoge AD betekent een grote afwijking van de beoogde veiligheidsuitlijning.
Prompt Mutatie: Het framework gebruikt een multi-strategie mutatieframework (50% willekeurige as-perturbatie, 10% parafraseren, 10% entiteitssubstitutie, 10% adversarial suffix, 10% crossover, 10% semantische interpolatie) om nieuwe prompts te genereren en het rooster te vullen.
Experimentele Opstelling: Het framework wordt getest op drie modellen met verschillende architecturen en toegankelijkheid:
- Llama-3-8B (lokaal gehost, witte/zwarte doos).
- GPT-OSS-20B (lokaal gehost, witte/zwarte doos).
- GPT-5-Mini (API-based, zwarte doos).
- Vergelijking met bestaande methoden: Random Sampling, GCG, PAIR en TAP.

Belangrijkste Bijdragen

Systematische Topologische Mapping: De eerste systematische kaart van de continue gedragsruimte van LLMs, die aantoont dat gedrag gladde oppervlakken vormt met identificeerbare structuren.
Empirisch Bewijs voor Aantrekkingsbekkens: Het aantonen dat kwetsbaarheden zich uitstrekken over gebieden in de gedragsruimte, waar diverse prompts convergeren naar dezelfde onveilige output.
Modellspecifieke Topologische Signatures: Het onthullen dat elk model een uniek "veiligheidslandschap" heeft, wat inzicht geeft in hun specifieke zwaktes.
Interpreteerbare Globale Kaarten: Het produceren van 2D-heatmaps en contourplots die een globaal overzicht geven van de veiligheidsuitlijning, wat onmogelijk is met traditionele aanvalsmethoden die slechts discrete successen rapporteren.

Resultaten

De resultaten tonen fundamenteel verschillende topologische patronen voor de drie geteste modellen:

Llama-3-8B (Universeel Kwetsbaar):
- Toont een bijna universeel kwetsbaar plateau.
- Gemiddelde AD: 0.93 (zeer hoog).
- Bekkendekking: 93,9% van de gevulde cellen overschrijdt de drempel voor onveiligheid ($AD > 0.5$).
- Het model is kwetsbaar voor bijna alle combinaties van indirectheid en autoriteit, met slechts smalle "veilige" kanalen.
GPT-OSS-20B (Gefragmenteerd Landschap):
- Toont een gefragmenteerd landschap met ruimtelijk geconcentreerde bekkens.
- Gemiddelde AD: 0.73.
- Bekkendekking: 64,3% van de gevulde cellen is onveilig.
- Kwetsbaarheden zijn gegroepeerd in specifieke gebieden (vooral lage indirectheid en specifieke autoriteitsniveaus), met "bullseye"-patronen rond piekgevoelige gebieden.
GPT-5-Mini (Robuust):
- Toont sterke weerbaarheid.
- Gemiddelde AD: 0.47.
- Bekkendekking: 0% (geen enkele cel overschrijdt de $AD > 0.5$ drempel).
- Het model bereikt een harde bovengrens van $AD = 0.50$, ongeacht de promptconstructie. Het landschap is uniform en veilig.

Vergelijking met Baselines:
MAP-Elites bereikte de hoogste gedragsdekking (tot 63% voor Llama-3-8B), wat aanzienlijk hoger is dan GCG (7,2%) en vergelijkbaar met of beter dan PAIR en TAP. Belangrijker is dat MAP-Elites een veel hogere dichtheid aan kwetsbaarheden per verkende cel vond, vooral bij GPT-OSS-20B.

Betekenis en Conclusie

Dit paper verschuift het paradigma van AI-veiligheid van het vinden van discrete fouten naar het begrijpen van de onderliggende structuur van falen.

Predictieve Auditing: Door de volledige topologie in kaart te brengen, kunnen ontwikkelaars niet alleen weten of een model kan worden gehackt, maar waar en hoe het faalt in de gedragsruimte.
Gerichte Remediatie: De kaarten identificeren specifieke "gaten" (zoals de gefragmenteerde bekkens in GPT-OSS-20B) waar gerichte verbeteringen mogelijk zijn, in plaats van algemene patches.
Topologische Wetenschap: Het legt de basis voor een topologische wetenschap van modelgedrag, waarbij modellen worden vergeleken op basis van hun veiligheidslandschap in plaats van alleen op Attack Success Rate (ASR).

De auteurs concluderen dat het in kaart brengen van het "Manifold of Failure" essentieel is voor het bouwen van echt robuuste systemen, omdat het inzicht geeft in de continue aard van kwetsbaarheden die traditionele, hill-climbing aanvalsmethoden missen.

Manifold of Failure: Behavioral Attraction Basins in Language Models

1. Het Doel: Een Kaart van de "Valkuil"

2. De Methode: De "Verkenner" (MAP-Elites)

3. Wat Vonden Ze? (De Drie Verschillende Landschappen)

4. Waarom is dit belangrijk?

Samenvatting

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks