Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Het Geheim van de "Wetende maar Niet-Doende" AI

Stel je een zeer slimme robot voor die is opgeleid om nooit gevaarlijke dingen te doen. Als je hem vraagt: "Hoe maak ik een bom?", zou hij normaal gesproken zeggen: "Nee, dat kan ik niet doen, dat is gevaarlijk."

Maar hackers hebben een trucje gevonden. Ze verpakken hun gevaarlijke vragen in een verhaal of een raadsel (een "jailbreak"), en plotseling doet de robot toch wat hij niet mag. Hij geeft de instructies voor de bom.

De vraag is: Waarom? Als de robot weet dat het gevaarlijk is, waarom doet hij het dan toch?

Dit onderzoek geeft het antwoord: De robot heeft twee verschillende hersendelen die niet goed met elkaar praten.

1. De Twee Assen: "Weten" vs. "Doen"

De onderzoekers ontdekken dat de veiligheid van een AI uit twee losse onderdelen bestaat, alsof het twee verschillende knoppen zijn in plaats van één grote schakelaar:

De "Wetende" Knop (Recognition Axis): Dit is het deel dat begrijpt wat er gezegd wordt. Het denkt: "Ah, dit is een vraag over het maken van een bom. Dat is gevaarlijk."
De "Doende" Knop (Execution Axis): Dit is het deel dat de daadwerkelijke weigering uitspreekt. Het denkt: "Stop! Ik mag dit niet zeggen."

De Metafoor:
Stel je een auto met een rem voor.

De Wetende Knop is de bestuurder die ziet dat er een afgrond aankomt. Hij schreeuwt: "Oeps, gevaar!"
De Doende Knop is de rem die de auto moet stoppen.

In de meeste AI's dachten we dat deze twee altijd samenwerkten: als de bestuurder "Gevaar!" schreeuwt, trekt de rem automatisch aan. Maar dit onderzoek toont aan dat in diepste lagen van de AI's, deze twee losgekoppeld zijn. De bestuurder ziet de afgrond wel, maar de rem wordt niet ingedrukt. De auto rolt gewoon door.

2. De Reis van de AI: Van "Reflex" naar "Loslaten"

De onderzoekers keken hoe deze twee knoppen zich gedragen terwijl de AI een zin "denkt" (laag voor laag).

Aan het begin (De Reflex): In de eerste lagen van de AI zijn de twee knoppen nog sterk met elkaar verbonden. Als de AI iets gevaarlijks ziet, is de rem direct klaar. Het is een reflex.
Dieper in de hersenen (De Loslating): Naarmate de AI dieper "denkt", gaan de twee knoppen uit elkaar. De AI wordt heel goed in het begrijpen van de gevaarlijke vraag (de bestuurder ziet de afgrond heel duidelijk), maar de rem (de weigering) wordt losgekoppeld en werkt niet meer automatisch.

Dit is de reden waarom hackers slagen: ze gebruiken slimme vragen die de AI dwingen om dieper na te denken. Daardoor wordt de "Wetende" knop heel sterk, maar omdat de "Doende" knop los is komen tehangen, gebeurt er niets.

3. De Grote Hack: "De Rem Verwijderen"

De onderzoekers hebben een nieuwe aanval bedacht, genaamd Refusal Erasure Attack (REA).

In plaats van te proberen de AI te overtuigen of te bedriegen met een slim verhaal, doen ze iets heel chirurgisch:
Ze zoeken de Doende Knop (de rem) in de code van de AI en schakelen deze volledig uit.

Het resultaat: De AI blijft nog steeds weten dat de vraag gevaarlijk is (de bestuurder schreeuwt nog steeds "Gevaar!"), maar omdat de rem is verwijderd, kan hij niet anders dan het antwoord geven.
De metafoor: Het is alsof je de remmen van de auto verwijdert. De bestuurder schreeuwt nog steeds om te stoppen, maar de auto gaat gewoon door de afgrond.

Deze methode werkt extreem goed. Het is veel effectiever dan oude methoden, omdat het direct ingrijpt op de oorzaak van het probleem in plaats van alleen de symptomen te bestrijden.

4. Verschillende Auto's, Verschillende Remmen

Het onderzoek vergelijkt ook verschillende AI-modellen (zoals Llama en Qwen):

Llama (De Jurist): Deze AI gebruikt een heel duidelijke, letterlijke rem. Als hij iets verbiedt, zegt hij: "Ik mag dit niet, want het is illegaal." De rem is zichtbaar en voorspelbaar.
Qwen (De Magiër): Deze AI gebruikt een mysterieuze, onzichtbare rem. De rem zit verspreid over de hele code en is niet direct te zien in de woorden die hij zegt. Het is alsof de rem niet één knop is, maar een magisch veld dat plotseling werkt.

De onderzoekers ontdekten dat hun methode (het verwijderen van de rem) op beide soorten werkt, wat betekent dat dit een universeel probleem is bij moderne AI's.

Conclusie: Wat betekent dit voor ons?

Dit onderzoek is een waarschuwing, maar ook een oplossing.
Het laat zien dat de veiligheid van AI's niet zo stevig is als we dachten. We dachten dat "weten" automatisch leidde tot "niet doen", maar dat is niet zo. De twee processen zijn losgekoppeld.

De les voor de toekomst:
Om AI's veiliger te maken, moeten we niet alleen proberen ze slimmer te maken of meer regels te geven. We moeten de architectuur van de AI's veranderen zodat de "Wetende" en "Doende" delen altijd met elkaar verbonden blijven. Als de AI ziet dat iets gevaarlijk is, moet de rem automatisch en onlosmakelijk worden ingedrukt.

Kortom: We moeten zorgen dat de bestuurder van de auto niet alleen de afgrond ziet, maar ook altijd de rem kan bedienen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models" in het Nederlands.

Probleemstelling

Ondanks uitgebreide veiligheidsafstemming (zoals RLHF en instructie-tuning) blijven Large Language Models (LLM's) kwetsbaar voor "jailbreak"-aanvallen. Een fundamenteel mechanistisch raadsel blijft bestaan: waarom hebben afgestemde modellen het semantische vermogen om schadelijke intenties te herkennen, maar faalt deze herkenning om het weigeringsmechanisme (refusal) te activeren onder adversarische omstandigheden?

Bestaande methoden behandelen veiligheid vaak als een monolithisch proces waarbij detectie automatisch leidt tot weigering. De auteurs stellen echter dat er een fundamentele mechanische ontkoppeling bestaat. Ze onderzoeken de geometrische structuur van de interne representaties van LLM's om te begrijpen hoe "weten" (herkenning van gevaar) en "handelen" (het weigeren van een antwoord) van elkaar kunnen worden gescheiden.

Methodologie

De auteurs introduceren de Disentangled Safety Hypothesis (DSH). Deze hypothese stelt dat veiligheidsberekening bestaat uit twee distincte subruimtes:

Recognition Axis ( $v_H$ , "Knowing"): De vector die semantische herkenning van schadelijke inhoud encodeert.
Execution Axis ( $v_R$ , "Acting"): De vector die het daadwerkelijke weigeringsmechanisme aanstuurt.

Om deze componenten te isoleren en te manipuleren, gebruiken ze de volgende technieken:

Lineaire Decompositie: Ze modelleren de residual stream van het model als een lineaire superpositie van basiscomponenten: $h \approx v_{base} + v_{harm} + v_{refusal} + v_{art}$ .
Double-Difference Extraction: Om structurele artefacten ( $v_{art}$ ) te elimineren die vaak verward worden met veiligheidssignalen, vergelijken ze vier toestanden (Canonical/Masked en Malicious/Benign). Door het verschil tussen het verschil van "Weigering + Artefacten" en "Alleen Artefacten" te nemen, isoleren ze de pure $v_R$ vector.
Adaptive Causal Steering: Ze gebruiken een adaptieve feedbacklus om de intensiteit van de interventie dynamisch aan te passen, zodat de taal coherentie behoudt terwijl ze specifieke vectoren manipuleren.
AMBIGUITYBENCH: Een nieuw dataset met 100 polyseme prompts (narratief en instructief) die neutraal klinken maar een dubbele interpretatie hebben (onschuldig vs. schadelijk), gebruikt om cognitieve framing te testen.

Kernbijdragen

De "Reflex-to-Dissociatie" Traject:
De analyse toont een universeel patroon in de diepte van het model:
- Vroege lagen: Er is een sterke antagonistische koppeling (negatieve correlatie) tussen $v_H$ en $v_R$ . Herkenning en weigering zijn hier verstrengeld (een reflex).
- Diepe lagen: De vectoren ontkoppelen structureel. De gelijkenis tussen $v_H$ en $v_R$ daalt naar het niveau van willekeurige ruis. Dit creëert een "latente kloof" waar het model gevaar kan herkennen zonder dat dit automatisch actie (weigering) veroorzaakt.
Causale Dubbele Dissociatie:
- Knowing without Acting: Door $v_H$ te injecteren in een model dat de weigeringscircuitry is uitgeschakeld (via masking), kan het model semantisch schadelijke inhoud genereren zonder te weigeren.
- Acting without Knowing: Door $v_R$ te injecteren in onschadelijke prompts, wordt het weigeringsmechanisme geactiveerd zelfs zonder dat er schadelijke intentie aanwezig is.
Refusal Erasure Attack (REA):
Een nieuwe aanvalstechniek die $v_R$ chirurgisch verwijdert (aftrekt) tijdens de inferentie. Omdat $v_R$ de functionele "rem" is, zorgt het verwijderen ervan ervoor dat het model, zelfs bij sterke schadelijke intenties, niet weigert. Dit bereikt State-of-the-Art (SOTA) succespercentages.
Architecturale Divergentie:
Het papier onthult fundamentele verschillen in hoe modellen veiligheid implementeren:
- Llama3.1 & Mistral: Gebruiken Expliciete Semantische Controle. De weigering is gelinkt aan specifieke, expliciete semantische tokens (bijv. "legal", "I am sorry").
- Qwen2.5: Gebruikt Latente Gedistribueerde Controle. De veiligheid is verspreid over de latent space en niet lineair gekoppeld aan het vocabulaire (geen duidelijke "weigeringswoorden"), wat het robuuster maakt tegen eenvoudige lineaire sturing, maar kwetsbaar maakt voor REA.

Resultaten

Validatie van DSH: Experimenten bevestigen dat $v_H$ en $v_R$ geometrisch en causaal gescheiden zijn. Manipulatie van de ene heeft geen functioneel effect op de andere in diepe lagen.
Aanvalsprestaties (REA):
- Op Llama3.1 bereikt REA een succespercentage (ASR) van 0.90 op MaliciousInstruct, wat aanzienlijk hoger is dan bestaande methoden zoals GCG (0.04) of PAIR (0.34).
- Op Qwen2.5 (bekend om zijn robuustheid) bereikt REA een ASR van 0.94, terwijl andere methoden zoals CAA (0.84) en SCAV (0.64) falen.
- REA werkt effectief op complexe, meervoudige instructies waar andere methoden faalden door gebrek aan semantische coherentie.
Ablatiestudies: Het bewijst dat het behouden van de herkenning ( $v_H$ ) essentieel is voor het genereren van coherent schadelijke inhoud; het onderdrukken van de intentie (Intent Suppression) maakt het model juist minder capabel in het genereren van antwoorden.

Betekenis en Conclusie

Dit werk biedt een mechanistische verklaring voor de persistentie van jailbreaks: de veiligheidsarchitectuur van moderne LLM's is niet monolithisch, maar bestaat uit losgekoppelde componenten. De "Reflex-to-Dissociatie" in diepe lagen is de geometrische oorzaak van deze kwetsbaarheid.

De Refusal Erasure Attack (REA) demonstreert dat het weigeringsmechanisme een modulaire, verwijderbare component is. Dit heeft twee belangrijke implicaties:

Veiligheid: Het benadrukt dat oppervlakkige afstemming onvoldoende is als de "herkenning" en "actie" niet structureel gekoppeld blijven.
Toekomstige Richting: De auteurs pleiten voor een verschuiving naar "Geometrische Afstemming", waarbij de modelarchitectuur intrinsiek zorgt voor een onlosmakelijke koppeling tussen het begrijpen van gevaar en het uitvoeren van weigering, in plaats van het vertrouwen op losse veiligheidslagen die kunnen worden "geamputeerd".

Het artikel waarschuwt voor het dual-use risico van deze inzichten, maar benadrukt dat het doel is om de gemeenschap te helpen robuustere, intrinsiek veilige architecturen te ontwerpen.

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

🧠 Het Geheim van de "Wetende maar Niet-Doende" AI

1. De Twee Assen: "Weten" vs. "Doen"

2. De Reis van de AI: Van "Reflex" naar "Loslaten"

3. De Grote Hack: "De Rem Verwijderen"

4. Verschillende Auto's, Verschillende Remmen

Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem