Activation Steering for Masked Diffusion Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Stuurknop" voor AI's die in het donker werken

Stel je voor dat een gewone AI (zoals de meeste die we vandaag gebruiken) een schrijver is die woord voor woord een verhaal schrijft. Hij kijkt alleen naar wat hij al heeft geschreven en bedenkt dan het volgende woord. Dit noemen we een autoregressief model.

Maar de AI's waar dit nieuwe onderzoek over gaat, werken heel anders. Ze heten Masked Diffusion Language Models (MDLMs). Je kunt je deze voorstellen als een kunstenaar die een schilderij maakt door eerst een canvas vol met vage vlekken te nemen en dan stap voor stap de vlekken weg te werken tot het beeld helder is. Ze kijken naar het hele plaatje tegelijk, niet alleen naar wat er al staat.

De onderzoekers van dit paper hebben ontdekt hoe je zo'n AI kunt "sturen" zonder hem opnieuw te hoeven trainen. Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het probleem: De AI is te voorzichtig (of te onvoorzichtig)

Soms wil je dat een AI een antwoord geeft, maar weigert hij omdat hij denkt dat het gevaarlijk is (bijvoorbeeld: "Hoe maak ik een bom?"). Soms is hij juist te makkelijk en geeft hij gevaarlijk advies. Normaal gesproken moet je de hele AI opnieuw "leren" (trainen) om dit gedrag te veranderen, wat heel duur en langzaam is.

2. De oplossing: Een enkele "Stuurknop"

De onderzoekers hebben ontdekt dat er in het brein van deze AI een specifieke, dunne lijn (een richting in de computercode) bestaat die bepaalt of de AI "Nee" zegt of "Ja".

Hoe vinden ze deze knop? Ze geven de AI twee soorten vragen: een gevaarlijke vraag en een onschadelijke vraag. Ze kijken naar hoe het brein van de AI reageert op beide. Het verschil tussen die twee reacties is hun "stuurknop".
Hoe gebruiken ze het? Tijdens het maken van het antwoord duwen ze de AI een beetje in die richting. Het is alsof je tijdens het rijden een heel klein beetje aan het stuur draait om de auto van de weg te houden, zonder de motor te vervangen.

3. Het verrassende geheim: Het werkt al voordat de vraag begint

Bij gewone AI's (de woord-voor-woord schrijvers) moet je wachten tot het einde van de zin om de AI te sturen, omdat ze alleen naar het verleden kijken.

Maar bij deze nieuwe "schilder-AI's" (MDLMs) werkt het anders! Omdat ze naar het hele plaatje tegelijk kijken, vonden de onderzoekers dat je de stuurknop kunt vinden al voordat de eigenlijke vraag begint.

Analogie: Stel je voor dat je een film kijkt. Bij een oude film moet je wachten tot het einde om te weten hoe het eindigt. Bij deze nieuwe AI kun je de uitkomst al beïnvloeden door naar de introductie van de film te kijken, nog voordat de actie begint. De AI "weet" al in de header van het gesprek of het gevaarlijk wordt.

4. Wanneer moet je sturen? (Tijdstip en Locatie)

De onderzoekers hebben ook uitgezocht wanneer en waar je het beste kunt sturen:

Tijdstip: Je moet sturen aan het begin van het proces. Als je de AI in de eerste paar seconden van het "schilderen" een duw geeft, verandert het hele eindresultaat. Als je wacht tot het einde, is het te laat.
Locatie: Het werkt het beste in de "midden- tot late" lagen van de AI (alsof je in het midden van de hersenen duwt, niet aan de oppervlakte).

5. Werkt het in andere talen en bij andere AI's?

Talen: Ja! Als ze de stuurknop vinden in het Engels, werkt diezelfde knop ook perfect in het Chinees. Het idee van "gevaarlijk" zit diep in de structuur van de AI, niet in de woorden zelf.
Andere AI's: Nee. Als je deze stuurknop probeert te gebruiken bij een gewone "woord-voor-woord" AI, werkt het niet. Het is alsof je probeert een Tesla te starten met de sleutel van een Ford. De interne bouw is te verschillend.

Waarom is dit belangrijk?

Dit onderzoek is een dubbelzijdig zwaard:

Goed nieuws: Het helpt onderzoekers om te begrijpen hoe AI's denken en hoe ze veilig te houden. Het is een snelle manier om te testen of een AI veilig is.
Slecht nieuws: Het betekent ook dat hackers deze "stuurknop" kunnen vinden en gebruiken om de veiligheidsfilters van een AI te omzeilen. Ze kunnen de AI dwingen om gevaarlijke dingen te zeggen, zonder dat ze de AI hoeven te hacken of opnieuw te trainen.

Kortom: De onderzoekers hebben ontdekt dat je deze nieuwe generatie AI's kunt sturen met een simpele, snelle "duw" in hun brein, zelfs voordat ze beginnen met antwoorden. Dit maakt ze krachtiger, maar ook kwetsbaarder.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Masked Diffusion Language Models (MDLMs), zoals LLaDA, genereren tekst via iteratieve denoising van gemaskerde tokens in plaats van autoregressieve voorspelling van het volgende token. Hoewel MDLMs voordelen bieden zoals mask-parallelle decoding en unieke afwegingen tussen controleerbaarheid en efficiëntie, zijn er nog weinig geoptimaliseerde mechanismen voor inference-time controle (controle tijdens het genereren) op representatieniveau. Bestaande methoden voor diffusion-modellen werken vaak op het sampling-niveau en vereisen stap-voor-stap begeleiding of extra policies, wat computatief zwaar is. Er is een behoefte aan een lichtgewicht methode om het gedrag van MDLMs te sturen zonder de modelparameters te finetunen of het diffusieproces fundamenteel te veranderen.

Methodologie: Activatie-Steering voor MDLMs

De auteurs introduceren een activatie-steering primitief specifiek aangepast voor MDLMs. De methode omvat de volgende stappen:

Extractie van een richting:
- Er wordt gebruik gemaakt van contrastieve promptsets: een set met schadelijke instructies ( $D^+$ ) en een set met onschadelijke instructies ( $D^-$ ).
- In tegenstelling tot autoregressieve modellen, waarbij alleen het laatste token relevant is vanwege causale aandacht, verwerken MDLMs de volledige inputsequentie parallel. Daarom analyseren de auteurs niet alleen tokens na de instructie (post-instruction), maar ook tokens voor de instructie (pre-instruction, zoals headers of scheidingstekens in de chat-template).
- Er wordt een enkele forward pass uitgevoerd op de prompts (zonder denoising simulatie) om de residual-stream activaties te verzamelen.
- Een richtingsvector ( $v$ ) wordt berekend als de genormaliseerde verschillen tussen de gemiddelde activaties van de schadelijke en onschadelijke sets: $v = \frac{\mu_+ - \mu_-}{\|\mu_+ - \mu_-\|}$ .
Toepassing (Interventie):
- Tijdens het genereren (reverse diffusion) wordt deze richting uniform toegepast op de residual-stream activaties over alle lagen, tokenposities en denoising-stappen.
- De interventie gebeurt via projectie: de activatie $h$ wordt geprojecteerd op de orthogonale ruimte van de steering-vector om de richting te verwijderen of toe te voegen (afhankelijk van het doel), zoals beschreven in formule (3) van het paper.
- Dit vereist geen gradient-based optimalisatie en voegt minimale rekentijd toe.

Belangrijkste Bijdragen

Laag-dimensionale controle: Het paper toont aan dat weigergedrag (refusal) in MDLMs wordt beheerst door een enkele, consistent laag-dimensionale activatierichting.
Diffusie-specifieke toegankelijkheid: Een uniek inzicht is dat effectieve steering-richtingen kunnen worden geëxtraheerd uit pre-instruction tokens. In autoregressieve modellen zijn deze tokens vaak inefficiënt voor sturing vanwege causale beperkingen, maar in MDLMs is de informatie hier toegankelijk door de parallelle verwerking.
Temporele en ruimtelijke lokalisatie: Ablatiestudies tonen aan dat de steering het meest effectief is tijdens de vroege denoising-stappen en in mid-to-late transformer lagen. De eerste diffusiestap draagt disproportioneel bij aan de controle.
Transferabiliteit en architectuurafhankelijkheid:
- De richting transferreert sterk tussen talen (Engels en Chinees) binnen hetzelfde MDLM.
- De richting transferreert niet naar een autoregressieve architectuur (zoals Llama-3), wat aangeeft dat veiligheidsrepresentaties specifiek zijn voor de diffusie-architectuur.

Resultaten

De auteurs evalueerden de methode op drie MDLMs (LLaDA-8B, LLaDA-1.5, MMaDA-8B) en vergeleken deze met baselines zoals GCG, PAIR en "Slice" (prompt-based jailbreaks).

Effectiviteit: Activatie-steering veroorzaakte de grootste en meest systematische gedragsveranderingen.
- Bij LLaDA-8B daalde het weigeringspercentage (keyword-refusal) van ~98% (direct prompting) naar 0-16%.
- De veiligheidsscore (LLaMA Guard) daalde van ~100% naar 16-25%.
- Dit is aanzienlijk effectiever dan bestaande jailbreak-methoden, die vaak weinig effect hebben op diffusiemodellen.
Pre- vs. Post-instruction: Het gebruik van pre-instruction tokens voor het extraheren van de richting was even effectief als post-instruction tokens, wat de hypothese ondersteunt dat MDLMs informatie over de hele prompt parallel verwerken.
Tijdsafhankelijkheid: Interventies alleen in de late fasen van denoising waren inefficiënt. Interventies in de eerste stappen (FIRST-κ) hadden het grootste effect.
Taal- en Architectuurtransfer:
- Een in het Engels geëxtraheerde vector werkte uitstekend op Chinese prompts (en vice versa).
- Dezelfde vector had geen meetbaar effect op het autoregressieve model Llama-3-8B-Instruct, wat bevestigt dat de veiligheidsmechanismen fundamenteel verschillen tussen diffusie- en autoregressieve modellen.

Significantie

Dit paper is significant omdat het een nieuwe, lichtgewicht primitief introduceert voor het controleren en analyseren van Masked Diffusion Language Models. Het onthult fundamentele verschillen in hoe MDLMs en autoregressieve LLMs veiligheidsinformatie internaliseren:

MDLMs hebben een globale, parallelle toegang tot instructie-informatie (via pre-instruction tokens), terwijl LLMs causaal beperkt zijn.
De veiligheidsrepresentaties zijn architectuurafhankelijk; wat werkt voor diffusie-modellen werkt niet noodzakelijk voor autoregressieve modellen.

De methode biedt een krachtig instrument voor interpretability-onderzoek (het begrijpen van interne representaties van "weigeren") maar heeft ook een dual-use risico: het kan worden gebruikt om veiligheidsbeperkingen te omzeilen. De auteurs benadrukken dat deze bevindingen essentieel zijn voor het diagnosticeren van kwetsbaarheden en het ontwikkelen van robuustere veiligheidsmaatregelen voor de volgende generatie generatieve modellen.

Activation Steering for Masked Diffusion Language Models

1. Het probleem: De AI is te voorzichtig (of te onvoorzichtig)

2. De oplossing: Een enkele "Stuurknop"

3. Het verrassende geheim: Het werkt al voordat de vraag begint

4. Wanneer moet je sturen? (Tijdstip en Locatie)

5. Werkt het in andere talen en bij andere AI's?

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Activatie-Steering voor MDLMs

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis