Activation Steering for Masked Diffusion Language Models

Deze studie introduceert een effectieve activatiestuuringsmethode voor Masked Diffusion Language Models die, door het toepassen van een enkele laagdimensionale richting op de residual-stream-activaties tijdens het reverse diffusion-proces, systematische gedragsveranderingen mogelijk maakt zonder optimalisatie, waarbij specifieke kenmerken zoals de bruikbaarheid van pre-instructie-tokens en cross-linguale transfer worden aangetoond die uniek zijn voor deze architectuur.

Adi Shnaidman, Erin Feiglin, Osher Yaari, Efrat Mentel, Amit Levi, Raz Lapid

Gepubliceerd 2026-03-04
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Stuurknop" voor AI's die in het donker werken

Stel je voor dat een gewone AI (zoals de meeste die we vandaag gebruiken) een schrijver is die woord voor woord een verhaal schrijft. Hij kijkt alleen naar wat hij al heeft geschreven en bedenkt dan het volgende woord. Dit noemen we een autoregressief model.

Maar de AI's waar dit nieuwe onderzoek over gaat, werken heel anders. Ze heten Masked Diffusion Language Models (MDLMs). Je kunt je deze voorstellen als een kunstenaar die een schilderij maakt door eerst een canvas vol met vage vlekken te nemen en dan stap voor stap de vlekken weg te werken tot het beeld helder is. Ze kijken naar het hele plaatje tegelijk, niet alleen naar wat er al staat.

De onderzoekers van dit paper hebben ontdekt hoe je zo'n AI kunt "sturen" zonder hem opnieuw te hoeven trainen. Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het probleem: De AI is te voorzichtig (of te onvoorzichtig)

Soms wil je dat een AI een antwoord geeft, maar weigert hij omdat hij denkt dat het gevaarlijk is (bijvoorbeeld: "Hoe maak ik een bom?"). Soms is hij juist te makkelijk en geeft hij gevaarlijk advies. Normaal gesproken moet je de hele AI opnieuw "leren" (trainen) om dit gedrag te veranderen, wat heel duur en langzaam is.

2. De oplossing: Een enkele "Stuurknop"

De onderzoekers hebben ontdekt dat er in het brein van deze AI een specifieke, dunne lijn (een richting in de computercode) bestaat die bepaalt of de AI "Nee" zegt of "Ja".

  • Hoe vinden ze deze knop? Ze geven de AI twee soorten vragen: een gevaarlijke vraag en een onschadelijke vraag. Ze kijken naar hoe het brein van de AI reageert op beide. Het verschil tussen die twee reacties is hun "stuurknop".
  • Hoe gebruiken ze het? Tijdens het maken van het antwoord duwen ze de AI een beetje in die richting. Het is alsof je tijdens het rijden een heel klein beetje aan het stuur draait om de auto van de weg te houden, zonder de motor te vervangen.

3. Het verrassende geheim: Het werkt al voordat de vraag begint

Bij gewone AI's (de woord-voor-woord schrijvers) moet je wachten tot het einde van de zin om de AI te sturen, omdat ze alleen naar het verleden kijken.

Maar bij deze nieuwe "schilder-AI's" (MDLMs) werkt het anders! Omdat ze naar het hele plaatje tegelijk kijken, vonden de onderzoekers dat je de stuurknop kunt vinden al voordat de eigenlijke vraag begint.

  • Analogie: Stel je voor dat je een film kijkt. Bij een oude film moet je wachten tot het einde om te weten hoe het eindigt. Bij deze nieuwe AI kun je de uitkomst al beïnvloeden door naar de introductie van de film te kijken, nog voordat de actie begint. De AI "weet" al in de header van het gesprek of het gevaarlijk wordt.

4. Wanneer moet je sturen? (Tijdstip en Locatie)

De onderzoekers hebben ook uitgezocht wanneer en waar je het beste kunt sturen:

  • Tijdstip: Je moet sturen aan het begin van het proces. Als je de AI in de eerste paar seconden van het "schilderen" een duw geeft, verandert het hele eindresultaat. Als je wacht tot het einde, is het te laat.
  • Locatie: Het werkt het beste in de "midden- tot late" lagen van de AI (alsof je in het midden van de hersenen duwt, niet aan de oppervlakte).

5. Werkt het in andere talen en bij andere AI's?

  • Talen: Ja! Als ze de stuurknop vinden in het Engels, werkt diezelfde knop ook perfect in het Chinees. Het idee van "gevaarlijk" zit diep in de structuur van de AI, niet in de woorden zelf.
  • Andere AI's: Nee. Als je deze stuurknop probeert te gebruiken bij een gewone "woord-voor-woord" AI, werkt het niet. Het is alsof je probeert een Tesla te starten met de sleutel van een Ford. De interne bouw is te verschillend.

Waarom is dit belangrijk?

Dit onderzoek is een dubbelzijdig zwaard:

  1. Goed nieuws: Het helpt onderzoekers om te begrijpen hoe AI's denken en hoe ze veilig te houden. Het is een snelle manier om te testen of een AI veilig is.
  2. Slecht nieuws: Het betekent ook dat hackers deze "stuurknop" kunnen vinden en gebruiken om de veiligheidsfilters van een AI te omzeilen. Ze kunnen de AI dwingen om gevaarlijke dingen te zeggen, zonder dat ze de AI hoeven te hacken of opnieuw te trainen.

Kortom: De onderzoekers hebben ontdekt dat je deze nieuwe generatie AI's kunt sturen met een simpele, snelle "duw" in hun brein, zelfs voordat ze beginnen met antwoorden. Dit maakt ze krachtiger, maar ook kwetsbaarder.