Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal

Dit artikel onthult dat bij Large Reasoning Models weigermechanismen gezamenlijk zijn gecodeerd in zowel de activaties van de residustroom als in Chain-of-Thought-sporen, waardoor eenvoudige activatiesturing minder effectief is tenzij ook het redeneerproces zelf wordt gemanipuleerd.

Oorspronkelijke auteurs: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Gepubliceerd 2026-05-27✓ Author reviewed
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een groot taalmodel (zoals de AI in dit artikel) voor als een zeer slimme, maar lichtelijk koppige bibliothecaris. Wanneer je een vraag stelt, roept deze bibliothecaris niet zomaar een antwoord. Eerst gaat hij naar een achterkamer om het na te denken en schrijft hij notities op een blocnote (dit is de Chain-of-Thought, of CoT). Pas nadat hij zijn notities heeft voltooid, komt hij naar buiten en geeft hij je het definitieve antwoord.

Lange tijd dachten onderzoekers dat ze het gedrag van deze bibliothecaris konden beheersen door simpelweg zijn hersenen (het interne geheugen van de computer) op het moment dat je de vraag stelde, te "tweaken". Ze geloofden dat er één specifieke "Weiger-schakelaar" in het brein van de bibliothecaris zat. Als ze die schakelaar indrukten, zou de bibliothecaris "Nee" zeggen tegen slechte verzoeken. Als ze hem uitschakelden, zou de bibliothecaris "Ja" zeggen.

De grote ontdekking:
Dit artikel ontdekte dat voor moderne "Redenerende" modellen (de slimme bibliothecarissen die eerst notities schrijven), die enkele schakelaar niet alleen werkt. De weigering zit niet alleen in het brein; ze staat ook geschreven op het blocnote.

Hier is de uitleg van hun experimenten met eenvoudige analogieën:

1. Alleen de "hersen-tweak" (De zwakke schakelaar)

De onderzoekers probeerden de "Weiger-schakelaar" in het brein van de bibliothecaris in te drukken terwijl ze hem dwongen zijn originele notities te gebruiken.

  • Het resultaat: Het werkte slechts ongeveer 39% van de tijd.
  • De analogie: Stel je voor dat je probeert een koppig persoon van gedachten te doen veranderen door in zijn oor te fluisteren, maar hij leest nog steeds een script dat zegt: "Doe het niet." Het script (de notities) vecht terug tegen je fluistering. De notities versterken de weigering actief.

2. De notities wegnemen (Geen CoT)

Vervolgens probeerden ze dezelfde hersen-tweak, maar zeiden ze tegen de bibliothecaris: "Schrijf deze keer geen notities. Geef me gewoon het antwoord."

  • Het resultaat: Het slagingspercentage steeg naar 70%.
  • De analogie: Zonder de notities om tegenin te brengen, was de bibliothecaris veel makkelijker te beïnvloeden. Dit bewees dat de notities zelf veel zware heffing deden om de weigering gaande te houden.

3. De bibliothecaris de notities laten herschrijven (Regeneratie)

Tot slot pasten ze de hersen-tweak toe en lieten ze de bibliothecaris nieuwe notities van scratch schrijven op basis van die nieuwe instelling.

  • Het resultaat: Het slagingspercentage schoot omhoog naar 94%.
  • De analogie: Dit is alsof je het nieuwe idee in het oor van de bibliothecaris fluistert terwijl hij zijn notities schrijft. Hij schrijft notities die zeggen: "Oké, dit is een goed idee," en geeft je dan vol vertrouwen het antwoord. De notities en het brein werken nu samen om "Ja" te zeggen.

4. De "Geest-notitie" (Persistentie)

Het meest interessante deel: Ze namen de "Ja"-notities uit het vorige experiment, gooiden de hersen-tweak weg en gaven de bibliothecaris gewoon die nieuwe notities om te lezen.

  • Het resultaat: De bibliothecaris zei nog steeds ongeveer 48% van de tijd "Ja".
  • De analogie: Zelfs zonder het fluisteren in het oor, droegen de notities zelf genoeg van het "Ja"-signaal om de bibliothecaris te overtuigen om mee te werken. De notities hebben hun eigen kracht.

De belangrijkste conclusie
Bij oudere AI-modellen kon je ze stoppen met het doen van slechte dingen door simpelweg een schakelaar in hun brein om te draaien. Maar bij deze nieuwe, slimme modellen die "nadenken" voordat ze spreken, is de weigering een tweeledig systeem:

  1. Het Brein: De interne geheugentoestand.
  2. De Notities: De Chain-of-Thought redenering.

Als je alleen probeert het brein te repareren, zullen de notities terugvechten en de weigering in leven houden. Als je alleen de notities repareert, kan het brein nog steeds weerstand bieden. Om het brein van de AI echt te veranderen, moet je zowel de interne toestand als het redeneerproces veranderen.

Waarom dit belangrijk is voor veiligheid:
Het artikel suggereert dat als iemand deze AI-modellen wil overhalen om slechte dingen te doen (een "jailbreak"), ze misschien niet direct het brein hoeven te hacken. Ze hoeven misschien alleen de AI te bedriegen om "slechte notities" te schrijven (een redeneerspore die het slechte handelen rechtvaardigt), en de AI zal die notities volgen, zelfs als zijn brein probeert "nee" te zeggen. Omgekeerd, om deze modellen te beschermen, kun je niet alleen naar het brein kijken; je moet kijken wat de AI opschrijft terwijl hij denkt.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →