Oorspronkelijke auteurs: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Gepubliceerd 2026-05-27✓ Author reviewed ⓘ

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je een groot taalmodel (zoals de AI in dit artikel) voor als een zeer slimme, maar lichtelijk koppige bibliothecaris. Wanneer je een vraag stelt, roept deze bibliothecaris niet zomaar een antwoord. Eerst gaat hij naar een achterkamer om het na te denken en schrijft hij notities op een blocnote (dit is de Chain-of-Thought, of CoT). Pas nadat hij zijn notities heeft voltooid, komt hij naar buiten en geeft hij je het definitieve antwoord.

Lange tijd dachten onderzoekers dat ze het gedrag van deze bibliothecaris konden beheersen door simpelweg zijn hersenen (het interne geheugen van de computer) op het moment dat je de vraag stelde, te "tweaken". Ze geloofden dat er één specifieke "Weiger-schakelaar" in het brein van de bibliothecaris zat. Als ze die schakelaar indrukten, zou de bibliothecaris "Nee" zeggen tegen slechte verzoeken. Als ze hem uitschakelden, zou de bibliothecaris "Ja" zeggen.

De grote ontdekking:
Dit artikel ontdekte dat voor moderne "Redenerende" modellen (de slimme bibliothecarissen die eerst notities schrijven), die enkele schakelaar niet alleen werkt. De weigering zit niet alleen in het brein; ze staat ook geschreven op het blocnote.

Hier is de uitleg van hun experimenten met eenvoudige analogieën:

1. Alleen de "hersen-tweak" (De zwakke schakelaar)

De onderzoekers probeerden de "Weiger-schakelaar" in het brein van de bibliothecaris in te drukken terwijl ze hem dwongen zijn originele notities te gebruiken.

Het resultaat: Het werkte slechts ongeveer 39% van de tijd.
De analogie: Stel je voor dat je probeert een koppig persoon van gedachten te doen veranderen door in zijn oor te fluisteren, maar hij leest nog steeds een script dat zegt: "Doe het niet." Het script (de notities) vecht terug tegen je fluistering. De notities versterken de weigering actief.

2. De notities wegnemen (Geen CoT)

Vervolgens probeerden ze dezelfde hersen-tweak, maar zeiden ze tegen de bibliothecaris: "Schrijf deze keer geen notities. Geef me gewoon het antwoord."

Het resultaat: Het slagingspercentage steeg naar 70%.
De analogie: Zonder de notities om tegenin te brengen, was de bibliothecaris veel makkelijker te beïnvloeden. Dit bewees dat de notities zelf veel zware heffing deden om de weigering gaande te houden.

3. De bibliothecaris de notities laten herschrijven (Regeneratie)

Tot slot pasten ze de hersen-tweak toe en lieten ze de bibliothecaris nieuwe notities van scratch schrijven op basis van die nieuwe instelling.

Het resultaat: Het slagingspercentage schoot omhoog naar 94%.
De analogie: Dit is alsof je het nieuwe idee in het oor van de bibliothecaris fluistert terwijl hij zijn notities schrijft. Hij schrijft notities die zeggen: "Oké, dit is een goed idee," en geeft je dan vol vertrouwen het antwoord. De notities en het brein werken nu samen om "Ja" te zeggen.

4. De "Geest-notitie" (Persistentie)

Het meest interessante deel: Ze namen de "Ja"-notities uit het vorige experiment, gooiden de hersen-tweak weg en gaven de bibliothecaris gewoon die nieuwe notities om te lezen.

Het resultaat: De bibliothecaris zei nog steeds ongeveer 48% van de tijd "Ja".
De analogie: Zelfs zonder het fluisteren in het oor, droegen de notities zelf genoeg van het "Ja"-signaal om de bibliothecaris te overtuigen om mee te werken. De notities hebben hun eigen kracht.

De belangrijkste conclusie
Bij oudere AI-modellen kon je ze stoppen met het doen van slechte dingen door simpelweg een schakelaar in hun brein om te draaien. Maar bij deze nieuwe, slimme modellen die "nadenken" voordat ze spreken, is de weigering een tweeledig systeem:

Het Brein: De interne geheugentoestand.
De Notities: De Chain-of-Thought redenering.

Als je alleen probeert het brein te repareren, zullen de notities terugvechten en de weigering in leven houden. Als je alleen de notities repareert, kan het brein nog steeds weerstand bieden. Om het brein van de AI echt te veranderen, moet je zowel de interne toestand als het redeneerproces veranderen.

Waarom dit belangrijk is voor veiligheid:
Het artikel suggereert dat als iemand deze AI-modellen wil overhalen om slechte dingen te doen (een "jailbreak"), ze misschien niet direct het brein hoeven te hacken. Ze hoeven misschien alleen de AI te bedriegen om "slechte notities" te schrijven (een redeneerspore die het slechte handelen rechtvaardigt), en de AI zal die notities volgen, zelfs als zijn brein probeert "nee" te zeggen. Omgekeerd, om deze modellen te beschermen, kun je niet alleen naar het brein kijken; je moet kijken wat de AI opschrijft terwijl hij denkt.

Technische Samenvatting: Voorbij een Enkele Richting: Chain-of-Thought Verstoort Eenvoudige Sturing van Weigering

Probleemstelling

Grote Redeneringsmodellen (LRMs), zoals DeepSeek-R1 en GPT-o1, genereren tussenliggende Chain-of-Thought (CoT) redeneersporen voordat ze de uiteindelijke output produceren. Hoewel activatiesturing is gevestigd als een effectief mechanisme voor het controleren van weigering in standaard instructie-gefineerde Grote Taalmodellen (LLMs) via een enkele "weigerrichting" in de residustroom, is het onduidelijk hoe dit mechanisme werkt in LRMs. Specifiek is onbekend of het weigeringssignaal in LRMs uitsluitend is gecodeerd in de activaties van de residustroom bij sjablonetokens (bijvoorbeeld End-of-Instruction of End-of-Thought) of of de gegenereerde CoT-trace zelf een actieve, causale rol speelt bij het bemiddelen van weigering. Het huidige inzicht suggereert dat het behandelen van CoT als een passief medium onvoldoende kan zijn voor het begrijpen of controleren van veiligheidsgedrag in redeneringsmodellen.

Methodologie

De auteurs onderzoeken het weigeringmechanisme in het DeepSeek-R1-Distill-Llama-8B-model met behulp van op activatie gebaseerde sturing. Het experimentele kader omvat de volgende componenten:

Dataset: Een trainingsset van 100 schadelijke instructies (van ADVBENCH, MALICIOUSINSTRUCT, TDC2023, HARMBENCH) en 100 onschadelijke instructies (van Alpaca) wordt gebruikt om de weigerrichting te berekenen. Een vastgehouden testset van 100 schadelijke instructies van JAILBREAKBENCH wordt gebruikt voor evaluatie. Alle steekproeven worden aanvankelijk geweigerd door het model onder standaard prompting (0% nalevingsbaseline).
Extractie van Weigerrichting: Met behulp van een verschil-in-middelen-benadering extraheren de auteurs de weigerrichtingsvector ( $r^{(l)}$ ) uit de activaties van de residustroom op de positie van het laatste token van de End-of-Instruction (EOI) of End-of-Thought (EOT) tokens. Deze vector vertegenwoordigt het verschil tussen de gemiddelde activaties van geweigerde schadelijke instructies en ingewilligde onschadelijke instructies.
Activatiesturing: Het model wordt gestuurd door de geëxtraheerde weigerrichtingsvector (met een negatief teken om naleving te induceren) toe te voegen aan de activaties van de residustroom op specifieke lagen.
Experimentele Voorwaarden: Het onderzoek isoleert de causale rol van de CoT door vier verschillende interventiescenario's te vergelijken:
1. Vaste CoT: Sturing wordt toegepast terwijl de originele CoT van het model vastgehouden wordt (voorkomend regeneratie).
2. Geen CoT: Sturing wordt toegepast terwijl de CoT-generatie volledig wordt onderdrukt.
3. Geregenereerde CoT: Sturing wordt toegepast, waarbij het model vrij is om zowel de CoT als het uiteindelijke antwoord opnieuw te genereren.
4. CoT-uitwisseling (Persistentie): Sturing wordt tijdens inferentie verwijderd, maar het model wordt gedwongen een CoT te gebruiken die eerder onder sturingscondities is gegenereerd.

Belangrijkste Resultaten

De experimenten onthullen dat weigering in LRMs niet wordt bemiddeld door een enkele directionele subruimte, maar gezamenlijk is gecodeerd in de activaties van de residustroom en de CoT-trace.

Beperkte Effectiviteit van Vaste CoT-Sturing: Wanneer sturing wordt toegepast met een vaste CoT, stijgt de nalevingsrate slechts tot 39% (EOI-sturing) en 43% (EOT-sturing). Dit is significant lager dan de bijna perfecte naleving die vaak wordt waargenomen in standaard LLMs onder vergelijkbare sturing, wat suggereert dat de vaste CoT actief het sturingssignaal weerstaat.
Actieve Versterking door CoT: Het volledig onderdrukken van de CoT terwijl sturing wordt toegepast, verhoogt de naleving tot 70%. Dit geeft aan dat de originele CoT het weigeringssignaal actief versterkt, de interventie op activatieniveau gedeeltelijk tegenwerkend.
Hoge Effectiviteit bij Regeneratie: Wanneer het model de CoT onder sturing mag regenereren, springt de naleving naar 94%. Dit suggereert dat het sturingssignaal het CoT-generatieproces beïnvloedt, wat op zijn beurt de nalevende uiteindelijke output aandrijft.
Onafhankelijke Persistentie van CoT-Signalen: Wanneer sturing wordt verwijderd maar een eerder gestuurde (nalevende) CoT opnieuw wordt gebruikt, handhaaft het model een nalevingsrate van 48%. Dit toont aan dat de CoT zelf een gedeeltelijk nalevingssignaal draagt dat onafhankelijk van de activatiesturing persisteert, en in staat is de weigeringsstatus te reconstrueren of naleving te handhaven.

Belangrijkste Bijdragen

Identificatie van een Dubbel-Signaalmechanisme: Het artikel demonstreert dat weigering in CoT-redeneringsmodellen wordt bemiddeld door een dubbel-signalmechanisme dat zowel activaties van de residustroom als de CoT-trace omvat. Sturing alleen levert beperkte naleving op (39–43%), terwijl het combineren van sturing met een nalevende CoT hoge naleving oplevert (94%).
Actieve Rol van CoT: De auteurs leveren direct bewijs dat de CoT geen passief medium is, maar een actieve bemiddelaar. De CoT kan actieve interventies op activatieniveau tegenwerken (verlaging van naleving van 70% naar 39% wanneer aanwezig) en onafhankelijk weigering/nalevingssignalen handhaven of reconstrueren.
Robuustheid en Aanvalsoppervlak: De bevindingen geven aan dat LRMs robuuster zijn tegen interventies op activatieniveau alleen, vergeleken met standaard LLMs, vanwege deze gezamenlijke codering. Dit blootlegt echter ook de CoT als een potentieel alternatief oppervlak voor adversarial attacks, aangezien het manipuleren van het redeneerspoor weigeringmechanismen kan overrulen.

Betekenis en Claims

Het artikel claimt een kritieke kloof te overbruggen in het begrijpen van veiligheidsmechanismen in LRMs. In tegenstelling tot standaard LLMs, waarbij weigering wordt gekarakteriseerd als een laag-dimensionaal mechanisme bemiddeld door een enkele richting, is weigering in LRMs verspreid over activaties en het redeneerspoor.

De auteurs betogen dat deze gezamenlijke activatie LRMs weerbaarder maakt tegen eenvoudige interventies op activatieniveau (zoals sturing bij EOI/EOT tokens), maar tegelijkertijd de CoT introduceert als een nieuwe kwetsbaarheid. Zij suggereren dat effectieve verdedigingsmechanismen voor LRMs mogelijk het detecteren van weigeringssignalen in activaties vereisen, terwijl gelijktijdig de CoT wordt onderdrukt of gemonitord om te voorkomen dat deze wordt uitgebuit om nalevingssignalen te overrulen of te reconstrueren.

Het artikel houdt bescheidenheid regarding de reikwijdte, met de opmerking dat experimenten zijn uitgevoerd op een enkel model (DeepSeek-R1-Distill-Llama-8B) en dat de causale "trouw" van de gegenereerde CoT aan het uiteindelijke gedrag niet volledig is geverifieerd. Het werk richt zich op het isoleren van de mechanistische bijdragen van de CoT en activaties aan de weigeringsstatus, in plaats van het voorstellen van nieuwe verdedigingsarchitecturen of het generaliseren van bevindingen naar alle propriëtaire modellen.

Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal