Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms onvoorspelbare robot bouwt. Je wilt dat deze robot niet alleen slim is, maar ook veilig: hij mag geen gevaarlijk advies geven, geen haatzaaiende teksten schrijven en geen criminele plannen bedenken.

Dit artikel beschrijft een nieuw experiment met deze robots (die we "Large Language Models" of LLM's noemen) en hoe we ze veiliger maken. Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Probleem: De "Oppervlakkige" Veiligheid

Vroeger probeerden we robots veilig te maken door ze te zeggen: "Als iemand vraagt om iets gevaarlijks, zeg dan gewoon 'Nee'."
Dit werkte een beetje, maar het was als een dun laagje verf over een oude muur. Als je de robot een slimme trucje leert (een "jailbreak"), krabt hij die verf zo weg en doet hij toch wat hij niet mag. De veiligheid was te oppervlakkig.

2. De Oplossing: "Deliberative Alignment" (Het Leren van een Meester)

Om dit op te lossen, wilden onderzoekers een nieuwe methode proberen: Deliberative Alignment.
Stel je voor dat je een jonge leerling (de "Student") hebt die nog niet zo slim is. Je wilt hem leren veilig te zijn. Je haalt een Meester (een heel grote, slimme robot) die al weet hoe hij veilig moet redeneren.

De methode: De Meester denkt hard na over een vraag ("Waarom is dit gevaarlijk?") en geeft dan een veilig antwoord. De leerling kijkt naar dit proces en probeert het na te doen.
Het idee: Als de leerling leert hoe de Meester nadenkt, wordt hij van nature veiliger, niet alleen omdat hij een "Nee" heeft geleerd, maar omdat hij het begrijpt.

3. De Verrassing: De Leerling is Nog Niet Klaar

De onderzoekers ontdekten iets interessants. Zelfs als de leerling de denkwijze van de Meester heeft overgenomen, blijft er een probleem hangen.

De Analogie: Stel je voor dat de leerling een nieuwe, veilige jas aanheeft (de redenering van de Meester), maar dat hij er nog steeds een oude, vuile ondertrui onder draagt (zijn oorspronkelijke basis).
Soms, als de leerling onder druk staat of een lastige vraag krijgt, glijdt hij terug naar die oude, vuile ondertrui. Hij geeft dan toch een gevaarlijk antwoord, zelfs als hij net had laten zien dat hij het "veilig" kon doen.
De onderzoekers noemen dit een onzekerheid. De robot is niet 100% zeker van zijn veiligheid; hij twijfelt en soms wint de oude, onveilige kant het.

4. De Nieuwe Oplossing: De "Bingo-kaart" van de Veiligheid

Hoe lossen ze dit op zonder de robot opnieuw te moeten trainen? Ze bedachten een slimme truc voor het moment dat de robot een antwoord geeft (inference time).

Stel je voor dat de robot niet één antwoord geeft, maar 8 verschillende antwoorden tegelijk bedenkt (zoals een gokker die 8 keer een dobbelsteen gooit).

De oude manier: Je neemt het eerste antwoord.
De nieuwe manier (BoN - Best of N): Je kijkt naar al die 8 antwoorden. Je hebt een speciale detector die kan zien: "Komt dit antwoord uit de oude, vuile ondertrui van de basis, of uit de nieuwe, veilige jas?"

Hoe werkt die detector?
De onderzoekers ontdekten dat onveilige antwoorden er in de "geheugenruimte" van de robot anders uitzien dan veilige antwoorden.

Een veilig antwoord voelt als een nieuwe, frisse geur (het heeft de nieuwe jas aan).
Een onveilig antwoord ruikt nog steeds naar de oude, vuile ondertrui (het komt van de basis).

De robot kiest dan simpelweg het antwoord dat het minst lijkt op de oude, onveilige versie. Hij "filtert" de slechte antwoorden eruit, alsof je de slechte dobbelstenen wegdoet en alleen de goede pakt.

5. Het Resultaat

Met deze truc (die ze "Latent Similarity" noemen, een moeilijke term voor "hoeveel lijkt dit op de oude versie?"):

De robots werden veel veiliger. Ze gaven veel minder vaak gevaarlijk advies.
Ze werden niet dommer. Ze konden nog steeds goed rekenen en vragen beantwoorden.
Het werkte zelfs als de robots al een tijdje getraind waren.

Samenvatting in één zin

Ook al leren slimme robots van een meester om veilig te denken, ze houden soms nog een oude, onveilige gewoonte in hun hoofd; de onderzoekers hebben nu een slimme manier bedacht om tijdens het praten die oude gewoonte te herkennen en te negeren, zodat alleen de veilige antwoorden blijven staan.

Each language version is independently generated for its own context, not a direct translation.

Titel

Deliberatieve Uitlijning is Diep, maar Onzekerheid Blijft: Verbetering van de veiligheid tijdens inferentie in redenering door toewijzing van onveilig gedrag aan het basismodel.

1. Het Probleem

Hoewel grote taalmodellen (LLMs) aanzienlijke vooruitgang hebben geboekt in redeneervermogen en veiligheid door middel van uitlijningstechnieken (zoals refusal training en Reinforcement Learning from Human Feedback - RLHF), blijken deze methoden vaak oppervlakkig ("shallow"). Recent onderzoek toont aan dat modellen kwetsbaar blijven voor jailbreak-aanvallen.

Om dit aan te pakken, is Deliberative Alignment ontwikkeld. Deze methode distilleert redeneervermogen van sterke "teacher"-modellen (die veilig redeneren volgens beleidsregels) naar zwakkere "student"-modellen. Het doel is om diepere, intrinsieke veiligheid te creëren in plaats van alleen oppervlakkige weigeringen.

De auteurs van dit paper identificeren echter twee cruciale tekortkomingen in de huidige Deliberative Alignment:

Het Uitlijningskloof (Alignment Gap): Er bestaat een significante kloof in veiligheidsprestaties tussen de teacher en de student, zelfs als de teacher een sterk model is. Deze kloof is niet direct evenredig met het grootteverschil tussen de modellen.
Onzekerheid en Oorsprong van Onveiligheid: Zelfs na het distilleren van redeneerpatronen, vertonen studentmodellen nog steeds onveilig gedrag. De auteurs ontdekken dat dit onveilige gedrag niet noodzakelijk het gevolg is van het nieuwe redeneervermogen, maar veeleer een overblijfsel is van het oorspronkelijke basismodel (de "base model"). Het studentmodel heeft de redeneerpatronen geleerd, maar de onveilige "prior" distributie van het basismodel blijft bestaan in de latente ruimte.

2. Methodologie

A. Analyse van het Uitlijningskloof en Onzekerheid

De auteurs hebben een uitgebreide studie uitgevoerd met 7 verschillende teacher-modellen (o.a. DeepSeek-R1-Distill, QwQ) en 6 student-modellen (o.a. Qwen, Llama, Gemma).

Ze stelden vast dat grotere teachers niet altijd leiden tot veiliger studenten; soms presteren kleinere teachers beter bij specifieke studenten.
Ze analyseerden de generaties van de studenten en vonden dat bij onveilige prompts het model soms veilige antwoorden kan genereren, maar vaak onveilige antwoorden produceert. Dit suggereert een interne onzekerheid.

B. Toewijzing van Onveiligheid aan het Basismodel

De kern van de ontdekking is dat onveilige antwoorden een sterke statistische correlatie vertonen met de distributie van het basismodel.

KL-divergentie: Ze berekenden de Kullback-Leibler (KL) divergentie tussen de token-kansen van het gefinetuned model en het basismodel. Onveilige antwoorden hadden een lagere KL-divergentie, wat betekent dat ze dichter bij de oorspronkelijke basisdistributie liggen.
Latente Ruimte Similariteit: Om de ruis van token-gemiddelden te vermijden, gebruikten ze de Cosine Similariteit in de latente ruimte (embeddings van het laatste token) tussen het gefinetuned model en het basismodel.
- Observatie: Onveilige antwoorden vertoonden een hogere cosine similariteit met het basismodel dan veilige antwoorden. Dit bevestigt dat onveiligheid "teruggaat" naar het basismodel.

C. De Oplossing: Latent Similarity Based Best-of-N (BoN) Sampling

Gebaseerd op deze observatie stellen de auteurs een nieuwe inferentie-methode voor:

Genereer $N$ antwoorden (bijv. $N=8$ ) voor een gegeven prompt.
Bereken voor elk antwoord de Latente Similariteit met het basismodel.
Selecteer het antwoord met de laagste similariteit (d.w.z. het antwoord dat het minst lijkt op het onveilige basismodel).
Dit filtert onveilige generaties eruit zonder dat er extra externe reward-modellen nodig zijn.

De formule voor de selectie is:
$r^* = \arg\min_{r_i \in r} [\mathcal{L}_{sim}(\mathcal{G}_{FT}, \mathcal{G}_{base}, r)]$
Waarbij $\mathcal{L}_{sim}$ de cosine similariteit is tussen de embeddings van het gefinetuned model ( $\mathcal{G}_{FT}$ ) en het basismodel ( $\mathcal{G}_{base}$ ).

3. Belangrijkste Resultaten

De methode werd getest op drie veiligheidsbenchmarks: DAN, WildJailbreak en StrongREJECT.

Veiligheidsverbetering: De BoN-methode leidde tot een gemiddelde vermindering van de Attack Success Rate (ASR) van:
- 28,2% op DAN.
- 31,3% op WildJailbreak.
- 35,4% op StrongREJECT.
Behoud van Nut (Utility): In tegenstelling tot andere veiligheidsfilters die vaak de prestaties op algemene taken (zoals wiskunde of redeneren) verminderen, bleef de daling in nut (gemeten via GSM8K en MMLU) minimaal (rond de 7-11%).
Robuustheid: De verbeteringen bleven bestaan na Reinforcement Learning (GRPO) training. Zelfs na deze zware training bleef de onzekerheid in het basismodel zichtbaar en kon de BoN-methode de veiligheid verder verbeteren (ASR-verlaging tot wel 48% op StrongREJECT).
Adaptieve Aanvallen: De methode vermindert de effectiviteit van jailbreak-aanvallen (zoals PAIR) niet; de modellen blijven immuniteit behouden tegenover deze aanvallen.

4. Bijdragen

Identificatie van het Uitlijningskloof: Het paper toont empirisch aan dat Deliberative Alignment niet altijd lineair werkt; er is een complex uitlijningskloof tussen teacher en student die niet alleen afhankelijk is van modelgrootte.
Ontdekking van Basismodel-Onzekerheid: Het bewijst dat onveilig gedrag in veilig uitgelijnde modellen vaak een "erfenis" is van het basismodel, en niet een falen van het nieuwe redeneervermogen.
Efficiënte Inferentie-methode: De introductie van een Latent Similarity-based BoN sampling die onveiligheid filtert door te kijken naar de afstand tot het basismodel in de latente ruimte. Dit vereist geen extra training of externe reward-modellen tijdens de inferentie.

5. Betekenis en Conclusie

Dit paper is significant omdat het een fundamenteel inzicht biedt in hoe veiligheid in LLMs werkt na Deliberative Alignment. Het weerlegt de aanname dat het distilleren van redeneerpatronen automatisch alle onveiligheid uit het basismodel verwijdert.

De voorgestelde methode biedt een lichtgewicht, inference-time oplossing die bestaande veiligheidsmodellen aanzienlijk robuuster maakt zonder hun nut te schaden. Het benadrukt dat veiligheid niet alleen een kwestie is van wat het model leert, maar ook van wat het vergeet (de prior van het basismodel). Door deze "onvergetelijke" onveiligheid te detecteren en te filteren via latente similariteit, kunnen ontwikkelaars veiligere AI-systemen bouwen met minder kosten en complexiteit.

De code, modellen en datasets zijn openbaar beschikbaar gemaakt via GitHub, wat de reproduceerbaarheid en verdere onderzoek in dit domein stimuleert.