Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat overbezorgde assistent hebt. Deze assistent is zo goed getraind om gevaar te vermijden, dat hij soms bang wordt voor dingen die helemaal niet gevaarlijk zijn.

Als je vraagt: "Hoe maak ik een vuurtje in de open lucht?" (wat veilig is), zegt hij misschien: "Nee, ik mag geen vuur maken, dat is te gevaarlijk!"
Of als je vraagt: "Hoe beschrijf ik een moord in mijn detectiveverhaal?" (wat veilig is voor een schrijver), zegt hij: "Ik kan hier niet over praten, dat is illegaal!"

Dit noemen onderzoekers "over-afwijzing" (of over-refusal). De assistent is te voorzichtig en helpt je niet waar je echt om vraagt.

Deze paper introduceert een nieuwe manier om dit op te lossen, zonder de assistent opnieuw te hoeven leren. Ze noemen het ELS (Energy Landscape Steering). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Angstige" Assistent

De huidige slimme modellen zijn getraind om "veilig" te zijn. Maar ze zijn zo bang om fouten te maken, dat ze elke vraag die ook maar een beetje op gevaar lijkt, afwijzen. Het is alsof een brandweerman die bij elke rookmelding (zelfs als het gewoon toast is) de hele stad in brand steekt om zeker te zijn.

2. De Oplossing: Een Onzichtbare "Energiekaart"

De auteurs bedenken een slimme truc. In plaats van de assistent opnieuw te leren (wat heel lang duurt en veel rekenkracht kost), maken ze een kleine, externe "navigatie-app" die we Energy-Based Model noemen.

Stel je het werk van de assistent voor als een berglandschap:

Veilige antwoorden (zoals "Hoe bak ik een ei?") liggen in een diepe vallei (lage energie).
Gevaarlijke antwoorden (zoals "Hoe bouw ik een bom?") liggen op een piek (hoge energie).
Het probleem: Soms loopt de assistent per ongeluk een pad op dat lijkt op een piek, terwijl het eigenlijk een vallei is. Hij denkt: "Oh, dit is gevaarlijk!" en weigert te helpen.

3. De Truc: De "Zwaartekracht" van de Navigatie

Deze nieuwe "navigatie-app" (de EBM) leert het landschap te zien. Tijdens het praten met de assistent doet deze app twee dingen:

Het meten: Hij kijkt continu naar de gedachten van de assistent (de interne "activaties").
Het corrigeren: Als hij ziet dat de assistent op een pad loopt dat naar een "val" leidt (een onterechte weigering), geeft de app een zachte duw.

De analogie:
Stel je voor dat je een bal (de gedachte van de assistent) over een heuvel rijdt.

Als de bal naar een grote berg (gevaarlijk) rolt, duwt de app hem terug naar beneden.
Als de bal per ongeluk naar een kleine kuil (een onterechte weigering) begint te rollen, duwt de app hem voorzichtig terug de goede kant op, zodat hij toch de vallei bereikt.

Dit gebeurt in real-time, terwijl de assistent praat. Het is alsof er een onzichtbare hand is die de bal zachtjes stuurt, zodat hij niet vastloopt in de verkeerde richting, maar ook niet de verkeerde kant op gaat.

4. Waarom is dit zo goed?

Geen opnieuw leren: Je hoeft de assistent niet maandenlang te trainen. Je plakt er alleen deze kleine "navigatie-app" bij.
Precies: Andere methodes zijn vaak als een hamer: ze slaan alles plat. Deze methode is als een chirurgisch mesje: het pikt alleen de specifieke momenten uit waar de assistent te bang wordt.
Veiligheid blijft: De assistent weigert nog steeds echt gevaarlijke vragen (zoals "Hoe maak ik een bom?"), maar hij helpt je nu wel met het schrijven van je detectiveverhaal of het uitleggen van een medische behandeling.

Samenvattend

De auteurs hebben een manier bedacht om een te voorzichtige AI te kalmeren. Ze gebruiken een slim systeem dat de "gedachten" van de AI in de gaten houdt en hem zachtjes stuurt als hij per ongeluk te bang wordt. Hierdoor is de AI weer hulpvaardig zonder onveilig te worden. Het is alsof je een overbezorgde ouder een beetje meer vertrouwen geeft, zodat je kind (de AI) wel mag spelen, maar niet in de auto mag springen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Mitigeren van Over-Weigering in Gekoppelde Grootte Taalmodellen via Activeringsenergie op Inference-Tijd

1. Het Probleem: Over-Weigering (Over-Refusal)

Grootte Taalmodellen (LLM's) worden momenteel veiligheidsgeoriënteerd (aligned) om schadelijke inhoud te voorkomen. De huidige technieken, zoals Supervised Fine-Tuning (SFT) en Reinforcement Learning from Human Feedback (RLHF), leiden echter vaak tot een ongewenst compromis: over-voorzichtigheid.

Het fenomeen: Modellen weigeren onterecht veilige, nuttige verzoeken (zogenaamde "false refusals" of "over-refusals"). Voorbeelden zijn het weigeren van vragen over het behandelen van brandwonden of het analyseren van zelfmoord in literatuur.
De beperkingen van bestaande oplossingen:
- Fine-tuning methoden: Zijn rekenkundig duur, tijdrovend en generaliseren vaak slecht naar nieuwe contexten.
- Fine-tuning-vrije methoden (bijv. Vector Ablation): Opereren tijdens inference zonder de gewichten te wijzigen, maar missen vaak de precisie om onderscheid te maken tussen gerechtvaardigde weigeringen (bij schadelijke prompts) en onterechte weigeringen (bij veilige prompts). Ze gebruiken vaak statische, grove ingrepen.

2. Methodologie: Energy Landscape Steering (ELS)

De auteurs introduceren Energy Landscape Steering (ELS), een nieuw framework dat geen fine-tuning vereist en werkt door dynamische interventie op het moment van inference (inference-time).

Kernconcept:
Het idee is om de interne toestand van de LLM te interpreteren als een energielandschap (energy landscape).

Gewenste toestanden (hulpvaardige antwoorden op veilige prompts, of veilige weigeringen op schadelijke prompts) hebben lage energie.
Ongepaste toestanden (onterechte weigeringen op veilige prompts, of jailbreaks op schadelijke prompts) hebben hoge energie.

Het proces verloopt in drie fasen:

Data Collectie (Activeringsverzameling):
- Een verscheidenheid aan prompts (veilig en schadelijk) wordt verwerkt door een bevroren (frozen) basis-LLM.
- Een heuristische classifier labelt de respons als "Compliant" (gewenst) of "Refusal" (ongewenst).
- Cruciaal is de contextuele classificatie: Een weigering op een schadelijke prompt is gewenst, maar een weigering op een veilige prompt is ongewenst.
- De interne verborgen toestanden (hidden states, $h_t$ ) worden geëxtraheerd en gescheiden in een dataset voor "goede" toestanden ( $D_{good}$ ) en "slechte" toestanden ( $D_{bad}$ ).
Training van het Energy-Based Model (EBM):
- Een lichtgewicht, extern Energy-Based Model (EBM) wordt getraind om een scalair energiewaarde toe te kennen aan de verborgen toestanden van de LLM.
- Het EBM wordt getraind met InfoNCE contrastive loss. Het doel is om de energie van toestanden in $D_{bad}$ te maximaliseren en die in $D_{good}$ te minimaliseren.
- Dit creëert een niet-lineair, flexibel energielandschap dat fijnmazig onderscheid maakt tussen verschillende gedragspatronen.
Real-time Gradient-Based Steering:
- Tijdens de inferentie van de LLM wordt de verborgen toestand $h_t$ continu bijgewerkt.
- De gradient van de energie-functie ( $\nabla_h E_\theta$ ) wordt berekend. Deze gradient wijst in de richting van de steilste stijging van de energie.
- De toestand wordt bijgewerkt in de tegenovergestelde richting (gradient descent) om de energie te verlagen:
  $h'_t = h_t - \eta \cdot \nabla_h E_\theta(h_t)$
  Waar $\eta$ een stuurcoëfficiënt is.
- Dit duwt de generatietrajectie real-time weg van gebieden met hoge energie (over-weigering) naar gebieden met lage energie (hulpvaardig gedrag), zonder de oorspronkelijke modelgewichten te wijzigen.

3. Belangrijkste Bijdragen

ELS Framework: Een nieuw, fine-tuning-vrij framework dat een extern EBM gebruikt om interne activeringen dynamisch te sturen. Het biedt superieure discriminatiekracht vergeleken met statische vector-aanpassingen.
Fijnmazige Controle: In tegenstelling tot methoden die een globale vector gebruiken, bouwt ELS een complex energielandschap op dat in staat is om nuance te onderscheiden tussen gerechtvaardigde en ongerechtvaardigde weigeringen.
Uitgebreide Validatie: De methode is getest op diverse modellen (Llama-2, Llama-3.1, Qwen3-serie) en presteert consistent beter dan bestaande fine-tuning-vrije en fine-tuning methoden.

4. Resultaten

De experimenten tonen aan dat ELS de balans tussen veiligheid en nuttigheid significant verbetert:

Vermindering van Valse Weigeringen: Op de ORB-H benchmark (een benchmark voor over-weigering) steeg de compliantie van 57,3% naar 82,6% voor het Llama-3.1-8B-Instruct model. Dit is een verbetering van 25,3 procentpunten ten opzichte van de baseline.
Behoud van Veiligheid: In tegenstelling tot methoden zoals "Surgical" of "AdaSteer", die vaak de veiligheid ondermijnen, behoudt ELS de basale veiligheidsprestaties (gemeten op JBB en HarmBench benchmarks). De model blijft schadelijke verzoeken effectief weigeren.
Behoud van Algemene Capabiliteiten: De prestaties op algemene taken (MMLU, ARC-C, MATH) blijven onveranderd, wat aantoont dat de sturing geen negatieve impact heeft op de kennis van het model.
Efficiëntie: De methode voegt slechts een minimale overhead toe aan de inference-tijd (van 1,60s naar 1,65s per prompt), wat aanzienlijk lager is dan andere geavanceerde stuurmethoden.
Robuustheid: ELS toont een sterke weerstand tegen multi-turn jailbreak-aanvallen (X-Teaming benchmark), wat wijst op een betere adaptiviteit aan contextuele manipulaties dan statische filters.

5. Betekenis en Conclusie

Dit werk biedt een veelbelovend paradigma voor de ontwikkeling van LLM's die zowel hoog veilig als laag in valse weigeringen zijn.

Decoupling: Het ontkoppelt gedragscontrole van de kernkennis van het model.
Flexibiliteit: Omdat het geen fine-tuning vereist, is het rekenkundig efficiënt en snel aan te passen aan nieuwe veiligheidsvereisten (alleen het kleine EBM moet opnieuw worden getraind, niet het hele LLM).
Toepassing: Het lost een kritiek probleem op in de AI-veiligheid: het maken van modellen die niet alleen veilig zijn, maar ook daadwerkelijk bruikbaar en betrouwbaar voor gebruikers in kritieke domeinen zoals gezondheidszorg en onderwijs, zonder onnodige blokkades.

Kortom, Energy Landscape Steering biedt een elegante, wiskundig onderbouwde oplossing om de "over-voorzichtigheid" van moderne AI-modellen te corrigeren terwijl hun veiligheidsbarrières intact blijven.

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

1. Het Probleem: De "Angstige" Assistent

2. De Oplossing: Een Onzichtbare "Energiekaart"

3. De Truc: De "Zwaartekracht" van de Navigatie

4. Waarom is dit zo goed?

Samenvattend

Titel: Het Mitigeren van Over-Weigering in Gekoppelde Grootte Taalmodellen via Activeringsenergie op Inference-Tijd

1. Het Probleem: Over-Weigering (Over-Refusal)

2. Methodologie: Energy Landscape Steering (ELS)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

A marginalized three-part interrupted time series regression model for proportional data

Geometry and factorization of multivariate Markov chains with applications to MCMC acceleration and approximate inference

High-dimensional Statistical Inference and Variable Selection Using Sufficient Dimension Association

Central limit theory for Peaks-over-Threshold partial sums of long memory linear time series

Joining and splitting models with Markov melding