Controllable and explainable personality sliders for LLMs at inference time

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Large Language Model (LLM), zoals de slimme chatbots die we vandaag de dag gebruiken, een enorm, complex orkest is. Normaal gesproken klinkt dit orkest altijd ongeveer hetzelfde: beleefd, neutraal en behulpzaam. Maar wat als je wilt dat het orkest plotseling klinkt als een energieke rockband, of juist als een kalme, filosofische jazzgroep?

Deze paper beschrijft een nieuwe, slimme manier om dat te doen zonder het hele orkest opnieuw te bouwen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Alles-of-Niets" Benadering

Vroeger, als je een AI wilde aanpassen om een specifiek karakter te hebben (bijvoorbeeld een grappige stand-upcomedian of een streng leraar), moest je het model opnieuw trainen.

De analogie: Stel je voor dat je een auto wilt aanpassen. Wil je hem sneller? Dan moet je de hele motor vervangen. Wil je hem ook comfortabeler? Dan moet je de hele auto opnieuw bouwen.
Het nadeel: Dit is duur, tijdrovend en je kunt niet makkelijk twee dingen tegelijk doen. Als je een auto wilt die snel én comfortabel is, moet je een heel nieuwe auto bouwen. Je kunt de "snelheid-modus" en de "comfort-modus" niet zomaar op elkaar stapelen.

2. De Oplossing: De "Stuurknuppel" (Activation Steering)

De auteurs van dit papier hebben een veel slimmere manier bedacht: Activatie-sturing.

De analogie: In plaats van de motor te vervangen, voegen ze een stuurknuppel toe aan het dashboard. Als je deze knuppel een beetje naar rechts duwt, wordt de AI iets extravorter. Duw je hem naar links, dan wordt ze introvert.
Het voordeel: Je hoeft de auto niet te verbouwen. Je kunt tijdens het rijden (tijdens het gesprek) direct het karakter veranderen.

3. Het Grote Probleem: De "Knoestige Kabels"

Er was echter een groot probleem met deze stuurknuppels. Als je probeerde twee knuppels tegelijk te bewegen (bijvoorbeeld "extravert" én "agressief"), botsten de signalen tegen elkaar op.

De analogie: Stel je voor dat je twee mensen vraagt om een zware kist te dragen. Als ze allebei in precies dezelfde richting duwen, werkt het goed. Maar als de ene persoon "naar voren" duwt en de andere "naar links", raken ze in de war en valt de kist om. De AI werd dan onbegrijpelijk of begon onzin te praten. Dit noemen de auteurs "destructieve interferentie".

4. De Innovatie: "Sequential Adaptive Steering" (SAS)

Hier komt de echte genialiteit van dit papier om de hoek kijken. Ze hebben een manier bedacht om de stuurknuppels zo te kalibreren dat ze niet meer in de war raken.

Ze noemen hun methode Sequential Adaptive Steering (SAS).

De analogie: In plaats van twee mensen die zomaar duwen, trainen ze de tweede persoon eerst op de situatie waarin de eerste persoon al duwt.
1. Ze trainen eerst de "Extraverte"-knuppel.
2. Dan kijken ze: "Oké, de AI is nu extravert. Hoe ziet de wereld eruit voor de 'Agressieve'-knuppel in deze nieuwe situatie?"
3. Ze trainen de tweede knuppel specifiek voor die nieuwe situatie.
Het resultaat: De knuppels werken nu als een perfect gecoördineerd team. Ze zijn "orthogonaal" (een wiskundig woord voor "loodrecht op elkaar"), wat betekent dat ze elkaar niet blokkeren. Je kunt nu een AI maken die extravert, creatief én een beetje neurotisch is, allemaal tegelijk, zonder dat het systeem crasht.

5. De "Draaiknoppen" voor Persoonlijkheid

Het papier gebruikt het bekende Big Five-model van persoonlijkheid (Openheid, Consciëntieusheid, Extraversie, Aardigheid, Neuroticisme).

Hoe het werkt voor de gebruiker: Je krijgt een interface met vijf schuifregelaars (sliders).
- Zet "Extravertie" naar 80%? De AI wordt gezelliger.
- Zet "Aardigheid" naar 20%? De AI wordt kritischer en minder meegaand.
- Zet beide tegelijk? De AI wordt een charismatische, maar kritische leidinggevende.
Het mooie: Je kunt deze schuifregelaars direct tijdens het gesprek veranderen. Je hoeft niet te wachten op een nieuwe update van de software.

Samenvatting in één zin

Deze paper introduceert een slimme methode om AI-modellen tijdens het gebruik direct van persoonlijkheid te laten veranderen door "stuurknuppels" te gebruiken die perfect op elkaar zijn afgestemd, zodat je een AI kunt maken die precies doet wat je wilt zonder dat het systeem in de war raakt of opnieuw getraind hoeft te worden.

Waarom is dit belangrijk?
Het maakt AI veel flexibeler en persoonlijker. Je kunt één model gebruiken voor een therapeut, een grappige vriend, een strenge docent of een creatieve schrijver, en je kunt deze rollen in seconden omwisselen door gewoon de schuifregelaars te verdraaien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Taalmodellen (LLMs) worden vaak aangepast aan specifieke persona's (bijv. empathisch therapeut, objectieve klantenservice) via Supervised Fine-Tuning (SFT) of Reinforcement Learning from Human Feedback (RLHF). Deze methoden zijn echter monolithisch en duur: voor elke nieuwe combinatie van persoonlijkheidseigenschappen moet een apart model worden getraind. Het samenvoegen van bestaande modellen (bijv. via LoRA-merging) is computatief zwaar en leidt vaak tot prestatieverlies bij conflicterende taken.

Een alternatief is inference-time activation steering, waarbij een "stuurvector" ( $v$ ) wordt toegevoegd aan de interne activaties van het model zonder de gewichten te wijzigen. Echter, bestaande methoden voor het tegelijkertijd sturen van meerdere eigenschappen (multi-vector steering) falen vaak. Wanneer meerdere vectoren na elkaar worden toegevoegd, veroorzaken ze destructieve interferentie: de eerste vector verandert de activatieverdeling (manifold), waardoor de daaropvolgende vectoren, die op de oorspronkelijke verdeling zijn getraind, niet meer effectief zijn. Dit leidt tot een ineenstorting van de coherentie en een verlies van de beoogde persoonlijkheid.

Methodologie: Sequential Adaptive Steering (SAS)

De auteurs introduceren een modulair framework genaamd Sequential Adaptive Steering (SAS) om dit interferentieprobleem op te lossen. Het doel is om de "Big Five" persoonlijkheidstrekken (OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism) onafhankelijk en continu te regelen via schuifbalken (coëfficiënten $\alpha$ ).

De kerncomponenten van de methode zijn:

Sequentiële Training op Verschuivingen:
In plaats van vectoren onafhankelijk te trainen op de oorspronkelijke (niet-gestuurde) data, traint SAS elke nieuwe probe (stuurvector) op een dataset die bestaat uit zowel de oorspronkelijke activaties als activaties die al zijn verschoven door eerdere interventies.
- Formule: Voor een trait $k$ wordt de probe getraind op $x^{(k)} = x + \sum_{i=1}^{k-1} \alpha_i v_i$ .
- Dit dwingt de nieuwe vector om een richting te leren die orthogonaal is ten opzichte van de subruimtes van de vorige vectoren, waardoor ze robuust blijven tegen de veranderingen die eerdere vectoren veroorzaken.
Geautomatiseerde Laagselectie:
De auteurs gebruiken de Fisher Ratio (FR) om automatisch de optimale laag in het transformer-model te selecteren voor elke specifieke persoonlijkheidstrek. Ze zoeken naar lagen waar de scheiding tussen de klassen (bijv. "hoog" vs. "laag" Extraversion) maximaal is, terwijl ze de eerste en laatste lagen uitsluiten (die respectievelijk te syntaxisgericht en te token-predicterend zijn).
Kalibratie van het Stuurbereik:
Er wordt een veiligheidskader gedefinieerd voor de stuurcoëfficiënt $\alpha$ (tussen $\alpha_{min}$ en $\alpha_{max}$ ). Dit bereik wordt bepaald via een grid search om te zorgen dat de persoonlijkheidswijziging statistisch significant is, maar dat de perplexiteit (taalmodelkwaliteit) niet met meer dan 50% verslechtert en de coherentie behouden blijft.
Evaluatie met "LLM-as-a-Judge":
De effectiviteit wordt gemeten door het gestuurde model vragen uit de Big Five Inventory (BFI-44) te laten beantwoorden. Een aparte, ingevroren GPT-4-instance scoort de antwoorden op een schaal van 1 tot 5 om de intensiteit van de getoonde eigenschap te kwantificeren.

Belangrijkste Bijdragen

Sequential Adaptive Steering (SAS): Een nieuw framework dat destructieve interferentie tussen meerdere stuurvectoren elimineert door adaptief te trainen op de resulterende verdelingen. Dit maakt het mogelijk om complexe, hoogwaardige persoonlijkheidsprofielen te synthetiseren door simpelweg de coëfficiënten ( $\alpha$ ) aan te passen.
Data-gedreven Laagselectie: Vervanging van handmatige trial-and-error door een kwantificeerbare metric (Fisher Ratio) om de beste interventielagen te vinden.
Parameter-efficiëntie: Het framework vereist geen hertraining van modelgewichten en voegt geen tokens toe aan de prompt (zero-token intervention), wat contextvensters bespaart en dynamische schakeling mogelijk maakt.

Resultaten

De methode is gevalideerd op drie architecturen: Llama-3-8B, Mistral-7B en Qwen2.5-7B.

Superieure Controle: SAS overtreft "naive" baselines (waar vectoren simpelweg worden opgeteld) aanzienlijk. Waar naive methoden leiden tot incoherentie en modelinstorting bij het combineren van vectoren, behoudt SAS de coherentie en bereikt het de doelstellingen voor meerdere eigenschappen tegelijk (bijv. Hoge Extraversion + Lage Agreeableness + Hoge Neuroticism).
Pareto-Dominantie: In de afweging tussen persoonlijkheidsscore en perplexiteit (kwaliteit) domineert SAS de baselines. Het bereikt hogere persoonlijkheidsscores bij dezelfde perplexiteit, of behoudt lagere perplexiteit bij dezelfde scores.
Orthogonalisatie: Geometrische analyse toont aan dat SAS de stuurvectoren effectief ontkoppelt. De cosinus-achtigheid tussen vectoren (bijv. Extraversion en Openness) wordt drastisch verlaagd ten opzichte van onafhankelijk getrainde vectoren, wat bevestigt dat de vectoren nu onafhankelijke richtingen in de latent space vertegenwoordigen.
Ablatiestudies: Het verwijderen van de sequentiële aanpassing of de automatische laagselectie leidt tot een significante daling in succes, wat aantoont dat beide componenten cruciaal zijn.

Betekenis en Toekomstperspectief

Dit werk bewijst dat persoonlijkheidstrekken lineair gecodeerd zijn in de hoge-dimensionale activatieruimte van LLMs en dat deze lineair kunnen worden gemanipuleerd, zelfs in samengestelde profielen, mits de geometrische interferentie wordt beheerd.

Praktische Toepassing: Het biedt een lichtgewicht, modulair alternatief voor het trainen van duizenden specifieke persona-modellen. Gebruikers kunnen realtime de "knoppen" van een model draaien om de persoonlijkheid aan te passen aan de context (bijv. van vriendelijk naar zakelijk).
Ethiek en Risico's: De auteurs wijzen op het "dual-use" risico. Dezelfde techniek die wordt gebruikt om een model veiliger of eerlijker te maken, kan worden omgekeerd om schadelijk gedrag (toxiciteit, leugens) te genereren. Dit benadrukt de noodzaak van verdedigingsmechanismen tegen activatie-ruimte-aanvallen.
Beperkingen: De methode vereist witte-kas-toegang tot het model (niet toepasbaar op gesloten API's) en de huidige validatie is beperkt tot modellen van 7B-8B parameters. Schaalbaarheid naar zeer grote modellen (70B+) en de stabiliteit bij extreme stuurwaarden zijn gebieden voor toekomstig onderzoek.

Kortom, SAS biedt een robuuste, uitlegbare en efficiënte manier om de persoonlijkheid van LLMs dynamisch en onafhankelijk te regelen zonder de onderliggende modelarchitectuur te wijzigen.

Controllable and explainable personality sliders for LLMs at inference time

1. Het Probleem: De "Alles-of-Niets" Benadering

2. De Oplossing: De "Stuurknuppel" (Activation Steering)

3. Het Grote Probleem: De "Knoestige Kabels"

4. De Innovatie: "Sequential Adaptive Steering" (SAS)

5. De "Draaiknoppen" voor Persoonlijkheid

Samenvatting in één zin

Probleemstelling

Methodologie: Sequential Adaptive Steering (SAS)

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification