Rethinking Personalization in Large Language Models at the Token Level

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, universele assistent hebt, zoals een AI die alles kan: van recepten schrijven tot juridisch advies geven. Tot nu toe reageerde deze assistent op iedereen op precies dezelfde manier, alsof hij een standaardformulier invulde. Maar jij wilt dat hij jouw stijl heeft, jouw grappen begrijpt en jouw voorkeuren kent.

Deze paper, getiteld "Hoe we personalisatie in grote taalmodellen opnieuw moeten bekijken op woordniveau", komt met een slimme oplossing om die assistent echt persoonlijk te maken. Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen.

Het Probleem: De "Grote Pot" aan Woorden

Stel je voor dat je een kok bent die een gerecht voor een klant bereidt. De klant zegt: "Maak iets lekkers, maar ik hou van pittig en ik ben vegetariër."
Tot nu toe behandelden AI-modellen elk woord in hun antwoord alsof het even belangrijk was. Ze deden alsof het woord "de", "is" en "pittig" allemaal evenveel bijdroegen aan de persoonlijkheid van het antwoord.

De vergelijking: Het is alsof je een schilderij maakt en elke penseelstreek (elk woord) evenveel verf en aandacht geeft. Maar in werkelijkheid zijn er bepaalde streken (woorden) die de stijl en persoonlijkheid van het schilderij bepalen (bijv. de kleurkeuze, de specifieke uitdrukking), terwijl andere woorden (zoals "de" of "een") gewoon de structuur vormen. Als je ze allemaal even zwaar weegt, verdwijnt de persoonlijke "stempel" in de massa.

De Oplossing: PerContrast (De "Wat-zou-er-gebeurd-zijn"-Test)

De auteurs bedenken een slimme manier om te ontdekken welke woorden echt "persoonlijk" zijn. Ze noemen dit PerContrast.

De analogie:
Stel je voor dat je een detective bent. Je wilt weten welke woorden in een antwoord echt komen door de persoonlijke gegevens van de gebruiker (bijv. "Ik hou van rockmuziek").
De AI doet een experiment:

Scenario A: De AI leest de vraag met de persoonlijke info ("Ik hou van rockmuziek").
Scenario B: De AI leest dezelfde vraag zonder die persoonlijke info (alsof die info nooit bestond).

Vervolgens vergelijkt de AI de twee antwoorden.

Als het woord "rock" in Scenario A heel waarschijnlijk is, maar in Scenario B helemaal niet, dan is dat woord hoogst persoonlijk. Het is een direct gevolg van de gebruiker.
Als het woord "de" in beide scenario's precies even waarschijnlijk is, dan is dat woord niet persoonlijk. Het is gewoon standaardtaal.

Deze methode geeft elk woord een "persoonlijkheids-score". Woorden met een hoge score zijn de "sterren" van het persoonlijke gesprek.

De Training: PerCE (De "Slimme Leraar")

Nu weten we welke woorden belangrijk zijn. Hoe trainen we de AI om die woorden beter te gebruiken?

Normaal gesproken leert een AI door te kijken naar alle fouten die hij maakt en die allemaal even hard te corrigeren. Dit is alsof een leraar die elke fout in een proefwerk even zwaar weegt, ongeacht of het een cruciaal woord was of een klein typefoutje.

De auteurs introduceren PerCE (een nieuwe leermethode).
De analogie:
Stel je voor dat de AI een student is die een proefwerk schrijft. De leraar (PerCE) kijkt naar de antwoorden en zegt:
"Oké, je hebt een fout gemaakt bij het woord 'rock'. Omdat dat woord heel belangrijk is voor de persoonlijkheid van de gebruiker, krijg je daarvoor dubbel zoveel strafpunten (of in dit geval: dubbel zoveel aandacht) dan voor een fout bij het woord 'de'."

De AI leert dus niet alleen wat er moet worden gezegd, maar leert ook waar hij extra moet letten op de persoonlijke details. Hij gaat in een cyclus:

Schatten: "Welke woorden zijn hier persoonlijk?" (De detective-stap).
Oefenen: "Ik ga me extra concentreren op die woorden." (De leer-stap).

Dit gebeurt automatisch tijdens het trainen, zonder dat mensen handmatig moeten markeren welke woorden belangrijk zijn.

Waarom is dit zo goed?

De paper toont aan dat deze methode wonderen doet:

Beter resultaat: De AI wordt veel persoonlijker. Op tests scoorde het tot wel 68% beter dan de oude methoden.
Sneller en goedkoper: Het kost bijna geen extra tijd. De AI hoeft maar één keer extra te "nadenken" over een korte zin om te zien wat er anders zou zijn zonder de persoonlijke info.
Allesomvattend: Het werkt niet alleen voor het schrijven van teksten, maar ook voor gesprekken, reviews en zelfs als de AI moet schakelen tussen verschillende taken.

Samenvatting in één zin

In plaats van een AI te trainen alsof elk woord even belangrijk is, leert deze nieuwe methode de AI om te focussen op de specifieke woorden die de "ziel" van de gebruiker uitdrukken, waardoor de AI zich voelt als een echte, persoonlijke vriend in plaats van een robot.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Rethinking Personalization in Large Language Models at the Token Level" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) presteren uitstekend op diverse taken, maar er is een groeiende vraag naar personalisatie: modellen moeten niet alleen een algemene taak uitvoeren, maar ook antwoorden aanpassen aan de specifieke voorkeuren, profielen en interactiegeschiedenis van de gebruiker.

Het fundamentele probleem dat dit paper adresseert, is dat bestaande trainingsmethoden alle tokens in een antwoord uniform behandelen. Hoewel personalisatie vaak wordt gezien als een extra laag bovenop een basis-NLP-taak, dragen verschillende tokens in een respons op verschillende manieren bij aan de personalisatie:

In creatieve schrijftaken (zoals het schrijven van een abstract) spelen stijl-tokens (woordkeuze, toon) een grotere rol.
In conversaties zijn informatieve tokens (die specifieke eigenschappen van de gebruiker bevatten) belangrijker.

Huidige loss-functies (zoals standaard Cross-Entropy) negeren deze variatie, waardoor de focus op de cruciale "persoonlijke" tokens wordt verwaterd. Een grote uitdaging is het nauwkeurig schatten van de mate waarin elk token bijdraagt aan personalisatie, aangezien deze verdeling taakafhankelijk en moeilijk te karakteriseren is.

Methodologie

Het paper introduceert een nieuwe aanpak die bestaat uit twee kerncomponenten: PerContrast voor het schatten van personalisatie en PerCE voor het trainen van het model.

1. PerContrast: Causale Meting op Token-niveau

Om de bijdrage van elk token aan personalisatie te kwantificeren, gebruiken de auteurs een zelf-contrast methode gebaseerd op causale interventie.

Principe: Voor een gegeven antwoordtoken $y_i$ $y_{i}$ wordt de waarschijnlijkheid vergeleken onder twee condities:
1. Met de volledige persoonlijke instructie (persona) $p_u$ .
2. Met een gemodificeerde instructie waarbij de persoonlijke informatie is verwijderd.
PIR (Personal Influence Ratio): De mate van personalisatie wordt berekend als het verschil in log-probabiliteit:
$PIR(y_i; \theta) = \log P_\theta(y_i | p_u, x, y_{<i}) - \log P_\theta(y_i | x, y_{<i})$
Causale onderbouwing: De auteurs bewijzen theoretisch dat deze PIR-waarde overeenkomt met het token-level causale effect van de persona op het genereren van dat specifieke token. Een hoge PIR betekent dat het token sterk afhankelijk is van de gebruikersinformatie en dus essentieel is voor personalisatie.

2. PerCE Loss: Expectation-Maximization (EM) Training

Op basis van de PIR-waarden wordt een nieuwe loss-functie ontwikkeld, genaamd PerCE (Personalized Cross-Entropy).

Gewogen Loss: In plaats van een uniforme gemiddelde loss, worden tokens met een hoge geschatte personalisatiegraad zwaarder gewogen tijdens het trainen.
EM-achtig proces: De methode werkt als een online bootstrap-procedure:
- E-stap (Schatten): Het model schat de personalisatiegraad van elk token via PerContrast (PIR) en converteert dit naar een gewicht (geclipt om extreme gradiënten te voorkomen).
- M-stap (Optimaliseren): Het model wordt geüpdatet door de gewogen Cross-Entropy loss te minimaliseren, waarbij de focus ligt op de tokens die het meest bijdragen aan personalisatie.
Dit proces herhaalt zich bij elke trainingsstap, waardoor het model zichzelf continu leert focussen op de juiste tokens zonder extra menselijke annotatie.

Belangrijkste Bijdragen

Token-level Analyse: Het paper is het eerste dat personalisatie analyseert op het niveau van individuele tokens en aantoont dat deze niet uniform bijdragen.
PerContrast: Een efficiënte, causaal onderbouwde methode om de personalisatiegraad van tokens te schatten zonder extra supervisie.
PerCE Loss: Een nieuwe trainingsparadigma dat personalisatie verbetert door adaptief gewichten toe te kennen aan belangrijke tokens, geïntegreerd in een EM-achtige cyclus.
Orthogonaliteit: De methode is compatibel met bestaande trainingspijplijnen en kan worden gecombineerd met andere personalisatietechnieken (zoals RAG of fine-tuning).

Resultaten

De auteurs hebben PerCE getest op meerdere LLMs (Qwen3-4B, Qwen3-14B, Llama3-8B) op diverse datasets, waaronder LongLaMP (voor tekstgeneratie) en ALOE (voor conversatie).

Prestatieverbetering: PerCE levert aanzienlijke verbeteringen op vergeleken met standaard Cross-Entropy (CE) en andere geavanceerde loss-varianten.
- Gemiddelde verbetering: >10% over alle modellen en taken.
- Maximale verbetering: 68,04% op de LongLaMP dataset (specifiek voor Review Writing).
Generalisatie en Transfer:
- Cross-task: Modellen getraind met PerCE op één taak (bijv. abstracts schrijven) presteren significant beter op andere taken (bijv. reviews schrijven) dan modellen getraind met CE.
- Cross-scenario: PerCE toont sterke transfer naar conversatie-scenario's (ALOE benchmark), zelfs wanneer de trainingsdata uit tekstgeneratie komt.
Efficiëntie: De methode introduceert slechts een minimale overhead (één extra forward pass met een kortere context zonder persona), wat de rekentijd nauwelijks beïnvloedt.
Robuustheid: PerCE is minder gevoelig voor variaties in hyperparameters (zoals learning rate) dan standaard CE, wat leidt tot stabielere training.
Algemene Capabiliteit: De verbetering in personalisatie gaat niet ten koste van de algemene taalvaardigheid; er zijn zelfs kleine verbeteringen gezien op algemene QA-taken (HotpotQA, DROP).

Significantie

Dit werk markeert een paradigmaverschuiving in het trainen van gepersonaliseerde LLMs. In plaats van te vertrouwen op grootschalige datasets of complexe retrieval-mechanismen alleen, benadrukt het paper het belang van token-bewust trainen.

De kernboodschap is dat personalisatie niet een "alles-of-niets" eigenschap is, maar een spectrum waarbij specifieke tokens cruciaal zijn. Door deze tokens causaal te identificeren en adaptief te versterken tijdens het trainen, kunnen modellen veel effectiever leren om zich aan te passen aan individuele gebruikers. Dit biedt een eenvoudige maar krachtige route om de kwaliteit en relevantie van AI-antwoorden voor eindgebruikers aanzienlijk te verbeteren.

Rethinking Personalization in Large Language Models at the Token Level

Het Probleem: De "Grote Pot" aan Woorden

De Oplossing: PerContrast (De "Wat-zou-er-gebeurd-zijn"-Test)

De Training: PerCE (De "Slimme Leraar")

Waarom is dit zo goed?

Samenvatting in één zin

Probleemstelling

Methodologie

1. PerContrast: Causale Meting op Token-niveau

2. PerCE Loss: Expectation-Maximization (EM) Training

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models