Aligning Language Models from User Interactions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren assistent hebt. Elke dag praat je met hem, vraagt je om dingen, en hij geeft antwoorden. Soms is hij perfect, maar soms maakt hij een fout, begrijpt hij je niet goed, of is zijn toon net niet wat je wilt.

In de huidige wereld van kunstmatige intelligentie (AI) gebeurt er iets vreemds: als je met zo'n assistent praat en hij maakt een fout, en jij zegt: "Hé, dat was niet wat ik bedoelde, kun je het anders doen?" – dan is dat gesprek voor de assistent vaak vergeten. Die informatie wordt weggegooid, alsof je een brief in de prullenbak gooit. De assistent leert er niets van voor de volgende keer.

Dit nieuwe onderzoek, getiteld "Het afstemmen van Taalmodellen op Basis van Gebruikersinteracties", komt met een briljant en simpel idee: Waarom die gesprekken niet gebruiken om de assistent direct slimmer te maken?

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Terugblik"-Truc (Hindsight)

Stel je voor dat je een fout maakt bij het koken. Je hebt de soep te zout gemaakt. Je vriend zegt: "Oeps, te zout."
Op dat moment denk je: "Ah, als ik dat eerder had geweten, had ik minder zout gedaan."

De AI doet precies hetzelfde, maar dan in een split-seconde.

Stap 1: De AI geeft een antwoord (bijvoorbeeld: "Hier is je recept").
Stap 2: Jij reageert: "Dit is te langdradig, maak het korter."
Stap 3: De AI kijkt terug naar zijn eigen antwoord en denkt: "Als ik nu wist dat de gebruiker het korter wilde, hoe had ik dat dan gezegd?"

De AI simuleert dus een "terugblik-versie" van zichzelf. Ze vergelijkt wat ze eerst zeiden met wat ze nu zouden zeggen als ze de reactie van de gebruiker al hadden geweten.

2. De Zelf-lerende Spiegel (Self-Distillation)

Normaal gesproken heb je een leraar nodig die zegt: "Goed gedaan" of "Fout, doe dit zo". Maar hier heeft de AI geen leraar nodig. Ze leert van zichzelf.

Het proces werkt als een spiegel:

De AI kijkt naar haar eigen oude antwoord.
Ze kijkt naar hoe ze dat antwoord zou hebben veranderd als ze de reactie van de gebruiker had gezien.
Ze zegt tegen zichzelf: "Deel die woorden die ik nu zou hebben veranderd, minder vaak. Deel de woorden die ik nu zou hebben behouden, vaker."

Dit noemen ze Self-Distillation (Zelf-distillatie). Het is alsof de AI haar eigen fouten corrigeert en die correctie direct in haar hersenen (haar gewichten) opslaat, zonder dat iemand anders hoeft te zeggen wat goed of fout is.

3. Waarom is dit zo geweldig?

A. Het leert van echte chaos
Meestal trainen AI's op netjes verzamelde datasets waar experts zeggen: "Dit is een goed antwoord, dit is een slecht antwoord." Maar in het echte leven praten mensen niet zo netjes. Mensen zeggen soms: "Nee, dat is niet wat ik bedoel" of "Kun je dat in een andere stijl?"
Dit systeem is zo slim dat het die onduidelijke, natuurlijke reacties begrijpt. Het leert zelfs van een gebruiker die boos is of verward, zolang er maar een hint zit in de tekst.

B. Het wordt een persoonlijke assistent
Stel je voor dat je een assistent hebt die zich aanpast aan jou.

Jij houdt van korte, zakelijke zinnen? De AI leert dat na een paar gesprekken.
Jij wilt dat hij grappig is? Hij wordt grappig.
Jij verandert van mening? De AI past zich weer aan.

Het systeem hoeft niet opnieuw getraind te worden door ingenieurs. Het leert gewoon door met jou te praten. Het is alsof de AI een geheugen opbouwt van wat jij leuk vindt, puur door te luisteren naar hoe je reageert.

C. Het vergeten het niet
Een groot probleem bij het leren van nieuwe dingen is dat je oude kennis vergeet. Dit systeem is slim genoeg om nieuwe voorkeuren te leren zonder de basisvaardigheden (zoals wiskunde of coderen) te verliezen. Het is alsof je een nieuwe taal leert zonder je moedertaal te vergeten.

Samenvattend: De Gouden Eieren

Tot nu toe gooide de AI-industrie de "gouden eieren" (de duizenden gesprekken die dagelijks plaatsvinden) weg. Ze dachten: "We kunnen hier niets mee."

Dit papier zegt: "Nee, wacht even! Dit is de goudmijn."

Door simpelweg te kijken naar wat de gebruiker na een antwoord zegt, kan de AI zichzelf corrigeren, verbeteren en personaliseren. Het is een manier om AI's te laten groeien door gewoon te doen wat ze het beste kunnen: praten met mensen, en leren van de reacties die dat oproept.

Kortom: De AI leert niet van een streng leraar met een rood potlood, maar van zijn eigen ervaringen in het gesprek, alsof hij elke dag een beetje wijzer wordt door naar zijn eigen gesprekken te luisteren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Afstemmen van Taalmodellen op Basis van Gebruikersinteracties

1. Het Probleem

Moderne taalmodellen (LLM's) genereren dagelijks enorme hoeveelheden data via multi-turn gesprekken met gebruikers. Hoewel deze interacties rijk zijn aan impliciete leersignalen (zoals follow-up berichten die aangeven dat een antwoord onjuist was, instructies niet werden gevolgd, of de voorkeuren van de gebruiker niet werden gerespecteerd), wordt deze data doorgaans weggegooid.

De uitdaging ligt in het ontbreken van effectieve methoden om direct uit deze ruwe, ongelabelde conversaties te leren. In tegenstelling tot gestructureerde datasets met expliciete labels, expertdemonstraties of voorkeursvergelijkingen, is feedback in echte gesprekken impliciet en contextafhankelijk. Bestaande methoden vereisen vaak extra tussenstappen, zoals het handmatig annoteren van voorkeuren of het trainen van reward-modellen, wat de schaalbaarheid beperkt. De centrale vraag is: Kunnen we taalmodellen op een eenvoudige, principiële en schaalbare manier direct trainen op multi-turn gebruikersinteracties zonder expliciete supervisie?

2. Methodologie: Self-Distillation Policy Optimization (SDPO)

De auteurs introduceren SDPO (Self-Distillation Policy Optimization), een methode die gebruikmaakt van het bestaande "in-context learning"-vermogen van het model om uit eigen fouten te leren.

Het Kernconcept:
Het idee is dat een model, na het zien van een gebruikersfollow-up (bijv. een correctie of een verzoek om herschrijven), vaak beter kan anticiperen op wat de gebruiker wil dan voor die follow-up. De auteurs benutten dit "hindsight"-kennis:

Observatie: Het model genereert een antwoord $y$ op basis van de conversatiegeschiedenis $x$ .
Follow-up: De gebruiker reageert met $o$ (bijv. "Dit is niet wat ik bedoelde" of "Gebruik een formelere toon").
Hindsight Policy: Hetzelfde model wordt opnieuw geprompt met de geschiedenis én de follow-up ( $x, o$ ) om te voorspellen hoe het antwoord $y$ eruit had moeten zien als het de follow-up al had gekend. Dit resulteert in een "hindsight" token-verdeling $\pi_\theta(\cdot | x, o, y_{<i})$ .
Vergelijking: De oorspronkelijke policy $\pi_\theta(\cdot | x)$ $π_{θ} (\cdot ∣ x)$ wordt vergeleken met de hindsight policy.
- Tokens die in de hindsight-policy een hogere waarschijnlijkheid krijgen, worden beloond.
- Tokens die een lagere waarschijnlijkheid krijgen (bijv. informele woorden bij een verzoek om formaliteit), worden bestraft.

De Leer-Signaal:
De methode berekent een token-level voordeel (advantage) $A_i$ :
$A_i(x, y, o) = \log \frac{\pi_\theta(y_i | x, o, y_{<i})}{\pi_\theta(y_i | x, y_{<i})}$
Dit log-ratio fungeert als een leer-signaal. Het model wordt getraind om de kans op tokens te maximaliseren die door de gebruikersfeedback worden ondersteund en te minimaliseren voor tokens die worden tegengesproken. Dit wordt gedaan via het minimaliseren van de reverse KL-divergentie tussen de huidige policy en de "vastgehouden" (detached) hindsight policy.

Voor- en Nadelen van de Aanpak:

Zelf-distillatie: Het model distilleert kennis van zichzelf (de hindsight-versie) terug naar de huidige policy.
Geen externe labels: Het vereist geen reward-model, geen menselijke annotatie en geen voorkeursdata.
Robuustheid: Het signaal is natuurlijk onderdrukt als de gebruikersreactie irrelevant is voor het vorige antwoord (de verdeling blijft dan gelijk, dus geen update).

3. Belangrijkste Bijdragen

Principiële Methode: Een nieuwe, schaalbare aanpak (SDPO) om direct te leren uit ruwe, real-world conversaties zonder expliciete supervisie.
Interpretatie van Alignment: Het toont aan dat het optimaliseren van deze zelf-distillatie-voordelen equivalent is aan het impliciet maximaliseren van de latente beloningsfunctie van de gebruiker.
Personalisatie: De methode maakt continue personalisatie mogelijk, waarbij modellen zich aanpassen aan individuele gebruikersvoorkeuren puur via interactie, zonder expliciete feedback of profielen.
Schaalbaarheid: De aanpak werkt zowel online (tijdens interactie) als offline (op gelogde datasets), zelfs als de data afkomstig is van een ander model (off-policy).

4. Resultaten

De auteurs hebben SDPO getest op datasets zoals WildChat en WildFeedback (real-world conversaties) en geëvalueerd op diverse benchmarks.

Algemene Afstemming (General Alignment):
- Training op 14.000 real-world conversaties verbeterde de prestaties van modellen (o.a. Qwen3-8B en Olmo3-7B) op standaard benchmarks voor instructievolging (AlpacaEval 2.0, IFEval) en creatief schrijven.
- Cruciaal: Er was geen regressie in andere vaardigheden zoals wiskunde, codering of kennis (MMLU-Pro), in tegenstelling tot wat vaak gebeurt bij ruwe fine-tuning.
- Zelfs bij training op volledig ongefilterde data (zonder filtering op feedbackkwaliteit) bleef het model robuust, hoewel gefilterde data (WildFeedback) iets betere resultaten opleverde.
- Vergelijking met Supervised Fine-Tuning (SFT): SFT op dezelfde assistant-antwoorden leidde tot een sterke daling in prestaties, wat aantoont dat SDPO fundamenteel anders werkt en niet simpelweg de bestaande antwoorden kopieert.
Continu Personalisatie:
- Modellen konden zich binnen enkele tientallen interacties aanpassen aan specifieke gebruikersstijlen (bijv. "kort en informeel" vs. "gedetailleerd en formeel").
- Het model kon zich aanpassen aan veranderende voorkeuren (bijv. een omkering na 250 interacties) zonder catastrofale vergetelheid van eerdere voorkeuren.
- De prestaties van SDPO in online adaptatie kwamen overeen met of overtroffen zelfs een "oracle" die expliciet de gebruikersprofielbeschrijving in de prompt had.
Interpreteerbaarheid:
- Visualisaties van de token-voordelen toonden aan dat het model correct "leerde" welke tokens te bestraffen (bijv. informele woorden bij een verzoek om formaliteit) en welke te versterken.
- Bij irrelevante follow-ups (bijv. een vraag over wiskunde na een e-mailverzoek) waren de voordelen dicht bij nul, wat aantoont dat het systeem niet leert uit ruis.

5. Betekenis en Conclusie

Deze paper toont aan dat de enorme hoeveelheid data die gegenereerd wordt tijdens de deploy-fase van taalmodellen een tot nu toe onderbenutte bron is voor verbetering. SDPO biedt een elegante oplossing om deze data te benutten zonder de complexiteit van reward-modelling of menselijke annotatie.

Belangrijkste implicaties:

Sluiting van de leerlus: Het stelt systemen in staat om continu te leren van hun eigen inzet in de echte wereld.
Duurzame Personalisatie: Modellen kunnen zich dynamisch aanpassen aan individuele gebruikers, wat essentieel is voor toekomstige AI-assistenten.
Veiligheid en Ethiek: Hoewel de methode robuust is tegen irrelevante input, waarschuwen de auteurs voor risico's bij continue personalisatie zonder guardrails, omdat gebruikers het model theoretisch kunnen manipuleren naar onveilig gedrag. Ze benadrukken de noodzaak van transparantie en governance bij het gebruik van gebruikersdata voor training.

Kortom, SDPO bewijst dat "hindsight" via gebruikersfeedback een krachtig, zelfstandig leermiddel is voor taalmodellen, waardoor ze niet alleen beter worden in het volgen van instructies, maar ook in het aanpassen aan menselijke voorkeuren.

Aligning Language Models from User Interactions

1. De "Terugblik"-Truc (Hindsight)

2. De Zelf-lerende Spiegel (Self-Distillation)

3. Waarom is dit zo geweldig?

Samenvattend: De Gouden Eieren

Titel: Het Afstemmen van Taalmodellen op Basis van Gebruikersinteracties

1. Het Probleem

2. Methodologie: Self-Distillation Policy Optimization (SDPO)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá