Aligning Language Models from User Interactions

Dit paper introduceert een schaalbare zelfdistillatiemethode die taalmodellen in staat stelt om direct uit natuurlijke meer-draads gebruikersinteracties te leren, waardoor de modellen hun uitlijning, instructie-opvolging en personalisatie kunnen verbeteren zonder expliciete feedback.

Thomas Kleine Buening, Jonas Hübotter, Barna Pásztor, Idan Shenfeld, Giorgia Ramponi, Andreas Krause

Gepubliceerd 2026-03-16
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren assistent hebt. Elke dag praat je met hem, vraagt je om dingen, en hij geeft antwoorden. Soms is hij perfect, maar soms maakt hij een fout, begrijpt hij je niet goed, of is zijn toon net niet wat je wilt.

In de huidige wereld van kunstmatige intelligentie (AI) gebeurt er iets vreemds: als je met zo'n assistent praat en hij maakt een fout, en jij zegt: "Hé, dat was niet wat ik bedoelde, kun je het anders doen?" – dan is dat gesprek voor de assistent vaak vergeten. Die informatie wordt weggegooid, alsof je een brief in de prullenbak gooit. De assistent leert er niets van voor de volgende keer.

Dit nieuwe onderzoek, getiteld "Het afstemmen van Taalmodellen op Basis van Gebruikersinteracties", komt met een briljant en simpel idee: Waarom die gesprekken niet gebruiken om de assistent direct slimmer te maken?

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Terugblik"-Truc (Hindsight)

Stel je voor dat je een fout maakt bij het koken. Je hebt de soep te zout gemaakt. Je vriend zegt: "Oeps, te zout."
Op dat moment denk je: "Ah, als ik dat eerder had geweten, had ik minder zout gedaan."

De AI doet precies hetzelfde, maar dan in een split-seconde.

  • Stap 1: De AI geeft een antwoord (bijvoorbeeld: "Hier is je recept").
  • Stap 2: Jij reageert: "Dit is te langdradig, maak het korter."
  • Stap 3: De AI kijkt terug naar zijn eigen antwoord en denkt: "Als ik nu wist dat de gebruiker het korter wilde, hoe had ik dat dan gezegd?"

De AI simuleert dus een "terugblik-versie" van zichzelf. Ze vergelijkt wat ze eerst zeiden met wat ze nu zouden zeggen als ze de reactie van de gebruiker al hadden geweten.

2. De Zelf-lerende Spiegel (Self-Distillation)

Normaal gesproken heb je een leraar nodig die zegt: "Goed gedaan" of "Fout, doe dit zo". Maar hier heeft de AI geen leraar nodig. Ze leert van zichzelf.

Het proces werkt als een spiegel:

  • De AI kijkt naar haar eigen oude antwoord.
  • Ze kijkt naar hoe ze dat antwoord zou hebben veranderd als ze de reactie van de gebruiker had gezien.
  • Ze zegt tegen zichzelf: "Deel die woorden die ik nu zou hebben veranderd, minder vaak. Deel de woorden die ik nu zou hebben behouden, vaker."

Dit noemen ze Self-Distillation (Zelf-distillatie). Het is alsof de AI haar eigen fouten corrigeert en die correctie direct in haar hersenen (haar gewichten) opslaat, zonder dat iemand anders hoeft te zeggen wat goed of fout is.

3. Waarom is dit zo geweldig?

A. Het leert van echte chaos
Meestal trainen AI's op netjes verzamelde datasets waar experts zeggen: "Dit is een goed antwoord, dit is een slecht antwoord." Maar in het echte leven praten mensen niet zo netjes. Mensen zeggen soms: "Nee, dat is niet wat ik bedoel" of "Kun je dat in een andere stijl?"
Dit systeem is zo slim dat het die onduidelijke, natuurlijke reacties begrijpt. Het leert zelfs van een gebruiker die boos is of verward, zolang er maar een hint zit in de tekst.

B. Het wordt een persoonlijke assistent
Stel je voor dat je een assistent hebt die zich aanpast aan jou.

  • Jij houdt van korte, zakelijke zinnen? De AI leert dat na een paar gesprekken.
  • Jij wilt dat hij grappig is? Hij wordt grappig.
  • Jij verandert van mening? De AI past zich weer aan.

Het systeem hoeft niet opnieuw getraind te worden door ingenieurs. Het leert gewoon door met jou te praten. Het is alsof de AI een geheugen opbouwt van wat jij leuk vindt, puur door te luisteren naar hoe je reageert.

C. Het vergeten het niet
Een groot probleem bij het leren van nieuwe dingen is dat je oude kennis vergeet. Dit systeem is slim genoeg om nieuwe voorkeuren te leren zonder de basisvaardigheden (zoals wiskunde of coderen) te verliezen. Het is alsof je een nieuwe taal leert zonder je moedertaal te vergeten.

Samenvattend: De Gouden Eieren

Tot nu toe gooide de AI-industrie de "gouden eieren" (de duizenden gesprekken die dagelijks plaatsvinden) weg. Ze dachten: "We kunnen hier niets mee."

Dit papier zegt: "Nee, wacht even! Dit is de goudmijn."

Door simpelweg te kijken naar wat de gebruiker na een antwoord zegt, kan de AI zichzelf corrigeren, verbeteren en personaliseren. Het is een manier om AI's te laten groeien door gewoon te doen wat ze het beste kunnen: praten met mensen, en leren van de reacties die dat oproept.

Kortom: De AI leert niet van een streng leraar met een rood potlood, maar van zijn eigen ervaringen in het gesprek, alsof hij elke dag een beetje wijzer wordt door naar zijn eigen gesprekken te luisteren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →