Partial Policy Gradients for RL in LLMs

Dit paper introduceert een methode voor reinforcement learning in LLMs waarbij het optimaliseren van een subset van toekomstige beloningen leidt tot betrouwbaardere schattingen en het vergelijken van verschillende policy-classes, zoals volledige planning en K-stap vooruitkijken, voor conversatieproblemen.

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe je een AI kunt leren om niet te vergeten wie hij is

Stel je voor dat je een acteur hebt die een rol moet spelen in een heel lang toneelstuk. Hij moet de hele avond dezelfde persoon zijn: dezelfde achtergrond, dezelfde voorkeuren en dezelfde gevoelens. Het probleem met de huidige slimme computers (LLMs) is dat ze na een tijdje de draad kwijtraken. Ze beginnen te vergeten dat ze een leraar zijn, veranderen hun mening over hun favoriete eten, of zeggen dingen die in strijd zijn met wat ze eerder zeiden. Dit noemen de auteurs "persona drift" (het wegdrift van het personage).

Deze paper introduceert een slimme nieuwe manier om deze AI's te trainen, zodat ze trouw blijven aan hun rol, zelfs in gesprekken van urenlang. De techniek heet Partial Policy Gradients (Gedeeltelijke Beleidsgradienten), maar laten we het simpel houden: het gaat over hoe ver je in de toekomst moet kijken terwijl je leert.

Hier is de uitleg in drie simpele concepten:

1. Het probleem: Kijken naar alleen de volgende stap of de hele film?

Stel je voor dat je een AI traint om een gesprek te voeren.

  • De oude manier (Greedy): De AI kijkt alleen naar de volgende zin. "Als ik nu deze zin zeg, krijg ik een complimentje?" Het is alsof je een film kijkt en alleen kijkt naar het volgende frame. Je weet niet wat er over 10 minuten gebeurt. Het gevolg: de AI zegt iets slimme nu, maar vergeten later dat ze dat al eerder hadden gezegd. Ze "flip-floppen" (wisselen heen en weer) en raken de draad kwijt.
  • De volledige manier (Full Planning): De AI probeert de hele film van begin tot eind in gedachten te houden. "Als ik nu dit zeg, hoe beïnvloedt dat mijn rol over 50 minuten?" Dit is heel goed, maar het is ook enorm zwaar voor de computer. Het kost veel data en rekenkracht. Als je niet genoeg voorbeelden hebt, raakt de AI in de war en faalt hij compleet.

2. De oplossing: De "K-stap vooruit" bril

De auteurs zeggen: "Waarom niet een middenweg?"
Stel je voor dat je een bril opzet die je K stappen vooruit laat kijken.

  • K=1: Je kijkt alleen naar de volgende stap (te kortzichtig).
  • K=100: Je kijkt naar de hele film (te zwaar).
  • K=3 of K=5: Je kijkt een paar stappen vooruit. "Als ik nu zeg dat ik een visser ben, moet ik onthouden dat ik over 3 zinnen nog steeds een visser ben."

Dit is de kern van hun methode: Optimaliseren voor een subset van de toekomst.
Door de AI te laten leren op basis van een beperkt aantal toekomstige stappen (bijvoorbeeld de volgende 3 of 4 zinnen), wordt het leren veel makkelijker en betrouwbaarder. De AI krijgt een duidelijker signaal over wat goed is, zonder overweldigd te worden door de hele toekomst.

3. De verrassende ontdekking: Er is geen "beste" bril voor iedereen

De paper toont aan dat de beste "K" (het aantal stappen vooruit) afhangt van het soort gesprek:

  • In een therapiegesprek: Mensen hebben complexe gevoelens. Hier werkt een K=3 (kijken 3 stappen vooruit) het beste. Het is genoeg om de emotionele lijn vast te houden, zonder te ver te plannen.
  • In een chatgesprek: Dit is vaak losjes en reactief. Hier werkt K=2 (kijken 2 stappen vooruit) het beste. Te veel plannen maakt het gesprek stijf en onnatuurlijk.
  • In een onderwijsgesprek (tutoring): Hier moet je echt lang plannen. Een leerling bouwt kennis op over tijd. Hier werkt volledig plannen (K=alles) het beste, omdat je de hele leertraject in de gaten moet houden.

Waarom is dit belangrijk? (De "Statistische Efficiency")

De auteurs gebruiken een mooi beeld: Het is makkelijker om een klein doel te bereiken dan een groot doel.

  • Als je een AI traint met weinig data (weinig voorbeelden), moet je een simpel doel geven (kijk maar 1 of 2 stappen vooruit). Dan leert hij snel en goed.
  • Als je veel data hebt, kun je de AI een complexer doel geven (kijk 10 stappen vooruit).

Het is alsof je een kind leert fietsen.

  1. Begin met een fiets met zijwieltjes (K=1 of K=2). Het kind leert snel balanceren zonder te vallen.
  2. Als het kind goed is, haal je de zijwieltjes weg en geef je fietsles voor lange tochten (K=volledig).
    Als je een kind direct een lange tocht laat fietsen zonder zijwieltjes (te veel data, te complex), valt het kind waarschijnlijk en leert het niets.

Conclusie

Deze paper leert ons dat we AI's niet altijd moeten laten plannen voor de "eeuwigheid". Soms is het slimmer om ze te laten focussen op de korte tot middellange termijn. Door de juiste "blikrichting" te kiezen voor het juiste type gesprek, kunnen we AI's maken die trouw blijven aan hun rol, niet vergeten wie ze zijn, en veel betrouwbaarder zijn in lange gesprekken.

Kortom: Geef de AI een bril die past bij de taak, en hij zal nooit meer de draad kwijtraken.