Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Grote Taalmodel (LLM) een slimme, maar nog wat onervaren reisgids is. Deze gids kan prachtige zinnen vormen en feiten kennen, maar als je hem vraagt om een complex plan te maken – bijvoorbeeld "Hoe kom ik van punt A naar punt B door een doolhof met 1000 vertakkingen?" – dan heeft hij het vaak moeilijk.

Dit artikel, geschreven door onderzoekers van Microsoft en universiteiten, kijkt naar hoe we deze gids kunnen trainen om beter te plannen. Ze vergelijken twee methoden: SFT (Supervised Fine-Tuning) en RL (Reinforcement Learning).

Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen:

1. Het Probleem: De Gids die alleen "Cursuswerk" leest (SFT)

Stel je voor dat je de reisgids een boek geeft met 100 voorbeelden van reizen die al zijn gemaakt. Je vraagt hem: "Kijk naar deze route en leer hoe je die moet maken."

Wat er gebeurt: De gids wordt heel goed in het uit het hoofd leren van die specifieke routes. Hij onthoudt: "Als we bij de rode brug zijn, gaan we altijd naar links, want dat staat in het boek."
De valkuil: Als je hem vraagt om een nieuwe route te plannen die niet in het boek stond, faalt hij. Hij probeert te raden op basis van wat hij eerder heeft gezien, maar hij begrijpt de logica van het doolhof niet. Hij leert geen "transitiviteit" (als A naar B gaat, en B naar C, dan gaat A naar C). Hij leert alleen patronen van woorden die vaak samen voorkomen.
Conclusie: SFT is als een student die alleen de antwoorden uit het antwoordboekje leert. Hij slaagt voor het oude examen, maar faalt bij een nieuw probleem.

2. De Oplossing: De Gids die het Doolhof in moet (RL)

Nu geven we de gids een beloningssysteem. Hij mag zelf het doolhof inlopen. Als hij een goede route vindt, krijgt hij een punt. Als hij vastloopt, krijgt hij een straf.

De onderzoekers kijken naar twee soorten "trainers" die dit doen: Policy Gradient (PG) en Q-Learning.

A. Policy Gradient (PG): De enthousiaste, maar eenzijdige student

Deze trainer laat de gids veel proberen.

Het goede nieuws: Omdat de gids zelf probeert, ontdekt hij routes die niet in het boek stonden. Hij leert echt plannen en generaliseren. Hij wordt beter dan de SFT-gids.
Het slechte nieuws (De "Diversiteits-Crash"): Na verloop van tijd wordt de gids zo zeker van zijn zaak dat hij alleen nog maar één route kiest. Hij stopt met variëren.
- Vergelijking: Stel je voor dat je een restaurantbezoeker bent die elke dag hetzelfde gerecht bestelt omdat het "goed" was. Je probeert nooit meer iets anders, zelfs niet als er een beter gerecht beschikbaar is. De gids wordt stijf en star. Hij is wel 100% accuraat op de routes die hij kent, maar hij is niet flexibel meer.
De oplossing: Je kunt een "rem" toevoegen (KL-regulering) om hem te dwingen nog steeds te variëren, maar dan wordt hij soms iets minder snel in het vinden van de perfecte route.

B. Q-Learning: De slimme strateeg

Deze trainer werkt anders. In plaats van alleen te kijken naar het eindresultaat (hebben we de finish gehaald?), kijkt hij naar elke stap.

Het grote voordeel: Deze trainer houdt de gids flexibel. Zelfs als hij de perfecte route kent, blijft hij verschillende goede opties overwegen. Hij "crasht" niet in zijn diversiteit.
Off-Policy leren: Dit is een technisch woord voor: "Leren van fouten die anderen hebben gemaakt." PG moet zelf alles uitproberen (on-policy), maar Q-Learning kan ook leren van de routes die de "oude" gids heeft geprobeerd. Dit is veel efficiënter, net zoals je kunt leren van de fouten van je voorgangers zonder zelf eerst in de kuil te springen.
De valkuil: Als je de trainer alleen een punt geeft aan het einde van de reis (outcome reward), raakt hij in de war. Hij weet niet welke stap goed was. Je moet hem beloningen geven voor elke goede stap (process reward), zoals "Goed gedaan dat je niet tegen de muur liep".

3. De Grote Les (Samenvatting)

De onderzoekers hebben ontdekt dat:

SFT (Boek leren) is goed voor het onthouden van feiten, maar slecht voor het oplossen van nieuwe, complexe puzzels. Het leidt tot "spookroutes" (routes die lijken op het juiste antwoord, maar dat niet zijn).
RL (Zelf proberen) is nodig om echt te plannen. Het dwingt het model om de logica van het doolhof te begrijpen.
Policy Gradient werkt goed, maar maakt het model te star (het verliest zijn creativiteit/variatie).
Q-Learning is de winnaar. Het houdt het model flexibel, leert efficiënter (ook van oude data) en voorkomt die stijfheid.

In het kort:
Als je een AI wilt die goed kan plannen, geef hem niet alleen een antwoordboekje (SFT). Laat hem het doolhof inlopen (RL). Maar zorg dat je de trainer slim kiest: gebruik Q-Learning met stap-voor-stap beloningen, zodat je een AI krijgt die niet alleen de juiste route vindt, maar ook slim en flexibel blijft in zijn keuzes.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel recente methoden voor Versterkend Leren (Reinforcement Learning - RL) de planningscapaciteiten van Large Language Models (LLMs) aanzienlijk hebben verbeterd ten opzichte van Supervised Fine-Tuning (SFT), ontbreekt er een theoretisch fundament dat verklaart waarom RL effectiever is en wat de beperkingen van huidige RL-methoden zijn.

SFT-beperkingen: SFT neigt tot het memoriseren van co-occurrence-relaties (spurious solutions) in plaats van het leren van onderliggende transitiviteit en bereikbaarheid in een grafstructuur.
RL-onbekenden: Het is onduidelijk hoe RL-methoden zoals Policy Gradient (PG) en Q-learning zich theoretisch verhouden tot generalisatie, output-diversiteit en convergentie in planningsopgaven.

De auteurs abstraheren planningsopgaven naar een padvindingsprobleem op een onbekende gerichte graf $G=(V, E)$ , waarbij een plan overeenkomt met een pad van een startknoop $s$ naar een doelpunt $t$ . Dit wordt getest op synthetische grafen en de real-world benchmark Blocksworld.

Methodologie

De auteurs analyseren de leer-dynamiek van drie benaderingen binnen een wiskundig raamwerk gebaseerd op een autoregressief Transformer-model:

Supervised Fine-Tuning (SFT):
- Het model wordt getraind op bestaande paden.
- De auteurs analyseren het stabiele punt (optimum) van de verliesfunctie en tonen aan dat het model de frequentie van co-occurrences (target, current, next) memoriseert in plaats van de volledige graafstructuur te leren.
Policy Gradient (PG):
- Een veelgebruikte RL-methode (basis voor PPO/GRPO).
- Analyse van de verliesfunctie toont aan dat PG zonder KL-regularisatie effectief werkt als SFT op ontdekte correcte paden (on-policy data).
- De auteurs onderzoeken het effect van KL-divergentie regularisatie (om afwijking van het basismodel te beperken) op convergentie en diversiteit.
Q-Learning:
- Een methode die minder vaak op LLMs wordt toegepast.
- Twee beloningsstrategieën worden vergeleken:
  - Outcome Reward: Beloning alleen aan het einde van een correct pad.
  - Process Reward: Intermediaire beloningen op basis van validiteit van elke stap (adjacentie en doelcheck).
- De analyse omvat zowel on-policy als off-policy scenario's.

Kernbijdragen en Theoretische Bevindingen

1. Beperkingen van SFT: Memoriseren vs. Generaliseren

Stabiel punt: Theorema 3.1 bewijst dat SFT convergeert naar een oplossing die puur gebaseerd is op de frequentie van co-occurrences in de trainingsdata.
Gevolg: SFT faalt in het leren van transitiviteit (als A->B en B->C, dan A->C) als deze specifieke sequenties niet in de trainingsdata voorkomen. Dit leidt tot "spurious solutions" en slechte generalisatie naar nieuwe paden.

2. Policy Gradient (PG): Diversiteitsinval (Diversity Collapse)

Exploratie als kracht: PG presteert beter dan SFT omdat het iteratief nieuwe, correcte paden ontdekt (data-augmentatie door exploratie).
Diversiteitsinval: Theorema 4.3 toont aan dat PG zonder KL-regularisatie leidt tot een diversity collapse. Zelfs bij 100% trainingsnauwkeurigheid neemt de output-diversiteit (het aantal verschillende correcte paden die het model kan genereren) continu af totdat het model slechts één pad per probleem genereert.
Rol van KL: KL-regularisatie fungeert als een diversiteitsbehoudsmechanisme door het model dicht bij het basismodel te houden. Echter, dit gaat ten koste van de trainingsnauwkeurigheid (Takeaway 4).

3. Q-Learning: Superioriteit en Off-Policy Leren

Beloningsontwerp: Theorema 5.1 toont aan dat Q-learning met alleen outcome rewards faalt (Q-waarden bias, instorting naar triviale oplossingen). Het gebruik van process rewards is essentieel om de graafstructuur correct te leren (Theorema 5.2).
Diversiteit en Off-Policy: In tegenstelling tot PG, convergeert Q-learning (met process rewards) naar een oplossing die output-diversiteit behoudt bij optimale nauwkeurigheid.
Off-Policy capaciteit: Q-learning ondersteunt van nature off-policy leren (leren van data gegenereerd door een ander beleid), wat cruciaal is voor praktische toepassingen met quantized modellen of grote batchgroottes (zoals in het VeRL-framework).

Experimentele Resultaten

De theorie wordt gevalideerd op synthetische Erdős-Rényi-grafen en de Blocksworld-benchmark:

SFT: Toont afnemende testnauwkeurigheid en memoriseert data.
PG: Bereikt hoge testnauwkeurigheid door exploratie, maar vertoont een duidelijke daling in output-diversiteit tijdens training. Zonder KL-regulatie overfit het model; met KL-regulatie blijft de diversiteit behouden maar daalt de trainingsnauwkeurigheid.
Q-Learning:
- Bereikt vergelijkbare of betere testnauwkeurigheid dan PG.
- Behoudt hoge output-diversiteit zelfs na convergentie.
- Werkt effectief in off-policy scenario's.
- Herleeft de volledige graafstructuur (adjacentie en bereikbaarheid) in Blocksworld, terwijl SFT hierin tekortschiet.

Significantie en Conclusie

Dit paper biedt een principieel theoretisch fundament voor het begrijpen van RL in taalmodellen:

Verklaring van RL-succes: RL overtreft SFT voornamelijk door exploratie, waardoor het model nieuwe paden kan vinden die niet in de initiële dataset staan, in plaats van alleen te memoriseren.
Identificatie van PG-tekortkomingen: Het paper waarschuwt voor het fenomeen van diversity collapse bij standaard PG, wat generalisatie kan belemmeren.
Advies voor Q-Learning: Het paper pleit voor Q-learning als een veelbelovende alternatieve route, vooral omdat het diversiteit behoudt, off-policy leren mogelijk maakt en minder gevoelig is voor de trade-off tussen nauwkeurigheid en diversiteit die bij PG optreedt.
Beloningontwerp: Het benadrukt dat zorgvuldig ontworpen process rewards noodzakelijk zijn om bias in Q-waarden te voorkomen en correcte planningslogica te leren.

De bevindingen suggereren dat toekomstig onderzoek in RL voor LLMs zich moet richten op Q-learning-gebaseerde methoden en geavanceerde beloningsontwerpen om robuuste, schaalbare en generaliserende planningsagenten te bouwen.