Entropy-Preserving Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Balanceren: Hoe AI Leert zonder te Vergeten

Stel je voor dat je een zeer slimme, maar nog wat onervaren student (een kunstmatige intelligentie) hebt die een moeilijk examen moet halen. Deze student heeft een "handboek" (het model) waar hij al veel van weet, maar hij moet nu leren om specifieke problemen op te lossen door te oefenen.

Dit papier, getiteld "Entropy-Preserving Reinforcement Learning", gaat over een groot probleem dat ontstaat tijdens dit oefenproces: de student wordt te zeker van zichzelf en stopt met denken.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Gouden Kooi" van Zekerheid

Wanneer je een AI traint om beter te worden (bijvoorbeeld wiskunde op te lossen of software te schrijven), gebruikt je een methode waarbij je de AI belooft als hij het goed doet.

Het probleem is dat de AI vaak te snel een "veilige strategie" vindt.

De Analogie: Stel je voor dat de AI een speler is in een doolhof. In het begin probeert hij alle mogelijke paden (links, rechts, omhoog, omlaag). Dit noemen we entropie (een maat voor variatie en verwondering).
De Valstrik: Zodra de AI één pad vindt dat naar de uitgang leidt, stopt hij met zoeken. Hij loopt vanaf dat moment alleen nog maar dat ene pad. Hij wordt extreem zeker van zichzelf.
Het Gevolg: Hij raakt de rest van het doolhof kwijt. Als er een nieuw obstakel op dat ene pad ligt, kan hij niet meer omhoog kijken of een alternatief vinden. Hij is "vastgelopen" in een lokaal optimum. In de AI-wereld noemen we dit entropie-instorting (entropy collapse). De AI wordt saai, voorspelbaar en kan geen creatieve oplossingen meer bedenken.

2. De Oorzaak: Een Foutje in de Rekenmachine

De auteurs ontdekten dat dit niet alleen een logisch probleem is, maar ook een technisch "rekenfoutje".

De Analogie: Stel je voor dat je een weegschaal gebruikt om appels te wegen. Maar je weegschaal is zo ingesteld dat hij de lichte appels (de rare, creatieve oplossingen) net iets te zwaar weegt en de zware appels (de veilige, saaie oplossingen) net iets te licht.
Het Effect: Door deze kleine meetfout (veroorzaakt door de manier waarop computers getallen afronden, specifiek met BF16 vs FP16), denkt de AI dat de veilige, saaie oplossingen veel beter zijn dan ze eigenlijk zijn. Hierdoor stopt hij nog sneller met het proberen van nieuwe dingen.

3. De Oplossing: De "Bewuste Verwarring"

De auteurs stellen twee nieuwe methoden voor om de AI te dwingen om niet te snel te stoppen met zoeken. Ze noemen dit Entropiebehoud.

Methode A: REPO (De Slimme Beloning)

In plaats van de AI alleen te belonen voor het juiste antwoord, geven we een extra "bonus" als hij een antwoord kiest dat hij niet vaak kiest, maar dat toch goed is.

De Analogie: Stel je voor dat je een kind leert fietsen. Normaal geef je een snoepje als hij rechtdoor rijdt. Met REPO geef je een extra groot snoepje als hij een rare, moeilijke bocht neemt die toch veilig is.
Het Doel: Dit dwingt de AI om zijn "veilige pad" te verlaten en te blijven experimenteren met andere routes, zelfs als die routes minder vaak gekozen worden.

Methode B: ADAPO (De Dynamische Rem)

Bij het trainen van AI's gebruiken we vaak een "rem" om te voorkomen dat de AI te snel verandert (zodat hij niet alles vergeet wat hij al wist).

De Analogie: Stel je voor dat je een auto rijdt in een mistige bergweg. Normaal rem je hard als je te snel gaat. ADAPO is een slimme cruise control die kijkt: "Hoeveel variatie heb ik vandaag?"
- Als de auto te saai rijdt (te weinig variatie), maakt hij de remmen een beetje losser, zodat de auto weer mag "wiebelen" en nieuwe wegen kan verkennen.
- Als de auto te wild rijdt, remt hij weer iets harder.
Het Doel: Het houdt de AI in een "gouden middenweg" van zekerheid en nieuwsgierigheid.

4. Waarom is dit belangrijk?

Zonder deze technieken wordt de AI na verloop van tijd een "eenheidsworst". Hij kan misschien één ding heel goed, maar hij is kwetsbaar en kan niet leren van nieuwe situaties.

Met deze nieuwe methoden (REPO en ADAPO):

Blijft de AI creatief: Hij blijft diverse oplossingen proberen.
Wordt hij sterker: Hij presteert beter op moeilijke toetsen (zoals wiskunde-examens of het programmeren van apps).
Kan hij blijven leren: Omdat hij niet vastloopt in één strategie, kan hij later makkelijk nieuwe vaardigheden leren zonder dat hij zijn oude kennis vergeet.

Samenvatting

Dit papier zegt eigenlijk: "Laat je AI niet te snel tevreden zijn."

Door kleine technische foutjes in de computerrekenmachine te fixen en slimme regels toe te voegen die de AI dwingen om af en toe "anders" te denken, zorgen we ervoor dat de AI niet alleen slimmer wordt, maar ook blijft leren, creatief blijft en niet vastloopt in een kooi van eigen zekerheid. Het is het verschil tussen een robot die één trucje kent, en een robot die een echte denker is.

Each language version is independently generated for its own context, not a direct translation.

Titel: Entropy-Preserving Reinforcement Learning

Publicatie: ICLR 2026 (Conference Paper)
Auteurs: Aleksei Petrenko, Ben Lipkin, Kevin Chen, et al. (Apple & MIT)

1. Het Probleem: Entropie-instorting bij RL voor Taalmodellen

Reinforcement Learning (RL) met policy gradient algoritmen (zoals GRPO, PPO) is de standaard geworden voor het verbeteren van redeneerredenen in grote taalmodellen (LLM's). Een cruciaal aspect van effectief RL is de balans tussen exploratie (het verkennen van diverse oplossingspaden) en exploitatie (het benutten van bekende goede oplossingen).

Het paper identificeert een fundamenteel probleem: veel huidige policy gradient algoritmen leiden onbedoeld tot entropie-instorting (entropy collapse) tijdens het trainen.

Mechanisme: De algoritmen versterken onmiddellijk de waarschijnlijkheid van acties met een hoge beloning, waardoor de verdeling rondom reeds bekende, hoog-waarschijnlijke oplossingen scherper wordt.
Gevolg: De diversiteit van de geëxploreerde trajecten neemt drastisch af. Het model convergeert te vroeg naar een lokaal optimum, wat resulteert in een verbeterde pass@1 (kans op één juiste oplossing) maar een slechtere pass@k (kans op meerdere juiste oplossingen) en verlies van het vermogen om nieuwe, creatieve oplossingen te vinden.
Observatie: Er is een sterke correlatie tussen de totale entropie gedurende de trainingsloop ("de reis") en de uiteindelijke prestaties, niet alleen de entropie op het eindpunt.

2. Methodologie en Theoretische Analyse

De auteurs analyseren de dynamiek van entropie in policy gradient algoritmen en identificeren zowel theoretische oorzaken als praktische implementatiefouten.

A. Theoretische Analyse van Entropiedynamiek

De verandering in entropie wordt gedreven door de correlatie tussen de voordelen (advantages) en de log-probabiliteiten van acties.

PPO (Proximal Policy Optimization): Door clipping wordt de verandering in entropie begrensd, maar herhaalde updates op off-policy trajecten versterken de instorting.
DAPO & GSPO: Deze gebruiken asymmetrische clipping (toestaan van grotere toenames dan afnames in entropie) of sequence-level clipping. Theoretisch zou dit entropie behouden, maar in de praktijk bleek dit vaak onvoldoende.
RLOO: Een strikt on-policy algoritme dat minder snel instort dan PPO-varianten, maar toch entropieverlies kan vertonen als het basismodel al goed is gekalibreerd.

B. Empirische Vondsten: Numerieke Precisie

Een cruciale bijdrage is de ontdekking dat implementatiedetails de entropiedynamiek drastisch beïnvloeden:

16-bit Quantization (BF16 vs FP16): In standaard LLM-training stacks (zoals HF Accelerate met FSDP2) worden modeluitgaven vaak naar BF16 (bfloat16) gecast. Dit introduceert een multiplicatieve upward bias in de berekende waarschijnlijkheidsverhoudingen (importance weights).
- Dit effect werkt als een onbedoelde asymmetrische clipping die het verhogen van lage-probabiliteit acties belemmert en entropie-instorting veroorzaakt.
- Oplossing: Het gebruik van FP16 (float16) in plaats van BF16, gecombineerd met het corrigeren van de casting van modeloutputs, elimineert deze bias en herstelt de verwachte entropiedynamiek.
Softmax Gradiënten: Voor zeer hoge waarschijnlijkheden kan de gradiënt in single precision verdwijnen (vanwege afronding van $1-p$ naar 0). Dit vereist specifieke correcties in de backward pass.

3. Voorgestelde Oplossingen: Expliciete Entropiecontrole

Om entropie actief te monitoren en te reguleren, stellen de auteurs twee nieuwe methoden voor:

A. REPO (Regulated Entropy Policy Optimization)

REPO modificeert de advantage functie om entropie expliciet te reguleren.

Principe: De advantage wordt aangepast met een term die afhankelijk is van de log-probabiliteit: $A_{REPO} = A - \beta \cdot L$ .
Varianten:
- REPO-D (Decorrelate): Neutraliseert de natuurlijke daling van entropie door de correlatie tussen advantage en log-probabiliteit te compenseren.
- REPO-R (Rescale): Een efficiënte benadering die zeldzame, correcte oplossingen extra gewicht geeft en zeldzame, incorrecte oplossingen minder straft.
Adaptieve Controller: De schaalparameter ( $\beta$ of $\zeta$ ) wordt dynamisch aangepast op basis van de gemeten entropie tijdens het trainen. Als de entropie daalt, wordt de regularisatie versterkt om deze te verhogen.
Efficiëntie: In tegenstelling tot traditionele entropie-bonussen die de volledige vocabulaire-logits vereisen (hoog geheugengebruik), schat REPO de entropiegradiënt alleen op basis van de gesamplede token, wat geen extra geheugen kost.

B. ADAPO (Adaptive DAPO)

Een aanpassing van DAPO waarbij de asymmetrische clipping thresholds ( $\epsilon_{high}$ ) dynamisch worden aangepast.

Als de entropie daalt, wordt $\epsilon_{high}$ vergroot om meer ruimte te geven voor entropietoename.
Als de entropie te hoog wordt, wordt $\epsilon_{high}$ verkleind.
Dit biedt bidirectionele controle via het clipping-mechanisme zelf.

4. Resultaten

De methoden zijn getest op Qwen-3-8B en Qwen-3-32B in twee omgevingen: AppWorld (interactieve tool-use agents) en AIME (wiskundig redeneren).

Prestaties: Entropiebehoudende methoden (REPO-R, ADAPO) presteren significant beter dan hun baselines (GRPO, DAPO) op zowel Test Normal als Test Challenge splits.
- AppWorld Record: Met strikt on-policy RLOO gecombineerd met FP16-training en numerieke fixes, werd een state-of-the-art score behaald: 79% Test Normal en 71% Test Challenge (met Qwen-3-32B).
Entropiebehoud: Modellen getraind met REPO en ADAPO behouden een stabiele, hoge entropie gedurende de hele training, terwijl baselines zoals GRPO binnen enkele iteraties instorten.
Sequential Learning: Modellen getraind met entropiebehoud behouden hun vermogen tot exploratie. Ze kunnen succesvol worden doorgetraind op een nieuwe taak (bijv. van wiskunde naar tool-use), terwijl modellen met entropie-instorting dit vermogen volledig verliezen.
Numerieke Impact: De combinatie van FP16-training en de clipping-fix zorgde ervoor dat DAPO, dat eerder instortte, plotseling een sterke entropietoename vertoonde, wat de theorie bevestigt.

5. Betekenis en Conclusie

Dit paper biedt een fundamenteel nieuw perspectief op RL-training voor LLM's:

Entropie als Eerste Klasse Burger: Entropie moet niet alleen passief worden geobserveerd, maar actief worden gemonitord en gereguleerd als een kritieke hyperparameter.
Implementatie is Cruciaal: De paper waarschuwt dat subtiele numerieke details (zoals BF16 vs FP16 en casting in FSDP2) de trainingsdynamiek en stabiliteit volledig kunnen veranderen, wat eerder waargenomen "instabiliteiten" mogelijk artefacten waren.
Toekomstbestendigheid: Door entropie te behouden, blijven modellen flexibel en leerbaar voor sequentiële taken, wat essentieel is voor de ontwikkeling van robuuste, creatieve AI-agenten die niet vastlopen in lokale optimums.

De voorgestelde methoden (REPO en ADAPO) zijn compatibel met zowel strikt on-policy als weakly on-policy pipelines en bieden een praktische route naar stabielere en performantere RL-training.