Latent Poincar\'e Shaping for Agentic Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

LaPha: De Slimme Reisgids voor AI die Wiskundige Puzzels Oplost

Stel je voor dat een kunstmatige intelligentie (AI) een enorme, donkere berg moet beklimmen om een schat te vinden (het juiste antwoord op een wiskundeprobleem). Normaal gesproken loopt deze AI gewoon een pad af, hoopt dat het goed gaat, en als het mislukt, begint hij helemaal opnieuw. Dat is inefficiënt en kost veel tijd.

Het nieuwe onderzoek, genaamd LaPha, introduceert een slimme manier om deze AI te trainen zodat hij niet meer "blind" loopt, maar een 3D-kaart van de berg heeft. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Berg is geen Bol, maar een Trechter (De Hyperbolische Ruimte)

Normaal gesproken denken computers in platte vlakken (zoals een vel papier). Maar een probleem oplossen is meer als een boom met duizenden takken. Op een plat vel papier raken die takken elkaar snel en wordt het een rommelpoel.

LaPha gebruikt een speciaal soort ruimte, een Poincaré-bol.

De Analogie: Stel je een trechter voor. In het midden (de top) is het smal, maar hoe dieper je gaat, hoe wijder de trechter wordt.
Waarom? In de echte wereld worden problemen complexer naarmate je verder komt. Deze "trechter-vorm" geeft de AI oneindig veel ruimte om elke mogelijke oplossingstak zijn eigen plekje te geven zonder dat ze elkaar verstoppen. Het is alsof je van een krappe lift naar een enorme hal gaat; plotseling is er ruimte voor iedereen.

2. De Klimmeter (Potentiële Beloning)

Hoe weet de AI of hij de goede kant op gaat?

Het oude probleem: Meestal krijgt de AI pas een "goed gedaan!"-plaatje als hij helemaal bovenaan is en het antwoord correct is. Als hij halverwege een foutje maakt, weet hij niet dat hij al afwijkt.
De LaPha-oplossing: De AI heeft nu een klimmeter (een potentiaal).
- Stel je voor dat je in een donkere grot loopt. Je hebt een lamp die helderder wordt naarmate je dichter bij de uitgang komt.
- In LaPha meet de AI de "afstand" in die speciale trechter-ruimte. Als hij een stap zet die hem dichter bij de oplossing brengt, krijgt hij direct een kleine beloning (een "klik" in zijn hoofd). Als hij de verkeerde kant op gaat, wordt het donkerder.
- Dit zorgt ervoor dat de AI niet wacht tot het einde, maar direct leert welke stappen goed zijn.

3. De Slimme Reisgids (De Waarde-Head)

De AI heeft nu een kaart en een klimmeter, maar hij moet ook beslissen welke tak hij moet nemen.

De Analogie: Stel je voor dat je een reisplanner hebt die niet alleen kijkt naar de route, maar ook een intuïtie heeft.
LaPha traint een klein, lichtgewicht "reisleider"-hoofdje dat meekijkt met de AI. Dit hoofdje leert: "Als we hier zijn, is de kans groot dat we hierboven uitkomen."
Hierdoor kan de AI tijdens het oplossen van een probleem sneller beslissen welke routes hij moet verkennen en welke hij kan negeren. Hij hoeft niet elke tak van de boom te bestuderen, maar focust op de beloftevolle paden.

4. Het Snoeien van de Boom (Pruning)

Soms maken mensen (en AI's) dezelfde fouten op verschillende manieren. Ze zeggen bijvoorbeeld "2+2=4" en "de som van twee en twee is vier". Voor een computer zijn dit twee verschillende zinnen, maar voor de betekenis is het hetzelfde.

LaPha's truc: De AI kijkt in zijn speciale ruimte of twee routes eigenlijk op elkaar lijken. Als dat zo is, snoeit hij de ene tak af.
Dit voorkomt dat de AI tijd verslijt aan het herhalen van dezelfde fouten in verschillende verpakkingen. Het houdt de zoektocht fris en divers.

Wat levert dit op?

Dankzij deze methode wordt de AI veel slimmer in wiskundige puzzels.

Een klein model (zoals een beginnend student) dat normaal maar 66% van de vragen goed zou doen, springt naar 88% met deze methode.
Zelfs op de allerlastigste olympiade-vragen (waar zelfs de slimste mensen moeite mee hebben) scoort deze AI extreem hoog, vaak beter dan de huidige topmodellen.

Kortom: LaPha geeft de AI een betere kaart, een klimmeter die direct feedback geeft, en een slimme gids die hem helpt om niet in de valkuilen van herhaling te trappen. Het is alsof je een AI niet meer laat raden, maar hem laat voelen waar het juiste antwoord zit.

Each language version is independently generated for its own context, not a direct translation.

Titel: Latent Poincaré Shaping voor Agente Versterkende Leer (LaPha)

Auteurs: Hanchen Xia, Baoyou Chen, Zelin Zang, et al.
Publicatiedatum: Maart 2026 (Preprint)

1. Het Probleem

Grote Taalmodellen (LLMs) zijn uitstekend in het oplossen van complexe problemen, maar hun standaardgedrag is vaak een enkele generatiepass (single-pass generation). Voor taken die multi-stap redenering, tool-gebruik en zelfcorrectie vereisen, is het vaak nodig om de rekenkracht tijdens het testen (test-time compute) te verhogen door te zoeken over verschillende actie-observatie paden (bijv. via Monte Carlo Tree Search - MCTS).

De auteurs identificeren echter drie fundamentele beperkingen in bestaande benaderingen:

Token-ruimte inefficiëntie: De actie-ruimte in natuurlijke taal is enorm en variabel van lengte. Veel verschillende strings (synoniemen, variaties in opmaak) betekenen hetzelfde (semantische aliasing), wat leidt tot een enorme, verspillende zoekruimte.
Sparre beloningssignalen: In Reinforcement Learning met verifieerbare beloningen (RLVR) worden slechts een klein aantal eindpunten (bladeren van de boom) als correct gemarkeerd. Dit maakt het toewijzen van krediet (credit assignment) aan tussenstappen fragiel en onbetrouwbaar.
Geometrische beperkingen: Moderne decoder-architecturen (met normalisatielagen zoals RMSNorm) produceren representaties die vaak in een Euclidische ruimte met beperkte capaciteit worden geprojecteerd. Dit zorgt voor "crowding" (opstopping) in diepe bomen, waardoor het moeilijk wordt om semantische vooruitgang geometrisch te meten.

2. Methodologie: LaPha

De auteurs stellen LaPha (Poincaré Latent AlPhaZero-like RL) voor, een raamwerk dat de zoek- en leerprocessen verenigt in een gedeelde hyperbolische latente ruimte (specifiek de Poincaré-bal).

A. Poincaré Latente Representatie

In plaats van te werken met token-sequenties, worden de verborgen staten (hidden states) van het backbone-model gemiddeld (mean pooling) en afgebeeld naar een Poincaré-bal.

Waarom Poincaré? Hyperbolische ruimtes hebben een negatieve kromming, wat betekent dat het volume exponentieel groeit met de straal. Dit past perfect bij de combinatorische structuur van een redeneerboom (waar het aantal mogelijke paden exponentieel toeneemt met de diepte).
Mapping: De staten worden vertaald ten opzichte van de wortel (de prompt) en afgebeeld naar de bal. De wortel bevindt zich in het centrum, en de boom groeit naar de rand.

B. Potentiaal-gebaseerde Beloningsshaping (Reward Shaping)

Om het probleem van sparre beloningen op te lossen, definiëren de auteurs een potentiaal voor elke knoop in de zoekboom op basis van de hyperbolische afstand:

Potentiaal ( $V$ ): Een functie van de afstand tot de wortel ( $d_{root}$ ) en de afstand tot de dichtstbijzijnde correcte eindknoop ( $d_{goal}$ ).
$V(i) = \frac{d_{root}(i)}{d_{root}(i) + d_{goal}(i)}$
Dense Rewards: De beloning voor een stap wordt berekend als het verschil in potentiaal tussen twee knopen ( $r = V(j) - V(i)$ ). Dit transformeert het sparre signaal (alleen aan het einde) in een dicht beloningssignaal voor elke stap, waarbij vooruitgang naar een correct antwoord wordt beloond.

C. AlphaZero-achtige MCTS met een Light-Weight Value Head

Een lichtgewicht waardehoofd (value head) wordt getraind op dezelfde gedeelde latente ruimte om de potentiaal $V(s)$ te voorspellen.
Tijdens de zoektocht (MCTS) wordt deze waarde gebruikt als heuristiek om veelbelovende takken te selecteren, zonder dat er zware externe reward-modellen nodig zijn.
Latent Space Pruning: Om semantische aliasing (parafrazing) te bestrijden, worden knopen in de latente ruimte geclusterd. Knoopjes die te dicht bij elkaar liggen (semantisch equivalent) worden verwijderd om de zoekruimte te diversifiëren en rekenkracht niet te verspillen aan duplicaten.

D. Policy Optimization

De policy wordt geoptimaliseerd met Dr. GRPO (een variant van PPO), waarbij de groepsgemiddelde voordelen (group advantages) worden berekend op basis van de geaggregeerde dichte beloningen langs het pad.

3. Belangrijkste Resultaten

LaPha werd getraind op de Qwen2.5-familie (1.5B en 7B parameters) en geëvalueerd op wiskundige benchmarks.

MATH-500: LaPha verbeterde Qwen2.5-Math-1.5B van 66.0% naar 88.2% (met self-guided search).
AIME'24 & AIME'25:
- Qwen2.5-Math-1.5B bereikte 56.7% op AIME'24.
- Qwen2.5-Math-7B bereikte 60.0% op AIME'24 en 53.3% op AIME'25.
- Deze resultaten zijn vergelijkbaar met of beter dan geavanceerde gespecialiseerde modellen zoals GPT-o1-mini.
Test-time Scaling: Door het gebruik van de geleerde waardehoofd, kan de prestatie aanzienlijk worden verbeterd door simpelweg meer MCTS-simulaties uit te voeren tijdens het testen, zonder extra modeltraining.

4. Ablatiestudies en Inzichten

Geometrie: Het gebruik van de Poincaré-afstand (hyperbolisch) presteerde significant beter dan Euclidische afstand of binaire beloningen. Euclidische afstand faalde in diepe bomen door "crowding" (knopen werden te dicht op elkaar gepropt), wat leidde tot ruis in de beloningssignalen.
Value Head: De waardehoofd leert niet alleen de waarschijnlijkheid van een antwoord, maar rangschikt paden op basis van verifieerbaarheid. De training van de waardehoofd op de gedeelde backbone (zonder stop-gradient) verbeterde zowel de waardekalibratie als de generatiekwaliteit.
Pruning: Het verwijderen van semantisch duplicaten in de latente ruimte verhoogde de efficiëntie van de zoektocht en voorkwam dat het model vastliep in lokale optima van parafrazing.

5. Betekenis en Conclusie

LaPha biedt een nieuw paradigma voor het trainen van agenten in LLM's:

Geometrische Alignering: Het toont aan dat het gebruik van negatief gekromde (hyperbolische) ruimtes een natuurlijke en efficiënte interface is voor het redeneren van bomen, omdat het de combinatorische expansie van de zoekruimte beter weerspiegelt dan Euclidische ruimtes.
Efficiëntie: Het elimineert de noodzaak voor zware externe reward-modellen door een interne, geometrisch gedefinieerde potentiaal te gebruiken die zowel voor beloningsshaping als voor zoekgeleiding dient.
Scalability: Het framework schaalbaar goed op van kleine modellen (1.5B) tot grotere modellen (7B) en biedt een praktische route voor "test-time scaling" zonder extra inferentie- overhead.

Kortom, LaPha bewijst dat het meten van "semantische vooruitgang" via hyperbolische afstanden een krachtige methode is om versterkende leer voor complexe redeneertaken te sturen, waardoor LLM's effectiever kunnen plannen en zelf-corrigeren.

Latent Poincaré Shaping for Agentic Reinforcement Learning