Understanding and Improving Hyperbolic Deep Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een agent (een digitale speler) traint om een spelletje te spelen, zoals een vis die in een oceaan zwemt en steeds grotere vissen moet eten. Elke beslissing die de vis neemt, opent de deur naar een enorm aantal nieuwe mogelijkheden. Het is alsof je in een boom staat: elke tak splitst zich in twee, die weer in tweeën, en zo ontstaat er een gigantisch, exponentieel groeiend bos van mogelijke toekomstige situaties.

Dit is het probleem waar kunstmatige intelligentie vaak tegenaan loopt. De meeste AI's gebruiken een "Euclidische" manier van denken (zoals een platte kaart of een rechte lijn). Maar een platte kaart is niet goed geschikt om een boomstructuur weer te geven. Als je probeert een enorme boom op een klein stukje papier te tekenen, moet je de takken zo dicht op elkaar duwen dat alles vervormt. De AI raakt de weg kwijt, wordt verward en leert niet goed.

De Oplossing: Een Hyperbolische Ruimte
De auteurs van dit paper zeggen: "Waarom gebruiken we geen hyperbolische ruimte?"
Stel je hyperbolische ruimte voor als een krulzaadje of een paddenstoel. In zo'n vorm kun je oneindig veel takken toevoegen zonder dat ze elkaar raken of vervormen. Het is de perfecte ruimte om die enorme boom van beslissingen in te passen.

Het Probleem: De "Grote" Vissen
Hoewel hyperbolische ruimte theoretisch perfect is, was het in de praktijk een ramp om te trainen. De auteurs ontdekten waarom:

De "Explosieve" Groei: In deze kromme ruimte kunnen de getallen die de AI gebruikt (de "embeddings") enorm groot worden.
De Verkeerde Weg: Als die getallen te groot worden, gaat de wiskunde achter de AI uit elkaar vallen. Het is alsof je probeert een auto te besturen terwijl het stuur losraakt. De AI maakt te grote sprongen, raakt de controle kwijt en stopt met leren.
De "Vervormingsfactor": In de oude methode (de Poincaré-bal) was er een wiskundige factor die als een lens werkte. Hoe dichter je bij de rand kwam, hoe meer de wereld eruitzag alsof hij werd ingezoomd tot een punt. Dit maakte de training instabiel.

De Oplossing: HYPER++
De auteurs hebben een nieuwe, sterkere versie gemaakt genaamd HYPER++. Ze hebben drie slimme trucjes bedacht om de AI stabiel te houden:

De "Normaal-Regelaar" (RMSNorm):
- Analogie: Stel je voor dat je een groep kinderen (de data) in een kamer hebt. Als ze allemaal gaan rennen, botsen ze tegen elkaar aan. De oude methode probeerde ze allemaal vast te houden met zware handboeien (SpectralNorm), wat hen ook hun bewegingsvrijheid kostte.
- De nieuwe truc: HYPER++ gebruikt een slimme "ruimtelijke regelaar". Hij zorgt ervoor dat de kinderen niet te ver uit elkaar rennen en niet te dicht bij elkaar komen, zonder hen vast te binden. Ze mogen nog steeds rennen, maar binnen veilige grenzen.
De "Nieuwe Kaart" (Hyperboloid-model):
- Analogie: De oude methode gebruikte een kaart die erg vervormde aan de randen (de Poincaré-bal). De nieuwe methode schakelt over op een andere kaart (het Hyperboloid), die van nature minder vervorming heeft. Het is alsof je stopt met een kaart van de aarde die de polen enorm uitrekt, en overgaat op een kaart die de werkelijkheid eerlijker weergeeft. Hierdoor verdwijnt de "explosieve" factor die de AI vroeger verwarde.
De "Cijfer-Check" (Categorical Value Loss):
- Analogie: Stel je voor dat de AI probeert te voorspellen hoeveel geld hij gaat winnen. De oude manier was alsof hij probeerde een exact bedrag te raden (bijv. "€14,32"), wat heel lastig is als de toekomst onzeker is.
- De nieuwe truc: In plaats van een exact bedrag, vraagt HYPER++ de AI om te gokken in welke "bak" het geld zit (bijv. "Tussen €10 en €20"). Dit is veel stabieler en past beter bij de manier waarop de hyperbolische ruimte werkt.

Het Resultaat
Wat levert dit op?

Sneller leren: De AI leert 30% sneller dan de oude methoden.
Beter presteren: Op moeilijke spelletjes (zoals die in de ProcGen-benchmark) scoort HYPER++ veel hoger dan de concurrentie. Het haalt zelfs de prestaties van de beste "platte" AI's in, maar dan met het voordeel van de hyperbolische structuur.
Stabiel: De AI crasht niet meer halverwege de training.

Kortom:
De auteurs hebben ontdekt waarom hyperbolische AI's vroeger faalden (te grote getallen en vervormde kaarten) en heeft ze gerepareerd met slimme wiskundige "remmen" en een betere kaart. Het resultaat is een AI die beter begrijpt hoe complexe, boom-achtige beslissingen werken, sneller leert en minder snel vastloopt. Het is alsof ze van een wankel houten ladder zijn gestapt op een stevige, onzichtbare brug.

Each language version is independently generated for its own context, not a direct translation.

Titel: Understanding and Improving Hyperbolic Deep Reinforcement Learning

Publicatie: ICLR 2026
Auteurs: Timo Klein, Thomas Lang, et al. (Universiteit van Wenen, Max Planck Instituut)

1. Het Probleem

Reinforcement Learning (RL) agents opereren vaak in omgevingen met een fundamenteel hiërarchische structuur (bijv. een schaakspel of het "Big Fish"-niveau in ProcGen, waar elke actie leidt tot exponentieel meer mogelijke toekomstige staten).

Geometrisch Mismatch: Euclidische ruimten hebben een polynoomiële volumegroei, wat leidt tot ernstige vervorming (distortion) bij het inbedden van exponentieel groeiende boomstructuren. Hyperbolische geometrie, met zijn exponentiële volumegroei, is theoretisch ideaal voor dergelijke hiërarchieën.
Optimalisatieproblemen: Hoewel hyperbolische deep learning succesvol is in classificatie en representation learning, faalt het vaak in Deep RL. Bestaande methoden (zoals die van Cetin et al., 2023) lijden onder ernstige instabiliteit tijdens het trainen.
Oorzaak van Falen: De auteurs identificeren dat grote normen van embeddings leiden tot instabiliteit in de gradients. Dit veroorzaakt schendingen van de "trust region" in Proximal Policy Optimization (PPO), zelfs met de bestaande clipping-mechanismen. De conformele factor in het Poincaré-bol-model explodeert bij grote embeddings, wat de training destabiliseert.

2. Methodologie en Analyse

De auteurs voeren een formele analyse uit van de gradients van kernoperaties in zowel het Poincaré-bol-model als het Hyperboloïde-model.

Gradiëntanalyse:
- In het Poincaré-model hangt de Riemanniaanse gradient af van de inverse van de conformele factor ( $\lambda_c^x$ ). Naarmate de embedding-norm $\|x\|$ de grens benadert, explodeert de gradient.
- Zelfs in het Hyperboloïde-model, dat geen conformele factor heeft, kunnen de Jacobiaans van de exponentiële map instabiel worden bij grote Euclidische feature-normen.
De Oplossing: HYPER++
De auteurs introduceren HYPER++, een agent die drie specifieke componenten combineert om deze problemen op te lossen:
1. Feature Regularisatie (RMSNorm + Learned Scaling):
  - In plaats van SpectralNorm (dat de expressiviteit van het netwerk beperkt en computatierijk is), gebruiken ze RMSNorm (Root Mean Square Normalization) vóór de activering van de laatste Euclidische laag.
  - Dit wordt gecombineerd met een leerbare schaal-laag ( $\xi_\theta$ ). Dit garandeert dat de embedding-normen bounded blijven (voorkomend van de "curse of dimensionality" door clipping) zonder de capaciteit van het netwerk te beperken.
2. Overgang naar het Hyperboloïde-model:
  - Ze verlaten het Poincaré-bol-model ten gunste van het Hyperboloïde-model (Lorentz manifold). Dit model is inherent robuuster tegen instabiliteiten veroorzaakt door de conformele factor, hoewel regularisatie van de input-normen nog steeds noodzakelijk blijft.
3. Categorische Value Loss:
  - In plaats van Mean Squared Error (MSE) regressie voor de critic (waardefunctie), gebruiken ze een categorische value loss (HL-Gauss).
  - Dit past beter bij de geometrie van hyperbolische multinomiale logistische regressie (MLR) en stabiliseert het leren van de critic onder niet-stationaire doelen.

3. Belangrijkste Bijdragen

Diagnose van Trainingproblemen: Een formele analyse die linkt legt tussen grote embedding-normen, de conformele factor in Riemanniaanse optimalisatie en het falen van de PPO trust-region in deep RL.
Principiële Regularisatie: Het bewijzen dat RMSNorm in combinatie met een leerbare schaal-laag een stabiel trainingsproces garandeert zonder de expressiviteit van het Euclidische encoder-deel te beperken (in tegenstelling tot SpectralNorm).
HYPER++ Agent: Een nieuwe, robuuste architectuur die de Hyperboloïde, RMSNorm en een categorische loss combineert.
Generaliteit: De methode werkt niet alleen met PPO, maar ook met Phasic Policy Gradient (PPG) en Double DQN (DDQN).

4. Resultaten

De auteurs evalueren HYPER++ op twee populaire benchmarks:

ProcGen (PPO en PPG):
- HYPER++ presteert significant beter dan eerdere hyperbolische agents (zoals Hyper+S-RYM) en Euclidische baselines.
- Verbetering: Een stijging van +52,3% in de genormaliseerde test-score ten opzichte van de beste bestaande hyperbolische agent.
- Efficiëntie: De wall-clock tijd voor een forward pass wordt met ongeveer 30% verlaagd (door het verwijderen van SpectralNorm en het gebruik van een efficiënter model).
- HYPER++ met PPO presteert zelfs beter dan Hyper+S-RYM met PPG (een krachtigere algoritme).
Atari-5 (Double DQN):
- HYPER++ overtreft zowel Euclidische als eerdere hyperbolische baselines sterk op een subset van Atari-games (NAMETHISGAME, PHOENIX, BATTLEZONE, DOUBLE DUNK, Q*BERT).
- Dit toont aan dat de stabiliteitsverbeteringen niet beperkt zijn tot on-policy algoritmen zoals PPO.

Ablatie Studies:

Het verwijderen van RMSNorm leidt tot volledig falen van het leren (exploderende normen, verdwijnende gradients).
Het gebruik van MSE in plaats van de categorische loss resulteert in slechtere prestaties.
Het gebruik van het Poincaré-model in plaats van het Hyperboloïde-model leidt tot een merkbare daling in prestaties.

5. Betekenis en Conclusie

Dit paper is een mijlpaal in het veld van hyperbolisch deep reinforcement learning. Het lost het langdurige probleem van optimalisatie-instabiliteit op dat de bredere adoptie van hyperbolische geometrie in RL heeft belemmerd.

Theoretisch Inzicht: Het paper verduidelijkt waarom eerdere methoden faalden (gradiëntexplosie door conformele factoren en grote normen) en biedt een wiskundig onderbouwde oplossing.
Praktische Impact: HYPER++ is niet alleen sneller en stabieler, maar ook generaler. Het bewijst dat hyperbolische representaties daadwerkelijk voordelen bieden voor RL-agents die te maken hebben met hiërarchische besluitvorming, mits ze correct worden geoptimaliseerd.
Reproduceerbaarheid: De code is open-source beschikbaar gesteld, wat een stap is naar meer reproduceerbaar onderzoek in dit complexe domein.

Kortom, HYPER++ transformeert hyperbolisch deep RL van een theoretisch aantrekkelijk maar onstabiel concept naar een robuuste en superieure methode voor complexe decision-making taken.

Understanding and Improving Hyperbolic Deep Reinforcement Learning

Titel: Understanding and Improving Hyperbolic Deep Reinforcement Learning

1. Het Probleem

2. Methodologie en Analyse

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach