GeoWorld: Geometric World Models

Each language version is independently generated for its own context, not a direct translation.

GeoWorld: De "Hyperbolische" Reisgids voor Robots

Stel je voor dat je een robot wilt leren om complexe taken uit te voeren, zoals het vervangen van een geheugenchip in een computer. Je wilt dat de robot niet alleen de eerste stap doet, maar een heel plan kan maken voor de hele reis, zonder halverwege de weg te verdwalen.

Dit is precies wat het nieuwe onderzoek GeoWorld probeert op te lossen. Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Probleem: De "Vlakke" Kaart

Tot nu toe gebruikten robots en kunstmatige intelligentie een soort platte kaart (wiskundig: Euclidische ruimte) om hun wereld te begrijpen.

De analogie: Stel je voor dat je een platte kaart van de aarde gebruikt om een reis van New York naar Tokio te plannen. Op een platte kaart lijken lijnen recht, maar in werkelijkheid (op een bol) zijn de kortste routes kromme lijnen.
Het probleem: Als een robot probeert een lange reeks stappen te plannen (bijv. 4 of 5 stappen vooruit), raakt hij op zo'n platte kaart snel in de war. De foutjes stapelen zich op, alsof je een lange rechte lijn tekent op een bol; na een tijdje zit je helemaal op de verkeerde plek. De robot "vergeet" hoe de wereld er echt uitziet en de plannen worden onstabiel.

2. De Oplossing: De "Hyperbolische" Kaart

GeoWorld introduceert een nieuw idee: in plaats van een platte kaart, gebruiken ze een hyperbolische kaart.

De analogie: Denk aan een paddestoel of een krulrand van een salade. In het midden is het klein, maar naarmate je naar de rand toe gaat, wordt het oppervlak enorm groot en groeit het exponentieel.
Waarom is dit slim? In de echte wereld zijn taken vaak hiërarchisch (zoals een boom met takken). Een grote taak (zoals "repareren") splitst zich op in kleinere taken ("schroef los", "chip eruit", "nieuwe chip erin"). Een hyperbolische ruimte past perfect bij deze boomstructuur.
Het resultaat: De robot ziet de wereld niet als een vlakke vloer, maar als een landschap met diepe valleien en paden. De kortste weg tussen twee punten is nu een geodetische lijn (een kromme lijn die de "natuurlijke" weg volgt). Hierdoor kan de robot veel beter plannen voor de lange termijn zonder in de war te raken.

3. Hoe werkt het? Twee Magische Trucs

De auteurs gebruiken twee hoofdmiddelen om dit te bereiken:

A. De Hyperbolische Reisgids (Hyperbolic JEPA)

In plaats van dat de robot probeert om elke volgende foto van de wereld te tekenen (wat veel rekenkracht kost en vaak fouten oplevert), leert hij een energielandschap.

De analogie: Stel je voor dat je een berglandschap hebt. De top is "ver weg" (veel energie, slecht plan) en de dalen zijn "dichtbij" (weinig energie, goed plan). De robot leert om altijd de laagste weg (het dal) te volgen.
Door dit landschap in de hyperbolische ruimte te tekenen, blijven de relaties tussen de stappen logisch. Stap 1 is dichtbij Stap 2, maar Stap 1 is ver weg van Stap 100, precies zoals het hoort in een boomstructuur.

B. De Hyperbolische Coach (Geometric Reinforcement Learning)

Zelfs met een goede kaart kan een robot soms een slechte route kiezen. Daarom gebruiken ze een speciale coach.

De analogie: Stel je voor dat de robot een speler is in een spel en de coach een trainer. De trainer zegt niet alleen "doe dit", maar kijkt ook naar de driehoeksregel. Als je van punt A naar C wilt, mag de weg via B niet langer zijn dan de directe weg (in deze speciale ruimte).
Deze coach corrigeert de robot continu zodat hij zich strikt houdt aan de "kromme lijnen" van de hyperbolische ruimte. Dit voorkomt dat de robot afwijkt van het echte pad, zelfs als hij 5 of 6 stappen vooruit moet kijken.

4. Wat is het resultaat?

De tests (op datasets waar robots taken moeten plannen, zoals het vervangen van onderdelen) laten zien dat GeoWorld veel beter presteert dan de huidige beste modellen:

Bij korte taken (3 stappen) is het al iets beter.
Bij langere taken (4 stappen of meer) is het veel beter. De robot maakt minder fouten en kan veel verder vooruit plannen zonder vast te lopen.

Samenvattend

GeoWorld is als het geven van een robot een 3D-bol-kaart in plaats van een platte kaart, en het opleiden met een coach die zorgt dat de robot altijd de meest natuurlijke, kromme weg volgt. Hierdoor kan de robot complexe taken veel betrouwbaarder plannen, alsof hij een ervaren gids heeft die de weg kent in een wereld die anders is dan de onze.

Het is een stap in de richting van robots die echt "denken" over de wereld, in plaats van alleen maar foto's te proberen te voorspellen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande energiegebaseerde voorspellende wereldmodellen (predictive world models) voor visuele planning kampen met twee fundamentele beperkingen:

Verwaarlozing van geometrie: Huidige modellen leren latente representaties in een Euclidische ruimte. Deze ruimte behoudt niet de onderliggende hiërarchische structuur of de geometrische relaties tussen toestanden. Hierdoor faalt het model om betekenisvolle geodetische afstanden (de kortste paden op een gekromd oppervlak) te vangen, wat leidt tot een verslechtering van de planning op lange termijn.
Schaalprobleem bij lange horizon: Bestaande modellen worden voornamelijk getraind op één-staps overgangen. Bij het uitvoeren van multi-staps planning (rollouts) over een lange horizon accumuleren fouten snel, wat resulteert in een snelle degradatie van de prestaties en instabiliteit in de voorspellingen.

Methodologie: GeoWorld

GeoWorld introduceert een geometrisch wereldmodel dat de structuur en hiërarchie behoudt door gebruik te maken van hyperbolische meetkunde en versterkt leren. De aanpak bestaat uit drie kerncomponenten:

1. Hyperbolische JEPA (H-JEPA)

In plaats van latente toestanden in een platte Euclidische ruimte ( $\mathbb{R}^n$ ) te houden, mapt H-JEPA deze af op een hyperbolische variëteit (specifiek de Poincaré-bol).

Concept: Hyperbolische ruimte heeft een negatieve kromming en exponentiële volumegroei, wat ideaal is voor het modelleren van hiërarchische boomstructuren (zoals de exponentiële vertakking van mogelijke toekomstige paden in planning).
Implementatie: De encoder output wordt via een exponentiële kaart ( $\exp_0$ ) geprojecteerd van de raakruimte naar de hyperbolische variëteit. De predictor leert dynamica langs hyperbolische geodeten, wat zorgt voor geometrisch consistente overgangen tussen toestanden.
Trainingsdoel: Het minimaliseren van de hyperbolische geodetische afstand tussen de voorspelde latente staat en de werkelijke toestand, in plaats van Euclidische afstand.

2. Geometrisch Versterkt Leren (Geometric Reinforcement Learning - GRL)

Om de stabiliteit bij lange rollouts te verbeteren, wordt GRL voorgesteld als een energiegebaseerde optimalisatieframework.

Beloning: De beloning wordt gedefinieerd als de negatieve energie (de hyperbolische afstand) tussen toestanden. Een lagere energie betekent een hogere verwachte beloning.
Optimalisatie: GRL optimaliseert de predictor direct door de totale hyperbolische afstand over een planning horizon te minimaliseren.
Regularisatie: Een cruciaal onderdeel is de driehoeksongelijkheid regularisatie. Omdat hyperbolische afstanden voldoen aan de driehoeksongelijkheid ( $d(A,C) \le d(A,B) + d(B,C)$ ), wordt een verliesfunctie toegevoegd die de voorspelde trajecten dwingt om deze eigenschap te respecteren. Dit voorkomt "degenererende shortcuts" en zorgt voor consistente rollouts.

3. Energiegebaseerde Planning

Tijdens de inferentie wordt de Cross-Entropy Method (CEM) gebruikt om een optimale actiesequentie te vinden. De planner zoekt naar een reeks acties die de hyperbolische energie (afstand) tussen de huidige voorspelde toestand en de doeltoestand minimaliseert, waarbij het pad langs de geodeten van de hyperbolische variëteit loopt.

Kernbijdragen

GeoWorld Framework: Een nieuw wereldmodel dat Euclidische latente representaties mapt naar een hyperbolische variëteit via H-JEPA, waardoor een energie-landschap ontstaat dat hiërarchische relaties en geometrische structuur behoudt.
Geometric Reinforcement Learning (GRL): Een innovatief optimalisatiekader dat multi-staps planning behandelt als het minimaliseren van een hyperbolische waardenfunctie, ondersteund door driehoeksongelijkheid regularisatie voor stabiliteit.
State-of-the-Art Prestaties: Het aantonen van significante verbeteringen in lange-horizon visuele planning op standaard benchmarks, zonder de noodzaak om pixels te genereren (wat rekenkracht en ruis bespaart).

Resultaten

Het model is geëvalueerd op twee veelgebruikte datasets voor instructievideo's en visuele planning: CrossTask en COIN. De resultaten tonen consistente verbeteringen ten opzichte van de huidige state-of-the-art (V-JEPA 2):

Korte tot middellange horizon: GeoWorld behaalt ongeveer 3% verbetering in Success Rate (SR) bij 3-staps planning en 2% verbetering bij 4-staps planning.
Lange horizon: Bij het uitbreiden van de planning horizon tot $T=6$ en zelfs $T=8$ , vertoont V-JEPA 2 een sterke daling in prestaties door foutaccumulatie. GeoWorld behoudt echter een veel hogere stabiliteit en bereikt de beste SR op alle horizons.
Ablatie-studies:
- Het gebruik van hyperbolische geometrie alleen (SFT) verbetert reeds de stabiliteit.
- GRL alleen (in Euclidische ruimte) verbetert ook de prestaties, maar de combinatie van Hyperbolische meetkunde + GRL levert de grootste winst op.
- De krommingsparameter ( $c$ ) wordt tijdens training geleerd en convergeert naar een waarde die een balans biedt tussen hiërarchische structuur en stabiliteit.

Betekenis en Conclusie

GeoWorld markeert een paradigmaverschuiving in wereldmodelling door meetkundige principes (hyperbolische geometrie) expliciet te integreren in de latent space van predictieve modellen.

Waarom het belangrijk is: Het lost het probleem op dat Euclidische ruimtes niet geschikt zijn voor het modelleren van de exponentiële complexiteit van toekomstige paden in planning. Door de hiërarchie in de meetkunde te embedden, kan het model langere planninghorizons hanteren zonder dat de fouten oncontroleerbaar oplopen.
Toekomstige impact: De methode biedt een robuustere basis voor robotica en autonome systemen die complexe, meervoudige stappen vereisen, en demonstreert dat versterkt leren in gekromde ruimten een krachtige tool is voor het verfijnen van wereldmodellen.