GeoWorld: Geometric World Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man einen Computer repariert, indem man den Arbeitsspeicher tauscht. Der Roboter muss eine ganze Abfolge von Schritten planen: Schraube lösen, alte Platte raus, neue rein, Schraube zu.

Die meisten aktuellen KI-Modelle versuchen, diese Zukunft vorherzusagen, indem sie Bilder zeichnen. Sie sagen: "Wenn ich Schraube A löse, sieht das Bild in der nächsten Sekunde so aus." Das Problem ist: Wenn sie das 5 oder 10 Mal hintereinander machen müssen, wird das Bild immer unscharfer und verrückter. Es ist wie beim "Stille Post"-Spiel, bei dem die Nachricht am Ende kaum noch zu erkennen ist.

GeoWorld ist eine neue Art von KI, die dieses Problem auf eine ganz elegante Weise löst. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der flache Raum (Euklidisch)

Stell dir vor, das Wissen des Roboters über die Welt ist wie eine flache Ebene (ein riesiges Blatt Papier). Auf diesem Blatt sind alle möglichen Zustände (z. B. "Schraube gelöst", "Schraube fest") verteilt.

Das Problem: Auf einer flachen Ebene sind alle Wege gleich lang. Wenn der Roboter versucht, einen langen Weg zu planen, verirrt er sich leicht. Er verliert den Überblick, weil die "Entfernung" zwischen den Schritten nicht die wahre Komplexität der Aufgabe widerspiegelt. Es ist wie wenn man versucht, die Welt auf einer flachen Landkarte darzustellen – je weiter man kommt, desto mehr verzerrt sich alles.

2. Die Lösung: Der hyperbolische Raum (Der Baum)

GeoWorld sagt: "Nein, die Welt ist nicht flach. Sie ist wie ein riesiger Baum oder ein Schneeflocken-Muster."

Die Analogie: Stell dir vor, du stehst am Stamm eines Baumes (der Anfangszustand). Um zu den Ästen (den Zielen) zu kommen, musst du dich verzweigen.
In der Mathematik nennt man das hyperbolische Raum. In diesem Raum wächst der Platz exponentiell. Je weiter du vom Stamm weggehst, desto mehr Platz gibt es.
Der Vorteil: GeoWorld platziert die KI in diesem "Baum-Raum". Hier haben komplexe, verzweigte Aufgaben (wie eine Reparatur) ihren natürlichen Platz. Die KI kann den Weg zum Ziel viel besser sehen, weil die Struktur der Aufgabe (erst Schraube lösen, dann Platte tauschen) im Raum selbst verankert ist. Sie folgt nicht einer geraden Linie, sondern den geodätischen Linien – das sind die kürzesten und natürlichsten Pfade auf einer gekrümmten Oberfläche (wie ein Flugzeug, das auf der Erde eine Kurve fliegt, um die kürzeste Strecke zu nehmen).

3. Der Energie-Landschafts-Gedanke

Statt Bilder zu malen, denkt GeoWorld in Energie.

Stell dir eine Landschaft vor, die aus Bergen und Tälern besteht.
Ein Berg ist eine schlechte Idee (hohe Energie).
Ein Tal ist eine gute Idee (niedrige Energie).
Das Ziel ist es, den Weg ins tiefste Tal zu finden.
Bei GeoWorld ist diese Landschaft so geformt, dass sie die Hierarchie der Aufgabe perfekt abbildet. Der Roboter "rollt" einfach den Berg hinunter ins Tal der perfekten Handlung. Durch die spezielle Form des Raumes (den hyperbolischen Baum) rutscht er nicht so leicht in falsche Täler ab, selbst wenn der Weg sehr lang ist.

4. Der Trainer: Geometrisches Lernen (GRL)

Damit der Roboter diesen Weg wirklich perfekt beherrscht, trainieren die Forscher ihn mit einer neuen Methode namens Geometric Reinforcement Learning.

Die Analogie: Stell dir vor, du lehrst jemanden, auf einem Seil zu laufen.
- Der alte Trainer (normale KI) sagt: "Mach einen Schritt, dann noch einen." Wenn der Schüler stolpert, wird er unsicher.
- Der neue Trainer (GeoWorld) sagt: "Bleib auf der Linie des Seils!" Er nutzt die Form des Seils (die Geometrie), um dem Schüler zu helfen, nicht abzurutschen.
Diese Methode zwingt die KI, ihre Schritte so zu planen, dass sie immer der natürlichen Kurve des "Baum-Raums" folgen. Das verhindert, dass kleine Fehler sich aufaddieren und die ganze Planung ruinieren.

Zusammenfassung: Warum ist das cool?

Früher haben KIs versucht, die Zukunft Bilder für Bilder vorherzusagen. Das war wie ein Puzzle, bei dem man jedes Teil einzeln malt – am Ende war das Bild kaputt.

GeoWorld macht etwas anderes:

Es denkt in einer 3D-Struktur (wie ein Baum), die der echten Welt besser entspricht.
Es sucht den kürzesten Weg durch diese Struktur, statt Bilder zu malen.
Es bleibt auch bei langen Aufgaben (viele Schritte) stabil und macht weniger Fehler.

Das Ergebnis: In Tests konnte GeoWorld Aufgaben wie "Gitarre reparieren" oder "Kaffee kochen" über mehrere Schritte hinweg viel besser planen als die bisherigen Spitzenmodelle. Es ist, als hätte die KI endlich verstanden, dass die Welt nicht flach ist, sondern aus verzweigten Möglichkeiten besteht, und sie weiß nun, wie man den besten Pfad durch diesen Wald findet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert zwei wesentliche Herausforderungen bei bestehenden energiebasierten prädiktiven Weltmodellen (Energy-Based Predictive World Models), die für die visuelle Planung mehrerer Schritte genutzt werden:

Vernachlässigung geometrischer Strukturen: Herkömmliche Modelle lernen latente Repräsentationen typischerweise im euklidischen Raum. Dies ignoriert die zugrunde liegende hierarchische und geometrische Struktur von Zustandsübergängen. Da euklidische Abstände keine natürlichen Hierarchien abbilden können, versagen diese Modelle oft darin, sinnvolle Geodäten (kürzeste Pfade) über lange Zeiträume zu planen, was zu einer schnellen Degradation der Vorhersagequalität führt.
Schwäche bei Langzeitplanung (Long-Horizon): Bestehende Modelle werden meist nur auf Ein-Schritt-Übergängen trainiert. Bei der Planung über längere Horizonte (mehrere Schritte) häufen sich Fehler auf, da die Modelle Schwierigkeiten haben, langfristige zeitliche Abhängigkeiten und die globale Trajektorienstruktur zu modellieren.

2. Methodik: GeoWorld

GeoWorld ist ein geometrisches Weltmodell, das diese Probleme löst, indem es die Hyperbolische Geometrie in die latente Darstellung und das Reinforcement Learning integriert.

A. Hyperbolische JEPA (H-JEPA)

Statt Repräsentationen im euklidischen Raum $\mathbb{R}^n$ zu halten, bildet GeoWorld diese auf eine hyperbolische Mannigfaltigkeit (Hyperboloid oder Poincaré-Ball) ab.

Prinzip: Hyperbolische Räume eignen sich hervorragend zur Darstellung hierarchischer Daten, da ihr Volumen exponentiell mit dem Radius wächst. Dies entspricht der exponentiellen Verzweigung möglicher Zukunftszustände in der Planung.
Umsetzung: Ein Encoder $E_\theta$ kodiert Beobachtungen in euklidische Vektoren. Diese werden über die exponentielle Abbildung ( $\exp_0$ ) in den hyperbolischen Raum projiziert.
Dynamik: Ein Prädiktor $P_\phi$ lernt die Zustandsdynamik entlang von Geodäten (kürzesten Wegen) auf der hyperbolischen Mannigfaltigkeit. Das Ziel ist es, die hyperbolische Distanz zwischen dem vorhergesagten und dem tatsächlichen Zielzustand zu minimieren.
Vorteil: Die Energie-Landschaft (Energy Landscape) wird strukturiert und krümmungsbewusst, was hierarchische Beziehungen zwischen Zuständen besser widerspiegelt als flache euklidische Landschaften.

B. Geometrisches Reinforcement Learning (GRL)

Um die Stabilität bei der Mehr-Schritt-Planung zu verbessern, wird ein Reinforcement-Learning-Ansatz entwickelt, der direkt den Prädiktor optimiert, ohne zusätzliche Policy- oder Reward-Modelle zu trainieren.

Energie als Kostenfunktion: Die "Kosten" eines Übergangs werden als negative hyperbolische Distanz definiert. Niedrigere Energie entspricht einer höheren kumulativen Belohnung.
Ziel: Maximierung der erwarteten kumulativen Belohnung (Minimierung der gesamten hyperbolischen Distanz über den Planungszeitraum).
Regularisierung (Dreiecksungleichung): Ein entscheidender Bestandteil ist eine Regularisierung, die die Dreiecksungleichung der hyperbolischen Geodäten erzwingt:
$d_H(\hat{s}_t, \hat{s}_{t+2}) \leq d_H(\hat{s}_t, \hat{s}_{t+1}) + d_H(\hat{s}_{t+1}, \hat{s}_{t+2})$
Dies verhindert, dass das Modell "Abkürzungen" in der latenten Raum nimmt, die physikalisch unmöglich sind, und erzwingt konsistente Rollouts entlang geodätischer Pfade.

C. Energiebasierte Planung

Zur Inferenz wird die Cross-Entropy-Methode (CEM) verwendet, um eine Aktionssequenz zu finden, die die Energie (hyperbolische Distanz) zwischen dem aktuellen Zustand und dem Zielzustand minimiert. Da die Dynamik auf Geodäten gelernt wurde, folgen die gefundenen Pfade der natürlichen Struktur der Welt.

3. Hauptbeiträge

GeoWorld Framework: Einführung eines Weltmodells, das geometrische Strukturen und hierarchische Beziehungen durch die Abbildung latenter Repräsentationen auf hyperbolische Mannigfaltigkeiten erhält.
Hyperbolic JEPA (H-JEPA): Ein neues Architektur-Design, das Dynamiken entlang hyperbolischer Geodäten lernt, was zu einer geometrie-konsistenten Energie-Landschaft für die Mehr-Schritt-Vorhersage führt.
Geometric Reinforcement Learning (GRL): Ein Optimierungsrahmen, der den Prädiktor durch hyperbolische Energieminimierung und Dreiecksungleichungs-Regularisierung verfeinert, um stabile Langzeit-Rollouts zu ermöglichen.
Empirische Validierung: Umfassende Experimente zeigen, dass die Kombination aus geometrischer Darstellung und RL die Stabilität und Genauigkeit bei Langzeitplanung signifikant verbessert.

4. Ergebnisse

Die Methode wurde auf den Datensätzen CrossTask und COIN (Aufgaben zur visuellen Planung in Anleitungsvideos) evaluiert und mit dem State-of-the-Art-Modell V-JEPA 2 verglichen.

Leistungssteigerung: GeoWorld übertrifft V-JEPA 2 konsistent über alle Modellgrößen (ViT-L bis ViT-g384).
- Bei 3-Schritt-Planung: ca. 3% Verbesserung in der Success Rate (SR).
- Bei 4-Schritt-Planung: ca. 2% Verbesserung in der Success Rate (SR).
Langzeitstabilität: Der größte Vorteil zeigt sich bei längeren Horizonten (T=5 bis T=8). Während die Performance von V-JEPA 2 mit zunehmendem Horizont rapide einbricht (aufgrund von Fehlerakkumulation im euklidischen Raum), behält GeoWorld eine deutlich höhere Stabilität und Success Rate bei.
Ablation Studies:
- Die Verwendung von GRL allein verbessert die Performance bereits gegenüber reinem Supervised Fine-Tuning (SFT).
- Die Kombination aus SFT (im hyperbolischen Raum) und GRL erzielt die besten Ergebnisse.
- Die Regularisierung durch die Dreiecksungleichung ist entscheidend für die Vermeidung von degenerierten Pfaden im latenten Raum.

5. Bedeutung und Fazit

GeoWorld demonstriert, dass die Integration von geometrischen Prinzipien (insbesondere hyperbolischer Geometrie) in prädiktive Weltmodelle ein entscheidender Schritt ist, um die Grenzen der Langzeitplanung zu überwinden.

Theoretischer Durchbruch: Es zeigt, dass die Welt nicht notwendigerweise flach (euklidisch) ist, sondern dass ihre Struktur oft hierarchisch und gekrümmt ist. Die Nutzung von Geodäten auf hyperbolischen Mannigfaltigkeiten bietet einen natürlichen Mechanismus, um diese Hierarchien zu kodieren.
Praktische Relevanz: Die Methode ermöglicht robustere visuelle Planung für komplexe Aufgaben (wie das Austauschen von Speicherchips oder Kochen), bei denen Fehlerakkumulation über mehrere Schritte hinweg katastrophal sein kann.
Zukunftsperspektive: Das Paper legt den Grundstein für die Anwendung geometrischer Reinforcement-Learning-Methoden in der Robotik und der allgemeinen KI-Planung, wo das Verständnis der zugrunde liegenden geometrischen Struktur der Welt für effizientes und stabiles Lernen unerlässlich ist.

Zusammenfassend stellt GeoWorld einen Paradigmenwechsel dar: Weg von der reinen Pixelgenerierung oder flachen euklidischen Vorhersagen hin zu einer geometrie-bewussten, energiebasierten Planung, die die inhärente Struktur der Welt nutzt, um langfristige Konsistenz zu gewährleisten.