Understanding and Improving Hyperbolic Deep Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Flachheits-Fehler"

Stell dir vor, du bist ein Schachspieler. Du ziehst einen Zug, und plötzlich verzweigt sich die Zukunft in unzählige Möglichkeiten. Jeder dieser neuen Züge verzweigt sich wieder in noch mehr Möglichkeiten. Das ist wie ein riesiger Baum, der sich exponentiell ausbreitet.

In der Welt des maschinellen Lernens versuchen Computer, diese Entscheidungen zu verstehen. Die meisten nutzen dafür eine Art "flache Landkarte" (euklidischer Raum), wie ein normales Blatt Papier. Das Problem: Auf einem flachen Blatt Papier wird es sehr schnell eng, wenn du versuchst, einen riesigen, verzweigten Baum darzustellen. Die Äste müssen sich überlappen oder verzerren, damit sie alle auf das Blatt passen. Das ist wie der Versuch, einen ganzen Wald in eine kleine Schuhschachtel zu quetschen. Das Ergebnis ist ein durcheinandergeratener, ungenauer Plan.

Die Lösung: Eine hyperbolische Welt

Die Autoren dieses Papiers sagen: "Warum versuchen wir, einen Baum in eine Schachtel zu quetschen? Wir brauchen eine Landkarte, die sich wie ein Baum verhält!"

Sie nutzen die Hyperbolische Geometrie. Stell dir das wie einen Trichter oder einen Riesen-Pizza-Rand vor. Je weiter du vom Zentrum wegstehst, desto mehr Platz gibt es ringsum. In dieser Welt wächst der verfügbare Raum so schnell, wie der Entscheidungsbaum wächst. Ein Agent (ein KI-Spieler) kann hier seine Entscheidungen viel präziser und ohne Verzerrung abbilden.

Das neue Problem: Die KI wird "nervös"

Aber es gab ein großes Hindernis. Obwohl die hyperbolische Landkarte theoretisch perfekt ist, stolperten die KI-Modelle beim Lernen ständig.

Die Analogie: Stell dir vor, du fährst ein Rennauto auf dieser perfekten, aber kurvigen Piste. Das Problem ist nicht die Piste, sondern das Auto selbst. Wenn das Auto zu schnell wird (die Zahlenwerte im Inneren des Modells werden zu groß), verliert es die Kontrolle. Die Bremsen (die mathematischen Regeln) funktionieren nicht mehr richtig, und das Auto rast gegen die Wand. In der Mathematik nennt man das "Instabilität" oder "Explodierende Gradienten". Die KI lernte nicht, weil sie sich selbst in den Wahnsinn getrieben hat.

Die Lösung: HYPER++ (Der neue Rennwagen)

Die Autoren haben einen neuen Agenten namens HYPER++ entwickelt, der dieses Problem löst. Sie haben drei wichtige Reparaturen am Auto vorgenommen:

Der Geschwindigkeitsbegrenzer (RMSNorm & Skalierung):
Früher haben sie versucht, das Auto mit einem schweren Bremsklotz (einer Technik namens "SpectralNorm") zu verlangsamen, was aber die Motorleistung (die Lernfähigkeit) auch gedämpft hat.
Neu: Sie haben einen intelligenten Tempomaten eingebaut. Dieser sorgt dafür, dass die Geschwindigkeit (die Zahlenwerte) immer im grünen Bereich bleibt, ohne den Motor zu erdrosseln. Das Auto bleibt schnell, aber kontrolliert.
Der bessere Fahrstuhl (Hyperboloid-Modell):
Früher nutzten sie eine Art Fahrstuhl (das "Poincaré-Ball"-Modell), der bei hohen Geschwindigkeiten wackelte und klemmte.
Neu: Sie nutzen einen stabileren Fahrstuhl (das "Hyperboloid"-Modell). Dieser ist von Haus aus robuster und neigt weniger dazu, bei großen Zahlenwerten zu versagen.
Der bessere Navigator (Kategorischer Verlust):
Früher versuchte die KI, ihre Ziele wie eine glatte Kurve zu berechnen (Regression). Das passte nicht gut zur krummen hyperbolischen Welt.
Neu: Sie haben den Navigator umgebaut. Statt einer glatten Kurve denkt die KI jetzt in "Fächern" oder "Kategorien" (wie ein Klassifizierer). Das passt viel besser zur Form der hyperbolischen Landkarte und macht das Lernen stabiler.

Das Ergebnis: Schnellere und klügere KIs

Mit diesen drei Verbesserungen ist HYPER++ ein echter Gewinner:

Stabilität: Die KI lernt nicht mehr, rastet nicht aus und bleibt konstant.
Geschwindigkeit: Sie braucht etwa 30 % weniger Zeit, um zu lernen (weniger "Wandzeit").
Leistung: Auf schwierigen Spielen (wie den ProcGen-Spielen oder Atari) schlägt sie sowohl die alten hyperbolischen KIs als auch die besten flachen KIs.

Zusammenfassend: Die Autoren haben erkannt, dass die hyperbolische Welt zwar der perfekte Ort für komplexe Entscheidungen ist, aber die KIs dort oft "die Kontrolle verloren". Mit HYPER++ haben sie die KI so umgebaut, dass sie diese Welt sicher und effizient navigieren kann – wie ein Rennwagen, der endlich die Kurven der hyperbolischen Piste meistert, ohne zu crashen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Understanding and Improving Hyperbolic Deep Reinforcement Learning

Veröffentlicht bei: ICLR 2026
Autoren: Timo Klein, Thomas Lang, et al. (Universität Wien, Max Planck Institut)

1. Problemstellung

Reinforcement Learning (RL)-Agenten operieren oft in Umgebungen mit inhärent hierarchischen Strukturen (z. B. Schachbäume oder das Wachstum von Fischen in ProcGen). Während der euklidische Raum nur polynomial mit dem Radius wächst, wächst der hyperbolische Raum exponentiell. Dies macht hyperbolische Geometrie theoretisch ideal, um solche hierarchischen Zustandsbeziehungen mit geringer Verzerrung abzubilden.

Trotz dieses Potenzials scheitert das Training von hyperbolischen Deep-RL-Agenten in der Praxis häufig an schweren Optimierungsproblemen:

Instabilität: Das Training bricht oft zusammen oder konvergiert nicht.
Fehlende Analyse: Es gab bisher keine formale Analyse, warum das Training in hybriden Architekturen (euklidischer Encoder + hyperbolischer Kopf) versagt.
Vertrauensbereich-Verletzungen: Selbst bei Verwendung von Proximal Policy Optimization (PPO) werden die durch Clipping definierten Vertrauensbereiche verletzt, was zu instabilen Policy-Updates führt.

2. Methodische Analyse und Diagnose

Die Autoren führen eine formale Gradientenanalyse durch, um die Ursachen für das Versagen zu identifizieren. Sie untersuchen zwei Modelle: den Poincaré-Ball und die Hyperboloid-Darstellung.

Schlüsselfaktoren der Instabilität:

Große Normen der Embeddings: Wenn die Normen der euklidischen Embeddings ( $\|x_E\|$ ) wachsen, führt dies zu einer Destabilisierung der Gradienten.
Der konforme Faktor (Poincaré-Ball): Im Poincaré-Modell skaliert der Riemannsche Gradient mit dem konformen Faktor $\lambda_x = \frac{2}{1-c\|x\|^2}$ . Nähert sich die Embedding-Norm dem Rand des Balls ( $\|x\| \to 1/\sqrt{c}$ ), explodiert dieser Faktor, was zu Gradienten-Explosionen führt.
Exponential-Map-Jacobian: Auch im Hyperboloid-Modell, das keinen konformen Faktor besitzt, wird der Jacobian der Exponential-Map für große Eingabewerte extrem sensitiv, da $\sinh$ und $\cosh$ exponentiell wachsen.
Fehlerhafte Regularisierung: Bestehende Ansätze (wie SpectralNorm auf allen Schichten) begrenzen zwar die Lipschitz-Konstante, reduzieren aber die Ausdruckskraft (Capacity) des Netzwerks und sind rechenintensiv.

3. Die Lösung: HYPER++

Basierend auf diesen Erkenntnissen stellen die Autoren HYPER++ vor, einen neuen hyperbolischen RL-Agenten, der drei Kernkomponenten kombiniert, um die Stabilität zu gewährleisten, ohne die Kapazität einzuschränken:

A. Regularisierung mit RMSNorm und gelerntem Scaling

RMSNorm statt SpectralNorm: Anstatt SpectralNorm auf den gesamten Encoder anzuwenden, wird RMSNorm (Root Mean Square Layer Normalization) vor der Aktivierung der letzten euklidischen Schicht verwendet. Dies garantiert, dass die Embedding-Normen bounded bleiben, ohne die Ausdruckskraft der vorherigen Schichten zu limitieren.
Learned Scaling: Um die durch die Normierung verursachte Einschränkung des nutzbaren Volumens im hyperbolischen Raum zu kompensieren, wird ein gelernter Skalierungsfaktor ( $\xi_\theta$ ) eingeführt. Dieser skaliert die Embeddings so, dass sie einen maximalen Radius $\alpha$ (z. B. 0.95) im hyperbolischen Raum erreichen, was das verfügbare Volumen exponentiell erhöht, während die Stabilität gewahrt bleibt.

B. Wechsel zum Hyperboloid-Modell

Die Autoren wechseln vom Poincaré-Ball zum Hyperboloid-Modell. Da das Hyperboloid nicht konform zum euklidischen Raum ist, entfällt der destabilisierende konforme Faktor.
Durch die Kombination mit RMSNorm und Scaling werden auch die Instabilitäten der Exponential-Map im Hyperboloid kontrolliert, indem die Zeitkomponente ( $x_0$ ) des Vektors begrenzt wird.

C. Kategorischer Value-Loss

Anstelle der üblichen Mean-Squared-Error (MSE)-Regression für den Critic wird ein kategorischer Loss (basierend auf HL-Gauss oder Categorical DQN) verwendet.
Begründung: Hyperbolische Multinomial Logistic Regression (MLR) berechnet Abstände zu Hyperebenen. Ein kategorischer Loss passt geometrisch besser zu dieser Struktur als MSE, was das Training des Critics unter nicht-stationären Targets stabilisiert.

4. Experimentelle Ergebnisse

Die Methode wurde auf zwei Benchmarks evaluiert: ProcGen (mit PPO und Phasic Policy Gradient) und Atari-5 (mit Double DQN).

ProcGen (PPO):
- HYPER++ übertrifft sowohl euklidische Baselines als auch vorherige hyperbolische Ansätze (wie Hyper+S-RYM von Cetin et al., 2023).
- Verbesserung: +52,3% relative Verbesserung im Test-Score gegenüber der besten vorherigen hyperbolischen Methode.
- Stabilität: Deutlich geringere KL-Divergenz-Updates und weniger Clipping-Fälle, was auf stabile Vertrauensbereiche hindeutet.
- Effizienz: Reduktion der Wandzeit (Wall-clock time) um ca. 30% im Vergleich zu Hyper+S-RYM, da keine aufwendigen SpectralNorm-Berechnungen pro Forward-Pass nötig sind.
ProcGen (PPG):
- HYPER++ zeigt auch mit dem fortschrittlicheren PPG-Algorithmus starke Ergebnisse und übertrifft die Baselines deutlich.
Atari-5 (Double DQN):
- Die Verbesserungen übertragen sich auf off-policy Algorithmen. HYPER++ übertrifft sowohl euklidische als auch hyperbolische Baselines in allen fünf getesteten Spielen.
Ablationsstudien:
- Das Entfernen von RMSNorm führt zum kompletten Trainingsversagen (Gradienten-Explosion/Verschwinden).
- Der Wechsel zurück zum Poincaré-Ball oder die Verwendung von MSE statt kategorischem Loss führt zu signifikanten Performance-Einbußen.

5. Bedeutung und Fazit

Dieses Paper leistet einen wesentlichen Beitrag zur Theorie und Praxis des Deep Reinforcement Learning:

Theoretisches Verständnis: Es liefert die erste formale Erklärung, warum hyperbolische RL-Agenten instabil sind (Zusammenhang zwischen Embedding-Normen, konformem Faktor und PPO-Vertrauensbereichen).
Praktische Lösung: HYPER++ demonstriert, dass hyperbolische Geometrie in RL nicht nur theoretisch, sondern auch praktisch überlegen sein kann, wenn die Optimierungsprobleme systematisch gelöst werden.
Effizienz: Durch den Verzicht auf SpectralNorm und die Nutzung stabilerer Architekturen wird das Training nicht nur robuster, sondern auch schneller.

Die Arbeit zeigt, dass die Kombination aus RMSNorm, gelerntem Scaling, dem Hyperboloid-Modell und einem kategorischen Loss der Schlüssel ist, um die Vorteile der hyperbolischen Geometrie für komplexe Entscheidungsprobleme voll auszuschöpfen. Der Code ist öffentlich verfügbar.