Ergodicity in reinforcement learning

Each language version is independently generated for its own context, not a direct translation.

🎲 Warum der Durchschnitt trügt: Eine Reise durch die Welt der KI und des Zufalls

Stell dir vor, du leitest eine KI, die lernen soll, wie man am besten Geld verdient oder ein Roboter, der Pakete ausliefert. Normalerweise sagen wir der KI: „Mache das, was im Durchschnitt am besten funktioniert."

Das klingt logisch, oder? Wenn eine Aktion im Schnitt 10 Punkte bringt und eine andere nur 5, wählt man natürlich die erste.

Aber dieses Paper von Dominik Baumann und Kollegen zeigt uns ein riesiges Problem: In der echten Welt funktioniert der „Durchschnitt" oft nicht für den Einzelnen. Es gibt Situationen, in denen das, was im Durchschnitt gut aussieht, für dich persönlich katastrophal endet.

Das nennt man Nicht-Ergodizität. Klingt kompliziert? Machen wir es einfach.

1. Das Problem: Der Unterschied zwischen „Wir" und „Ich"

Stell dir zwei Szenarien vor:

Szenario A (Der Durchschnitt): Du hast 100 Freunde. Jeder spielt ein Glücksspiel. Im Schnitt gewinnen alle zusammen viel Geld. Das ist der „Erwartungswert".
Szenario B (Die Realität): Du bist ein Mensch. Du spielst das Spiel dein ganzes Leben lang.

In manchen Spielen (wie dem im Paper beschriebenen Münzwurf-Spiel) sieht der Durchschnitt toll aus. Aber wenn du als Einziger spielst, wirst du mit extrem hoher Wahrscheinlichkeit alles verlieren, auch wenn die Mathematik sagt, dass man im Schnitt gewinnen sollte.

Die Analogie: Die Russische Roulette-Rallye
Stell dir einen Lieferroboter vor. Er hat zwei Routen:

Die schnelle Route: Geht durch eine Menschenmenge. Er ist schneller, aber jedes Mal gibt es eine winzige Chance (1 %), dass ihn jemand zerstört. Wenn er zerstört ist, ist das Spiel vorbei. Er verdient nie wieder einen Cent.
Die sichere Route: Geht einen Umweg. Es dauert länger, aber er wird nie zerstört.

Wenn man nur auf den Durchschnitt pro Fahrt schaut, ist die schnelle Route besser (weniger Zeit, mehr Punkte). Aber wenn der Roboter diese Route 100 Mal nimmt, ist er fast sicher zerstört. Er hat dann 0 Punkte für die Ewigkeit.
Die sichere Route ist langsamer, aber der Roboter kann ewig weiterfahren und am Ende viel mehr verdienen.

Das ist das Kernproblem: Der Durchschnitt ignoriert, dass ein einziger „schlechter Zug" das ganze Spiel beenden kann.

2. Das Münzwurf-Spiel: Warum „mehr riskieren" falsch ist

Das Paper nutzt ein klassisches Beispiel aus der Wirtschaft:

Du hast 100 Euro.
Du wirfst eine Münze.
Kopf: Du gewinnst 50 % deines Einsatzes.
Zahl: Du verlierst 40 % deines Einsatzes.

Mathematisch gesehen gewinnst du im Schnitt 5 % pro Runde. Also sollte man immer alles auf eine Karte setzen (den maximalen Einsatz).

Aber was passiert, wenn du das 100-mal hintereinander machst?
Stell dir vor, du hast 100 Runden. Du brauchst nur ein paar „Zahl"-Ergebnisse hintereinander, um fast alles zu verlieren. Da die Verluste prozentual sind (40 % von einem kleinen Betrag sind weniger als 40 % von einem großen), schrumpft dein Geld bei Verlusten schneller, als es bei Gewinnen wächst.
Am Ende sind fast alle Spieler, die „alles auf eine Karte" setzen, pleite. Nur der eine, der extrem viel Glück hatte, ist reich. Aber da du nur ein Leben hast, ist das Risiko, pleite zu gehen, viel größer als die Chance, reich zu werden.

Die KI, die nur den Durchschnitt optimiert, wählt also die Strategie, die dich ruiniert.

3. Die Lösung: Wie lernen wir KI, „klug" zu sein?

Das Paper zeigt drei Wege, wie man KIs beibringt, nicht auf den gefährlichen Durchschnitt zu schauen, sondern auf das, was im eigenen Leben (der eigenen Spur) passiert.

Lösung 1: Die magische Brille (Transformation)
Statt direkt auf die Punkte zu schauen, gibt man der KI eine „Brille". Durch diese Brille sieht die Welt anders aus. Die KI lernt nicht, die Punkte zu maximieren, sondern eine andere Zahl, die den langfristigen Erfolg besser widerspiegelt.

Vergleich: Es ist, als würde man statt auf das Geld auf der Bank zu schauen, auf das Wachstum eines Baumes achten. Einmaliges Geld ist trügerisch; das Wachstum des Baumes zeigt, ob er überlebt.

Lösung 2: Der Geometrische Mittelwert (Der „Durchschnitt" der Spur)
Normalerweise rechnet man den Durchschnitt so: (10 + 20 + 30) / 3.
Bei diesem Spiel muss man aber den geometrischen Durchschnitt nehmen. Das ist wie bei einem Zinseszins: Wenn du 50 % verlierst und dann 50 % gewinnst, bist du nicht wieder bei Null, sondern hast weniger Geld.
Die neue KI lernt, den „Wachstumsfaktor" zu maximieren. Sie wird vorsichtiger und setzt nicht alles auf eine Karte, damit sie nicht aus dem Spiel fliegt.

Lösung 3: Zeitreisen im Training (Temporales Training)
Statt nur einen Schritt zu planen, lässt man die KI in einer Simulation die Zukunft durchspielen. Sie muss sich vorstellen: „Wenn ich jetzt riskant spiele, was passiert in 100 Schritten?"
Die KI lernt, dass ein kurzer Gewinn heute nicht wichtig ist, wenn er morgen zum Totalverlust führt. Sie lernt, Geduld zu haben.

4. Warum ist das wichtig für uns?

Dieses Paper ist nicht nur für Mathe-Nerds wichtig. Es betrifft uns alle, weil viele reale Probleme genau so funktionieren:

Finanzen: Wenn du dein ganzes Geld in eine riskante Aktie steckst, kannst du im Schnitt reich werden. Aber wenn du pleitegehst, bist du raus.
Medizin: Ein Medikament, das im Schnitt 90 % der Patienten heilt, aber 10 % tötet, ist für den einzelnen Patienten vielleicht zu riskant.
Robotik & KI: Ein selbstfahrendes Auto, das im Schnitt die schnellste Route nimmt, aber eine kleine Chance hat, einen Unfall zu bauen, ist gefährlich. Wir wollen, dass es immer sicher bleibt, nicht nur im Durchschnitt.

Fazit

Das Paper sagt uns: Vertraue nicht blind auf den Durchschnitt.
In einer Welt, in der ein einziger Fehler alles zerstören kann (nicht-ergodische Systeme), müssen wir anders lernen. Wir müssen Strategien wählen, die uns am Leben erhalten, damit wir langfristig gewinnen können. Die KI muss lernen, nicht nur den „schnellen Reichtum" zu jagen, sondern das „sichere Überleben" zu sichern.

Es ist der Unterschied zwischen dem Glücksspieler, der alles auf Rot setzt, und dem klugen Gärtner, der weiß, dass ein Baum Zeit braucht, um zu wachsen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Artikels „Ergodicity in reinforcement learning" von Dominik Baumann et al. auf Deutsch.

Titel: Ergodizität im Reinforcement Learning

Veröffentlicht in: Royal Society Publishing (Philosophical Transactions of the Royal Society A)
Schlüsselwörter: Reinforcement Learning (RL), Ergodizität, Nicht-ergodische Prozesse, Multiplikative Belohnungen, Zeitdurchschnitt vs. Ensembledurchschnitt.

1. Problemstellung

Das zentrale Problem, das in diesem Artikel adressiert wird, ist die Diskrepanz zwischen dem Ensembledurchschnitt (Erwartungswert über unendlich viele Trajektorien) und dem Zeitdurchschnitt (Durchschnitt über eine einzelne, unendlich lange Trajektorie) in nicht-ergodischen Umgebungen.

Standard-RL-Annahme: Herkömmliches Reinforcement Learning (RL) zielt darauf ab, den erwarteten kumulierten Reward $E_\pi[R]$ zu maximieren. Diese Formulierung basiert implizit auf der Annahme, dass der Prozess ergodisch ist, d.h., dass der Zeitmittelwert eines einzelnen Agents mit dem Erwartungswert über eine Population von Agents übereinstimmt.
Nicht-ergodische Dynamik: In vielen realen Anwendungen (Finanzen, Biologie, Robotik) sind die Reward-Prozesse nicht-ergodisch. Hier divergieren Zeit- und Ensembledurchschnitte. Ein Agent, der den Erwartungswert maximiert, kann in einer einzelnen, langen Laufzeit (Deployment) katastrophal versagen, obwohl der Erwartungswert über viele parallele Runs positiv erscheint.
Beispiel (Russisches Roulette / Münzwurf):
- Ein Agent startet mit einem Vermögen $R_0 = 100$ .
- Bei jedem Schritt wird eine faire Münze geworfen. Bei Kopf gewinnt er 50 % seines Einsatzes, bei Zahl verliert er 40 %.
- Erwartungswert: Da der erwartete Gewinn pro Runde $+5\%$ beträgt ($0,5 \cdot 0,5 + 0,5 \cdot (-0,4) = 0,05 $), würde eine rein erwartungswertbasierte Optimierung den Einsatz maximieren ($ \alpha=1$).
- Realität (Zeitdurchschnitt): Da die Dynamik multiplikativ ist, führt eine lange Kette von Verlusten (die mit hoher Wahrscheinlichkeit auftritt) zum Zusammenbruch des Vermögens gegen Null. Fast alle einzelnen Agenten verlieren ihr gesamtes Kapital, obwohl der Ensembledurchschnitt exponentiell wächst.
- Konsequenz: Standard-RL-Algorithmen (wie PPO), die auf der Maximierung des Erwartungswerts basieren, lernen in solchen Szenarien suboptimale oder katastrophale Strategien.

2. Methodische Grundlagen und Theorie

Der Artikel definiert die Ergodizität im Kontext von Markov-Entscheidungsprozessen (MDPs) und Markov-Reward-Prozessen (MRPs) neu.

Definitionen:
- Starke Ergodizität: Der Grenzwert des Zeitdurchschnitts einer einzelnen Realisierung entspricht dem Erwartungswert über unendlich viele Realisierungen für jeden Zeitpunkt.
- Asymptotische Ergodizität: Eine relaxierte Definition, die gilt, wenn das System unabhängig vom Startzustand gegen eine stationäre Verteilung konvergiert.
Zusammenhang mit MDPs:
- Ein MRP ist nur dann ergodisch, wenn die zugrunde liegende Markov-Kette irreduzibel und aperiodisch ist (oder eine Unichain-Struktur aufweist) und die Belohnungsfunktion stationär ist.
- Ergodizitäts-Bruch (Ergodicity-Breaking): Tritt auf, wenn:
  1. Belohnungen von der Historie abhängen (nicht-Markovisch), z.B. bei multiplikativen Belohnungen (Vermögen als Zustand).
  2. Die Zustandsverteilung nicht-stationär ist (z.B. in Continual RL oder Multi-Agenten-Systemen).
  3. Absorbierende Zustände existieren (z.B. „Tod" eines Roboters), aus denen kein Rückweg möglich ist.

3. Schlüsselbeiträge

Die Autoren leisten vier wesentliche Beiträge zur Diskussion:

Konzeptuelle Klärung: Sie definieren „nicht-ergodische Reward-Prozesse" explizit für das RL und unterscheiden diese von der Ergodizität der zugrunde liegenden MDPs.
Illustratives Beispiel: Sie präsentieren das Münzwurf-Beispiel, das zeigt, dass selbst moderne RL-Algorithmen (PPO) versagen, wenn sie den Erwartungswert optimieren, obwohl die Aufgabe einfach erscheint.
Breitere Perspektive: Sie verknüpfen das Konzept mit verschiedenen Anwendungsbereichen wie Safe RL (Vermeidung absorbierender Zustände), Multi-Agenten-RL (nicht-stationäre Umgebungen) und biologischen Wachstumsprozessen.
Überblick über Lösungsansätze: Sie stellen drei existierende Strategien vor, die den Zeitdurchschnitt statt des Erwartungswerts optimieren.

4. Dargestellte Lösungsansätze

Der Artikel analysiert drei Methoden, um nicht-ergodische Probleme zu lösen:

A. Lernen von Ergodizitäts-Transformationen (Learning Ergodicity Transformations)

Idee: Transformation des nicht-ergodischen Prozesses in einen ergodischen, indem man den Erwartungswert der transformierten Größe maximiert. Dies entspricht der Maximierung der Wachstumsrate.
Methode: Inspiriert von varianzstabilisierenden Transformationen. Ein Algorithmus (basierend auf LOESS) lernt eine Funktion $h$ , die die kumulierten Rewards $R_t$ transformiert. Der Agent trainiert auf den Inkrementen $\Delta h(R_t)$ .
Ergebnis: In Simulationen (Münzwurf, Cart-Pole) gelingt es dem Agenten, eine Gewinnstrategie zu lernen, die den Ruin vermeidet (siehe Abbildung 3 im Paper).
Einschränkung: Benötigt Trajektorien von Rewards, um die Transformation zu lernen; derzeit auf Monte-Carlo-ähnliche Settings beschränkt.

B. Modifizierter geometrischer Mittelwert-Schätzer (Modified Geometric Mean Estimator)

Idee: Formulierung des Ziels als konvexe Kombination aus dem traditionellen RL-Ziel (Erwartungswert) und der Zeitdurchschnitts-Wachstumsrate $G_\pi^\infty$ .
Formel: $\max_\pi \{ (1-\lambda) E_\pi[\sum \gamma^\kappa r_{t\kappa}] + \lambda G_\pi^\infty \}$ .
Methode: Die Wachstumsrate wird durch den geometrischen Mittelwert geschätzt, der unter multiplikativer Dynamik ein konsistenter Schätzer ist. Um endliche Stichproben zu handhaben, wird ein gleitender Fenster-Ansatz ( $N$ -Sliding Window) und Multi-Step Q-Learning verwendet.
Ergebnis: Das Verfahren lernt eine Gewinnstrategie (Abbildung 4) und übertrifft Standard-Q-Learning in Benchmarks wie Lunar Lander.
Einschränkung: Benötigt Hyperparameter-Tuning ( $\lambda, N$ ) und ist aktuell auf diskrete Aktionsräume beschränkt.

C. Temporales Training und Pfad-abhängige Updates (Temporal Training)

Idee: Explizite Einbeziehung der Pfadabhängigkeit in das Training, ohne die Reward-Funktion zu ändern. Der Agent wird gezwungen, die temporalen Konsequenzen einer Aktion über mehrere Schritte hinweg zu erleben.
Methode: In einem Trainingsepisode wird das gleiche Entscheidungsproblem wiederholt gelöst. Der Agent aktualisiert seine Politik basierend auf dem gesamten Trajektorienverlauf (Monte-Carlo-Update über die gesamte Episode). Dies simuliert die wiederholte Anwendung der Politik auf sich selbst.
Ergebnis: Der Agent lernt, risikoreiche Aktionen zu vermeiden, wenn die Wahrscheinlichkeit eines Totalverlusts zu hoch ist (Verschiebung des „Indifferenzpunkts" von $p_E$ zu $p_T$ , siehe Abbildung 5 und 6).
Vorteil: Funktioniert auch in komplexeren Umgebungen mit Actor-Critic-Architekturen.

5. Ergebnisse und Signifikanz

Ergebnisse: Alle drei vorgestellten Methoden zeigen in den getesteten Szenarien (insbesondere dem Münzwurf-Beispiel), dass sie in der Lage sind, Strategien zu lernen, die den langfristigen Überlebenserfolg (Zeitdurchschnitt) maximieren, während Standard-RL-Algorithmen scheitern.
Signifikanz:
- Der Artikel zeigt auf, dass das Standard-Paradigma des RL (Maximierung des Erwartungswerts) in nicht-ergodischen Umgebungen fundamental fehlerhaft ist.
- Er bietet einen theoretischen Rahmen, um zu verstehen, warum RL in Bereichen wie Finanzen oder sicherheitskritischer Robotik oft versagt.
- Die vorgestellten Lösungen sind erste Schritte, aber noch nicht vollständig ausgereift für komplexe, hochdimensionale Umgebungen.

6. Offene Herausforderungen und Ausblick

Die Autoren identifizieren mehrere offene Fragen für die zukünftige Forschung:

Skalierbarkeit: Die aktuellen Algorithmen wurden nur auf einfache Umgebungen angewendet. Die Übertragung auf komplexe, hochdimensionale MDPs ist schwierig.
Lernen von Transformationen: Die Trennung zwischen dem Lernen der Transformation und der Politik ist suboptimal; ein gemeinsames Lernen wäre wünschenswert, aber komplexer.
Hyperparameter: Methoden wie der geometrische Mittelwert erfordern das Tuning von Parametern (Fenstergröße, Trade-off-Faktor), was die praktische Anwendung erschwert.
Messung der Nicht-Ergodizität: Es fehlt ein principled empirisches Maß, um zu quantifizieren, „wie nicht-ergodisch" ein RL-Benchmark ist.
Diskontfaktor: Die Rolle des Diskontfaktors $\gamma$ im Kontext der Ergodizität ist noch nicht vollständig geklärt.

Fazit: Der Artikel liefert eine kritische und notwendige Erweiterung des theoretischen Fundaments des Reinforcement Learning. Er warnt davor, blind auf den Erwartungswert zu vertrauen, und bietet konkrete, vielversprechende Ansätze, um RL-Agenten in nicht-ergodischen, realen Szenarien robuster und langfristig erfolgreicher zu machen.