Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments

Die Autoren zeigen, dass Lernstagnation bei PPO durch eine Diskrepanz zwischen Stichproben-Schätzungen und dem wahren Ziel entsteht, und beweisen, dass diese durch Skalierung auf über eine Million parallele Umgebungen und eine angepasste Hyperparameter-Strategie überwunden werden kann, was zu einer monotonen Leistungsverbesserung über eine Billion Übergänge hinweg führt.

Michael Beukman, Khimya Khetarpal, Zeyu Zheng, Will Dabney, Jakob Foerster, Michael Dennis, Clare Lyle

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man KI-Trainings zum Stehen bringt – und wie man sie wieder in Schwung bringt

Stellen Sie sich vor, Sie trainieren einen sehr talentierten, aber etwas ungeduldigen Schüler für eine schwierige Prüfung. Dieser Schüler lernt durch „Versuch und Irrtum": Er probiert Dinge aus, bekommt Feedback (Punkte) und passt sein Verhalten an. In der Welt der Künstlichen Intelligenz nennen wir das Reinforcement Learning (Bestärkendes Lernen).

Das Problem, das die Autoren dieses Papiers untersucht haben, ist folgendes: Oft lernt dieser Schüler am Anfang super schnell. Aber dann passiert etwas Seltsames: Er bleibt auf einem bestimmten Niveau hängen. Er wird nicht schlechter, aber er wird auch nicht besser. Er erreicht nie die volle Meisterschaft, obwohl er noch Millionen von Stunden trainieren könnte. Man nennt das einen „Plateau-Effekt".

Die Forscher haben herausgefunden, warum das passiert, und eine einfache Lösung gefunden, die es dem Schüler erlaubt, bis zu einer Billion Lernschritte durchzuhalten, ohne zu stagnieren.

Hier ist die Erklärung in einfachen Bildern:

1. Das Problem: Der ungeduldige Lehrer und der laute Raum

Stellen Sie sich das Training so vor:

  • Der Schüler (die KI): Er versucht, eine Aufgabe zu lösen (z. B. einen Roboterarm zu bewegen).
  • Der Lehrer (der Algorithmus PPO): Er schaut zu, wie der Schüler übt, und sagt: „Das war gut, mach es so weiter" oder „Das war schlecht, ändere es".
  • Die Übungsrunde (Parallel Environments): Um schnell zu lernen, lassen wir den Schüler nicht nur einen Roboterarm bewegen, sondern 1 Million Roboterarme gleichzeitig in verschiedenen Räumen. Das ist wie ein riesiges Gymnasium voller Schüler, die alle gleichzeitig üben.

Warum bleibt der Schüler hängen?
Die Forscher haben entdeckt, dass das Problem nicht darin liegt, dass der Schüler zu dumm ist oder die Aufgaben zu schwer. Das Problem ist die Art und Weise, wie der Lehrer korrigiert.

Stellen Sie sich vor, der Lehrer gibt dem Schüler eine Anweisung basierend auf dem, was er gerade gesehen hat.

  • Wenn der Raum zu laut ist (zu wenig Daten pro Korrektur), hört der Lehrer nur Rauschen. Er reagiert übertrieben stark auf zufällige Fehler.
  • Wenn der Lehrer zu schnell und zu wild korrigiert (zu großer „Schritt"), stolpert der Schüler über seine eigenen Füße. Er springt hin und her, kommt aber nie an einem stabilen Punkt an. Er läuft im Kreis um einen kleinen Hügel herum, statt den Berg zu erklimmen.

In der Fachsprache nennen die Autoren das: Der „Schritt" ist zu groß im Verhältnis zum „Rauschen".

2. Die Lösung: Mehr Ruhe und mehr Daten

Die Forscher haben eine einfache Regel entdeckt: Je mehr Daten der Lehrer hat, desto vorsichtiger und präziser darf er korrigieren.

Stellen Sie sich vor, Sie wollen eine Entscheidung treffen:

  • Szenario A (Wenige Daten): Sie fragen nur einen Menschen: „Ist das Wetter schön?" Wenn dieser eine Mensch zufällig einen Regenschirm sieht, sagen Sie: „Es regnet!" und bleiben zu Hause. Das ist ein zu großer Schritt basierend auf zu wenig Information.
  • Szenario B (Viele Daten): Sie fragen eine Million Menschen. Wenn 900.000 sagen „Sonne" und 100.000 sagen „Regen", wissen Sie genau, was zu tun ist. Sie können eine sehr kleine, präzise Entscheidung treffen.

Die geniale Idee der Autoren:
Statt den Algorithmus kompliziert umzubauen, haben sie einfach die Anzahl der parallelen Umgebungen massiv erhöht.

  • Früher: Man trainierte mit ca. 2.000 parallelen Robotern.
  • Jetzt: Sie haben es auf 1 Million parallele Roboter hochskaliert.

Dadurch wird das „Rauschen" (die Unsicherheit) so klein, dass der Lehrer sehr feine, kleine Korrekturen machen kann. Der Schüler stolpert nicht mehr, sondern gleitet sanft zum Ziel.

3. Die wichtige Regel: Nicht alles ändern!

Hier kommt der wichtigste Teil für die Praxis. Wenn man plötzlich 1 Million Roboter hat, könnte man denken: „Okay, wir müssen jetzt auch die Lernrate (wie schnell der Lehrer korrigiert) und die Gruppengröße ändern."

Die Autoren sagen: Nein! Lassen Sie die inneren Einstellungen genau so, wie sie sind.

Die Analogie:
Stellen Sie sich vor, Sie haben ein Orchester.

  • Früher: 10 Musiker. Der Dirigent (der Algorithmus) gibt Takte vor.
  • Jetzt: 10.000 Musiker.
  • Der Fehler: Viele würden denken, der Dirigent muss jetzt viel lauter schreien oder die Noten ändern.
  • Die Lösung der Autoren: Der Dirigent macht genau dieselben Bewegungen wie bei 10 Musikern. Aber weil jetzt 10.000 Musiker da sind, ist das Ergebnis (der Klang) viel voller und präziser. Wenn man die Taktgeschwindigkeit (Lernrate) falsch anpasst, gerät das Orchester ins Chaos.

Die Regel lautet also: Mehr Roboter = Mehr Daten = Kleinere, sicherere Schritte. Aber die Art, wie wir korrigieren (die inneren Einstellungen), bleibt gleich.

4. Das Ergebnis: Ein unendlicher Lernprozess

Mit dieser Methode haben die Forscher ein System gebaut, das in einer extrem komplexen, offenen Welt (genannt „Kinetix", wo Roboter physikalische Aufgaben lösen müssen) trainiert wurde.

  • Normalerweise: Die KI lernt schnell, bleibt dann nach 10 Milliarden Schritten hängen und wird nie besser.
  • Mit der neuen Methode: Die KI lernt linear weiter. Sie wird mit jeder Sekunde besser, bis sie eine Billion Schritte trainiert hat. Es gibt kein Plateau mehr.

Zusammenfassung in einem Satz

Das Papier zeigt, dass KI-Systeme oft nicht wegen mangelnder Intelligenz, sondern wegen zu „lauter" und ungenauer Trainingsdaten stagnieren; indem man einfach viel mehr parallele Trainingsumgebungen nutzt und die inneren Einstellungen dabei unverändert lässt, kann man KI-Systeme dazu bringen, sich unbegrenzt zu verbessern.

Es ist wie der Unterschied zwischen einem Schüler, der nur mit einem Lehrer lernt und oft missversteht, und einem Schüler, der in einem riesigen, gut organisierten Seminar mit Millionen von Tutoren sitzt – dort versteht er jeden kleinen Hinweis perfekt und wird zum Meister.