Entropy-Preserving Reinforcement Learning

Die Arbeit zeigt, dass viele Policy-Gradient-Algorithmen die Entropie und damit die Vielfalt der Exploration während des Trainings ungewollt reduzieren, und schlägt daher neue Methoden wie REPO und ADAPO vor, um die Entropie aktiv zu steuern und so leistungsfähigere sowie besser anpassungsfähige Modelle zu erreichen.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Übermüdete Entdecker"

Stell dir vor, du hast einen sehr klugen Roboter (ein KI-Modell), der lernen soll, neue Dinge zu tun, wie z. B. komplexe Mathe-Aufgaben zu lösen oder Software zu programmieren. Um das zu lernen, lässt du ihn viele Male versuchen, Lösungen zu finden.

Das Problem, das die Autoren dieses Papiers entdeckt haben, ist wie folgt:
Wenn der Roboter lernt, wird er oft zu sicher. Er findet eine Lösung, die funktioniert, und denkt dann: "Aha! Das ist die beste! Ich werde ab jetzt nur noch genau das tun."

In der Welt der KI nennt man das Entropie-Kollaps.

  • Entropie ist hier ein Maß für "Vielfalt" oder "Überraschung". Hohe Entropie bedeutet: Der Roboter probiert viele verschiedene Dinge aus (wie ein neugieriges Kind).
  • Niedrige Entropie bedeutet: Der Roboter ist stur und macht immer nur das Gleiche (wie ein Roboterarm, der nur noch eine Bewegung wiederholt).

Wenn der Roboter zu früh aufhört, zu experimentieren, bleibt er in einer "kleinen Lösung" stecken. Er wird gut darin, eine bestimmte Aufgabe zu lösen, aber er verliert die Fähigkeit, kreative oder bessere Lösungen zu finden, die er vielleicht übersehen hat. Es ist, als würde ein Schachspieler, der einmal gewonnen hat, aufhören, neue Strategien zu lernen, und nur noch denselben Zug wiederholen.

Die Lösung: Den "Entdecker-Modus" aktiv halten

Die Autoren sagen: "Wir müssen dem Roboter während des ganzen Trainings aktiv helfen, neugierig zu bleiben." Sie haben zwei neue Werkzeuge entwickelt, um das zu tun:

1. REPO (Der "Korrektur-Regler")

Stell dir vor, der Roboter hat einen Kompass. Normalerweise zeigt dieser Kompass nur auf die Richtung, die gerade den meisten Punkten (Belohnungen) verspricht.
REPO ist wie ein zweiter, kleiner Magnet am Kompass.

  • Wenn der Roboter eine Lösung findet, die selten ist (also etwas, das er noch nicht oft gemacht hat), aber trotzdem funktioniert, sagt REPO: "Hey, das ist interessant! Probier das öfter aus!"
  • Wenn er eine Lösung findet, die sehr häufig ist, sagt REPO: "Okay, das kennen wir schon, lass uns nicht zu sehr darauf versteifen."
  • Das Ergebnis: Der Roboter bleibt flexibel. Er lernt nicht nur die "einfache" Lösung, sondern entdeckt auch die "kreativen" Lösungen, die am Anfang unwahrscheinlich schienen.

2. ADAPO (Der "Dynamische Dämpfer")

Bei vielen Lernmethoden gibt es eine Regel: "Ändere dein Verhalten nicht zu stark auf einmal." Das ist wie ein Sicherheitsgurt.
ADAPO macht diesen Sicherheitsgurt schlauer.

  • Wenn der Roboter anfängt, zu starr zu werden (zu wenig Vielfalt), lockert ADAPO den Gurt etwas, damit er wieder mehr experimentieren darf.
  • Wenn er zu wild wird, zieht er ihn wieder etwas an.
  • Das Ergebnis: Der Roboter findet automatisch das perfekte Gleichgewicht zwischen "Vorsichtig sein" und "Neues ausprobieren".

Ein wichtiger technischer Trick: Die "Brille"

Die Autoren haben auch etwas sehr Wichtiges entdeckt, das nichts mit der Intelligenz des Roboters zu tun hat, sondern mit der Art, wie wir ihm die Daten geben.
Stell dir vor, du gibst dem Roboter eine Brille.

  • Früher trug er eine Brille, die die Zahlen etwas verzerrte (wegen einer bestimmten Rechenmethode namens BF16). Durch diese Verzerrung dachte der Roboter fälschlicherweise, er müsse sich noch mehr auf die "sichere" Lösung versteifen.
  • Die Autoren haben ihm eine klare Brille (FP16) aufgesetzt. Plötzlich sah er die Welt genauer, und das "Starrwerden" hörte fast von allein auf.
  • Die Moral: Manchmal liegt das Problem nicht am Gehirn des Roboters, sondern daran, wie wir ihm die Informationen präsentieren.

Warum ist das so wichtig?

  1. Bessere Ergebnisse: Die KIs, die mit diesen neuen Methoden trainiert wurden, waren nicht nur besser in Mathe oder Programmieren, sondern sie konnten auch bessere Lösungen finden als die alten Methoden.
  2. Lernen für die Zukunft: Das Wichtigste ist: Diese KIs haben ihre "Lernfähigkeit" behalten. Wenn man sie später eine neue, ganz andere Aufgabe lernen lässt (z. B. von Mathe zu Programmieren wechseln), waren sie viel schneller und besser als KIs, die zu starr trainiert wurden. Sie waren wie ein Sportler, der seine Beweglichkeit behält, statt ein Muskelkater zu haben, der ihn starr macht.

Zusammenfassung in einem Satz

Die Autoren haben herausgefunden, dass KI-Modelle beim Lernen oft zu starr werden und ihre Kreativität verlieren; sie haben aber neue Methoden entwickelt, die den Robotern helfen, neugierig zu bleiben, was zu besseren Ergebnissen führt und ihnen erlaubt, auch in Zukunft noch Neues zu lernen.

Kurz gesagt: Sie haben dem KI-Training beigebracht, nicht nur "richtig" zu sein, sondern auch "neugierig" zu bleiben.