Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

Die Arbeit stellt GoRL vor, ein algorithmusagnostisches Framework, das durch die Entkopplung von Optimierung in einem handhabbaren latenten Raum und der Generierung von Aktionen mittels eines bedingten Decoders stabile und ausdrucksstarke Richtlinien für das Online-Reinforcement-Learning ermöglicht und dabei bestehende Baseline-Methoden in kontinuierlichen Steuerungsaufgaben deutlich übertrifft.

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man auf einem Einbein steht (wie der "Hopper" in den Tests). Das ist eine schwierige Aufgabe, bei der es viele verschiedene Wege geben kann, das Gleichgewicht zu halten.

Das Problem bei herkömmlichen KI-Methoden ist, dass sie oft nur einen einzigen Weg lernen – wie ein Schüler, der nur eine einzige Formel auswendig gelernt hat. Wenn die Situation sich ändert, ist dieser Schüler ratlos.

Andere, modernere Methoden versuchen, dem Roboter viele verschiedene Wege beizubringen (wie ein erfahrener Trainer, der sagt: "Du kannst links wackeln, rechts wackeln oder den Arm heben"). Das ist viel besser, aber diese Methoden sind oft extrem instabil. Es ist, als würde man versuchen, einem Schüler beizubringen, gleichzeitig zu tanzen, zu rechnen und zu klettern, während man ihm ständig neue Aufgaben gibt. Der Schüler wird verwirrt und gibt auf.

Hier kommt GORL ins Spiel. Die Forscher haben eine clevere Lösung gefunden, die diese beiden Welten vereint.

Die große Idee: Trenne den Planer vom Ausführenden

Stell dir GORL wie ein Bauunternehmen vor, das ein Haus baut:

  1. Der Architekt (Der "Encoder"):
    Dieser Teil ist sehr einfach und stabil. Er zeichnet nur grobe Skizzen auf ein Blatt Papier. Er sagt nicht genau, wie die Wände aussehen sollen, sondern nur: "Hier ist ein Raum, und hier ist ein Fenster."

    • In der KI: Das ist der "latente Planer". Er arbeitet mit einfachen, gut verstandenen Mathematik-Formeln (wie eine normale Glockenkurve). Er ist stabil und macht keine Fehler beim Lernen.
  2. Der Baumeister (Der "Decoder"):
    Dieser Teil ist ein Genie. Er nimmt die grobe Skizze des Architekten und baut daraus ein komplexes, wunderschönes Haus mit vielen Details. Er kann entscheiden, ob das Haus modern oder klassisch sein soll, je nachdem, was gerade nötig ist.

    • In der KI: Das ist der "generative Decoder" (oft ein Diffusionsmodell). Er kann sehr komplexe Bewegungen erzeugen, die der einfache Planer allein nicht verstehen könnte.

Wie funktioniert das Training? (Der Tanz zwischen zwei Taktarten)

Das Besondere an GORL ist, wie diese beiden zusammenarbeiten. Sie tanzen nicht im gleichen Takt, sondern in einem Wechselspiel:

  • Schritt 1: Der Architekt lernt.
    Der Baumeister steht still und wartet. Der Architekt (der Planer) übt seine Skizzen. Er probiert verschiedene grobe Ideen aus, um zu sehen, welche zu mehr Punkten führt. Da er nur einfache Skizzen macht, ist er sehr stabil und lernt schnell.
  • Schritt 2: Der Baumeister verbessert sich.
    Jetzt steht der Architekt still. Der Baumeister schaut sich an, was der Architekt gerade gelernt hat. Aber hier ist der Trick: Der Baumeister lernt nicht, was der Architekt gerade gemacht hat, sondern er lernt, wie man aus einer standardisierten, leeren Skizze (einem "Null-Punkt") die besten Gebäude baut, die der Architekt gerade entdeckt hat.
    • Warum ist das wichtig? Wenn der Baumeister nur das lernt, was der Architekt gerade gemacht hat, würde er nur das nachbauen, was er schon kann (wie ein Spiegel, der nur sein eigenes Bild zeigt). Indem er von einer leeren Basis aus lernt, wird er wirklich besser und kann immer komplexere Dinge bauen.

Dann wiederholt sich das Spiel. Der Architekt wird besser, weil der Baumeister jetzt mehr kann. Der Baumeister wird besser, weil der Architekt bessere Ideen liefert.

Das Ergebnis: Stabilität trifft auf Kreativität

Früher musste man sich entscheiden: Entweder ein stabiler, aber dummer Roboter (nur eine Bewegung) oder ein kreativer, aber verrückter Roboter (der oft zusammenbricht).

Mit GORL bekommt man das Beste aus beiden Welten:

  • Der Roboter bleibt stabil im Lernen (weil der Planer einfach bleibt).
  • Der Roboter wird kreativ und vielseitig (weil der Baumeister immer komplexere Bewegungen lernt).

In den Tests hat dieser Ansatz den Hopper-Roboter so gut trainiert, dass er dreimal so gut performte wie die besten vorherigen Methoden. Er konnte nicht nur stehen, sondern verschiedene, stabile Strategien finden, um nicht umzufallen.

Zusammengefasst: GORL ist wie ein Team aus einem ruhigen Planer und einem genialen Handwerker, die sich gegenseitig verbessern, ohne sich gegenseitig zu verwirren. So lernen Roboter, schwierige Aufgaben nicht nur zu lösen, sondern sie auf viele verschiedene, clevere Arten zu meistern.