LLMs Can Learn to Reason Via Off-Policy RL

Die Arbeit stellt OAPL vor, einen neuen off-policy RL-Algorithmus für LLMs, der Verzögerungen zwischen Trainings- und Inferenzrichtlinien effektiv nutzt und dabei eine überlegene Leistung auf mathematischen und Codierungs-Benchmarks bei deutlich geringerem Rechenaufwand erzielt.

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

Veröffentlicht 2026-03-03
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: Der Lehrer und der Schüler

Stell dir vor, du unterrichtest einen sehr klugen Schüler (das KI-Modell), der Mathematik und Programmieren lernen soll.

In der bisherigen Welt des KI-Trainings gab es ein großes Problem:
Der Lehrer (der Computer, der die Lektionen berechnet) und der Schüler (der Computer, der die Antworten generiert) waren nicht immer synchron.

  • Der Lehrer hatte gerade eine neue, verbesserte Version des Lehrplans.
  • Der Schüler arbeitete aber noch mit einer alten Version, die vielleicht 400 Schritte hinterherhinkte.

Früher dachte man: „Oh nein! Wenn der Schüler alte Antworten liefert, basierend auf einer alten Version, können wir ihn nicht richtig bestrafen oder belohnen. Das ist wie wenn ein Trainer einem Marathonläufer sagt: ‚Lauf schneller!', aber der Läufer läuft immer noch auf dem alten Trainingsplan. Das funktioniert nicht!"

Um dieses Problem zu lösen, versuchten andere Forscher, den Schüler zu zwingen, genau so zu laufen wie der Lehrer (durch komplexe Korrekturformeln oder indem sie den Schüler langsamer machten, damit er auf den Lehrer warten musste). Das war wie ein strenger Trainer, der den Schüler ständig aufhält, um die Schuhe zu wechseln, damit sie perfekt passen. Das kostet viel Zeit und Energie.

Die neue Idee: OAPL – „Lass den Schüler einfach laufen!"

Die Autoren dieses Papers sagen: „Warum warten? Wir können den Schüler auch mit alten Daten trainieren!"

Sie haben eine neue Methode namens OAPL entwickelt. Hier ist die Analogie dazu:

Stell dir vor, der Lehrer (das KI-Modell) und der Schüler (die KI, die Antworten generiert) sind zwei Freunde, die ein Puzzle lösen.

  • Der Schüler wirft ständig neue Puzzle-Teile auf den Tisch (generiert Antworten).
  • Der Lehrer schaut sich diese Teile an und sagt: „Das hier ist gut, das hier ist schlecht."

Das Problem: Der Schüler hat vielleicht schon 400 neue Puzzle-Teile gesammelt, während der Lehrer noch bei Teil 1 ist.
Die alte Lösung: Der Lehrer wartet, bis der Schüler alle Teile zurückgibt und neu sortiert. (Langsam und ineffizient).
Die OAPL-Lösung: Der Lehrer nimmt die Teile, die der Schüler jetzt gerade auf den Tisch wirft (auch wenn sie von einer alten Version stammen), und sagt: „Okay, ich weiß, dass du diese Teile mit deiner alten Version geworfen hast. Aber ich kann trotzdem lernen, wie ich das Puzzle besser löse, indem ich deine alten Versuche analysiere und meine Strategie daran anpasse."

Wie funktioniert das Magische? (Die „Klebeband"-Analogie)

Normalerweise würde ein KI-Modell, das mit alten Daten trainiert, verrückt werden. Es würde anfangen, immer seltsamere Antworten zu geben, weil es den Bezug zur Realität verliert.

OAPL nutzt einen cleveren Trick, den sie KL-Regularisierung nennen. Stell dir das wie ein unsichtbares Seil oder Klebeband vor:

  • Es verbindet die neue Strategie des Lehrers fest mit der alten Strategie des Schülers.
  • Der Lehrer darf sich verbessern und neue Wege gehen (um die Belohnung zu maximieren), aber das Seil zieht ihn sanft zurück, damit er nicht zu weit von der Basis abweicht.
  • Dadurch muss der Lehrer nicht ständig warten, bis der Schüler aufholt. Er kann einfach weitermachen, auch wenn der Schüler weit zurück ist.

Die Ergebnisse: Warum ist das so toll?

Die Forscher haben OAPL an harten Mathe-Wettbewerben (wie AIME, HMMT) und beim Programmieren getestet. Hier sind die Ergebnisse in einfachen Worten:

  1. Schneller und effizienter: OAPL brauchte 3-mal weniger Versuche (Generierungen), um das gleiche Ergebnis zu erzielen wie die bisherigen Methoden (wie GRPO). Das ist, als würde ein Schüler lernen, ein Auto zu fahren, indem er nur ein Drittel der Fahrstunden braucht, die andere brauchen.
  2. Robuster: OAPL funktionierte auch dann super, wenn der Schüler 400 Schritte hinter dem Lehrer lag. Andere Methoden wären bei so großer Lücke zusammengebrochen.
  3. Besseres „Testen": Wenn man dem KI-Modell erlaubt, mehrere Versuche zu machen (z. B. 10 oder 100 Mal raten), wird OAPL immer besser. Es verliert nicht den Mut oder die Kreativität (die „Entropie" kollabiert nicht), sondern wird mit der Zeit immer zuverlässiger.

Zusammenfassung für den Alltag

Stell dir vor, du lernst eine neue Sprache.

  • Die alte Methode (On-Policy): Du darfst nur üben, wenn dein Lehrer direkt neben dir steht und sofort korrigiert. Wenn der Lehrer ins Büro geht, darfst du nicht üben. Das ist sehr langsam.
  • Die neue Methode (OAPL): Du darfst allein üben, auch wenn dein Lehrer gerade im Urlaub ist. Du machst Fehler, aber du hast einen inneren Kompass (das „Seil"), der dich daran erinnert, nicht ins Chaos zu verfallen. Wenn der Lehrer zurückkommt, ist er überrascht, wie viel du schon gelernt hast, obwohl er nicht da war.

Das Fazit: Man muss nicht perfekt synchron sein, um zu lernen. Man kann auch mit „veralteten" Daten lernen, solange man die richtigen Werkzeuge (wie OAPL) benutzt. Das macht das Training von KI viel schneller, billiger und stabiler.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →