LLMs Can Learn to Reason Via Off-Policy RL

Each language version is independently generated for its own context, not a direct translation.

Das große Missverständnis: Der Lehrer und der Schüler

Stell dir vor, du unterrichtest einen sehr klugen Schüler (das KI-Modell), der Mathematik und Programmieren lernen soll.

In der bisherigen Welt des KI-Trainings gab es ein großes Problem:
Der Lehrer (der Computer, der die Lektionen berechnet) und der Schüler (der Computer, der die Antworten generiert) waren nicht immer synchron.

Der Lehrer hatte gerade eine neue, verbesserte Version des Lehrplans.
Der Schüler arbeitete aber noch mit einer alten Version, die vielleicht 400 Schritte hinterherhinkte.

Früher dachte man: „Oh nein! Wenn der Schüler alte Antworten liefert, basierend auf einer alten Version, können wir ihn nicht richtig bestrafen oder belohnen. Das ist wie wenn ein Trainer einem Marathonläufer sagt: ‚Lauf schneller!', aber der Läufer läuft immer noch auf dem alten Trainingsplan. Das funktioniert nicht!"

Um dieses Problem zu lösen, versuchten andere Forscher, den Schüler zu zwingen, genau so zu laufen wie der Lehrer (durch komplexe Korrekturformeln oder indem sie den Schüler langsamer machten, damit er auf den Lehrer warten musste). Das war wie ein strenger Trainer, der den Schüler ständig aufhält, um die Schuhe zu wechseln, damit sie perfekt passen. Das kostet viel Zeit und Energie.

Die neue Idee: OAPL – „Lass den Schüler einfach laufen!"

Die Autoren dieses Papers sagen: „Warum warten? Wir können den Schüler auch mit alten Daten trainieren!"

Sie haben eine neue Methode namens OAPL entwickelt. Hier ist die Analogie dazu:

Stell dir vor, der Lehrer (das KI-Modell) und der Schüler (die KI, die Antworten generiert) sind zwei Freunde, die ein Puzzle lösen.

Der Schüler wirft ständig neue Puzzle-Teile auf den Tisch (generiert Antworten).
Der Lehrer schaut sich diese Teile an und sagt: „Das hier ist gut, das hier ist schlecht."

Das Problem: Der Schüler hat vielleicht schon 400 neue Puzzle-Teile gesammelt, während der Lehrer noch bei Teil 1 ist.
Die alte Lösung: Der Lehrer wartet, bis der Schüler alle Teile zurückgibt und neu sortiert. (Langsam und ineffizient).
Die OAPL-Lösung: Der Lehrer nimmt die Teile, die der Schüler jetzt gerade auf den Tisch wirft (auch wenn sie von einer alten Version stammen), und sagt: „Okay, ich weiß, dass du diese Teile mit deiner alten Version geworfen hast. Aber ich kann trotzdem lernen, wie ich das Puzzle besser löse, indem ich deine alten Versuche analysiere und meine Strategie daran anpasse."

Wie funktioniert das Magische? (Die „Klebeband"-Analogie)

Normalerweise würde ein KI-Modell, das mit alten Daten trainiert, verrückt werden. Es würde anfangen, immer seltsamere Antworten zu geben, weil es den Bezug zur Realität verliert.

OAPL nutzt einen cleveren Trick, den sie KL-Regularisierung nennen. Stell dir das wie ein unsichtbares Seil oder Klebeband vor:

Es verbindet die neue Strategie des Lehrers fest mit der alten Strategie des Schülers.
Der Lehrer darf sich verbessern und neue Wege gehen (um die Belohnung zu maximieren), aber das Seil zieht ihn sanft zurück, damit er nicht zu weit von der Basis abweicht.
Dadurch muss der Lehrer nicht ständig warten, bis der Schüler aufholt. Er kann einfach weitermachen, auch wenn der Schüler weit zurück ist.

Die Ergebnisse: Warum ist das so toll?

Die Forscher haben OAPL an harten Mathe-Wettbewerben (wie AIME, HMMT) und beim Programmieren getestet. Hier sind die Ergebnisse in einfachen Worten:

Schneller und effizienter: OAPL brauchte 3-mal weniger Versuche (Generierungen), um das gleiche Ergebnis zu erzielen wie die bisherigen Methoden (wie GRPO). Das ist, als würde ein Schüler lernen, ein Auto zu fahren, indem er nur ein Drittel der Fahrstunden braucht, die andere brauchen.
Robuster: OAPL funktionierte auch dann super, wenn der Schüler 400 Schritte hinter dem Lehrer lag. Andere Methoden wären bei so großer Lücke zusammengebrochen.
Besseres „Testen": Wenn man dem KI-Modell erlaubt, mehrere Versuche zu machen (z. B. 10 oder 100 Mal raten), wird OAPL immer besser. Es verliert nicht den Mut oder die Kreativität (die „Entropie" kollabiert nicht), sondern wird mit der Zeit immer zuverlässiger.

Zusammenfassung für den Alltag

Stell dir vor, du lernst eine neue Sprache.

Die alte Methode (On-Policy): Du darfst nur üben, wenn dein Lehrer direkt neben dir steht und sofort korrigiert. Wenn der Lehrer ins Büro geht, darfst du nicht üben. Das ist sehr langsam.
Die neue Methode (OAPL): Du darfst allein üben, auch wenn dein Lehrer gerade im Urlaub ist. Du machst Fehler, aber du hast einen inneren Kompass (das „Seil"), der dich daran erinnert, nicht ins Chaos zu verfallen. Wenn der Lehrer zurückkommt, ist er überrascht, wie viel du schon gelernt hast, obwohl er nicht da war.

Das Fazit: Man muss nicht perfekt synchron sein, um zu lernen. Man kann auch mit „veralteten" Daten lernen, solange man die richtigen Werkzeuge (wie OAPL) benutzt. Das macht das Training von KI viel schneller, billiger und stabiler.

Each language version is independently generated for its own context, not a direct translation.

Titel: LLMs können durch Off-Policy-RL zum Reasoning lernen

Autoren: Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan D. Chang, Kianté Brantley, Wen Sun (Cornell University, Databricks, Harvard University)
Datum: März 2026

1. Problemstellung

Die Optimierung von Large Language Models (LLMs) mittels Reinforcement Learning (RL) hat sich als Schlüssel zur Entfaltung von Reasoning-Fähigkeiten erwiesen (z. B. DeepSeek-R1). Der aktuelle Standard für das Post-Training ist Group Relative Policy Optimization (GRPO), ein on-Policy-Algorithmus.

Das zentrale Problem in der Praxis ist jedoch, dass moderne RL-Infrastrukturen oft nicht wirklich on-Policy arbeiten. Dies liegt an zwei Hauptfaktoren:

Implementierungsunterschiede: Der Trainer (z. B. HuggingFace) und der Inferenz-Engine (z. B. vLLM) können selbst bei gleichen Gewichten unterschiedliche Log-Probabilities für dieselbe Token-Sequenz berechnen (aufgrund unterschiedlicher Kernel-Implementierungen).
Asynchrone Pipelines: In verteilten Systemen kann die Inferenz-Engine veraltete Gewichte haben und somit hinter dem aktuellen Trainer zurückliegen (Policy Lag).

Diese Diskrepanz macht die Daten per Design off-Policy. Bisherige Ansätze versuchen, dieses Problem zu umgehen, indem sie:

Importance Sampling (IS) hinzufügen, um die Daten künstlich on-Policy zu machen (führt zu hoher Varianz).
Die Inferenz-Engine modifizieren, um sie dem Trainer anzupassen (verlangsamt die Inferenz und schließt die Lücke nicht vollständig).

Diese Heuristiken sind instabil, erhöhen die Varianz der Loss-Funktion und weichen von der klassischen Policy-Gradient-Theorie ab.

2. Methodik: OAPL

Die Autoren schlagen OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy) vor. OAPL akzeptiert die Off-Policy-Natur des Trainings nicht als Fehler, sondern als gegeben und entwickelt einen Algorithmus, der diese effizient nutzt.

Kernkonzept:
OAPL behandelt die Diskrepanz zwischen Trainer ( $\pi$ ) und Inferenz-Policy ( $\pi_{vllm}$ ) als ein KL-reguliertes RL-Problem. Das Ziel ist es, die Belohnung $r$ zu maximieren, während die KL-Divergenz zur Inferenz-Policy minimiert wird:
$\max_{\pi} \mathbb{E}_{x,y \sim \pi} [r(x, y)] - \beta \cdot \text{KL}(\pi || \pi_{vllm})$

Ableitung des Loss-Funktion:
Aus der geschlossenen Form der optimalen Policy $\pi^*$ und des optimalen Wertes $V^*$ in KL-reguliertem RL leiten die Autoren eine quadratische Regressions-Loss-Funktion ab:
$\min_{\pi} \sum_{x} \sum_{i=1}^{G} \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)) \right)^2$
Dabei ist $\hat{V}^*(x)$ ein Schätzer für den optimalen Wert, berechnet aus einer Gruppe von Rollouts ( $G$ ) der Inferenz-Policy $\pi_{vllm}$ .

Algorithmus (OAPL):

Synchronisation: Trainer und Inferenz-Engine werden initial synchronisiert.
Asynchrone Datengenerierung: Die Inferenz-Engine generiert Daten (Rollouts) und speichert sie in einem Buffer, während der Trainer asynchron aktualisiert wird.
Off-Policy Update: Der Trainer minimiert den oben genannten quadratischen Loss unter Verwendung der Daten aus dem Buffer und der Log-Probabilities von $\pi_{vllm}$ . Es werden keine Importance-Weighting-Ratios verwendet.
Seltene Synchronisation: Alle $L$ Iterationen (z. B. $L=50$ oder sogar $L=400$ Gradienten-Schritte) werden die Gewichte synchronisiert und der Buffer geleert.

Dieser Ansatz eliminiert die Notwendigkeit von Importance Sampling, Clipping oder dem Löschen von „veralteten" Tokens.

3. Wichtige Beiträge

Paradigmenwechsel: Die Arbeit widerlegt die Annahme, dass On-Policy-Algorithmen für das RL-Post-Training von LLMs notwendig sind. Sie zeigt, dass Off-Policy-Lernen stabiler und effizienter sein kann.
OAPL-Algorithmus: Einführung eines einfachen, vollständig off-Policy-Algorithmus, der auf einer geschlossenen Lösung für KL-reguliertes RL basiert und keine Importance Sampling-Ratios benötigt.
Robustheit gegenüber Policy Lag: OAPL funktioniert stabil auch bei extremen Verzögerungen zwischen Trainer und Inferenz-Engine (bis zu 400 Gradienten-Schritte, was 100-mal mehr Off-Policy-Charakter ist als bei vorherigen Ansätzen).
Vermeidung von Entropie-Kollaps: Im Gegensatz zu GRPO, das oft zu einem Zusammenbruch der Entropie führt, behält OAPL durch die seltene Synchronisation und die explizite KL-Regularisierung eine gesunde Policy-Diversität bei.

4. Ergebnisse

Die Autoren evaluieren OAPL in zwei Domänen: Mathematik-Wettbewerbe und Code-Generierung.

A. Mathematik (AIME 25, HMMT 25, BRUMO 25):

Performance: OAPL übertrifft GRPO (mit Importance Sampling) in allen Pass@k-Metriken (Pass@1 bis Pass@10).
Stabilität: Die Trainingskurven von OAPL sind stabiler und konvergieren zu einer höheren Genauigkeit.
Entropie: OAPL verhindert den Entropie-Kollaps, der bei GRPO beobachtet wird. Dies führt zu einer besseren Skalierung bei Pass@k für größere $k$ .
Test-Time Scaling: Modelle, die mit OAPL trainiert wurden, zeigen eine signifikant bessere Skalierung unter dem Pass@k-Metrik (bis $k=256$ ) im Vergleich zum Basis-Modell und GRPO.

B. Code-Generierung (LiveCodeBench):

Vergleich mit DeepCoder: OAPL erreicht eine Leistung, die mit dem öffentlichen Modell DeepCoder (trainiert mit GRPO und vielen Heuristiken) mithalten kann oder diese sogar übertrifft.
Sample Efficiency: OAPL benötigt 3-mal weniger Generierungen (ca. 200k vs. 650k Samples) für das Training, um die gleiche oder bessere Leistung zu erzielen.
Extreme Off-Policy: Im Code-Experiment wurde ein Lag von ca. 400 Gradienten-Schritten ohne Importance Sampling bewältigt.

5. Bedeutung und Fazit

Die Arbeit ist von großer Bedeutung für die Skalierung von RL-Training für LLMs:

Effizienz: Durch die Akzeptanz von Off-Policy-Daten und den Verzicht auf Importance Sampling wird die Rechenzeit und die benötigte Anzahl an Generierungen drastisch reduziert.
Infrastruktur-Flexibilität: OAPL ermöglicht vollständig asynchrone Trainingspipelines, was die Nutzung von heterogenen oder verzögerten Inferenz-Engines (wie vLLM) ohne Stabilitätsverlust erlaubt.
Theoretische Fundierung: Die Methode zeigt, dass klassische RL-Erkenntnisse (dass Off-Policy-Algorithmen wie DDPG/SAC oft effizienter sind als On-Policy-Methoden wie PPO) auch auf LLMs übertragbar sind, wenn die Loss-Funktion entsprechend angepasst wird.

Zusammenfassend demonstriert OAPL, dass ein einfaches, off-Policy-Verfahren nicht nur stabil ist, sondern auch überlegene Reasoning-Fähigkeiten und Skalierbarkeit im Vergleich zum aktuellen State-of-the-Art (GRPO) bietet.

LLMs Can Learn to Reason Via Off-Policy RL

Das große Missverständnis: Der Lehrer und der Schüler

Die neue Idee: OAPL – „Lass den Schüler einfach laufen!"

Wie funktioniert das Magische? (Die „Klebeband"-Analogie)

Die Ergebnisse: Warum ist das so toll?

Zusammenfassung für den Alltag

Titel: LLMs können durch Off-Policy-RL zum Reasoning lernen

1. Problemstellung

2. Methodik: OAPL

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer