ExGRPO: Learning to Reason from Experience

Each language version is independently generated for its own context, not a direct translation.

🧠 ExGRPO: Wie KI aus ihren eigenen Erfahrungen lernt (statt sie zu vergessen)

Stell dir vor, du möchtest ein Genie in Mathe werden. Du hast einen sehr klugen Lehrer (die KI), aber er hat ein seltsames Problem: Er vergisst alles, was er gerade gelernt hat, sobald er eine neue Aufgabe bekommt.

Das ist genau das Problem, das die Forscher mit ExGRPO lösen wollen. Hier ist die Geschichte, wie sie es geschafft haben:

1. Das Problem: Der vergessliche Schüler 📚

Bisher haben KI-Modelle beim Lernen nach dem Prinzip „Einmal machen, einmal korrigieren, dann wegwerfen" gearbeitet.

Die alte Methode: Der Schüler löst 10 Matheaufgaben. Er bekommt Feedback, ob er richtig oder falsch lag. Dann wird das Gehirn des Schülers für einen Moment aktualisiert, und alle 10 Aufgaben werden in den Müll geworfen.
Das Ergebnis: Der Schüler muss ständig neue Aufgaben lösen, um überhaupt voranzukommen. Das ist extrem ineffizient, teuer und führt oft dazu, dass er bei schwierigen Aufgaben verzweifelt und aufgibt (die KI „kollabiert").

2. Die Lösung: Ein cleveres Tagebuch 📓

Die Forscher haben sich gedacht: „Warum nicht eine Erinnerungsmappe erstellen?"
Das ist ExGRPO (Experiential Group Relative Policy Optimization). Es ist wie ein super organisierter Tutor, der nicht nur neue Aufgaben stellt, sondern auch die besten alten Lösungen aus der Vergangenheit hervorholt.

Aber hier ist der Clou: Nicht jede alte Lösung ist gut.
Manchmal hat der Schüler eine Aufgabe gelöst, aber nur durch Glück oder mit einem seltsamen, verworrenen Gedankengang. Wenn wir das immer wieder wiederholen, lernt er nur Unsinn.

3. Der Trick: Wie man „gute" von „schlechten" Erinnerungen unterscheidet 🕵️‍♂️

Die Forscher haben zwei einfache Regeln entdeckt, um zu erkennen, welche Erinnerungen wertvoll sind:

Regel 1: Die Schwierigkeit (Der „Goldene Mittelweg")
- Zu leicht: Wenn der Schüler die Aufgabe schon perfekt kann, bringt das Üben nichts mehr. (Wie wenn du versuchst, das Alphabet zu lernen, obwohl du schon Bücher lesen kannst).
- Zu schwer: Wenn die Aufgabe unmöglich ist, wird der Schüler frustriert und lernt nichts.
- Die Lösung: Man konzentriert sich auf Aufgaben, bei denen der Schüler zu etwa 50 % Erfolg hatte. Das ist die „Sweet Spot"-Zone, wo das Lernen am meisten passiert.
- Analogie: Stell dir vor, du lernst Tennis. Du willst nicht gegen einen 5-Jährigen spielen (zu leicht) und nicht gegen den Weltmeister (zu schwer). Du willst gegen jemanden spielen, der dich gerade herausfordert, aber bei dem du auch Punkte holen kannst.
Regel 2: Die Klarheit (Der „Lärm-Messwert")
- Manchmal findet der Schüler die richtige Antwort, aber sein Gedankengang ist chaotisch, voller Sprünge und verwirrend (hohe „Entropie"). Das ist wie ein Schüler, der die richtige Antwort schreit, aber nicht weiß, warum.
- Die Forscher bevorzugen Lösungen, bei denen der Gedankengang klar, ruhig und logisch ist (niedrige „Entropie").
- Analogie: Es ist besser, einen ruhigen, gut strukturierten Vortrag zu hören, als jemanden, der wild gestikulierend und verwirrt die richtige Antwort ruft.

4. Wie ExGRPO funktioniert: Der Mix aus Neuem und Altem 🥗

Statt nur neue Aufgaben zu stellen, mischt ExGRPO das Training wie ein Gourmet-Koch:

Der Topf: Er nimmt frische, neue Aufgaben (damit die KI nicht starr wird).
Die Zutat: Er fügt die besten alten Lösungen hinzu – aber nur die, die in der „mittleren Schwierigkeitszone" lagen und einen klaren Gedankengang hatten.
Das Ergebnis: Die KI lernt doppelt so schnell, weil sie aus ihren eigenen Erfolgen (und den weniger chaotischen Fehlern) lernt, anstatt immer wieder bei Null anzufangen.

5. Warum ist das so wichtig? 🚀

Stabilität: Bei schwächeren KI-Modellen (die wie Anfänger sind) funktioniert die alte Methode gar nicht mehr – sie geben auf. ExGRPO hält sie am Laufen, indem es ihnen Erfolgserlebnisse aus der Vergangenheit zeigt.
Effizienz: Man braucht weniger Rechenleistung, weil man nicht alles neu berechnen muss.
Bessere Ergebnisse: Die KI wird nicht nur besser in Mathe, sondern auch in allgemeinen Logikrätseln, weil sie gelernt hat, wie man richtig denkt, nicht nur was die Antwort ist.

Zusammenfassung in einem Satz 🌟

ExGRPO ist wie ein kluger Lehrer, der einem Schüler nicht nur neue Aufgaben gibt, sondern ihm auch seine eigenen besten, klarsten und am meisten herausfordernden alten Lösungen zeigt, damit er schneller zum Meister wird, ohne dabei den Kopf zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Titel: ExGRPO: Lernen durch Erfahrung (Learning to Reason from Experience)

Veröffentlicht bei: ICLR 2026

1. Problemstellung

Das Paper adressiert eine zentrale Ineffizienz im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für Large Reasoning Models (LRMs).

Verschwendung von Daten: Herkömmliche on-policy RLVR-Algorithmen (wie GRPO) generieren während des Rollout-Prozesses wertvolle Erfahrungen (Trajektorien von Fragen und Antworten), verwerfen diese jedoch nach einem einzigen Gradienten-Update. Dies führt zu einer hohen Rechenineffizienz und Instabilität, da das Modell nicht aus früheren erfolgreichen Erkundungen lernen kann.
Qualitätsmangel bei Wiederverwendung: Zwar gibt es in der RL-Forschung bereits Konzepte wie Experience Replay, doch deren Anwendung auf LRMs ist unteruntersucht. Ein Hauptproblem ist, dass nicht alle gespeicherten Erfahrungen gleichwertig sind. Das zufällige Wiederverwenden von Trajektorien, insbesondere solchen mit hoher Unsicherheit (hohe Entropie) oder falschem Schlussfolgern, kann zu einem „Snowball-Effekt" führen, bei dem sich systematische Fehler im Modell verfestigen.
Instabilität: On-Policy-Methoden scheitern oft bei schwächeren Modellen oder führen zu einem Zusammenbruch des Trainings (Training Collapse), da die Explorationssignale zu schwach werden.

2. Methodik: ExGRPO (Experiential Group Relative Policy Optimization)

Die Autoren schlagen ExGRPO vor, ein Framework, das strukturiertes Experience Replay mit einer intelligenten Auswahlmechanik kombiniert, um die Sample-Effizienz zu steigern und das Training zu stabilisieren.

Kernkomponenten:

Identifikation wertvoller Erfahrungen:
- Das Paper identifiziert zwei Metriken als Indikatoren für den Wert einer Erfahrung:
  - Rollout-Korrektheit (Question Difficulty): Fragen mittlerer Schwierigkeit (wo das Modell teilweise erfolgreich ist, aber nicht perfekt) liefern die besten Lernsignale. Zu einfache oder zu schwierige Fragen sind weniger effektiv.
  - Trajektorien-Entropie: Niedrige Entropie in korrekten Schlussfolgerungspfaden (Chain-of-Thought, CoT) korreliert mit höherer Qualität. Hohe Entropie deutet oft auf raten oder falsche logische Pfade hin.
Experience Management (Verwaltung des Replay-Buffers):
- Partitionierung: Der Replay-Buffer wird in „Eimer" (Buckets) basierend auf der aktuellen Korrektheitsrate der Fragen unterteilt.
- Retired Set: Fragen, die in allen Rollouts perfekt gelöst wurden, werden aus dem Buffer entfernt, um Overfitting auf einfache Fälle zu vermeiden und den Fokus auf schwierige Aufgaben zu lenken.
- Selektion:
  - Fragen-Auswahl: Es wird eine Wahrscheinlichkeitsverteilung (Gauß-Verteilung um 0,5 Korrektheit) verwendet, um Fragen mittlerer Schwierigkeit bevorzugt zu sampeln.
  - Trajektorien-Auswahl: Für jede ausgewählte Frage wird die Trajektorie mit der niedrigsten Entropie unter der aktuellen Policy ausgewählt, um die höchste logische Qualität zu gewährleisten.
Gemischte Policy-Optimierung (Mixed-Policy Objective):
- ExGRPO kombiniert On-Policy-Samples (neue Erkundungen) und Off-Policy-Samples (ausgewählte Erfahrungen aus dem Buffer) in einem Mini-Batch.
- Importance Weighting: Um die Verteilungsverschiebung (Distribution Shift) zwischen der alten Policy (die die Erfahrung generierte) und der aktuellen Policy zu korrigieren, werden die replayten Trajektorien mit Importance-Weights gewichtet.
- Policy Shaping: Um die Exploration nicht zu stark zu unterdrücken, wird ein nicht-linearer Transformationsterm ( $f(w) = \frac{w}{w+\beta}$ ) eingeführt, der extrem hohe Importance-Weights dämpft, aber niedrige Signale verstärkt.
- Verzögerter Start: Das Replay wird erst aktiviert, wenn das Modell eine bestimmte Mindestleistung (Pass@1) erreicht hat, um sicherzustellen, dass der Buffer qualitativ hochwertige Daten enthält.

3. Schlüsselbeiträge

Erste systematische Analyse: Das Paper ist das erste, das untersucht, was eine „wertvolle" Reasoning-Erfahrung ausmacht, und zeigt, dass mittlere Schwierigkeit und niedrige Entropie entscheidende Indikatoren sind.
ExGRPO-Framework: Entwicklung eines neuen Algorithmus, der Experience Replay nicht nur als Speicher, sondern als intelligentes Curriculum-Management nutzt.
Stabilisierung des Trainings: Die Methode verhindert das Training-Collapse bei schwächeren Modellen (z. B. Llama-3.1 8B Base), wo reine On-Policy-Methoden versagen.
Theoretische Fundierung: Es wird gezeigt, dass die Importance-Weighting-Korrektur zu einem unverzerrten Gradienten führt und durch Policy Shaping die Varianz kontrolliert wird.

4. Ergebnisse

Die Methode wurde an fünf verschiedenen Backbone-Modellen (1,5B bis 8B Parameter, Qwen- und Llama-Familien) auf neun Benchmarks getestet.

Leistungssteigerung: ExGRPO übertrifft On-Policy-RLVR-Baselines konsistent.
- +3,5 Punkte Durchschnittsgewinn auf In-Distribution-Mathematik-Benchmarks.
- +7,6 Punkte Durchschnittsgewinn auf Out-of-Distribution-Benchmarks (z. B. ARC-c, GPQA, MMLU-Pro).
Robustheit: Auf dem schwächeren Llama-3.1 8B Base-Modell, bei dem On-Policy-Training kollabierte, ermöglichte ExGRPO erfolgreiches Training mit signifikanten Verbesserungen.
Effizienz: Die Methode erreicht bessere Ergebnisse mit weniger reinem On-Policy-Explorationsaufwand, da sie bestehende Daten effizienter nutzt.
Ablationsstudien: Die Entfernung der Selektionsmechanismen (Fragen- oder Trajektorienauswahl) oder des Policy Shaping führt zu deutlichen Leistungseinbußen, was die Notwendigkeit der gesamten Architektur bestätigt.

5. Bedeutung und Ausblick

ExGRPO stellt einen Paradigmenwechsel dar, indem es Experience Management als Schlüsselelement für skalierbares RLVR etabliert. Es zeigt, dass die Qualität der gespeicherten Erfahrungen (gesteuert durch Schwierigkeit und Entropie) wichtiger ist als die reine Menge.

Skalierbarkeit: Die Methode ermöglicht das Training von Reasoning-Modellen auf Hardware, die für reine On-Policy-Methoden zu schwach wäre.
Allgemeingültigkeit: Obwohl primär für binäre Belohnungen (korrekt/falsch) entwickelt, wird gezeigt, dass das Framework auch auf kontinuierliche Belohnungen (z. B. Preference-Modelle) übertragbar ist.
Zukunft: Die Arbeit legt den Grundstein für effizienteres, stabileres und kostengünstigeres Training von KI-Systemen, die komplexe logische Schlussfolgerungen treffen müssen, indem sie das „Lernen aus der eigenen Geschichte" systematisch optimiert.

Zusammenfassend beweist ExGRPO, dass strategisches Management von Trainingsdaten (Experience) entscheidend ist, um die Grenzen des Reasoning in großen Sprachmodellen zu erweitern, ohne dabei die Stabilität des Lernprozesses zu gefährden.