Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest jemanden beibringen, Schach zu spielen. Die alte Methode wäre: Du wirfst den Anfänger sofort in ein Turnier gegen Großmeister. Das Ergebnis? Der Anfänger ist überfordert, verliert jedes Spiel und lernt nichts, weil er die Regeln gar nicht versteht.

Genau dieses Problem haben Forscher bei großen Sprachmodellen (LLMs) wie ChatGPT bemerkt. Wenn man sie nur mit extrem schwierigen Aufgaben (wie komplexer Mathematik oder Programmierung) trainiert, scheitern sie oft, weil sie keine „Belohnung" (einen Erfolg) bekommen, um zu lernen.

Diese neue Arbeit, die auf der Konferenz ICLR 2026 vorgestellt wird, nennt sich „E2H Reasoner" (Easy-to-Hard Reasoner). Sie schlägt einen cleveren Weg vor, der sich wie ein guter Sporttrainer verhält.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der „Sprung ins kalte Wasser"

Bisher haben viele KI-Modelle versucht, durch Reinforcement Learning (eine Art „Versuch und Irrtum" mit Belohnungen) besser zu werden. Das Problem: Wenn die Aufgaben zu schwer sind, passiert nichts. Die KI rät wild herum, bekommt nie eine Belohnung für eine richtige Antwort und lernt nichts. Es ist, als würdest du einem Kind beibringen, ein Fahrrad zu fahren, indem du es sofort auf einen steilen Berg hinaufschubst, ohne dass es je gelernt hat, auf dem flachen Boden zu balancieren.

2. Die Lösung: Der „Lehrplan" (Curriculum Learning)

Die Autoren sagen: „Lass uns die KI nicht ins kalte Wasser werfen, sondern sie Schritt für Schritt ins Wasser führen."

Sie nennen das E2H (Easy to Hard).

Stufe 1 (Trivial): Die KI löst ganz einfache Aufgaben (z. B. „2 + 2"). Sie bekommt sofort Erfolgserlebnisse.
Stufe 2 (Einfach): Ein bisschen schwerer (z. B. „24 + 15").
Stufe 3 (Mittel): Jetzt wird es knifflig.
Stufe 4 (Schwer): Die echten Herausforderungen (z. B. komplexe Mathe- oder Logikrätsel).

Das ist wie beim Sport: Du beginnst mit Aufwärmen und einfachen Übungen, bevor du versuchst, einen Olympiasieg zu holen.

3. Der Trick: Der „Drehregler" (Scheduler)

Ein einfaches „erst leicht, dann schwer" reicht aber nicht. Wenn man zu lange bei den leichten Aufgaben bleibt, wird die KI faul und merkt sich nur einfache Muster (wie ein Schüler, der nur die einfachen Hausaufgaben macht und die schweren ignoriert). Wenn man zu schnell zu den schweren Aufgaben springt, verliert sie den Mut.

Die Forscher haben zwei intelligente „Drehregler" entwickelt, die entscheiden, wie viel Zeit die KI mit leichten und wie viel mit schweren Aufgaben verbringt:

Der Kosinus-Regler (E2H-C): Stell dir vor, du drehst den Lautstärkeknopf langsam von „Leise" (einfache Aufgaben) auf „Laut" (schwere Aufgaben). Der Übergang ist sanft und folgt einer schönen Kurve. Das funktioniert gut, wenn die KI bei allen Schwierigkeitsstufen schon halbwegs mitkommt.
Der Gauß-Regler (E2H-G): Das ist wie ein Fokus-Filter. Zu Beginn ist der Fokus sehr breit (viele einfache Aufgaben), aber dieser Fokus verengt sich sehr schnell auf die schweren Aufgaben. Das verhindert, dass die KI bei den einfachen Aufgaben „hängen bleibt" und sich nur daran gewöhnt, sie blindlings zu lösen.

4. Warum funktioniert das? (Die Theorie)

Die Autoren haben nicht nur experimentiert, sondern auch mathematisch bewiesen, dass dieser Weg effizienter ist.

Sparfuchs-Effekt: Um ein schwieriges Problem zu lösen, braucht die KI mit diesem Lehrplan weniger Versuche (weniger Daten) als wenn sie direkt mit den schweren Aufgaben beginnen würde.
Kein Vergessen: Durch die geschickte Mischung vergisst die KI nicht, wie man einfache Dinge macht, während sie lernt, wie man schwierige Dinge löst. Sie baut auf dem Vorwissen auf, statt es zu überschreiben.

5. Das Ergebnis

In Tests mit verschiedenen KI-Modellen (wie LLaMA und Qwen) hat sich gezeigt:

Modelle, die mit dieser Methode trainiert wurden, können Aufgaben lösen, die sie vorher gar nicht geschafft haben (selbst wenn sie nur kleine Modelle sind).
Sie sind besser darin, das Gelernte auf völlig neue, unbekannte Probleme zu übertragen (Generalisierung).
Sie sind robuster und machen weniger Fehler bei komplexen Logik- und Matheaufgaben.

Zusammenfassung in einem Bild

Stell dir vor, die KI ist ein Musikschüler.

Alte Methode: Der Lehrer gibt ihm sofort eine Symphonie von Beethoven zum Spielen. Der Schüler scheitert, wird frustriert und gibt auf.
E2H-Methode: Der Lehrer gibt ihm erst ein einfaches Lied („Happy Birthday"), dann eine Sonatine, dann ein Konzertstück und erst am Ende die Symphonie. Der Schüler baut sein Können Stück für Stück auf, verliert nie den Spaß und kann am Ende tatsächlich die Symphonie spielen.

Fazit: Diese Arbeit zeigt, dass wir KI-Modelle nicht durch „Schlag auf den Kopf" (harte Bestrafung bei Fehlern) oder „Zwang" (direktes Training an schweren Aufgaben) besser machen müssen. Stattdessen hilft ein durchdachter Lehrplan, der die KI sanft von leicht zu schwer führt, um echtes Denken und Problemlösen zu entwickeln.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Fähigkeit von Large Language Models (LLMs) zum logischen Schlussfolgern (Reasoning) ist oft unklar definiert und beschränkt sich häufig auf das Nachahmen von Mustern (Surface-Level Pattern Recognition) statt auf echte Generalisierung.

Herausforderung bei Reinforcement Learning (RL): Während RL-basiertes Post-Training (z. B. DeepSeek-R1) vielversprechend ist, scheitern Modelle oft an inhärent schwierigen Aufgaben, bei denen die Zero-Shot-Leistung gering ist. Das Hauptproblem ist die Sparsität der Belohnungssignale (Sparse Rewards): RL belohnt nur korrekte Endantworten. Bei komplexen Aufgaben führt dies zu einem großen Verteilungsunterschied (Distribution Gap) zwischen den Trainingsdaten und der Zielverteilung, was zu schlechter Konvergenz oder Overfitting führt.
Limitationen bestehender Ansätze: Herkömmliches Curriculum Learning (CL) in Kombination mit RL verwendet oft starre Strategien (z. B. feste Iterationszahlen für einfache Aufgaben vor dem Wechsel zu schwierigen). Dies führt zu zwei Problemen:
1. Task Forgetting: Das Modell vergisst einfache Aufgaben, sobald es auf schwierigere umschaltet.
2. Overfitting/Reward Hacking: Das Modell lernt einfache Muster auswendig, um Belohnungen zu erhalten, ohne die zugrundeliegenden Prinzipien für schwierige Aufgaben zu verstehen.

2. Methodik: E2H Reasoner

Die Autoren stellen E2H Reasoner vor, einen Ansatz für Curriculum Reinforcement Learning (CRL), der Aufgaben probabilistisch von „einfach" zu „schwierig" (Easy-to-Hard, E2H) plant.

A. Aufgabenzerlegung (Task Decomposition)

Das Trainingsdatenset wird in vier Schwierigkeitsstufen unterteilt:

Trivial (z. B. 1 Schritt, 2 Operanden)
Easy
Medium
Hard
OOD (Out-of-Distribution) zur Evaluierung der Generalisierung.

Für Datensätze ohne menschliche Labels (wie GSM8K, AQuA) wird die Schwierigkeit automatisch basierend auf der Fehlerrate des Basismodells unter CoT-Prompts geschätzt (Quartile der Fehlerverteilung).

B. Trainings-Scheduler (Scheduling Strategies)

Um die Probleme des Vergessens und Overfitting zu lösen, werden verschiedene Sampling-Strategien verglichen:

Balanced Scheduling: Zufälliges Mischen aller Schwierigkeitsstufen (führt zu zu frühen schwierigen Aufgaben).
Traditional CL: Starrer sequenzieller Wechsel (führt zu Vergessen).
E2H-Cosine (E2H-C): Eine nicht-parametrische Strategie, die die Sampling-Wahrscheinlichkeit über eine Kosinus-Funktion von leicht zu schwer verschiebt.
E2H-Gaussian (E2H-G): Eine parametrisierte Strategie, inspiriert von Gaussian Mixture Models. Sie definiert die Wahrscheinlichkeit, eine Aufgabe zu sampeln, basierend auf einer Gauß-Verteilung über den Trainingsverlauf.
- Hyperparameter: $\sigma$ (Steuerung der Konzentration) und $\beta$ (Steuerung der Geschwindigkeit des Übergangs).
- Vorteil: E2H-G ermöglicht eine feingranulare Kontrolle, um das Overfitting auf trivialen Aufgaben zu vermeiden, indem die Wahrscheinlichkeit für einfache Aufgaben schnell abfällt, während schwierige Aufgaben länger trainiert werden.

C. Theoretische Analyse

Die Methode wird im Rahmen der Approximate Policy Iteration (API) analysiert:

Konvergenzgarantie: Es wird bewiesen, dass die sequenzielle Lösung interpolierter Curriculum-Verteilungen zu einer garantierten Konvergenz führt.
Sample Complexity: Es wird gezeigt, dass CRL unter geeigneten Bedingungen (geometrische Fehlerzuweisung und Verteilung der Schwierigkeit) weniger Gesamtstichproben benötigt als direktes Lernen auf der schwierigen Aufgabe. Der Beweis nutzt die Annahme, dass einfachere Aufgaben stabilere Approximationen der Wertfunktion ermöglichen und den Verteilungsunterschied verringern.

3. Wichtige Beiträge

E2H Reasoner Framework: Ein CRL-Ansatz, der LLMs ermöglicht, Aufgaben zu lösen, die sie im Zero-Shot-Modus nicht bewältigen konnten, durch schrittweisen Aufbau von Reasoning-Fähigkeiten.
Theoretische Fundierung: Erste Konvergenzgarantien und Finite-Sample-Komplexitätsgrenzen für CRL im Kontext von LLM-Post-Training, die belegen, dass Curriculum-Learning effizienter ist als direktes Lernen.
Neue Scheduler-Strategien: Einführung von Cosine- und Gaussian-Schedulern, die das Problem des „Task Forgetting" und des „Reward Hacking" auf einfache Aufgaben adressieren.
Automatische Schwierigkeitsschätzung: Ein robustes Verfahren zur Erstellung von Curricula auch für Datensätze ohne menschliche Labels.

4. Ergebnisse

Die Methode wurde auf verschiedenen Modellen (Qwen 1.5B/3B, LLaMA 3.2 3B) und Benchmarks (Blocksworld, Countdown, MATH, GSM8K, AQuA) evaluiert.

Überlegenheit gegenüber Baselines: E2H Reasoner (insbesondere E2H-G) erreicht State-of-the-Art-Ergebnisse und übertrifft sowohl reines RL (GRPO auf allen Daten) als auch traditionelles Curriculum Learning (CL) und adaptive Baselines (Self-Evolve).
Generalisierung (OOD): Das Modell zeigt signifikant bessere Leistung auf Out-of-Distribution-Daten, was darauf hindeutet, dass es tatsächlich Prinzipien gelernt hat und nicht nur Muster auswendig gelernt hat.
Effizienz: Experimentelle Daten zeigen, dass CRL-Methoden bei gleicher Trainingsbudget (Anzahl der Samples) deutlich weniger „harte" Samples benötigen als Modelle, die direkt nur auf harten Daten trainiert werden (bis zu 2,5–3-fache Steigerung der Sample-Effizienz).
Kombination mit DAPO: Die Kombination von E2H mit DAPO (ein RL-Algorithmus, der zu leichte/schwere Aufgaben filtert) führt zu den besten Ergebnissen, da E2H die Verteilung der Schwierigkeit optimiert, aus der DAPO dann sampelt.

5. Bedeutung und Fazit

Das Paper demonstriert, dass kleine LLMs (z. B. 1.5B/3B Parameter) durch strukturiertes Curriculum Learning in der Lage sind, komplexe Reasoning-Aufgaben zu meistern, für die sie sonst ungeeignet wären.

Paradigmenwechsel: Es widerlegt die Annahme, dass RL allein für schwierige Reasoning-Aufgaben ausreicht, und zeigt, dass die Struktur des Trainings (von leicht zu schwer) entscheidend ist.
Skalierbarkeit: Die Methode ist skalierbar, theoretisch fundiert und praktisch anwendbar, auch ohne menschliche Annotationen der Schwierigkeit.
Zukunft: Die Arbeit legt den Grundstein für adaptive Curriculum-Strategien, die während des Trainings dynamisch angepasst werden, um die Lernfähigkeit (Learnability) weiter zu maximieren.

Zusammenfassend bietet E2H Reasoner einen robusten, theoretisch untermauerten Weg, um die Reasoning-Fähigkeiten von LLMs durch gezieltes, stufenweises Training zu verbessern und gleichzeitig die Sample-Effizienz zu steigern.