DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „DeReason" auf Deutsch, verpackt in anschauliche Bilder und Metaphern.

Das große Problem: Wie lernt ein KI-Modell am besten?

Stellen Sie sich vor, Sie wollen einen jungen Schüler (das KI-Modell) nicht nur in Mathe, sondern in allerlei Wissenschaften (Physik, Biologie, Geschichte, Chemie) zum Genie machen.

Bisher gab es zwei Hauptmethoden, um ihn zu unterrichten:

Der strenge Lehrer (SFT - Supervised Fine-Tuning): Der Lehrer gibt dem Schüler die perfekten Lösungen vor. „Hier ist die Antwort, lerne sie auswendig und verstehe den Weg." Das ist effizient, um Fakten und Grundlagen zu lernen.
Der Entdecker-Coach (RL - Reinforcement Learning): Der Coach lässt den Schüler raten, ausprobieren und Fehler machen. Wenn er richtig liegt, gibt es Punkte. Wenn nicht, nichts. Das ist gut, um komplexe Denkwege zu entwickeln, aber es ist sehr langsam und ineffizient, wenn der Schüler noch gar nichts weiß.

Die Entdeckung der Forscher:
Die Autoren des Papers haben herausgefunden, dass man den Schüler nicht einfach nur dem Coach übergeben sollte, wenn er noch ein Anfänger ist.

Wenn man einen Anfänger direkt zum Coach schickt (nur RL), lernt er kaum etwas. Er verirrt sich im Dschungel der Möglichkeiten.
Der strenge Lehrer (SFT) ist viel besser, um ihm erst einmal das Handwerkszeug und das Wissen beizubringen.

Aber: Der strenge Lehrer allein reicht nicht für die schwierigsten Denkaufgaben. Hier braucht es den Coach, der den Schüler zwingt, über den Tellerrand hinauszudenken.

Das Dilemma:
Die Frage war: Wie teilt man die Aufgaben zwischen dem Lehrer und dem Coach auf?
Bisher haben viele einfach zufällig Aufgaben gemischt. Das ist wie ein Koch, der zufällig Zutaten in einen Topf wirft – es schmeckt vielleicht okay, aber nicht optimal.

Die Lösung: „DeReason" – Der intelligente Lehrplan

Die Forscher haben eine neue Strategie namens DeReason entwickelt. Das Wort ist eine Mischung aus „Decoupling" (Entkoppeln) und „Reasoning" (Denken).

Stellen Sie sich den Lehrplan wie einen zweistufigen Bildungsplan vor:

Stufe 1: Das Fundament (SFT für „leichte" Aufgaben)

Zuerst nimmt man alle Aufgaben, die eher Wissen abfragen oder einfache Logik erfordern (z. B. „Was ist die Hauptstadt von Frankreich?" oder einfache Formeln).

Die Metapher: Das ist wie das Bauwerk. Man legt den Grundstein, mauert die Wände hoch und sorgt dafür, dass das Haus stabil steht.
Was passiert: Der KI-Modell lernt hier Fakten und Standardlösungen vom Lehrer ab. Es wird ein solides Fundament gelegt.

Stufe 2: Der Gipfelsturm (RL für „schwere" Aufgaben)

Dann nimmt man nur die schwierigsten, kniffligsten Aufgaben (z. B. komplexe physikalische Probleme, die mehrere Denkschritte erfordern).

Die Metapher: Das ist wie der Kletterkurs. Der Schüler hat jetzt das Fundament (die Wände), und jetzt muss er lernen, wie man an schwierigen Stellen klettert, ohne herunterzufallen.
Was passiert: Der Coach (RL) lässt das Modell nur noch an diesen schweren Aufgaben üben. Da es schon das Grundwissen hat, kann es sich auf das Denken konzentrieren, statt sich in den Basics zu verlieren.

Warum ist das so genial?

Stellen Sie sich vor, Sie wollen jemanden zum Schachgroßmeister machen.

Der alte Weg (Zufall): Man lässt den Anfänger gegen Meisterspieler antreten (RL) und gegen Bücher lernen (SFT) in einem wilden Mix. Der Anfänger ist überfordert und lernt langsam.
Der DeReason-Weg:
1. Zuerst lernt der Anfänger die Regeln und die Grundzüge auswendig (SFT mit einfachen Aufgaben).
2. Erst wenn er die Regeln beherrscht, lässt man ihn gegen die besten Spieler antreten, um taktische Tricks zu lernen (RL mit schweren Aufgaben).

Das Ergebnis? Das Modell lernt schneller, wird besser und ist in schwierigen Situationen (wie wissenschaftlichen Problemen) viel stärker als Modelle, die nur zufällig trainiert wurden.

Zusammenfassung in einem Satz

DeReason sagt uns: Gib dem KI-Modell erst einmal die „einfachen" Aufgaben, damit es das Handwerkszeug lernt (durch den Lehrer), und schicke es erst danach auf die „schwierigen" Aufgaben, damit es sein Denkvermögen schärfen kann (durch den Coach). Wenn man diese beiden Phasen richtig trennt und die Aufgaben danach sortiert, wird die KI zum echten Genie.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning" auf Deutsch:

Problemstellung

Das Paper adressiert die Herausforderung, die Fähigkeiten von Large Language Models (LLMs) im Bereich des allgemeinen wissenschaftlichen Denkens (General STEM-Reasoning) zu verbessern. Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) in Domänen wie Mathematik und Code bereits erfolgreich ist, bleibt die optimale Interaktion zwischen Supervised Fine-Tuning (SFT) und RL in breiteren wissenschaftlichen Kontexten unzureichend erforscht.

Die Autoren identifizieren ein kritisches Problem: Die direkte Anwendung von RL auf Basis-Modelle (Base Models) in allgemeinen STEM-Domänen ist extrem ineffizient in Bezug auf die benötigten Trainingsdaten (sample-inefficient) und wird konsequent von einem SFT auf moderaten Antworten übertroffen. Gleichzeitig zeigt sich, dass eine sequenzielle Abfolge von SFT gefolgt von RL die Leistung weiter steigern kann. Die zentrale Frage lautet daher: Wie sollte Trainingsdaten zwischen diesen beiden Phasen (SFT und RL) optimal aufgeteilt werden, um die komplementären Stärken beider Methoden zu nutzen?

Methodik: DeReason

Die Autoren schlagen DeReason vor, eine datengetriebene Curriculum-Lern-Strategie, die auf einer Entkopplung basierend auf Schwierigkeitsgraden beruht. Der Ansatz erfolgt in drei Schritten:

Schwierigkeitsschätzung (Difficulty Estimation):
- Jeder Trainingsdatensatz (Problem) erhält einen Schwierigkeitswert $d_i \in [1, 5]$ .
- Dies geschieht durch ein LLM (ein Instruct-Modell gleicher Größe wie das Zielmodell, hier Qwen3-4B-Instruct), das die „Reasoning Intensity" (Intensität des Denkens) bewertet.
- Kriterien sind die Anzahl der Denkschritte, benötigtes Vorwissen und Fehleranfälligkeit.
- Niedrige Scores (1–3): Probleme, die primär Wissensabruf oder einfache Faktenanwendung erfordern.
- Hohe Scores (4–5): Komplexe Probleme, die mehrstufige Herleitungen und tiefes Schlussfolgern erfordern.
Datenaufteilung (Data Partitioning):
- Der Datensatz wird in zwei Teilmengen zerlegt:
  - $D_{SFT}$ (Einfach/Breit): Enthält Probleme mit niedriger Schwierigkeit ( $d_i \le \tau$ ). Diese werden für das SFT verwendet, um fundiertes Domänenwissen und Basisfähigkeiten effizient zu vermitteln.
  - $D_{RL}$ (Schwer/Fokussiert): Enthält Probleme mit hoher Schwierigkeit ( $d_i > \tau$ ). Diese werden für das RL reserviert, um komplexe Denkpfade zu cultivieren, die über reine Imitation hinausgehen.
Curriculum-Training:
- Phase 1 (SFT): Das Modell wird auf $D_{SFT}$ trainiert, um eine starke Startpolitik ( $\pi_{SFT}$ ) zu etablieren.
- Phase 2 (RL): Das RL (hier GRPO – Group Relative Policy Optimization) wird initialisiert mit $\pi_{SFT}$ und nur auf $D_{RL}$ angewendet, um die Reasoning-Grenzen zu erweitern.

Ein wesentlicher Unterschied zu bestehenden Ansätzen ist, dass DeReason keine algorithmischen Änderungen an SFT oder RL vornimmt, sondern rein auf der Datenselektionsebene operiert. Dies macht die Methode orthogonal zu algorithmischen Verbesserungen und in verschiedenen Frameworks einsetzbar.

Wichtige Erkenntnisse & Ergebnisse

1. Vergleich von SFT vs. RL (Kontrollierte Experimente):

In kontrollierten Experimenten, bei denen SFT und RL auf denselben Daten trainiert wurden, schnitt SFT konsistent besser ab als RL, insbesondere bei kleinen Modellen (4B Parameter).
RL allein auf Basis-Modellen ist in allgemeinen STEM-Domänen zu ineffizient, da es den Modellen schwerfällt, notwendiges Domänenwissen (z. B. Formeln, Fakten) durch reines Trial-and-Error zu erlernen. SFT bietet hier einen direkteren Lernpfad durch Imitation moderater Lösungen.

2. Hauptergebnisse auf Benchmarks:
Die Methode wurde auf zwei Datensätzen (WebInstruct-Verified und Webscale-RL) und mehreren Benchmarks (MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH) getestet:

Überlegenheit gegenüber Baselines: DeReason (SFT auf einfachen Daten + RL auf schwierigen Daten) übertrifft sowohl reine SFT-, reine RL- als auch zufällig aufgeteilte SFT-then-RL-Baselines signifikant.
Leistungsgewinn: Auf dem 4B-Modell (Qwen3-4B) erreichte DeReason die besten Ergebnisse in allen getesteten Szenarien.
Spezifische Benchmarks:
- Auf Benchmarks, die starkes Wissen erfordern (z. B. MMLU-Pro), ist der Unterschied zu reinem SFT gering.
- Auf Benchmarks, die komplexes Schlussfolgern erfordern (z. B. BBEH, GPQA-Diamond), zeigt DeReason den größten Vorteil gegenüber allen anderen Methoden.

3. Verhaltensanalyse:

Antwortlänge: RL reduziert die Länge von Antworten, insbesondere bei hohen Belohnungen. Bei Start vom SFT-Checkpoint bleibt die Hierarchie der Länge erhalten, während RL vom Basis-Modell zu einer stärkeren Bifurkation führt.
Entropie: Modelle, die mit SFT initialisiert wurden, starten mit niedrigerer Entropie (schärfer verteilte Politik). RL vom Basis-Modell führt zu einem steileren Entropieabfall, was auf eine stärkere Spezialisierung durch Belohnungssuche hindeutet.

Signifikanz und Beitrag

Systematische Analyse: Das Paper liefert eine der ersten systematischen Studien zur Interaktion von SFT und RL in allgemeinen STEM-Domänen und widerlegt die Annahme, dass RL allein für Reasoning ausreicht. Es zeigt, dass SFT für kleine Modelle als unverzichtbare „Cold-Start"-Mechanismus dient.
Neue Trainingsstrategie (DeReason): Die vorgeschlagene, difficulty-basierte Entkopplung bietet einen einfachen, aber hochwirksamen „Post-Training-Rezept". Sie demonstriert, dass die Zuordnung von Daten zu den richtigen Trainingsphasen (Wissen in SFT, komplexes Denken in RL) entscheidend für den Erfolg ist.
Generalisierbarkeit: Da die Methode rein datenbasiert ist und keine Änderungen an den RL-Algorithmen erfordert, kann sie leicht in bestehende Trainingspipelines integriert werden und ist nicht auf Mathematik beschränkt, sondern funktioniert effektiv in breiten wissenschaftlichen Domänen.

Fazit:
DeReason etabliert, dass für allgemeines wissenschaftliches Denken eine sequenzielle Strategie mit datengetriebener Aufteilung überlegen ist: Zuerst SFT auf breiten, wissensbasierten Daten, gefolgt von RL auf ausgewählten, komplexen Problemen. Dies maximiert die Sample-Effizienz und führt zu überlegenen Reasoning-Fähigkeiten.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Das große Problem: Wie lernt ein KI-Modell am besten?

Die Lösung: „DeReason" – Der intelligente Lehrplan

Stufe 1: Das Fundament (SFT für „leichte" Aufgaben)

Stufe 2: Der Gipfelsturm (RL für „schwere" Aufgaben)

Warum ist das so genial?

Zusammenfassung in einem Satz

Problemstellung

Methodik: DeReason

Wichtige Erkenntnisse & Ergebnisse

Signifikanz und Beitrag

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry