Scaling Reasoning Efficiently via Relaxed On-Policy Distillation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen jungen, talentierten Schüler (das kleine KI-Modell) darin unterrichten, komplexe Mathe- oder Logikaufgaben zu lösen. Normalerweise gibt es zwei Wege, das zu tun:

Der harte Weg (Reinforcement Learning): Der Schüler darf raten, bekommt aber nur am Ende ein "Richtig" oder "Falsch". Das ist wie ein Schüler, der blind durch einen Labyrinth läuft und nur dann einen Keks bekommt, wenn er den Ausgang findet. Das dauert ewig und macht oft frustriert.
Der alte Lehr-Weg (On-Policy Distillation): Ein brillanter Professor (das große KI-Modell) sitzt daneben und sagt dem Schüler bei jedem einzelnen Wort: "So musst du denken!" Der Schüler versucht, den Professor exakt zu kopieren.

Das Problem: Der alte Lehr-Weg hat einen riesigen Haken. Wenn der Schüler einen Fehler macht und der Professor sagt "Nein!", wird der Schüler oft so verunsichert, dass er panisch wird. Er verliert sein eigenes Urteilsvermögen, wird starr und lernt nichts mehr. Es ist, als würde ein Schüler versuchen, die Handschrift des Professors so perfekt zu kopieren, dass er vergisst, was er eigentlich schreibt. Er wird instabil und macht am Ende sogar mehr Fehler als vorher.

Die Lösung: REOPOLD – Der "Entspannte" Lehrer

Die Forscher in diesem Papier haben eine neue Methode namens REOPOLD entwickelt. Der Name steht für "Relaxed On-Policy Distillation" (Entspannte On-Policy-Distillation).

Stell dir REOPOLD wie einen weisen Mentor vor, der nicht stur kopieren lässt, sondern intelligent führt. Hier ist, wie das in einfachen Bildern funktioniert:

1. Der "Pausen-Taste"-Effekt (Stop-Gradient)

Beim alten Weg hat der Schüler versucht, jedes Detail der Lehrmeinung zu verstehen, auch die Teile, die gar nicht wichtig waren. Das hat ihn überfordert.
REOPOLD sagt dem Schüler: "Hör mal, bei diesem Satz hier ist der Professor vielleicht etwas verwirrt oder sagt etwas, das für dich gerade nicht passt. Ignorier das kurz."
Das ist wie ein Lehrer, der dem Schüler sagt: "Konzentrier dich auf die Logik, nicht auf jedes einzelne Wort." Das verhindert, dass der Schüler in Panik gerät, wenn der Lehrer mal eine seltsame Antwort gibt.

2. Der "Nur die Hefte"-Filter (Reward Clipping)

Manchmal sagt der Professor zu einem Wort des Schülers: "Das ist absolut falsch!" und der Wert dafür ist so extrem negativ, dass der Schüler fast zusammenbricht.
REOPOLD schneidet diese extremen "Schreie" einfach ab. Es ist, als würde der Mentor sagen: "Okay, das war ein Fehler, aber wir werden nicht hysterisch. Wir nehmen den Fehler zur Kenntnis, aber wir lassen uns nicht von der Wut des Fehlers lähmen." So bleibt das Lernen stabil.

3. Der "Wichtigkeits-Filter" (Entropy-Based Sampling)

Der Schüler schreibt oft viele Wörter, die völlig offensichtlich sind (z. B. "Und dann..."). Der Professor stimmt hier zu, aber es bringt nichts Neues.
REOPOLD sagt: "Lass uns die offensichtlichen Wörter überspringen. Konzentrieren wir uns nur auf die Stellen, wo der Schüler unsicher ist und wo der Professor wirklich etwas Neues beibringen kann."
Das ist wie ein Tutor, der nicht die ganzen einfachen Sätze durchgeht, sondern nur die schwierigen Knotenpunkte im Gedankengang auflöst. Das spart enorm viel Zeit und Energie.

4. Die Zwei-Phasen-Strategie (Exploration & Refinement)

Phase 1 (Entdecken): Am Anfang lässt REOPOLD den Schüler etwas freier agieren. Er darf verschiedene Lösungswege ausprobieren, ohne sofort für jeden kleinen Fehler bestraft zu werden. Das ist wie ein Kind, das erst mal kreativ spielen darf, bevor es die strengen Regeln lernt.
Phase 2 (Verfeinern): Wenn der Schüler erst einmal ein gutes Fundament hat, wird der Mentor strenger. Jetzt werden nur noch die besten Pfade belohnt und die Unsicherheiten gezielt behoben.

Warum ist das so cool?

Das Papier zeigt, dass diese Methode zwei Wunder bewirkt:

Sie ist super effizient: Ein kleines KI-Modell (z. B. 1,5 Milliarden Parameter) lernt mit REOPOLD so schnell, dass es mit viel weniger Daten auskommt als andere Methoden. Es ist, als würde ein Schüler in 1 Stunde so viel lernen wie andere in 10 Stunden.
Sie macht kleine Riesen: Ein kleines Modell, das mit REOPOLD trainiert wurde, kann Aufgaben lösen, für die man normalerweise ein riesiges, teures Super-Modell bräuchte. Ein 7-Milliarden-Modell kann in manchen Aufgaben fast so gut sein wie ein 32-Milliarden-Modell, aber viel schneller und günstiger.

Zusammengefasst:
Statt den Schüler zu zwingen, einen perfekten Kopierroboter zu sein, der bei jedem Fehler zusammenbricht, gibt REOPOLD ihm einen stabilen, entspannten Mentor, der ihm hilft, seine eigenen Denkfehler zu korrigieren, ohne die Motivation zu verlieren. Das Ergebnis ist ein kleineres, schnelleres und schlaueres KI-Modell, das wirklich versteht, wie man denkt, statt nur nachzuplappern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Fähigkeit von Large Language Models (LLMs), komplexe Schlussfolgerungen (Reasoning) zu ziehen, wurde durch Reinforcement Learning (RL) und Test-time-Scaling (z. B. OpenAI o1, DeepSeek-R1) erheblich verbessert. Allerdings scheitert die direkte Übertragung dieser Erfolge auf Small Language Models (SLMs) oft an deren begrenzter Repräsentationskapazität. Standard-RL-Ansätze sind für SLMs ineffektiv, da sie mit sparse Belohnungen und hoher Varianz kämpfen.

Ein vielversprechender Ansatz ist die On-Policy-Distillation, bei der ein Schülermodell (Student) von seinen eigenen Trajektorien lernt, die von einem leistungsfähigeren Lehrermodell (Teacher) bewertet werden. Trotz Erfolge leiden herkömmliche On-Policy-Distillationsmethoden (wie RKL - Reverse Kullback-Leibler) unter erheblichen Mängeln:

Instabilität: Sie neigen zu "negativem Transfer", bei dem das Schülermodell schlechter wird als das Basis-Modell.
Entropie-Kollaps: Das Modell konvergiert zu früh auf eine enge Menge von Ausgaben und verliert die Fähigkeit zur Exploration.
Signal-Ineffizienz: Die meisten Token liefern kaum Lernsignale (nahezu null Belohnung), während extreme negative Belohnungen (wenn der Lehrer eine Wahrscheinlichkeit von fast 0 annimmt) die Gradienten destabilisieren.

2. Methodik: REOPOLD

Die Autoren führen REOPOLD (Relaxed On-Policy Distillation) ein, ein Framework, das die strikten Nachahmungsbedingungen der Standard-Distillation lockert und es als eine Form der Policy-Optimierung interpretiert.

Theoretische Grundlage

Das Paper zeigt theoretisch und empirisch, dass On-Policy-Distillation als Policy-Optimierung mit einem Token-Level-Reward interpretiert werden kann, der durch das Log-Likelihood-Verhältnis zwischen Lehrer und Schüler definiert ist ( $R = \log \frac{\pi_{Teacher}}{\pi_{Student}}$ ). Durch die Anwendung eines Stop-Gradient-Operators auf diesen Reward wird er zu einem festen externen Signal, was die Varianz der Gradientenschätzung reduziert und eine stabile Basis schafft.

Kernkomponenten von REOPOLD

Das Framework adressiert die identifizierten Optimierungsprobleme durch drei Hauptmechanismen:

Reward-Clipping via Mixture-Regularisierung:
- Um das Problem der "heavy-tailed" negativen Rewards (wenn $\pi_{Teacher} \to 0$ ) zu lösen, wird ein theoretisch abgeleiteter unterer Schwellenwert eingeführt.
- Anstatt den Reward unendlich negativ werden zu lassen, wird er auf einen konstanten Wert $\log \frac{\lambda}{1-\lambda}$ begrenzt. Dies verhindert Gradientenexplosionen und stabilisiert das Training, ohne die globale Zielfunktion wie bei "Skew RKL" zu verändern.
Entropie-gesteuertes Token-Level-Dynamisches Sampling:
- Es wird beobachtet, dass Token mit niedriger Entropie (deterministische Schritte) oft keine nützlichen Lernsignale liefern, da Schüler und Lehrer hier übereinstimmen.
- REOPOLD filtert diese Token heraus und konzentriert sich stattdessen auf hoch-entropische Token (unsichere Entscheidungspunkte), wo die Divergenz zwischen Lehrer und Schüler am größten ist. Dies erhöht die Sample-Effizienz erheblich.
Multi-Stage-Training (Exploration zu Verfeinerung):
- Phase 1 (Exploration): Zu Beginn des Trainings werden stark negative Rewards gefiltert, um den Entropie-Kollaps zu verhindern und dem Modell zu erlauben, diverse Lösungspfade zu erkunden (ähnlich wie Supervised Fine-Tuning).
- Phase 2 (Refinement): Später wird das Filtern umgestellt, um negative Feedback-Signale für kritische, unsichere Token zuzulassen. Dies schärft die Diskriminierung und konsolidiert die Policy auf hochwertige Trajektorien.

3. Wichtige Beiträge

Diagnose der Instabilität: Die Autoren identifizieren heavy-tailed negative Rewards und Signal-Ineffizienz als Hauptursachen für das Scheitern herkömmlicher Distillation.
Einheitliches Framework: REOPOLD integriert Reward-Clipping, dynamisches Sampling und Multi-Stage-Training in ein kohärentes Optimierungsziel.
Theoretische Verbindung: Die formale Äquivalenz von Distillation und Policy-Gradient-Methoden wird genutzt, um moderne RL-Techniken (wie Stop-Gradient und Control Variates) auf Distillation anzuwenden.

4. Ergebnisse

REOPOLD wurde auf mathematischen, visuellen und agentenbasierten Reasoning-Aufgaben evaluiert und übertrifft sowohl Standard-RL-Methoden (wie GRPO) als auch Baselines (RKL, SFT):

Sample-Effizienz: REOPOLD erreicht eine 6,7- bis 12-fache Steigerung der Sample-Effizienz im Vergleich zu RL-Ansätzen. Auf dem AIME-25-Benchmark erreicht es mit weniger als der Hälfte der Trainingsdaten die Leistung von ProRL.
Test-Time Scaling: Auf visuellen Reasoning-Aufgaben (z. B. Geometry3K, MathVerse) zeigt REOPOLD überlegene Skalierbarkeit. Ein 7B-Modell mit REOPOLD erreicht die Leistung eines 32B-Lehrermodells bei einer 3,3-fachen Beschleunigung der Inferenzzeit.
Robustheit: Im Gegensatz zu RKL, das bei der Wahl des Lehrers oder bei größeren Schülermodellen (7B) instabil wird, bleibt REOPOLD stabil und verbessert die Leistung konsistent.
Qualität: Qualitative Analysen zeigen, dass REOPOLD-Modelle weniger Halluzinationen produzieren und korrekte Selbstkorrekturmechanismen (Self-Correction) während des Reasoning-Prozesses nutzen, während Baselines oft in falschen Logikschleifen stecken bleiben.

5. Bedeutung

Das Paper ist ein signifikanter Fortschritt für die Skalierung von Reasoning-Fähigkeiten in ressourcenbeschränkten Modellen. Es beweist, dass das strikte Nachahmen eines Lehrers (Vanilla Distillation) kontraproduktiv sein kann. Stattdessen ermöglicht ein entspannter, selektiver Lernansatz, der Unsicherheit gezielt adressiert und negative Signale filtert, eine stabile und effiziente Übertragung komplexer Denkfähigkeiten.

REOPOLD bietet einen praktischen Weg, um die Leistungsfähigkeit von großen Reasoning-Modellen (wie o1 oder R1) auf kleinere, kosteneffizientere Modelle zu übertragen, ohne die hohen Kosten und die Instabilität von reinem Reinforcement Learning in Kauf nehmen zu müssen. Dies ist besonders relevant für den Einsatz von Reasoning-Modellen in Echtzeitanwendungen und auf Edge-Geräten.