On-Policy Self-Distillation for Reasoning Compression

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen brillanten, aber extrem redseligen Mathematik-Profi. Wenn du ihn fragst: „Was ist 2 plus 2?", antwortet er nicht einfach mit „4". Stattdessen schreibt er eine 500 Wörter lange Abhandlung darüber, ob du vielleicht Binärzahlen meinst, ob du einen Scherz machst, und er überlegt sich drei verschiedene Wege, um zu prüfen, ob die Antwort wirklich stimmt. Er denkt laut, aber viel von dem, was er sagt, ist nur Rauschen – unnötiges Gerede, das ihn nur verwirrt und Zeit kostet.

Das ist das Problem, das dieses Papier mit dem Namen OPSDC löst.

Hier ist die einfache Erklärung, wie es funktioniert, ohne technische Fachbegriffe:

1. Das Problem: Der „Überdenker"

Moderne KI-Modelle sind wie dieser redselige Profi. Sie können schwierige Aufgaben lösen, aber sie neigen dazu, sich selbst zu hinterfragen, alte Gedanken zu wiederholen und sich in Details zu verlieren. Das kostet nicht nur Zeit und Rechenleistung, sondern führt oft zu Fehlern. Je mehr Schritte sie machen, desto höher ist die Wahrscheinlichkeit, dass sie sich irgendwo verirren.

2. Die Lösung: Der „Kurzweiliger" im eigenen Kopf

Die Forscher haben eine geniale Methode entwickelt, die man sich wie ein Selbst-Coaching vorstellen kann.

Der Schüler: Das normale KI-Modell, das wie gewohnt redet und denkt.
Der Lehrer: Das selbe Modell, aber mit einem kleinen Zettel im Kopf, auf dem steht: „Sei kurz und bündig!"

Normalerweise müsste man einem KI-Modell tausende Beispiele von kurzen Antworten zeigen, um es zu lehren. Aber hier ist der Trick: Das Modell lernt von sich selbst.

3. Wie der Unterricht abläuft (Die Metapher des Spiegels)

Stell dir vor, du stehst vor einem Spiegel (dem Lehrer).

Der Spiegel zeigt dir, wie du aussehen würdest, wenn du nur das Wichtigste sagst (die „kurze" Version).
Du (der Schüler) versuchst, so zu sprechen, wie der Spiegel es zeigt.
Der Trick: Der Spiegel aktualisiert sich alle paar Minuten. Wenn du besser wirst, wird der Spiegel auch besser und zeigt dir noch kürzere, präzisere Antworten.

Das Modell lernt also nicht von fremden Daten, sondern von seiner eigenen Fähigkeit, Anweisungen zu befolgen. Es sagt im Grunde: „Ich weiß eigentlich, wie man kurz antwortet, ich muss mir das nur angewöhnen."

4. Warum ist das so genial? (Die Überraschung)

Man würde denken: „Wenn ich dem Modell weniger denken lasse, wird es dümmer."
Aber das Gegenteil ist der Fall!

Weniger Rauschen, mehr Klarheit: Da das Modell weniger Zeit mit unnötigem Gerede verbringt, macht es weniger Fehler. Es ist wie beim Laufen: Wenn du stolperst, weil du zu viele unnötige Bewegungen machst, hilft es, einfach geradeaus zu laufen.
Intelligente Anpassung: Das System ist schlau genug zu merken:
- Bei einer einfachen Aufgabe (z. B. „Was ist 2+2?") drückt es den „Kurz"-Knopf ganz fest und spart 60% der Zeit.
- Bei einer extrem schwierigen Aufgabe (z. B. eine komplexe Mathematik-Olympiade) weiß es: „Okay, hier muss ich noch etwas nachdenken." Es drückt den Knopf nicht so hart und behält die nötigen Denkschritte bei.

5. Das Ergebnis

In Tests mit den neuesten KI-Modellen (Qwen3) passierte etwas Wunderbares:

Die Antworten wurden um fast die Hälfte kürzer (weniger Token).
Die Genauigkeit stieg drastisch an. Das Modell wurde nicht nur schneller, sondern auch besser, weil es nicht mehr durch sein eigenes Gerede verwirrt wurde.

Zusammengefasst:
Die Forscher haben entdeckt, dass KI-Modelle oft nicht „zu wenig" denken, sondern „zu viel" denken. Indem sie das Modell gezwungen haben, seine eigene Fähigkeit zur Kürze zu nutzen, haben sie es nicht nur effizienter, sondern auch klüger gemacht. Es ist, als würde man einem Läufer sagen: „Hör auf, beim Rennen zu reden, und konzentriere dich auf den Weg." Plötzlich läuft er schneller und kommt sicherer am Ziel an.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Moderne Reasoning-Modelle (wie o1, Gemini 2.5, DeepSeek-R1, Qwen3) generieren oft Tausende von Token für ihre internen Denkprozesse („Thinking"). Während diese Ausführlichkeit bei komplexen Problemen hilfreich sein kann, führt sie bei einfacheren Aufgaben zu massiver Redundanz und „Rauschen".

Das Dilemma: Bestehende Kompressionsmethoden haben signifikante Nachteile:
- Reinforcement Learning (RL): Benötigt Ground-Truth-Antworten (Lösungen), um Belohnungen zu berechnen, und riskiert oft den Kollaps der Modell-Explorationsfähigkeit (Entropie-Kollaps).
- Supervised Fine-Tuning (SFT): Trainiert auf externen, komprimierten Daten, was zu einem „Vergessen" der eigenen Reasoning-Fähigkeiten führt (Distribution Shift).
- Prompting-Tricks: Sind oft instabil und verschwinden, sobald der Prompt geändert wird.
Die Kernfrage: Wie kann man Reasoning-Modelle dazu bringen, prägnanter zu denken, ohne externe Lösungen zu benötigen, ohne die Genauigkeit zu opfern und ohne die Fähigkeit zur Exploration zu zerstören?

2. Methodik: OPSDC (On-Policy Self-Distillation for Reasoning Compression)

OPSDC ist eine Methode, die das Modell dazu anleitet, seine eigene komprimierte Verhaltensweise in sich selbst zu destillieren. Der Ansatz ist radikal einfach und benötigt keine Ground-Truth-Antworten, keine Token-Budgets und keine Schwierigkeitsschätzer.

Der Kernmechanismus:

Teacher vs. Student: Es wird ein einziges Modell $\pi_\theta$ $π_{θ}$ verwendet.
- Teacher: Das Modell, konditioniert auf eine „Prägnanz-Anweisung" (z. B. „Löse die Aufgabe prägnant und vermeide unnötige Schritte").
- Student: Das gleiche Modell, konditioniert auf die normale Eingabe (ohne die Prägnanz-Anweisung).
Training-Ziel: Das Training minimiert die Reverse KL-Divergenz zwischen der Verteilung des Schülers (Student) und dem Lehrer (Teacher) auf den vom Schüler generierten Rollouts.
- Formel: $L(\theta) = \mathbb{E} [\sum D_{KL}(\pi_\theta(\cdot | x, y_{<t}) \parallel \pi_{\bar{\theta}}(\cdot | x, c, y_{<t}))]$ .
- Dabei ist $c$ die Prägnanz-Anweisung und $\bar{\theta}$ die Gewichte des Lehrers.
On-Policy-Ansatz: Da der Student auf seiner eigenen Generierungsverteilung trainiert wird, vermeidet OPSDC den Distribution Shift, der bei off-policy SFT auftritt.
Periodische Lehrer-Aktualisierung: Um eine fortschreitende Kompression zu ermöglichen, werden die Lehrer-Gewichte $\bar{\theta}$ alle $M$ Schritte mit den aktuellen Schüler-Gewichten synchronisiert. Der Lehrer wird also schrittweise „besser" im Komprimieren, da er selbst das Ergebnis des vorherigen Trainings ist.

Warum Reverse KL?
Die Wahl der Reverse KL-Divergenz ( $D_{KL}(\text{Student} \parallel \text{Teacher})$ ) ist entscheidend. Sie gewichtet Updates basierend auf der aktuellen Verteilung des Schülers. Dies wirkt als natürliche Regularisierung und verhindert, dass das Modell in Bereiche driftet, die der Lehrer nicht abdeckt. Im Gegensatz dazu führt Forward KL zu instabilen Updates und Genauigkeitskollapsen, da die Gradienten unabhängig vom aktuellen Zustand des Schülers sind.

3. Schlüsselbeiträge und theoretische Einsichten

Selbst-Distillation ohne Ground-Truth: OPSDC ist die erste Methode, die On-Policy-Training, keine Notwendigkeit für Ground-Truth-Antworten, schwierigkeitsadaptive Kompression und Entropie-Erhaltung kombiniert.
Implizite Belohnung: Die Reverse KL minimierung entspricht implizit der Maximierung einer Belohnungsfunktion, die Prägnanz belohnt, ohne explizite Längenstrafen zu verwenden.
Schwierigkeitsadaptive Kompression: Das System komprimiert einfache Probleme aggressiv (da der Lehrer dort sehr kurze Pfade findet) und behält bei schwierigen Problemen die notwendige deliberative Tiefe bei, da der Lehrer dort selbst längere Pfade benötigt. Dies geschieht automatisch durch die KL-Objektivität.
Reduktion von Kumulativen Fehlern: Das Paper argumentiert theoretisch und empirisch, dass unnötige Token nicht nur redundant, sondern aktiv schädlich sind. Jeder zusätzliche Token ist eine Chance für einen Fehler, der sich fortsetzt (kumulativer Fehler). Durch das Entfernen von „Rauschen" verbessert sich die Genauigkeit.
Entropie-Erhaltung: Im Gegensatz zu RL-Methoden mit Längenstrafen, die die Entropie kollabieren lassen (das Modell wird deterministisch und verliert Explorationsfähigkeit), bleibt die Entropie bei OPSDC stabil. Das Modell lernt, Prägnanz zu wählen, nicht sie erzwungen zu werden.

4. Ergebnisse

Die Methode wurde auf den Modellen Qwen3-8B und Qwen3-14B auf Benchmarks wie MATH-500, AIME 2024 und AIME 2025 evaluiert.

MATH-500 (Einfacher/Mittel):
- Token-Reduktion: 57–59 %.
- Genauigkeitssteigerung: +9 bis +16 Prozentpunkte (z. B. von 70,0 % auf 86,1 % beim 14B-Modell).
AIME 2024 (Schwer):
- Token-Reduktion: 41 %.
- Genauigkeitssteigerung: +10,4 Prozentpunkte (65,8 % auf 76,3 %).
Allgemeine Fähigkeiten: Die Leistung auf allgemeinen Benchmarks (MMLU) blieb vollständig erhalten, was zeigt, dass keine „Catastrophic Forgetting" auftritt.
Qualitative Beispiele: Das Paper zeigt Fälle, in denen das Basis-Modell durch übermäßiges Nachdenken („Overthinking") zu falschen Schlussfolgerungen kommt oder das Format verliert. OPSDC entfernt dieses Rauschen und führt zu korrekteren und kürzeren Lösungen.

5. Bedeutung und Fazit

OPSDC widerlegt die Annahme, dass mehr Denken (mehr Token) immer zu besseren Ergebnissen führt. Stattdessen zeigt es, dass ein Großteil des Reasonings in aktuellen Modellen „Rauschen" ist, das Fehler kumuliert.

Paradoxon: Weniger Nachdenken führt zu besseren Antworten.
Effizienz: Die Methode ist extrem effizient, da sie keine Reward-Modelle, keine Value-Funktionen und keine komplexen RL-Optimierungen (wie PPO) benötigt. Sie nutzt Standard-Supervised-Training-Infrastruktur.
Skalierbarkeit: Da die Methode auf der Fähigkeit des Modells basiert, Anweisungen zu befolgen, wird sie mit leistungsfähigeren Foundation-Modellen noch effektiver.

Zusammenfassend bietet OPSDC einen eleganten, skalierbaren Weg, Reasoning-Modelle nicht nur effizienter, sondern auch präziser zu machen, indem sie lernen, das „Lärm" in ihren eigenen Denkprozessen zu eliminieren.

On-Policy Self-Distillation for Reasoning Compression

1. Das Problem: Der „Überdenker"

2. Die Lösung: Der „Kurzweiliger" im eigenen Kopf

3. Wie der Unterricht abläuft (Die Metapher des Spiegels)

4. Warum ist das so genial? (Die Überraschung)

5. Das Ergebnis

1. Problemstellung

2. Methodik: OPSDC (On-Policy Self-Distillation for Reasoning Compression)

3. Schlüsselbeiträge und theoretische Einsichten

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression