Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest jemandem Mathematik beibringen. Normalerweise hast du zwei Möglichkeiten:

Der strenge Lehrer (Reinforcement Learning / GRPO): Du lässt den Schüler tausende Male Aufgaben lösen. Wenn er die Lösung findet, gibt es einen Applaus (Belohnung). Wenn nicht, gibt es eine Null. Das Problem: Der Schüler muss oft hunderte Versuche machen, bis er zufällig richtig liegt. Das kostet viel Zeit und Energie. Und wenn er am Ende falsch liegt, weiß er nicht genau, wo er den Fehler gemacht hat – er bekommt nur das "Gesamturteil".
Die starre Nachhilfe (Supervised Fine-Tuning / SFT): Du gibst dem Schüler eine fertige, perfekte Lösung zum Abschreiben. Das geht schnell, aber der Schüler lernt oft nur auswendig, ohne wirklich zu verstehen, warum die Schritte so sind. Wenn er eine neue, ähnliche Aufgabe bekommt, scheitert er oft, weil er die Logik nicht verinnerlicht hat.

Was dieses Papier vorschlägt (OPSD): Der "Selbst-Reflexions-Trick"

Die Forscher aus dem Papier haben eine dritte, clevere Idee entwickelt, die sie On-Policy Self-Distillation (OPSD) nennen.

Stell dir vor, der Schüler ist eigentlich schon ziemlich schlau, aber er braucht nur einen kleinen Schubser. Die Idee ist folgende:

Der Schüler und der Lehrer sind dieselbe Person.
Normalerweise braucht man einen großen, super-intelligenten Lehrer, um einen kleineren Schüler zu unterrichten. Hier ist aber der Schüler selbst der Lehrer – aber nur für einen Moment.
Wie funktioniert das?
1. Der "Dumme" Modus (Schüler): Der Schüler bekommt eine Matheaufgabe und versucht, sie ohne Hilfe zu lösen. Er schreibt seine Gedanken auf (den "Rollout").
2. Der "Weise" Modus (Lehrer): Jetzt schaut sich dieselbe Person (das gleiche Computer-Modell) die Aufgabe an, aber dieses Mal hat sie die perfekte Lösung bereits vor sich. Sie weiß die Antwort.
3. Der Vergleich: Der "weise" Modus schaut sich an, was der "dumme" Modus gerade geschrieben hat. Er denkt sich: "Aha, an dieser Stelle hat er einen Fehler gemacht. An dieser Stelle war er auf dem richtigen Weg."
4. Die Korrektur: Anstatt nur am Ende zu sagen "Falsch!", gibt der "weise" Modus dem "dummen" Modus bei jedem einzelnen Wort eine Rückmeldung. Er sagt quasi: "Nein, nicht so weitermachen, hier wäre ein besserer Weg gewesen."

Die Analogie: Der Fotograf mit dem Spiegel

Stell dir vor, du fotografierst ein Bild.

Beim normalen Lernen (SFT) schaust du dir nur das fertige, perfekte Foto an und versuchst, es nachzumachen.
Beim OPSD hältst du dir einen Spiegel vor das Objektiv. Während du das Foto machst (der Schüler), siehst du im Spiegel gleichzeitig, wie ein Profi (der Lehrer mit der Lösung) das gleiche Motiv fotografieren würde.
Du siehst sofort: "Oh, der Profi hätte hier einen anderen Winkel gewählt." Du kannst deinen Fokus sofort anpassen, noch bevor das Foto fertig ist.

Warum ist das so genial?

Kein externer Lehrer nötig: Du brauchst keinen riesigen, teuren Supercomputer als Lehrer. Das Modell lernt von sich selbst, indem es seine eigene "perfekte Version" (mit der Lösung im Kopf) nutzt, um seine "laufende Version" zu verbessern.
Extrem effizient: Der Schüler muss nicht 1000 Mal raten (wie beim Reinforcement Learning). Er lernt aus jedem einzelnen Schritt. Das Papier zeigt, dass diese Methode 8- bis 12-mal schneller ist als die aktuellen besten Methoden, um auf das gleiche Ergebnis zu kommen.
Tiefes Verständnis: Da der Schüler bei jedem Wort Feedback bekommt, lernt er die Logik des Denkens, nicht nur das Endergebnis.

Das Fazit in einem Satz:
OPSD ist wie ein genialer Selbst-Lern-Trick, bei dem ein KI-Modell seine eigene "perfekte Lösung" nutzt, um sich selbst bei jedem einzelnen Schritt zu korrigieren – schneller, billiger und effektiver als wenn es von einem externen Lehrer unterrichtet würde.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers "On-Policy Self-Distillation for Large Language Models" (OPSD) auf Deutsch:

1. Problemstellung und Motivation

Das Paper adressiert die Herausforderungen bei der Nachtrainierung (Post-Training) von Large Language Models (LLMs) für komplexe推理saufgaben (Reasoning), wie z. B. Mathematik. Bisherige Ansätze haben jeweils spezifische Nachteile:

Reinforcement Learning with Verifiable Rewards (RLVR, z. B. GRPO): Diese Methoden sind rechenintensiv, da sie viele Stichproben (Rollouts) pro Prompt benötigen. Das Belohnungssignal ist oft spärlich (nur auf Sequenzebene, z. B. "richtig/falsch"), was zu einem Verschwinden des Gradienten führt, wenn alle Stichproben falsch sind. Zudem fehlt eine feingranulare Token-Level-Rückmeldung.
Supervised Fine-Tuning (SFT): Leidet unter "Exposure Bias", da das Modell während des Trainings nur auf korrekte Expertendaten trainiert wird, während es während der Inferenz eigene Fehler macht, die sich kaskadierend aufbauen.
Traditionelles Knowledge Distillation (Off-Policy): Benötigt ein separates, oft größeres "Lehrer"-Modell. Dies führt zu einem Verteilungsunterschied (Distribution Mismatch) zwischen den Trainingsdaten (vom Lehrer generiert) und den Inferenzdaten (vom Schüler generiert).
On-Policy Distillation (bisher): Löst das Verteilungsproblem, indem der Schüler eigene Trajektorien generiert, benötigt aber immer noch ein externes Lehrer-Modell.

Die zentrale Forschungsfrage: Kann ein einzelnes LLM als sein eigener Lehrer fungieren, indem es seine eigenen (schwächeren) Generierungen anhand von privilegierten Informationen (wie der Ground-Truth-Lösung) bewertet und korrigiert?

2. Methodik: On-Policy Self-Distillation (OPSD)

OPSD ist ein Framework, bei dem ein einziges Modell sowohl die Rolle des Lehrers als auch die des Schülers übernimmt, indem es unterschiedliche Kontexte (Conditioning) nutzt.

Kernkonzept

Das Modell wird in zwei "Policies" instantiiert, die dieselben Parameter $\theta$ teilen, aber unterschiedliche Eingaben erhalten:

Teacher Policy ( $p_T$ ): Erhält den Prompt $x$ und die privilegierte Ground-Truth-Lösung $y^\star$ (z. B. die korrekte Antwort oder einen Chain-of-Thought). Das Modell "rationalisiert" implizit die Lösung, generiert aber keine neuen Tokens für den Lehrer selbst; es dient als Referenzverteilung.
Student Policy ( $p_S$ ): Erhält nur den Prompt $x$ (wie in der normalen Inferenz) und generiert eine eigene Antwort $\hat{y}$ .

Der Trainingsprozess

On-Policy Sampling: Der Student generiert eine Antwort $\hat{y} \sim p_S(\cdot | x)$ .
Dichte Supervision: An jedem Token-Schritt $n$ $n$ des Studentens $\hat{y}$ $\overset{y}{^}$ werden die Wahrscheinlichkeitsverteilungen des Schülers und des Lehrers verglichen.
- Schüler-Verteilung: $p_S(\cdot | x, \hat{y}_{<n})$
- Lehrer-Verteilung: $p_T(\cdot | x, y^\star, \hat{y}_{<n})$
Verlustfunktion: Das Ziel ist es, die Divergenz $D$ $D$ zwischen diesen Verteilungen zu minimieren.
$\mathcal{L}_{OPSD}(\theta) = \mathbb{E}_{(x, y^\star) \sim S} \left[ \mathbb{E}_{\hat{y} \sim p_S(\cdot|x)} \left[ \sum_{n=1}^{|\hat{y}|} D\left( p_T(\cdot | x, y^\star, \hat{y}_{<n}) \parallel p_S(\cdot | x, \hat{y}_{<n}) \right) \right] \right]$
- Wichtig: Gradienten fließen nur durch die Logits des Schülers. Der Lehrer dient als festes Ziel (Target).
- Als Divergenzmaß wird oft die verallgemeinerte Jensen-Shannon-Divergenz (JSD) verwendet.

Vorteile gegenüber anderen Methoden

Dichte Signale: Jeder Token erhält Feedback, nicht nur die gesamte Sequenz.
Kein externes Lehrer-Modell: Spart Rechenressourcen und Speicher.
On-Policy: Vermeidet den Distribution Mismatch, da der Schüler auf seinen eigenen Fehlern lernt.

3. Wichtige Beiträge

Einführung von OPSD: Ein neues Framework, das ein einzelnes Modell nutzt, um sich selbst durch privilegierte Ground-Truth-Informationen zu unterrichten.
Effizienzsteigerung: OPSD erreicht eine 8- bis 12-fache Token-Effizienz im Vergleich zu RL-Methoden wie GRPO. Das bedeutet, dass für das gleiche Leistungsniveau deutlich weniger generierte Tokens und weniger Rechenzeit benötigt werden.
Leistungsvergleich: OPSD übertrifft SFT-Baselines und erreicht auf Wettbewerbs-Mathematik-Benchmarks (AIME, HMMT) eine Leistung, die GRPO entspricht oder diese sogar übertrifft.
Skalierungsanalyse: Die Studie zeigt, dass Self-Distillation eine ausreichende Modellkapazität erfordert. Bei kleineren Modellen (1.7B Parameter) war die Leistung schwankend oder schlechter, während größere Modelle (4B, 8B) signifikante Verbesserungen zeigten.
Vergleich der Lernziele: Die Verwendung einer Full-Vocabulary Divergenz (Abbildung der gesamten Vokabular-Verteilung) erwies sich als überlegen gegenüber reinen Sample-Token-Verfahren (Policy Gradient auf nur dem gewählten Token).

4. Experimentelle Ergebnisse

Die Autoren evaluierten OPSD auf dem Qwen3-Modell-Familie (1.7B, 4B, 8B Parameter) mit Daten aus dem OpenThoughts-Datensatz und testeten auf Benchmarks wie AIME 2024/25, HMMT 2025 und AMO-Bench.

Leistung:
- Qwen3-8B: OPSD erreichte einen Durchschnitt von 52.2% (über alle Benchmarks), verglichen mit 51.3% für GRPO und 50.0% für SFT.
- Qwen3-4B: OPSD (50.4%) übertraf GRPO (49.6%) und SFT (49.6%).
- Qwen3-1.7B: OPSD zeigte hier gemischte Ergebnisse (leichter Rückgang bei HMMT), was darauf hindeutet, dass das Modell zu klein ist, um die privilegierten Informationen effektiv zu nutzen ("Rationalization").
Token-Effizienz:
- GRPO benötigt typischerweise 8 Rollouts mit langen Generierungslängen (bis zu 16k Tokens).
- OPSD benötigt nur 1 Rollout mit kürzeren Längen (z. B. 1024 Tokens) und erreicht dennoch vergleichbare oder bessere Ergebnisse. Dies führt zu einer drastischen Reduktion der Trainingskosten.
Einfluss der Generierungslänge: Längere Generierungen (2048, 4096 Tokens) während des Trainings führten zu besseren Ergebnissen, da mehr Lehrer-Feedback verfügbar war.

5. Bedeutung und Ausblick

OPSD stellt einen Paradigmenwechsel in der Nachtrainierung von LLMs dar. Es demonstriert, dass Self-Distillation eine praktikable Alternative zu teuren RL-Verfahren (wie GRPO/PPO) ist, solange das Modell über ausreichende Kapazität verfügt, um Ground-Truth-Lösungen zu "verstehen" und auf eigene Fehler anzuwenden.

Kosteneffizienz: Durch den Verzicht auf externe Lehrer-Modelle und die Reduzierung der benötigten Stichproben (Rollouts) wird das Training von Reasoning-Modellen deutlich günstiger.
Qualität des Lernsignals: Die Methode nutzt dichte, token-level Feedback-Schleifen, die feiner sind als die binären Belohnungen des RL, aber robuster als reines SFT.
Zukunftsaussichten: Die Autoren schlagen vor, Curriculum-Learning-Strategien zu erforschen, um die Schwierigkeit der Probleme an die wachsenden Fähigkeiten des Modells anzupassen, und untersuchen, wie sich die Methode auf noch größere Modelle (70B+) verhält.

Zusammenfassend bietet OPSD einen effizienten Weg, um die推理sfähigkeiten von LLMs zu verbessern, indem es die "Intelligenz" des Modells nutzt, um sich selbst durch die Analyse korrekter Lösungen zu verbessern, ohne auf externe, teure Lehrer angewiesen zu sein.

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

1. Problemstellung und Motivation

2. Methodik: On-Policy Self-Distillation (OPSD)

Kernkonzept

Der Trainingsprozess

Vorteile gegenüber anderen Methoden

3. Wichtige Beiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers