Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du lernst für eine schwierige Mathe-Prüfung. Du hast zwei Möglichkeiten, wie du lernen kannst:

Der harte Weg (Reinforcement Learning): Du versuchst eine Aufgabe. Wenn du sie falsch löst, bekommst du nur ein „Falsch"-Signal. Du weißt nicht, wo genau du den Fehler gemacht hast. Also musst du einfach immer wieder raten, bis du zufällig die richtige Lösung findest. Das kostet viel Zeit und Energie.
Der teure Weg (Distillation mit Lehrer): Du hast einen genialen Professor, der dir Schritt für Schritt zeigt, wie man die Aufgabe löst. Das ist super effizient, aber solche Professoren gibt es nicht immer, und sie zu finden kostet viel Geld.

Die Forscher aus diesem Papier haben nun eine dritte, clevere Methode erfunden, die sie SD-ZERO nennen. Sie funktioniert wie ein intelligenter Selbst-Reflexions-Coach, der dich aus deinen eigenen Fehlern lernen lässt, ohne dass du einen externen Professor brauchst.

Hier ist die Erklärung, wie das funktioniert, in einfachen Bildern:

Das Grundprinzip: Ein Modell, zwei Rollen

Stell dir das KI-Modell wie einen Schüler vor, der zwei Hüte trägt:

Der Generator (Der Schüler): Er versucht, eine Aufgabe zu lösen.
Der Reviser (Der Coach): Er schaut sich die Lösung des Schülers an und sagt: „Moment, hier hast du einen Fehler gemacht" oder „Das ist richtig, aber du könntest es eleganter formulieren."

Phase 1: Das Training des Coaches (SRT)

Zuerst muss der Schüler lernen, wie man sich selbst korrigiert.

Der Schüler löst eine Aufgabe.
Ein einfacher Prüfer sagt nur: „Richtig" oder „Falsch".
Der Trick: Wenn es „Falsch" ist, sagt der Coach dem Schüler: „Warte, das ist falsch, fang nochmal an!" Wenn es „Richtig" ist, sagt er: „Klingt gut, aber formuliere es nochmal etwas kürzer."
Der Schüler schreibt die Antwort neu.
Wichtig: Nur die Antworten, die am Ende richtig sind, werden gespeichert. Der Schüler lernt also nicht nur die richtige Antwort, sondern vor allem den Weg dorthin – also wie man einen Fehler erkennt und ihn korrigiert.

Phase 2: Der Selbst-Reflexions-Loop (Self-Distillation)

Jetzt wird es magisch. Der Coach (der Reviser) ist jetzt so gut, dass er den Schüler (den Generator) direkt verbessern kann.

Der Schüler schreibt eine Antwort.
Der Coach schaut sich die Antwort an und sagt: „Hier hast du einen Fehler gemacht."
Das Geniale: Der Coach gibt nicht nur ein „Falsch"-Signal. Er zeigt dem Schüler genau, welches Wort oder welcher Satzteil falsch war, und wie er es richtig machen sollte.
Der Schüler lernt daraus und passt sein Gehirn so an, dass er die Antwort sofort richtig schreibt, ohne erst einen langen Umweg über das „Falsch"-Signal gehen zu müssen.

Warum ist das so besonders? (Die Analogie)

Stell dir vor, du lernst Klavierspielen.

Bei der alten Methode (RL): Du spielst ein Lied. Der Lehrer sagt nur: „Das war falsch." Du spielst es nochmal. „Falsch." Du spielst es nochmal. Irgendwann triffst du den richtigen Ton. Du hast aber nie gelernt, warum die vorherigen Töne falsch waren.
Bei SD-ZERO: Du spielst ein Lied. Der Lehrer (der Coach) hört dir zu und sagt: „Der Takt bei Takt 3 war zu schnell, und die Note bei Takt 5 war zu tief." Er gibt dir dichte, detaillierte Hinweise.
Das Ergebnis: Du lernst viel schneller. Und das Beste: Du brauchst keinen externen Lehrer, der die Partitur kennt. Der Coach ist einfach eine Version von dir selbst, die gelernt hat, deine Fehler zu analysieren.

Die zwei großen Vorteile

Effizienz: Du brauchst viel weniger Versuche, um gut zu werden. Das System wandelt das einfache „Richtig/Falsch"-Signal in eine detaillierte Anleitung um.
Selbstverbesserung: Das System kann sich immer weiter verbessern. Wenn der Schüler besser wird, wird auch der Coach besser. Sie synchronisieren sich regelmäßig, und das ganze System wird mit jeder Runde schlauer.

Zusammenfassung

SD-ZERO ist wie ein Schüler, der lernt, sein eigener bester Lehrer zu sein.
Es nimmt die rohe Information „Das war falsch" und verwandelt sie in eine detaillierte Anleitung „Hier war der Fehler, und so machst du es richtig". Dadurch wird das Lernen viel schneller, billiger (kein teurer externer Lehrer nötig) und effektiver, besonders bei schwierigen Aufgaben wie Mathe oder Programmieren.

Das Papier zeigt, dass diese Methode Modelle deutlich besser macht als andere aktuelle Methoden, ohne dass man riesige Mengen an teuren, perfekten Beispielen von Menschen sammeln muss.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich des Post-Trainings von Sprachmodellen für verifizierbare Aufgaben (wie Mathematik und Code) dominieren derzeit zwei Ansätze, die jedoch jeweils erhebliche Nachteile aufweisen:

Reinforcement Learning mit Verifizierbaren Rewards (RLVR): Methoden wie GRPO nutzen binäre Rewards (richtig/falsch). Diese sind breit anwendbar, liefern aber nur spärliche Supervision. Das Modell muss durch den Vergleich vieler selbstgenerierter Antworten herausfinden, welche Zwischenschritte korrekt waren, was rechenintensiv und ineffizient ist.
Distillation (Wissensdestillation): Diese Methoden bieten dichte Token-Level-Supervision, benötigen jedoch entweder einen externen, stärkeren Lehrer oder hochwertige Demonstrationen. Das Sammeln solcher Daten ist oft teuer oder unmöglich, wenn keine externen Experten verfügbar sind.

Die zentrale Forschungsfrage lautet: Kann ein Modell seine eigenen (möglicherweise falschen) Versuche und die daraus resultierenden spärlichen binären Rewards nutzen, um sich selbst eine dichte, token-level Supervision zu generieren, ohne externe Lehrer oder hochwertige Demonstrationen?

2. Methodik: Self-Distillation Zero (SD-ZERO)

SD-ZERO ist ein zweiphasiger Ansatz, der ein einzelnes Modell in zwei Rollen versetzt: einen Generator (Student) und einen Reviser (Lehrer). Das Ziel ist es, binäre Rewards in dichte Token-Level-Supervision umzuwandeln.

Phase 1: Self-Revision Training (SRT)

In dieser Phase wird das Modell trainiert, um sowohl zu generieren als auch zu korrigieren.

Prozess: Für eine gegebene Frage $x$ wird eine initiale Antwort $y_{init}$ generiert. Ein binärer Verifizierer prüft die Richtigkeit ( $r \in \{0, 1\}$ ).
Prompting: Basierend auf dem Reward wird ein Steuerungs-Prompt ( $P_r$ $P_{r}$ ) erstellt:
- Wenn $r=1$ (richtig): „Lass mich die Lösung umformulieren."
- Wenn $r=0$ (falsch): „Warte, diese Antwort ist falsch, lass mich von vorne beginnen."
Training: Das Modell generiert eine überarbeitete Antwort $y_{revised}$ . Nur erfolgreiche Revisionen (die zu einer korrekten Antwort führen) werden im Datensatz $D_{REVISION}$ behalten.
Ziel-Funktion ( $L_{SRT}$ ): Das Modell wird auf zwei Aufgaben gleichzeitig trainiert:
1. Revision: Generierung von $y_{revised}$ basierend auf $x$ , $y_{init}$ und $P_r$ .
2. Generierung: Direkte Generierung der korrekten Antwort basierend nur auf $x$ (um die ursprüngliche Generierungsfähigkeit zu erhalten).
Ergebnis: Das Modell lernt explizites Selbstkorrekturverhalten, produziert aber oft sehr lange Antworten, da es den Prozess des „Überdenkens" explizit ausführt.

Phase 2: On-Policy Self-Distillation

In dieser Phase wird das in Phase 1 trainierte Modell (SRT-Modell) als Lehrer verwendet, um das Generator-Modell (Student) zu verbessern.

Mechanismus: Der Student generiert eine Antwort $y$ . Der eingefrorene Lehrer (SRT-Modell) betrachtet diese Antwort zusammen mit dem binären Reward und generiert eine Token-Level-Verteilung für die nächste Token-Vorhersage.
Verlustfunktion: Der Student wird durch Minimierung der KL-Divergenz trainiert, um die Verteilung des Lehrers zu imitieren:
$L_{Self-Distillation} = \mathbb{E} [ D_{KL}(\pi_{student} \parallel \pi_{teacher}) ]$
Effekt: Das Modell „internalisiert" das Korrekturverhalten. Statt den Korrekturprozess explizit auszuführen (was lange Antworten erzeugt), lernt es, die Fehler bereits beim ersten Versuch zu vermeiden. Dies führt zu kürzeren, effizienteren Antworten bei höherer Genauigkeit.

3. Schlüsselbeiträge und Erkenntnisse

Umwandlung von Sparse zu Dense: SD-ZERO ist die erste Methode, die es einem Modell ermöglicht, aus einem einzelnen binären Reward (Richtig/Falsch) eine dichte, token-level Supervision zu extrahieren, indem der Reviser spezifische Token identifiziert, die korrigiert werden müssen.
Token-Level Self-Localization: Analysen zeigen, dass der Reviser bei falschen Antworten die KL-Divergenz (als Reward interpretiert) stark auf die wenigen fehlerhaften Token konzentriert. Er lokalisiert den Fehler und lenkt das Modell auf korrekte Alternativen um, anstatt nur die gesamte Sequenz zu bestrafen.
Iterative Selbst-Entwicklung: Da das Training auch die Korrekturfähigkeit des Modells verbessert, kann das aktualisierte Modell in nachfolgenden Runden als neuer, stärkerer Lehrer dienen (Teacher Synchronization), was zu weiteren Leistungssteigerungen führt.
Keine externen Ressourcen: Im Gegensatz zu anderen Self-Distillation-Methoden (wie SDFT oder OPSD) benötigt SD-ZERO keine externen Lehrer oder hochwertige Demonstrationen; es nutzt nur die eigenen Versuche und den binären Reward.

4. Ergebnisse

Die Methode wurde auf den Modellen Qwen3-4B-Instruct und Olmo-3-7B-Instruct auf Mathematik- und Code-Benchmarks (z. B. AIME24/25, HMMT25, Codeforces, LiveCodeBench) evaluiert.

Leistungssteigerung: SD-ZERO verbessert die Leistung gegenüber den Basismodellen um mindestens 10 %.
- Qwen3-4B: +10,5 % (gegenüber Base).
- Olmo-3-7B: +10,4 % (gegenüber Base).
Vergleich mit Baselines: SD-ZERO übertrifft starke Baselines wie Rejection Fine-Tuning (RFT), GRPO und Self-Distillation Fine-Tuning (SDFT) unter gleichen Trainingsbudgets (gleiche Anzahl an Fragen und generierten Antworten).
- SRT allein (Phase 1) übertrifft bereits SFT und RFT.
- Die Self-Distillation-Phase (Phase 2) steigert die Leistung weiter und reduziert die Antwortlänge um ca. den Faktor 2 im Vergleich zum SRT-Modell.
Effizienz: SD-ZERO benötigt nur eine Antwort pro Frage im Distillations-Phase, während Methoden wie RFT oder GRPO oft mehrere Rollouts pro Frage benötigen, um signifikante Verbesserungen zu erzielen.

5. Bedeutung und Ausblick

SD-ZERO adressiert das fundamentale Problem der Datenknappheit und der hohen Kosten für hochwertige Trainingsdaten im Bereich des Reasoning.

Paradigmenwechsel: Es zeigt, dass ein Modell durch das Lernen, seine eigenen Fehler zu korrigieren, eine interne „Lehrer"-Funktion entwickeln kann, die spärliche Signale in dichte Lernsignale umwandelt.
Effizienz: Die Methode ermöglicht eine signifikante Verbesserung der Reasoning-Fähigkeiten ohne die Notwendigkeit von teuren externen Lehrern oder manuell kuratierten Datensätzen.
Zukünftige Richtungen: Die Autoren sehen Potenzial in der Erweiterung auf „Thinking Models" (Modelle mit langen Denkketten), wobei die Herausforderung darin besteht, produktive Exploration von echten Fehlern zu unterscheiden. Auch die Anwendung in Domänen ohne verifizierbare Rewards (z. B. durch Metakognition) wird als offene Forschungsfrage identifiziert.

Zusammenfassend stellt SD-ZERO einen effizienten, skalierbaren Ansatz dar, der die Lücke zwischen Reinforcement Learning (spärliche Rewards) und Distillation (dichte Supervision) schließt, indem es das Modell befähigt, sich selbst durch iterative Selbstkorrektur zu verbessern.