Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der "Fremde" im Klassenzimmer

Stellen Sie sich vor, ein großes Sprachmodell (eine KI) ist wie ein brillanter Schüler, der jahrelang in einer Bibliothek gelernt hat. Er kennt die Sprache, die Grammatik und den Stil perfekt.

Jetzt wollen wir ihn für eine spezielle Prüfung (z. B. Mathematik) weiterbilden.

Der alte Weg (SFT - Supervised Fine-Tuning): Der Lehrer gibt dem Schüler einen Stapel mit fertigen Lösungen von einem strengen Mathematiker. Der Schüler muss diese Lösungen einfach auswendig lernen. Das Problem? Wenn die Lösungen des Mathematikers zu anders sind als die Art, wie der Schüler normalerweise denkt, gerät der Schüler in Panik. Er versucht, alles zu kopieren, verliert dabei aber sein eigenes Verständnis und vergisst sogar, wie man normale Sätze bildet. Man nennt das "katastrophales Vergessen".
Der teure Weg (RL - Reinforcement Learning): Der Lehrer lässt den Schüler selbst Aufgaben lösen, gibt ihm Punkte für richtige Antworten und Strafpunkte für falsche. Das funktioniert super, ist aber extrem langsam und teuer, weil der Schüler tausende Versuche braucht, um zu verstehen, was gut ist.

Die Frage des Papiers: Gibt es einen Weg, der so schnell ist wie das Auswendiglernen (SFT), aber so gut generalisiert wie das selbstständige Üben (RL)?

Die Lösung: "On-Policy SFT" – Den Schüler in seiner eigenen Welt abholen

Die Autoren sagen: "Ja, aber wir müssen die Daten anpassen, damit sie zum Schüler passen, nicht den Schüler an die Daten."

Dafür haben sie zwei neue Werkzeuge entwickelt, die auf einer Theorie namens DDT (Distribution Discriminant Theory) basieren.

1. Die Theorie: Der "Geruchs-Test" (DDT)

Stellen Sie sich vor, der Schüler hat einen sehr feinen Geruchssinn für seine eigene Art zu denken.

Wenn er eine neue Information bekommt, die zu seinem Stil passt (z. B. "Lass uns das Schritt für Schritt durchgehen"), riecht es für ihn vertraut. Das ist "In-Distribution".
Wenn die Information fremd und unnatürlich ist (z. B. eine sehr steife, roboterhafte Formel, die er nie benutzt), riecht es für ihn "falsch". Das ist "Out-of-Distribution".

Die Autoren haben mathematisch bewiesen, wie man diesen "Geruch" (die Wahrscheinlichkeit) misst. Sie sagen: "Wir sollten nur das lernen, was für den Schüler natürlich riecht, und das ignorieren, was ihn verwirrt."

2. Werkzeug A: IDFT (Intelligentes Lernen)

Statt den Schüler zu zwingen, jede Zeile der fremden Lösungen perfekt zu kopieren, nutzen wir den "Geruchs-Test":

Vertraute Teile: Wenn der Schüler eine Lösung liest, die seinem Stil entspricht, lernt er sie intensiv.
Fremde Teile: Wenn die Lösung zu fremd riecht (z. B. ein seltsames Wort oder eine unnatürliche Struktur), dämpft der Algorithmus den Lernimpuls. Es ist, als würde der Lehrer sagen: "Das ist zu schwer oder zu anders für dich gerade. Ignoriere es für den Moment, damit du nicht verwirrt wirst."
Ergebnis: Der Schüler lernt die Mathematik, behält aber seinen eigenen, natürlichen Sprachstil bei. Er vergisst nichts Wichtiges.

3. Werkzeug B: Hinted Decoding (Der "Übersetzer")

Manchmal sind die Lösungen im Lehrbuch so fremd, dass der Schüler sie gar nicht verstehen kann. Hier kommt der "Übersetzer" ins Spiel.

Der Schüler sieht die richtige Antwort (z. B. "Die Lösung ist 42").
Aber er darf die Antwort nicht einfach abschreiben. Stattdessen nutzt der Algorithmus eine Technik, die wir Hinted Decoding nennen.
Die Analogie: Stellen Sie sich vor, der Schüler muss einen Text schreiben. Er kennt die Antwort (das Ziel), aber er weiß nicht, wie er dorthin kommt. Der Algorithmus hilft ihm:
- Bei sicheren Schritten (z. B. "1 + 1 = 2") lässt er den Schüler selbst entscheiden, wie er es formuliert (damit es natürlich klingt).
- Bei kritischen Schritten (wo die Logik wichtig ist), gibt der Algorithmus einen leichten "Hinweis" (Hint), damit der Schüler nicht vom Weg abkommt.
Das Ergebnis: Der Schüler schreibt eine Antwort, die mathematisch korrekt ist (wie im Lehrbuch), aber sprachlich klingt, als hätte er sie selbst geschrieben. Er hat die Logik verinnerlicht, ohne seinen Stil zu verlieren.

Warum ist das so toll?

Bisher musste man entweder:

Den Schüler zwingen, fremde Texte zu lernen (gut für die Prüfung, aber er verliert seine Persönlichkeit).
Oder den Schüler tausende Male selbst üben lassen (sehr teuer und langsam).

Mit diesem neuen Ansatz:

Wir nehmen die vorhandenen Daten (die oft zu fremd sind).
Wir "übersetzen" sie mit Hinted Decoding, damit sie zum Schüler passen.
Wir lassen den Schüler mit IDFT lernen, wobei er nur das wirklich Wichtiges aufnimmt und Fremdes ignoriert.

Das Endergebnis: Der Schüler wird in Mathematik (oder anderen Aufgaben) fast so gut wie bei der teuren Selbstlern-Methode (RL), bleibt aber schnell, billig und behält dabei seinen eigenen, natürlichen Charakter. Es ist, als würde man einem Schüler einen neuen Mantel geben, der perfekt passt, statt ihn in einen zu großen oder zu kleinen zu stecken.

Zusammenfassend: Die Autoren haben einen Weg gefunden, KI-Modelle effizient zu trainieren, indem sie die Daten an das Modell anpassen, statt das Modell an die Daten zu zerren. Das spart Zeit, Geld und verhindert, dass die KI ihre eigene "Persönlichkeit" verliert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Kluft zwischen Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) im Post-Training von Large Language Models (LLMs).

SFT: Ist rechnerisch effizient und dateneffizient, neigt jedoch zu einer schlechteren Generalisierung im Vergleich zu RL. Ein Hauptgrund ist, dass SFT externe Daten (oft aus einem festen Datensatz) erzwingt, was zu einer Diskrepanz zwischen der Trainingsdatenverteilung und der nativen Modellverteilung führt. Dies kann zu katastrophalem Vergessen (Verlust von Vorwissen) führen, da das Modell versucht, Daten zu lernen, die stark von seiner eigenen Verteilung abweichen.
RL (z. B. RLHF, DPO, SimPO): Nutzt On-Policy-Daten (vom Modell selbst generierte Rollouts), was die Generalisierung verbessert und das Vergessen verhindert. Allerdings ist RL rechenintensiv, benötigt oft schwierige Belohnungssignale (Rewards) und ist in Szenarien mit objektiven Lösungen (wie Mathematik oder Code) oft ineffizient, da es nur ein terminales Signal erhält.

Die zentrale Forschungsfrage lautet: Kann man die Generalisierungsvorteile von RL (On-Policy-Lernen) mit der Effizienz von SFT vereinen, indem man den Trainingsprozess an die native Verteilung des Modells anpasst, ohne RL zu verwenden?

2. Methodik und Theoretischer Rahmen

Die Autoren schlagen einen Rahmen vor, der auf der Distribution Discriminant Theory (DDT) basiert, um zu quantifizieren, was „in-distribution" (im Verteilungsbereich des Modells) bedeutet.

A. Distribution Discriminant Theory (DDT)

Die DDT formuliert die Erkennung von Verteilungsanpassung als statistisches Hypothesentest-Problem:

Hypothesen: $H_0$ (In-Distribution): Das Token stammt aus der Modellverteilung $p_t$ . $H_1$ (Out-of-Distribution): Das Token stammt aus einer externen Verteilung $q_t$ .
Optimales Kriterium: Durch Anwendung der Signal Detection Theory (SDT) und der Maximierung des Signal-zu-Rausch-Verhältnisses (SNR) wird gezeigt, dass der Centered Log-Likelihood (CLL) der optimale Diskriminator ist.
- Formel: $\phi_t = \log p_t(x_t) + H[p_t]$
- Dabei ist $\log p_t$ die Log-Likelihood und $H[p_t]$ die Entropie der Modellverteilung zum Zeitpunkt $t$ .
Theoretische Eigenschaften:
- Unter $H_0$ bildet die kumulierte Summe $S_k$ eine Martingale mit Erwartungswert Null.
- Unter $H_1$ zeigt $S_k$ einen systematischen negativen Drift (basierend auf der KL-Divergenz).
- Dies ermöglicht eine rigorose Fehlerabschätzung und die Unterscheidung zwischen „schwierigen, aber korrekten" Daten und „rauschbehafteten" oder verteilungsfernen Daten.

B. Anwendung 1: In-Distribution Finetuning (IDFT)

IDFT ist eine Verlustfunktion auf Token-Ebene, die die SFT-Optimierung steuert:

Mechanismus: Der Verlust wird dynamisch gewichtet basierend auf dem CLL-Wert $\phi_t$ .
Adaptive Modulation: Ein Modulationskoeffizient $\gamma_t = \exp(-\phi_t)$ $γ_{t} = exp (- ϕ_{t})$ wird eingeführt.
- In-Distribution ( $\phi_t \approx 0$ ): Standard-Lernen.
- Strong-Domain ( $\phi_t > 0$ ): Verstärkung des Lernens (Konsolidierung).
- Out-of-Distribution ( $\phi_t \ll 0$ ): Unterdrückung des Gradienten (Vermeidung von katastrophalem Vergessen durch Rauschen).
Ziel: Das Modell lernt nur Daten, die seiner aktuellen Kapazität und Verteilung entsprechen, während es vor schädlichen Updates durch OOD-Tokens geschützt wird.

C. Anwendung 2: Hinted Decoding

Dies ist eine Technik auf Datenebene, um Trainingsdaten neu auszurichten, bevor das Training beginnt.

Problem: Standard-Datasets (z. B. mit Lösungen von DeepSeek-R1) passen oft nicht zur Verteilung eines anderen Modells (z. B. Qwen).
Lösung: Ein Decoding-Algorithmus, der zwei Ströme kombiniert:
1. Imitator ( $p_I$ ): Ein Stream, der auf Frage und Antwort (Ground Truth) basiert und die korrekte Antwort sicherstellt.
2. Modell-Stream ( $p_m$ ): Der native Modell-Stream, der den Stil und die Verteilung des Modells beibehält.
Fusion: Die Ausgabe ist eine gewichtete geometrische Mischung der Logits beider Ströme. Das Gewicht $\lambda$ $λ$ hängt von der Entropie des Ziel-Streams ab:
- Bei hoher Unsicherheit (hohe Entropie) dominiert der Modell-Stream (Stilerhaltung).
- Bei niedriger Unsicherheit (hohe Sicherheit) dominiert der Imitator (Korrektheit).
FP-Erkennung: Ein Mechanismus erkennt Inkonsistenzen zwischen Chain-of-Thought (CoT) und Antwort und schaltet nach dem Trennzeichen auf reinen Modell-Modus um, um Konsistenz zu gewährleisten.

3. Wichtige Beiträge

Theoretische Fundierung: Einführung der Distribution Discriminant Theory (DDT), die mathematisch beweist, dass CLL (Log-Likelihood + Entropie) der optimale statistische Test ist, um In-Distribution-Daten zu identifizieren, und liefert Fehlergrenzen für sequenzielle Daten.
IDFT (Loss-Level): Eine neue Verlustfunktion, die SFT durch adaptive Gradientenunterdrückung für OOD-Tokens robust macht und katastrophales Vergessen verhindert.
Hinted Decoding (Data-Level): Ein training-freier Inference-Algorithmus, der externe Datensätze in „On-Policy"-ähnliche Daten umwandelt, die sowohl korrekt als auch stilistisch mit dem Modell kompatibel sind.
Empirische Validierung: Umfassende Experimente zeigen, dass die Kombination aus Hinted Decoding und IDFT die Leistung von Offline-RL-Methoden (wie DPO, SimPO) auf festen Datensätzen übertrifft, bei gleichzeitig deutlich geringerem Rechenaufwand.

4. Ergebnisse

Die Autoren führten Experimente mit verschiedenen Modellen (Qwen2.5, Mistral, LLaMA, DeepSeek-R1-Distill) auf Mathematik- und Code-Datensätzen durch:

Leistung: Die Methode (HD + IDFT) erreichte auf Benchmarks wie AIME, AMC und Olympiad Benchmarks Ergebnisse, die Offline-RL-Methoden (DPO, SimPO, Rejection Sampling) übertreffen, obwohl nur ein fester Datensatz verwendet wurde.
Effizienz: Der Ansatz benötigt weniger GPU-Stunden als RL-Methoden, da er keine wiederholten Rollouts für Belohnungssignale benötigt.
Generalisierung & Vergessen: Im Gegensatz zu reinem SFT oder DFT (Dynamic Fine-Tuning) zeigte IDFT eine signifikant bessere Leistung auf allgemeinen Reasoning-Benchmarks (MMLU, ARC), was beweist, dass katastrophales Vergessen effektiv unterdrückt wurde.
Robustheit: Die Methode funktioniert besonders gut bei starken Instruct-Modellen, bei denen die Lücke zwischen Trainingsdaten und Modellverteilung groß ist.

5. Bedeutung und Fazit

Das Paper bietet einen praktischen und theoretisch fundierten Weg, um die Vorteile von On-Policy-Lernen (wie bei RL) in das effiziente SFT-Framework zu integrieren.

Paradigmenwechsel: Es zeigt, dass man nicht zwingend RL für bessere Generalisierung benötigt, wenn man die Datenverteilung und den Lernprozess theoretisch fundiert anpasst.
Praktische Relevanz: Für Domänen, in denen RL schwer anwendbar ist (z. B. wegen fehlender verifizierbarer Rewards oder hoher Kosten), bietet dieser Ansatz eine überlegene Alternative.
Zukunft: Die Arbeit legt den Grundstein für weitere Forschungen in Bereichen wie spekulatives Decoding, On-Policy-Distillation und Diffusions-LLMs.

Zusammenfassend demonstriert das Paper, dass durch die Kombination einer rigorosen Theorie zur Verteilungsdiskriminierung (DDT) mit adaptiven Trainings- und Decoding-Strategien (IDFT und Hinted Decoding) SFT in seiner Generalisierungsfähigkeit an RL herankommt oder dieses sogar übertrifft, ohne die Rechenineffizienz von RL in Kauf nehmen zu müssen.