On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der fleißige Auswendigler vs. der verstehende Denker

Stell dir vor, du möchtest einem Schüler (einem KI-Modell) beibringen, Mathe zu lösen.

Die alte Methode (SFT – Supervised Fine-Tuning):
Du gibst dem Schüler ein Buch mit 1.000 gelösten Matheaufgaben und sagst: „Lies das genau so nach." Der Schüler ist extrem fleißig. Er lernt jede einzelne Lösung auswendig. Wenn er eine Aufgabe sieht, die exakt wie im Buch aussieht, ist er perfekt. Aber sobald die Aufgabe nur ein bisschen anders formuliert ist oder eine neue Art von Knobelaufgabe kommt, ist er ratlos. Er hat die Formeln auswendig gelernt, aber nicht verstanden, warum sie funktionieren. In der KI-Welt nennen wir das Überanpassung (Overfitting). Das Modell „memoriert" statt zu „generalisieren".

Die neue Methode (RL – Reinforcement Learning):
Hier gibst du dem Schüler keine fertigen Lösungen, sondern sagst: „Versuch es selbst! Wenn du richtig liegst, gibt es einen Punkt. Wenn falsch, gibt es einen Minuspunkt." Der Schüler probiert viele Wege aus, scheitert, lernt daraus und entwickelt eine echte Intuition. Er kann neue, unbekannte Aufgaben lösen. Das ist großartig, aber es kostet viel Zeit und Energie (Rechenleistung), und du brauchst einen strengen Prüfer (Reward Model), der sofort weiß, ob eine Antwort richtig ist.

Die Entdeckung: Warum der fleißige Auswendigler scheitert

Die Autoren dieses Papiers haben sich gefragt: Können wir dem Schüler beibringen, wie ein Denker zu denken, ohne den ganzen Aufwand des „Versuch-und-Irrtum"-Spiels?

Sie haben die Mathematik hinter der alten Methode (SFT) genauer unter die Lupe genommen und eine seltsame Entdeckung gemacht:
Beim Lernen aus dem Buch (SFT) bestraft das System den Schüler unbewusst extrem hart, wenn er unsicher ist.

Die Analogie: Stell dir vor, der Schüler schreibt eine Antwort auf ein Blatt Papier. Wenn er sich zu 99 % sicher ist, dass er richtig liegt, ist die „Strafe" für einen kleinen Fehler gering. Aber wenn er nur zu 1 % sicher ist (weil die Aufgabe schwer ist), wird die „Strafe" für denselben Fehler riesig – wie ein Erdbeben!
Das Ergebnis: Das Modell lernt, nur das zu tun, wovon es sich zu 100 % sicher ist (also das Auswendiglernen), und hat Angst, neue Wege zu gehen, weil die „Strafe" für Unsicherheit zu groß ist. Das führt zu instabilem Lernen und schlechter Verallgemeinerung.

Die Lösung: DFT (Dynamic Fine-Tuning) – Der „Selbstvertrauens-Filter"

Die Autoren haben eine geniale, aber einfache Lösung gefunden: DFT.

Stell dir vor, du hast einen sehr strengen Lehrer, der den Schüler bestraft, wenn er unsicher ist. Die Autoren sagen dem Lehrer: „Halt! Wenn der Schüler unsicher ist, ist das ja gar nicht seine Schuld, sondern ein Zeichen dafür, dass die Aufgabe schwer ist. Wir müssen die Bestrafung anpassen."

Wie funktioniert DFT?
Sie ändern die Lernformel um einen winzigen Faktor (eine Zeile Code). Sie sagen dem Modell:

„Wenn du eine Antwort gibst, bei der du dir nicht sicher bist (niedrige Wahrscheinlichkeit), dann dämpfe die Bestrafung. Wenn du dir sicher bist, lass sie normal."

Die Metapher:
Stell dir vor, du lernst Klavierspielen.

Altes SFT: Wenn du einen Ton falsch spielst, schreit der Lehrer dich an, besonders laut, wenn du unsicher warst, diesen Ton zu spielen. Du lernst nur noch die Töne, bei denen du keine Angst hast, und traut dich nicht, neue Melodien zu improvisieren.
Neues DFT: Der Lehrer sagt: „Wenn du unsicher warst und den Ton falsch triffst, ist das okay. Wir nehmen den Fehler nicht so schwer. Aber wenn du dir sicher warst und ihn trotzdem falsch triffst, dann müssen wir dran arbeiten."
Das Ergebnis: Der Schüler traut sich, schwierige Passagen zu üben, ohne panisch zu werden. Er entwickelt ein besseres Gefühl für die Musik (Verallgemeinerung).

Was passiert dabei?

Stabilität: Das Lernen wird ruhiger. Das Modell muss nicht mehr gegen die riesigen „Strafen" für Unsicherheit ankämpfen.
Bessere Generalisierung: Das Modell lernt die Struktur der Probleme, nicht nur die Antworten. Es kann Aufgaben lösen, die es noch nie gesehen hat (z. B. neue Mathe-Olympiaden-Aufgaben).
Einfachheit: Es braucht keinen neuen „Prüfer" (Reward Model) und keinen teuren „Versuch-und-Irrtum"-Prozess. Es ist einfach eine kleine Anpassung beim normalen Lernen aus Beispielen.

Die Ergebnisse in der Praxis

Die Autoren haben das an verschiedenen KI-Modellen getestet:

Mathe: Das Modell wurde deutlich besser in schwierigen Knobelaufgaben (wie AIME oder AMC), wo die alten Methoden oft versagten oder sogar schlechter wurden.
Programmieren: Es schrieb besseren Code.
Bilder & Text: Es verstand auch komplexe Zusammenhänge zwischen Bildern und Text besser.

Ein kleiner Haken (Grenzen):
Die Methode funktioniert super, wenn es um Logik und Denken geht (wie Mathe oder Programmieren). Aber wenn es darum geht, reines Faktenwissen auswendig zu lernen (z. B. „Wie heißt die Hauptstadt von Peru?"), ist die alte Methode (SFT) manchmal noch besser. Denn beim Faktenwissen will man ja, dass das Modell die Antwort sofort und sicher weiß, ohne zu „improvisieren".

Fazit

Das Papier zeigt uns, dass wir KI-Modelle nicht nur wie Roboter ausbilden müssen, die Befehle auswendig lernen. Mit einer kleinen mathematischen Korrektur (DFT) können wir ihnen beibringen, selbstbewusster zu lernen. Sie werden mutiger, probieren mehr aus und werden dadurch schlauer – und das alles, ohne den enormen Aufwand von Reinforcement Learning.

Es ist wie der Unterschied zwischen einem Schüler, der nur die Lösungen abschreibt, und einem Schüler, der wirklich versteht, wie die Mathematik funktioniert. Und das Beste: Der Lehrer muss dafür nur eine einzige Regel ändern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das bekannte Problem der begrenzten Generalisierungsfähigkeit von Supervised Fine-Tuning (SFT) bei Large Language Models (LLMs) im Vergleich zu Reinforcement Learning (RL).

Herausforderung: Während SFT effizient ist und Expertendemonstrationen imitiert, neigt es oft zum Overfitting und zeigt schlechtere Generalisierung auf komplexen Aufgaben (z. B. mathematisches Reasoning, Code-Generierung) als RL-Methoden.
Theoretische Lücke: Es ist unklar, warum SFT trotz ähnlicher Ziele (Optimierung einer Policy) schlechter generalisiert als RL, insbesondere wenn nur positive Demonstrationsdaten ohne explizite Reward-Funktionen vorliegen.
Limitationen bestehender Ansätze: Hybride Ansätze (SFT gefolgt von RL) sind rechenintensiv und benötigen oft Reward-Modelle oder negative Beispiele, die in der Praxis nicht immer verfügbar sind.

2. Methodik: Dynamic Fine-Tuning (DFT)

Die Autoren leiten eine theoretische Verbindung zwischen SFT und RL her und schlagen darauf basierend eine neue Methode vor.

Theoretische Analyse

SFT als Policy Gradient: Die Autoren zeigen mathematisch, dass der Gradient des Standard-SFT unter bestimmten Annahmen als Policy-Gradient mit einer impliziten, aber problematischen Reward-Struktur interpretiert werden kann.
Das Problem der inversen Wahrscheinlichkeit: Durch Umformulierung mittels Importance Sampling wird der SFT-Gradient als Erwartungswert unter der aktuellen Policy dargestellt. Dabei taucht ein Gewichtungsterm $1/\pi_\theta(y|x)$ $1/ π_{θ} (y ∣ x)$ auf (invers zur Wahrscheinlichkeit des Tokens).
- Wenn das Modell einer Expertenantwort eine niedrige Wahrscheinlichkeit zuweist, wird der Gradient durch diesen Term exzessiv groß.
- Dies führt zu einer instabilen Optimierung und einer „schlecht gestellten" Reward-Landschaft, die das Overfitting auf seltene, exakte Matches fördert und die Generalisierung hemmt.

Die Lösung: Reward Rectification (DFT)

Um dieses Problem zu lösen, schlagen die Autoren Dynamic Fine-Tuning (DFT) vor.

Kernidee: Die Zielfunktion wird dynamisch mit der Wahrscheinlichkeit des Tokens reskaliert, um den störenden inversen Gewichtungsterm ( $1/\pi$ ) zu neutralisieren.
Implementierung:
- Der Verlust wird modifiziert, indem der Term $\log \pi_\theta(y_t | y_{<t}, x)$ mit der Wahrscheinlichkeit $\pi_\theta(y_t | y_{<t}, x)$ multipliziert wird.
- Um Gradienteninstabilitäten zu vermeiden, wird ein Stop-Gradient-Operator (sg) auf den Wahrscheinlichkeitsterm angewendet, der nicht zurückpropagiert wird.
- Die Formel lautet:
  $L_{DFT} = \mathbb{E} \left[ - \sum_{t} \text{sg}(\pi_\theta(y_t | \dots)) \cdot \log \pi_\theta(y_t | \dots) \right]$
Effekt: Dies verwandelt den Gradienten von einem potenziell instabilen Schätzer in einen stabileren, gleichmäßiger gewichteten Update-Regel, die sich dem Verhalten von RL-Updates (mit uniformer Reward für korrekte Pfade) annähert.
Einfachheit: Die Methode erfordert nur eine Zeilenänderung im Code (Multiplikation des Cross-Entropy-Loss mit der Token-Wahrscheinlichkeit).

3. Wichtige Beiträge

Theoretische Einordnung: Mathematische Herleitung, die SFT als speziellen Fall von RL mit einer durch inverse Wahrscheinlichkeit verzerrten Reward-Funktion identifiziert.
Neue Methode (DFT): Entwicklung einer einfachen, aber theoretisch fundierten Korrektur (Reward Rectification), die die Generalisierung von SFT verbessert, ohne externe Reward-Modelle oder negative Beispiele zu benötigen.
Breite Validierung: Umfassende Experimente über verschiedene Domänen (Mathematik, Code, Multimodalität) und Modellarchitekturen hinweg.

4. Ergebnisse

Die Experimente zeigen konsistente und signifikante Verbesserungen gegenüber Standard-SFT und sogar gegenüber fortschrittlichen RL-Methoden.

Mathematisches Reasoning:
- Auf Benchmarks wie Math500, OlympiadBench, AIME 2024 und AMC 2023 erzielt DFT auf Modellen wie Qwen2.5-Math und LLaMA-3 deutliche Gewinne.
- Beispiel: Auf Qwen2.5-Math-1.5B erreichte DFT einen Durchschnittsgewinn von +15,66 Punkten gegenüber dem Basis-Modell, während Standard-SFT nur +2,09 Punkte brachte.
- DFT verhindert den Leistungsabfall, der bei Standard-SFT auf schwierigen Benchmarks (z. B. OlympiadBench) oft beobachtet wird.
Offline RL Setting:
- DFT übertrifft etablierte Offline-RL-Methoden wie DPO und RFT/RAFT.
- Überraschenderweise erreicht DFT auf mathematischen Aufgaben sogar Ergebnisse, die mit Online-RL-Methoden wie PPO und GRPO konkurrieren oder diese übertreffen, obwohl DFT keine iterative Sampling-Phase oder Referenzmodelle benötigt.
Code-Generierung & Multimodalität:
- Verbesserungen wurden auch auf Benchmarks für Code-Generierung (HumanEval, MultiPL-E) und multimodales Reasoning (MathVerse, MathVision) nachgewiesen.
Konvergenzverhalten:
- DFT konvergiert schneller und erreicht frühe Spitzenleistungen, was auf stabilere Gradientenupdates hindeutet.
Analyse der Token-Verteilung:
- Im Gegensatz zu SFT, das Wahrscheinlichkeiten uniform erhöht, führt DFT zu einer polarisierten Verteilung: Es erhöht die Wahrscheinlichkeit semantisch wichtiger Tokens stark, während es die Wahrscheinlichkeit von Funktionswörtern (z. B. „the", „let") reduziert. Dies deutet auf eine bessere Regularisierung hin.

5. Bedeutung und Limitationen

Bedeutung: Die Arbeit schließt die Lücke zwischen SFT und RL, indem sie zeigt, dass SFT durch eine einfache Anpassung der Zielfunktion generalisierender gemacht werden kann. Sie bietet eine ressourceneffiziente Alternative zu komplexen RL-Pipelines, die in Szenarien mit rein positiven Demonstrationsdaten besonders wertvoll ist.
Limitationen:
- DFT ist nicht universell überlegen. In Domänen, die primär das Erlernen von faktischem Wissen erfordern (z. B. Natural Questions), kann DFT schlechter abschneiden als Standard-SFT, da es das Lernen von unsicheren Fakten (niedrige initiale Wahrscheinlichkeit) durch die Gewichtung unterdrückt.
- Die Methode ist am effektivsten bei Aufgaben, die logisches Reasoning oder strukturierte Vorhersagen erfordern, wo das Modell bereits über eine gewisse Vorhersagekompetenz verfügt.

Fazit: Das Paper liefert einen wichtigen theoretischen Einblick in die Natur von SFT und stellt mit DFT eine praktische, leicht implementierbare Methode vor, die die Generalisierungsfähigkeit von LLMs signifikant verbessert und die Notwendigkeit komplexer RL-Setups in vielen Fällen reduziert.

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Das Problem: Der fleißige Auswendigler vs. der verstehende Denker

Die Entdeckung: Warum der fleißige Auswendigler scheitert

Die Lösung: DFT (Dynamic Fine-Tuning) – Der „Selbstvertrauens-Filter"

Was passiert dabei?

Die Ergebnisse in der Praxis

Fazit

1. Problemstellung

2. Methodik: Dynamic Fine-Tuning (DFT)

Theoretische Analyse

Die Lösung: Reward Rectification (DFT)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Limitationen

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank