On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Each language version is independently generated for its own context, not a direct translation.

🎓 De Grote Leerprobleem: "Kletsen" vs. "Begrijpen"

Stel je voor dat je een student wilt leren wiskunde doen. Je hebt twee manieren om dit te doen:

SFT (Supervised Fine-Tuning): Dit is als een student die alleen maar het antwoordboekje uit zijn hoofd leert. Hij kijkt naar de vraag en het perfecte antwoord, en probeert exact datzelfde te herhalen.
- Het probleem: Als de vraag ook maar een klein beetje anders is dan in het boekje, raakt de student in paniek. Hij heeft niet echt begrepen hoe het werkt, hij heeft alleen de tekst "gepauzeerd" (ge memoriseerd). In de wereld van AI noemen we dit overfitting: de AI is te goed in het kopiëren, maar faalt bij nieuwe situaties.
RL (Reinforcement Learning): Dit is als een student die mag experimenteren. Hij probeert een oplossing, krijgt een puntje (beloning) als het goed is, en een nul als het fout is. Hij leert door te proberen en fouten te maken.
- Het voordeel: Deze student begrijpt het principe en kan het toepassen op nieuwe, moeilijke vragen.
- Het nadeel: Dit kost enorm veel tijd, rekenkracht en energie. Het is alsof je de student duizenden keren laat oefenen met een dure trainer die constant moet oordelen.

🚀 De Oplossing: DFT (Dynamic Fine-Tuning)

De auteurs van dit paper zeggen: "Waarom kiezen we? Laten we de kracht van het antwoordboekje combineren met de intelligentie van de experimenteerder, zonder de enorme kosten."

Ze hebben een nieuwe methode bedacht genaamd DFT (Dynamic Fine-Tuning).

De "Magische" Inzage

De onderzoekers keken heel nauwkeurig naar hoe de computer leert tijdens SFT (het uit het hoofd leren). Ze ontdekten een vreemd effect:

Stel, de AI denkt dat het antwoord "42" is, maar ze heeft er maar 1% zekerheid over.
In de standaard methode (SFT) schreeuwt de computer dan: "FOUT! JE MOET DIT LEREN!" en geeft een enorme, wilde correctie.
Dit is als een leraar die een student die net begint te twijfelen, een enorme klap op zijn hoofd geeft. Dat zorgt voor chaos in het leerproces. De AI leert hierdoor niet goed, maar raakt juist in de war.

De Oplossing: De "Verstandige Leraar"

DFT verandert deze dynamiek met één simpele aanpassing (in de code is het slechts één regel):

In plaats van dat de AI schreeuwt als ze twijfelt, zegt DFT: "Oké, je twijfelt. Laten we rustig en gelijkmatig blijven. We geven geen enorme klap, maar een zachte, gestructureerde duw."

De Analogie van de Weegschaal:

Standaard SFT: Als je een lichte veer (een antwoord waar de AI weinig vertrouwen in heeft) op de weegschaal legt, kantelt de hele weegschaal wild. De AI wordt "overgevoelig" voor twijfel.
DFT: DFT legt een extra gewichtje op de veer. Nu kantelt de weegschaal niet meer wild, maar beweegt hij rustig en stabiel. De AI leert op een gezonde manier, zonder in paniek te raken.

🌟 Waarom werkt dit zo goed?

Stabiliteit: De AI leert niet meer door "schokken" te krijgen, maar door een constante, rustige stroom van informatie.
Generalisatie: Omdat de AI niet blindelings probeert elk woord exact te kopiëren, leert ze de structuur van de oplossing. Ze kan het toepassen op vragen die ze nog nooit heeft gezien (zoals de Olympiade-vragen in de test).
Snelheid en Kosten: Het is net zo makkelijk te gebruiken als het oude "uit het hoofd leren" (SFT), maar het werkt net zo goed als de dure "experimenteer-methode" (RL). Je hoeft geen dure beloningssystemen of extra trainers te bouwen.

🧪 De Resultaten in het Kort

De onderzoekers hebben dit getest op:

Wiskunde: Van simpele sommen tot moeilijke Olympiade-vragen. DFT deed het veel beter dan de standaard methode.
Programmeren: Het schreef betere code.
Beeld & Tekst: Het begreep zelfs complexe vragen over plaatjes.

Het grappige detail:
In de standaard methode probeert de AI elk woord perfect te leren, zelfs woorden als "de", "en" of "maar". DFT leert de AI: "Laat die kleine woorden maar rustig zijn, focus op de belangrijke, zware woorden." Dit is als een student die niet urenlang oefent met het schrijven van een puntje, maar wel perfect leert oplossen.

💡 Conclusie

Dit paper toont aan dat je een AI niet hoeft te "fokken" met dure beloningssystemen om slim te maken. Soms moet je alleen de manier waarop je haar corrigeert, iets veranderen.

Door de "schreeuw" van de AI te dempen en de leerstroom te stabiliseren, krijgen we modellen die niet alleen tekst kunnen kopiëren, maar die echt nadenken en zich kunnen aanpassen aan nieuwe uitdagingen. En het beste van alles? Het kost bijna geen extra moeite om dit te implementeren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Supervised Fine-Tuning (SFT) is de standaardparadigma voor het aanpassen van Large Language Models (LLM's) aan expert-demonstraties. Hoewel SFT efficiënt is en snel expert-gedrag leert, vertoont het vaak beperkte generalisatievermogen in vergelijking met Reinforcement Learning (RL). RL presteert beter omdat het gebruik maakt van expliciete beloningssignalen om diverse strategieën te verkennen.

De auteurs identificeren een fundamenteel theoretisch probleem in de standaard SFT-gradiënt:

Implicit Reward Structuur: Wanneer SFT wordt geanalyseerd vanuit een RL-perspectief (via importance sampling), blijkt de gradiëntupdate te corresponderen met een policy gradient waarbij de beloning (reward) impliciet wordt gedefinieerd als een indicatorfunctie die 1 is voor de expert-actie en 0 anders.
Inverse Probability Weighting: De gradiënt bevat echter een gewichtsterm van $1/\pi_\theta(y^*|x)$ , waarbij $\pi_\theta$ de waarschijnlijkheid is die het model toekent aan de expert-actie.
Instabiliteit en Overfitting: Wanneer het model een lage waarschijnlijkheid toekent aan de expert-actie (wat vaak gebeurt bij moeilijke taken of tijdens vroege trainingsfasen), explodeert dit gewicht ( $1/\pi \to \infty$ ). Dit leidt tot een slecht gestelde (ill-posed) reward-landschap, enorme gradiënten en instabiele optimalisatie. Het model neigt hierdoor om zich te focussen op het exact memoriseren van zeldzame trainingsvoorbeelden in plaats van het leren van robuuste patronen, wat resulteert in overfitting en slechte generalisatie.

Methodologie: Dynamic Fine-Tuning (DFT)

Om dit probleem op te lossen, stellen de auteurs Dynamic Fine-Tuning (DFT) voor. De kern van de methode is een theoretisch onderbouwde correctie van de SFT-doelfunctie om de schadelijke inverse-probabiliteit-gewichting te neutraliseren.

Theoretische Afleiding: De auteurs herschrijven de SFT-gradiënt als een policy gradient met een beloning die evenredig is met $1/\pi_\theta$ . Om de generalisatie te verbeteren, wordt voorgesteld om deze distorsie te corrigeren door de beloning dynamisch te herschalen met de waarschijnlijkheid van het token zelf ( $\pi_\theta$ ).
De Loss Functie: In plaats van de standaard cross-entropy loss ( $-\log \pi_\theta$ ), wordt de loss gewogen met de stop-gradient van de token-waarschijnlijkheid. De nieuwe loss voor een token $y_t$ wordt:
$L_{DFT} = -\text{sg}(\pi_\theta(y_t | \dots)) \cdot \log \pi_\theta(y_t | \dots)$
Waarbij $\text{sg}(\cdot)$ de stop-gradient operator is. Dit betekent dat de waarschijnlijkheid wordt gebruikt als een gewicht, maar niet teruggekoppeld wordt in de gradiëntberekening van de loss zelf.
Effect: Door deze aanpassing wordt de gradiënt voor elk token uniform gewogen (effectief een constante factor van 1), in plaats van dat tokens met lage waarschijnlijkheid een disproportioneel grote invloed hebben. Dit transformeert de update-regel van een instabiele, vertekende schatter naar een stabielere, gelijkmatige update die meer lijkt op RL-methoden met een uniforme reward voor correcte antwoorden.
Implementatie: De methode vereist slechts één regel code-aanpassing in de bestaande SFT-implementatie en vereist geen extra reward-modellen, referentiemodellen of online sampling.

Belangrijkste Bijdragen

Theoretisch Inzicht: Het paper biedt een wiskundige link tussen SFT en RL, en identificeert de inverse-probabiliteit-gewichting als de hoofdoorzaak van de generalisatiekloof en instabiliteit in SFT.
DFT Methode: Een eenvoudige, theoretisch gemotiveerde correctie (Reward Rectification) die de SFT-gradiënt stabiliseert en generalisatie verbetert zonder de complexiteit van RL.
Uitgebreide Validatie: De methode is getest op diverse domeinen (wiskundig redeneren, codegeneratie, multi-modale taken) en verschillende modelarchitecturen (Qwen, LLaMA, DeepSeek), waarbij consistent betere resultaten werden behaald dan standaard SFT.
Offline RL Prestaties: DFT presteert niet alleen beter dan SFT, maar slaat ook concurrerende offline RL-methoden (zoals DPO en RFT) en zelfs sommige online RL-methoden (zoals PPO en GRPO) op bepaalde benchmarks, zonder de noodzaak van een referentiemodel.

Resultaten

De experimentele resultaten tonen aanzienlijke verbeteringen:

Wiskundig Redeneren: Op benchmarks zoals Math500, Olympiad Bench, AIME 2024 en AMC 2023 behaalde DFT aanzienlijk hogere scores dan standaard SFT.
- Voorbeeld: Op het Qwen2.5-Math-1.5B model verbeterde DFT de gemiddelde nauwkeurigheid met +15,66 punten ten opzichte van het basismodel, terwijl standaard SFT slechts +2,09 punten verbeterde.
- Op moeilijke benchmarks zoals Olympiad Bench degradeerde standaard SFT vaak (bijv. van 15,88% naar 12,63%), terwijl DFT de prestaties sterk verhoogde (naar 27,08%).
Convergentie: DFT convergeert sneller en bereikt zijn piekprestaties binnen de eerste 120 trainingsstappen, terwijl SFT vaak vastloopt in plateaus of trager convergeert.
Code en Multi-modale Taken: DFT toonde consistente verbeteringen op HumanEval (code) en multi-modale redeneringsbenchmarks (MathVerse, MathVision), wat aantoont dat de methode domein-onafhankelijk werkt.
Offline RL Setting: In een setting met rejection sampling (waarbij meerdere antwoorden per vraag worden gegenereerd), overtrof DFT zowel offline (DPO, RFT) als online (PPO, GRPO) methoden op de meeste benchmarks.
Beperkingen: De auteurs merken op dat DFT minder effectief kan zijn bij het leren van puur feitelijke kennis (fact retrieval), waar standaard SFT soms beter presteert omdat DFT tokens met lage initiële waarschijnlijkheid (vaak nieuwe feiten) minder zwaar weegt.

Significantie

Dit werk is significant omdat het de kloof tussen Supervised Fine-Tuning en Reinforcement Learning overbrugt met een uiterst eenvoudige aanpassing. Het toont aan dat de beperkingen van SFT niet inherent zijn aan het concept van imitatie, maar voortkomen uit een suboptimale implementatie van de gradiëntupdate.

Door de "reward rectification" toe te passen, kunnen onderzoekers en practitioners de generalisatievermogen van LLM's aanzienlijk verbeteren zonder de hoge rekenkosten en complexiteit van volledige RL-pipelines. DFT biedt een nieuwe, lichtgewicht standaard voor post-training van LLM's, vooral waarvoor alleen positieve demonstraties beschikbaar zijn en geen reward-modellen. Het paper suggereert een verschuiving in het ontwerp van objectief functies voor LLM's: van het uniform maximaliseren van waarschijnlijkheid naar het selectief en gestabiliseerd optimaliseren van tokens om overfitting te voorkomen.

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

🎓 De Grote Leerprobleem: "Kletsen" vs. "Begrijpen"

🚀 De Oplossing: DFT (Dynamic Fine-Tuning)

De "Magische" Inzage

De Oplossing: De "Verstandige Leraar"

🌟 Waarom werkt dit zo goed?

🧪 De Resultaten in het Kort

💡 Conclusie

Probleemstelling

Methodologie: Dynamic Fine-Tuning (DFT)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank