NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Wiskundige die uit zijn fouten leert

Stel je voor dat je een zeer slimme robot (een Large Language Model of LLM) wilt leren wiskunde doen. Tot nu toe waren er twee hoofdmanieren om dit te doen:

Supervised Learning (SL) - De "Voorbeeld-leraar": Je geeft de robot duizenden voorbeeldvragen met het juiste antwoord. De robot leert door deze na te bootsen. Het probleem? Als de robot een fout maakt, gooi je dat antwoord gewoon weg. De robot leert alleen wat hij goed doet, niet wat hij fout doet. Het is alsof je een kind alleen laat oefenen met de antwoorden die je al hebt, en als het kind fout zit, zeg je: "Nee, dat doen we niet."
Reinforcement Learning (RL) - De "Strakke Coach": De robot probeert zelf antwoorden te bedenken. Een strenge scheidsrechter (een verifier) kijkt of het antwoord goed of fout is. Als het fout is, krijgt de robot een straf; als het goed is, een beloning. De robot leert door te proberen en te falen, net als een atleet die traint tot hij perfect is. Dit werkt heel goed, maar is complex en duur.

Het Nieuwe Idee (NFT):
De auteurs van dit paper zeggen: "Wacht even. Waarom moeten we die fouten van de robot weggooien? Waarom kunnen we de robot niet leren om uit zijn eigen fouten te leren, zonder een strenge coach?"

Ze noemen hun nieuwe methode NFT (Negative-aware Fine-Tuning). Let op: dit heeft niets te maken met die dure digitale plaatjes (Non-Fungible Tokens). Hier betekent het Negatieve Bewuste Finetuning.

De Analogie: De Chef-kok en de Brandende Soep

Stel je voor dat je een chef-kok (de AI) wilt trainen om soep te maken.

De oude methode (SL/RFT): De chef maakt soep. Als het goed smaakt, eet je het op en noteer je het recept. Als het te zout is of verbrandt, gooi je de pan weg en maak je een nieuwe. De chef leert alleen wat goed is. Hij weet niet waarom de vorige pan mislukte, omdat die pan weg is gegooid.
De RL-methode: De chef maakt soep. Jij roept: "Te zout!" of "Te weinig kruiden!". De chef moet nu proberen te raden hoe hij de smaak moet aanpassen. Dit werkt, maar het is een langzaam proces van trial-and-error met veel frustratie.
De NFT-methode: De chef maakt soep. Als het verbrandt, gooi je de pan niet weg. Je zegt: "Kijk eens naar deze verbrande soep. Dit is wat er gebeurt als je te lang op het vuur staat." Je gebruikt die verbrande soep om de chef te leren wat hij niet moet doen.

Het Geniale Trucje:
De auteurs ontdekten iets verrassends. Ze zeggen: "We hoeven geen aparte 'straf-robot' te bouwen om de fouten te analyseren."

In plaats daarvan gebruiken ze een wiskundig trucje. Ze zeggen: "Als we weten wat de kans is dat de soep goed is, en we weten hoe de soep eruitzag toen hij fout was, dan kunnen we de 'fout-soep' gebruiken om de 'goede-soep'-recepten te verbeteren."

Het is alsof je een spiegel gebruikt. Als je ziet dat de chef een fout maakt, gebruik je die fout om de spiegel (het model) te corrigeren, zonder dat je een nieuwe leraar nodig hebt.

Waarom is dit belangrijk?

Het is sneller en goedkoper: Je gooit geen data weg. Elke fout die de AI maakt, wordt nuttig gebruikt.
Het werkt net zo goed als de "duurzame" methoden: De resultaten tonen aan dat deze nieuwe methode (NFT) net zo goed presteert als de complexe Reinforcement Learning-methoden (zoals GRPO), maar dan met de eenvoud van Supervised Learning.
Het is een brug tussen twee werelden: Voorheen dachten mensen dat je voor het leren uit fouten (zelfverbetering) per se Reinforcement Learning nodig had. Dit paper bewijst dat je dat ook kunt doen met Supervised Learning, zolang je maar slim met je fouten omgaat.

Samenvattend in één zin:

NFT is een slimme manier om een AI te leren wiskunde te doen door niet alleen naar de juiste antwoorden te kijken, maar ook naar de fouten, zodat de AI uit zijn eigen misstappen kan leren zonder dat er een dure externe leraar nodig is.

Het is alsof je een student niet alleen de antwoordenboekjes geeft, maar ook laat kijken naar de fouten in zijn oude tentamens, zodat hij begrijpt waarom hij het verkeerd deed en het de volgende keer beter doet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Recente doorbraken in wiskundig redeneren van Large Language Models (LLMs) worden grotendeels gedreven door Versterkingsleer (Reinforcement Learning - RL), zoals PPO en GRPO. Deze methoden maken gebruik van verificatie-driven training, waarbij een binaire verifier (juist/onjuist) de leerstroom stuurt zonder dat er menselijke annotaties nodig zijn.

Het traditionele Supervised Learning (SL) wordt echter zelden gebruikt voor dit type training. De heersende opvatting is dat SL alleen geschikt is om positieve voorbeelden (referentieantwoorden) te memoriseren en niet in staat is om te reflecteren op fouten (negatieve feedback). Bestaande SL-baselines zoals Rejection Fine-Tuning (RFT) genereren antwoorden, verwerpen de fouten en trainen alleen op de juiste antwoorden. Dit beperkt het model tot het versterken van wat het al goed doet, in plaats van het leren van zijn eigen mislukkingen, wat essentieel wordt geacht voor algemeen intelligentie.

Methodologie: Negative-aware Fine-Tuning (NFT)

De auteurs introduceren Negative-aware Fine-Tuning (NFT), een geavanceerde SL-methode die LLMs in staat stelt om te leren van zowel positieve als negatieve (foutieve) generaties, zonder externe leraren.

Kernprincipes:

Implicit Negative Policy: In plaats van negatieve antwoorden te verwerpen, bouwt NFT een "impliciete negatieve policy" ( $\pi^-$ ) op die deze fouten modelleert.
Koppeling van Policy's: De auteurs tonen wiskundig aan dat de doel-poly (voor juiste antwoorden, $\pi^+$ ) en de negatieve policy ( $\pi^-$ ) strikt gekoppeld zijn via de oorspronkelijke policy ( $\pi_{old}$ ) en de correctheidskans ( $r_q$ ). De relatie wordt beschreven als:
$\pi_{old}(a|q) = r_q \pi^+(a|q) + (1-r_q) \pi^-(a|q)$
Directe Optimalisatie: Omdat $\pi_{old}$ bekend is en $r_q$ geschat kan worden uit de data, kan het trainen van de negatieve policy ( $\pi^-$ ) op foutieve antwoorden direct leiden tot de optimalisatie van de positieve policy ( $\pi^+$ ).
Loss Functie: NFT gebruikt een aangepaste Maximum Likelihood Loss die zowel positieve als negatieve data integreert. Voor negatieve antwoorden wordt de likelihood-ratio aangepast om te voorkomen dat het model de fouten leert, maar in plaats daarvan de kans op correcte antwoorden maximaliseert.
- De loss bevat een "clipping" mechanisme voor negatieve likelihood ratios om numerieke instabiliteit te voorkomen.
- Er wordt gebruik gemaakt van prompt-weighting ( $\omega(q)$ ) om moeilijke vragen (met een lage correctheidskans) zwaarder te wegen.

Algorithmische Implementatie:
NFT behoudt slechts één modelkopie in het geheugen (zeer geheugenefficiënt). Tijdens de training worden gegenereerde antwoorden gesplitst in positief en negatief. De loss wordt berekend op token-niveau voor beide sets, waarbij de negatieve set een specifieke transformatie ondergaat om de positieve policy te optimaliseren.

Belangrijkste Bijdragen

Paradigmaverschuiving: De auteurs weerleggen de mythe dat zelfverbetering via reflectie op fouten exclusief is voor RL. Ze tonen aan dat SL dit even goed kan bereiken door negatieve feedback slim te integreren.
Theoretische Equivalentie: Een van de meest verrassende bevindingen is dat NFT en GRPO (een toonaangevende RL-algoritme) wiskundig equivalent zijn onder strikt on-policy training. Hoewel ze uit verschillende theoretische hoeken komen (SL vs. RL), leiden ze tot dezelfde gradiënten wanneer het model nog niet te veel van de oorspronkelijke policy afwijkt. Het verschil zit hem voornamelijk in hoe ze omgaan met off-policy situaties (clipping strategieën).
Efficiëntie: NFT vereist geen aparte reward-modellen of complexe RL-infrastructuur (zoals meerdere modelkopieën voor PPO), maar bereikt vergelijkbare prestaties met een enkel model.

Resultaten

De auteurs hebben NFT getest op Qwen2.5-Math-7B en Qwen2.5-32B modellen met de DAPO-Math-17k dataset.

Prestaties: NFT presteert consistent beter dan RFT (die alleen positieve data gebruikt) en komt in de buurt van of overtreft state-of-the-art RL-methoden zoals GRPO, Dr. GRPO en DAPO.
- Op de MATH500 benchmark behaalde NFT-7B een score van 83.2, vergeleken met 80.4 voor GRPO en 81.6 voor DAPO.
- Op de AIME25 benchmark behaalde NFT-7B 18.3, wat hoger is dan GRPO (17.1) en DAPO (18.7).
Invloed van Negatieve Data: De prestatieverbetering ten opzichte van RFT is aanzienlijk, wat aantoont dat het leren van fouten cruciaal is. Bij grotere modellen (32B) wordt dit effect nog sterker; hier is het vermogen om fouten te reflecteren een nieuwe bottleneck die RL en NFT oplossen.
Exploratie: NFT behoudt een hogere entropie tijdens training dan RFT, wat wijst op betere exploratie en minder "overfitting" op reeds bekende patronen.

Betekenis en Impact

Dit paper is significant omdat het de theoretische en praktische kloof tussen Supervised Learning en Reinforcement Learning in het domein van binaire feedback-systemen dicht.

Vereenvoudiging: Het toont aan dat complexe RL-architecturen niet strikt noodzakelijk zijn voor verificatie-driven training; een slim ontworpen SL-approach (NFT) kan dezelfde resultaten leveren.
General Intelligence: Het benadrukt dat het vermogen om te reflecteren op eigen fouten (zelfreflectie) een fundamentele eigenschap is van intelligentie, en dat dit niet afhankelijk is van de specifieke leerparadigma (RL vs. SL), maar van de manier waarop negatieve feedback wordt verwerkt.
Toekomstige Richting: De ontdekking van de equivalentie tussen NFT en GRPO suggereert dat toekomstige algoritmen voor LLM-finetuning kunnen worden ontworpen met een hybride of unificerende theorie, waardoor training efficiënter en toegankelijker wordt.

Kortom, NFT bewijst dat Supervised Learning, wanneer het correct wordt uitgebreid met negatieve feedback, een krachtig alternatief is voor RL in wiskundig redeneren, met de voordelen van lagere complexiteit en vergelijkbare of superieure prestaties.

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

De Kern: Een Wiskundige die uit zijn fouten leert

De Analogie: De Chef-kok en de Brandende Soep

Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie: Negative-aware Fine-Tuning (NFT)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics