NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un bambino (o a un robot) a risolvere problemi di matematica difficili. Fino a poco tempo fa, c'erano due modi principali per farlo, e il mondo pensava che uno fosse molto migliore dell'altro.

1. I Due Metodi Tradizionali

L'Insegnante "Perfettino" (Supervised Learning - SL):
Immagina un insegnante che ti dà solo gli esercizi svolti correttamente. Tu copi la soluzione, la impari a memoria e ripeti.
- Il problema: Se sbagli, l'insegnante butta via il foglio e ti dà un nuovo esercizio corretto. Non impari mai perché hai sbagliato. È come studiare solo le risposte giuste senza mai guardare i tuoi errori.
L'Allenatore "Sperimentale" (Reinforcement Learning - RL):
Immagina un allenatore che ti fa provare mille volte. Se indovini, ti dà un punto (premio). Se sbagli, ti toglie un punto (punizione).
- Il vantaggio: Impari a evitare gli errori perché "senti" la punizione. È molto potente, ma richiede un allenatore esterno (un sistema di ricompensa) e molta energia.

Fino ad oggi, tutti pensavano che per imparare dagli errori (il "pensare critico") servisse per forza il metodo dell'allenatore (RL). Il metodo dell'insegnante (SL) era considerato troppo passivo.

2. La Rivoluzione: NFT (Il "Riflettore Negativo")

Gli autori di questo paper (NVIDIA e Tsinghua) dicono: "Fermatevi! Possiamo fare la stessa cosa potente usando solo il metodo dell'insegnante, ma con un trucco intelligente."

Hanno creato un nuovo metodo chiamato NFT (Negative-aware Fine-Tuning).

Ecco come funziona, con una metafora:

Immagina che il tuo modello di intelligenza sia un cuciniere.

Il metodo vecchio (RFT): Il cuciniere prova a fare una torta. Se viene buona, la mette nel libro delle ricette. Se viene bruciata, la butta nel cestino e prova di nuovo. Il libro delle ricette contiene solo torte perfette.
Il nuovo metodo (NFT): Il cuciniere prova a fare la torta.
1. Se viene buona, la mette nel libro delle ricette (come prima).
2. Ma se viene bruciata? Invece di buttarla, il cuciniere la guarda e dice: "Aspetta, questa torta bruciata mi dice qualcosa. Mi dice che ho messo troppo forno o ho sbagliato l'ordine degli ingredienti."
Il trucco di NFT è che costruisce un "fantasma". Quando il cuciniere vede una torta bruciata, non la guarda come un fallimento, ma immagina: "Se avessi fatto l'opposto di quello che ho fatto per bruciarla, avrei ottenuto la torta perfetta?"

In termini tecnici, NFT crea una "politica negativa" (un modo di pensare agli errori) che è collegata matematicamente alla "politica positiva" (il modo di pensare alle risposte giuste). In pratica, imparare cosa NON fare è la stessa cosa che imparare cosa FARE, se sai come guardare il problema.

3. Perché è una cosa così grande?

Nessun "Allenatore" esterno: Non serve un sistema complesso di premi e punizioni (come nel Reinforcement Learning). Basta guardare le risposte sbagliate e dire: "Ehi, non fare così!". È come imparare da soli, senza bisogno di un professore che ti corregge ogni volta.
È uguale al metodo "super" (ma più semplice): Gli autori hanno scoperto una cosa incredibile: quando il modello impara in tempo reale (online), il loro metodo NFT è matematicamente identico a un algoritmo di Reinforcement Learning molto famoso e potente chiamato GRPO.
- Metafora: È come scoprire che due strade diverse (una di montagna, una in pianura) portano esattamente allo stesso punto. Prima pensavamo che solo la strada di montagna (RL) funzionasse per le montagne russe della matematica, ma ora sappiamo che anche la strada in pianura (SL con NFT) ci arriva, e forse è più facile da percorrere.
Risultati incredibili: Hanno provato questo metodo su modelli di intelligenza artificiale (7 miliardi e 32 miliardi di "cervelli"). I risultati?
- Il metodo NFT ha battuto o pareggiato i migliori metodi di Reinforcement Learning esistenti.
- Ha imparato a ragionare molto meglio rispetto al vecchio metodo che buttava via gli errori.

In sintesi

Prima pensavamo che per diventare geni della matematica servisse un allenatore severo che ti punisce quando sbagli (RL).
Questo paper ci dice: "No, puoi diventare un genio anche studiando da solo, purché tu non butti via i tuoi errori, ma li usi come specchi per capire come migliorare."

Hanno dimostrato che imparare dagli errori (anche senza un insegnante esterno) è la chiave per l'intelligenza, e che lo si può fare con tecniche più semplici ed efficienti di quanto pensassimo. È come passare dal copiare solo i compiti fatti bene, al capire profondamente perché i compiti sbagliati erano sbagliati, per non rifarli mai più.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Negli ultimi anni, le capacità di ragionamento matematico dei Large Language Models (LLM) sono cresciute drasticamente grazie a un cambio di paradigma: dal semplice imitazione (Supervised Learning - SL) all'auto-miglioramento guidato da verifiche (Reinforcement Learning - RL).

Il contesto attuale: L'RL (es. PPO, GRPO) è diventato lo standard per l'addestramento guidato da verificatori binari (corretto/errato), poiché permette al modello di imparare dai propri errori attraverso segnali di ricompensa.
Il limite dello SL: L'apprendimento supervisionato tradizionale è spesso considerato inadatto per questo scopo perché tende a memorizzare solo le risposte corrette (dati positivi) e scarta le risposte errate (dati negativi). Di conseguenza, lo SL non permetterebbe al modello di "riflettere" sui propri fallimenti, limitando la sua capacità di auto-correzione e di raggiungere un'intelligenza generale.
La domanda di ricerca: È possibile ottenere un miglioramento autonomo guidato da verifiche all'interno del paradigma dell'apprendimento supervisionato, senza ricorrere all'RL, sfruttando anche i dati negativi?

2. Metodologia: Negative-aware Fine-Tuning (NFT)

Gli autori propongono NFT (Negative-aware Fine-Tuning), un algoritmo di apprendimento online che permette agli LLM di imparare sia dalle risposte corrette che da quelle errate, mantenendo un approccio puramente supervisionato (basato sulla Massima Verosimiglianza - MLE).

Concetti Chiave:

Rifiuto dei dati negativi vs. Modellazione Implicita:
- Metodi baselines come Rejection Fine-Tuning (RFT) scartano le risposte errate e addestrano solo su quelle corrette.
- NFT, invece, non scarta le risposte negative. Costruisce una politica negativa implicita ( $\pi^-$ ) per modellare le risposte errate.
Accoppiamento delle Politiche:
- Il paper dimostra una relazione matematica stretta tra la politica target positiva ( $\pi^+$ , quella che vogliamo ottimizzare) e la politica negativa ( $\pi^-$ ).
- Utilizzando la regola di Bayes, si mostra che la politica originale $\pi_{old}$ può essere espressa come una combinazione lineare di $\pi^+$ e $\pi^-$ .
- Di conseguenza, ottimizzando la politica negativa implicita sui dati errati, si ottimizza indirettamente la politica positiva target.
Funzione di Perdita (Loss Function):
- NFT utilizza un obiettivo di massima verosimiglianza che include sia i dati positivi che quelli negativi.
- Per i dati negativi ( $r=0$ ), la perdita è calcolata in base alla probabilità che l'output appartenga alla distribuzione negativa, che è derivata dalla differenza tra la distribuzione originale e quella positiva.
- La formula della loss (Eq. 10) include un clipping della probabilità di rapporto (likelihood ratio) per evitare instabilità numeriche quando il modello impara troppo velocemente a evitare errori, garantendo che il termine logaritmico rimanga positivo.
Efficienza:
- NFT richiede la memorizzazione di un solo modello (il modello target), rendendolo molto più efficiente in termini di memoria rispetto all'RL che spesso necessita di mantenere un modello "vecchio" (old policy) per il calcolo dei gradienti o del KL-divergence.

3. Contributi Chiave e Risultati Teorici

Equivalenza tra SL e RL

Uno dei contributi più sorprendenti del paper è la dimostrazione teorica che NFT e GRPO (Group Relative Policy Optimization) sono equivalenti in condizioni di addestramento strictly on-policy.

Nonostante derivino da fondamenti teorici completamente diversi (MLE per NFT vs. Policy Gradient per GRPO), i loro gradienti di ottimizzazione coincidono quando la politica corrente non si discosta troppo da quella di raccolta dati.
La "normalizzazione dell'advantage" (una tecnica empirica usata in GRPO) risulta essere implicitamente presente nella funzione di perdita di NFT.
Le differenze principali emergono solo in setting off-policy, dove NFT adotta una strategia di "decadimento morbido" dei gradienti rispetto al clipping rigido di GRPO.

Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli Qwen2.5-Math da 7B e 32B parametri su diversi benchmark matematici (AIME, MATH500, OlympiadBench, ecc.).

Prestazioni: NFT supera significativamente i baseline di SL (come RFT) e raggiunge prestazioni pari o superiori agli algoritmi RL all'avanguardia come GRPO e DAPO.
- Su Qwen-7B, NFT-7B-Zero ottiene risultati competitivi con modelli zero-shot di dimensioni simili.
- Su Qwen-32B, NFT supera DAPO e GRPO in media su tutti i benchmark.
Impatto dei Dati Negativi:
- L'analisi mostra che il divario di prestazioni tra RFT (solo dati positivi) e gli algoritmi RL/NFT è dovuto principalmente all'incapacità dello SL di sfruttare il feedback negativo.
- In modelli più grandi (32B), il contributo dei dati negativi diventa ancora più critico, suggerendo che i modelli grandi hanno già memorizzato bene le conoscenze di base e il "ragionamento riflessivo" sugli errori è il collo di bottiglia principale.
Esplorazione: A differenza di RFT che tende a ridurre l'entropia (rendendo il modello più conservativo), NFT e gli metodi RL mantengono o aumentano l'entropia, favorendo una maggiore esplorazione durante l'addestramento.

4. Significato e Implicazioni

Questo lavoro ha un impatto significativo sulla comunità dell'IA per diversi motivi:

Ponte Teorico: Colma il divario concettuale tra Supervised Learning e Reinforcement Learning nei sistemi di apprendimento con feedback binario. Dimostra che l'RL non è l'unico modo per ottenere l'auto-miglioramento; una formulazione supervisionata corretta può ottenere gli stessi risultati.
Efficienza e Semplicità: NFT offre un'alternativa all'RL complessa e costosa (che richiede spesso infrastrutture pesanti per gestire più modelli e calcoli di vantaggio). NFT è più semplice da implementare, richiede meno memoria e non necessita di modelli di reward esterni o complessi meccanismi di clipping.
Scalabilità: La capacità di NFT di scalare bene sui modelli più grandi (32B) suggerisce che il futuro dell'addestramento di LLM per il ragionamento potrebbe non richiedere necessariamente architetture RL complesse, ma piuttosto un'ottimizzazione intelligente dei dati di addestramento supervisionato, inclusi gli errori.
Riflessione sugli Errori: Conferma l'ipotesi che la capacità di riflettere sui propri fallimenti è fondamentale per l'intelligenza generale e che questa capacità può essere appresa tramite supervisione, non solo tramite RL.

In sintesi, il paper sfida la narrazione dominante secondo cui solo l'RL può guidare l'auto-miglioramento dei LLM, proponendo NFT come un metodo supervisionato elegante, teoricamente fondato e praticamente superiore che sfrutta intelligentemente i dati negativi per colmare il divario con gli approcci RL.

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

1. I Due Metodi Tradizionali

2. La Rivoluzione: NFT (Il "Riflettore Negativo")

3. Perché è una cosa così grande?

In sintesi

1. Il Problema

2. Metodologia: Negative-aware Fine-Tuning (NFT)

Concetti Chiave:

3. Contributi Chiave e Risultati Teorici

Equivalenza tra SL e RL

Risultati Sperimentali

4. Significato e Implicazioni

Articoli simili

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics