Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa di questo paper, pensata per chiunque, anche senza un background tecnico.

Immagina che un Modello Linguistico Intelligente (come un robot molto colto) sia come un cuoco esperto. Questo cuoco ha passato anni a studiare milioni di libri di cucina (la fase di "pre-addestramento"). Conosce le ricette, sa come tagliare le verdure e sa esattamente come si presenta un piatto perfetto.

Ora, i ricercatori vogliono insegnargli una cosa completamente nuova: risolvere un puzzle di immagini (un gioco dove devi rimettere insieme i pezzi di una foto tagliata). Questo è un compito che il cuoco non ha mai visto prima.

Il paper si chiede: Qual è il modo migliore per insegnargli questa nuova abilità senza fargli dimenticare tutto quello che sapeva già?

Ci sono due metodi principali per insegnare al cuoco:

1. Il Metodo "SFT" (Supervised Fine-Tuning) = Il Cuoco che impara a memoria

Immagina di dare al cuoco un foglio con la soluzione esatta del puzzle e dirgli: "Ecco la risposta giusta, impara a memoria e ripetila".

Cosa succede: Il cuoco impara velocissimo! In pochi minuti sa già risolvere il puzzle. È come se avesse memorizzato la soluzione a pappagallo.
Il problema: Nel suo entusiasmo per memorizzare la nuova risposta, il cuoco dimentica tutto il resto. Dimentica come si fa una pasta alla carbonara, come si taglia un pomodoro, e persino come si legge un menu. Ha subito quello che gli scienziati chiamano "dimenticanza catastrofica". Ha sacrificato la sua conoscenza passata per la nuova.

2. Il Metodo "RFT" (Reinforcement Fine-Tuning) = Il Cuoco che prova e sbaglia

Invece di dargli la soluzione, dai al cuoco i pezzi del puzzle e gli dici: "Prova a metterli insieme. Se indovini, ti do un punto. Se sbagli, riprova". Il cuoco deve pensare, fare ipotesi, sbagliare e correggersi da solo.

Cosa succede: Ci mette molto più tempo. All'inizio è lento e fa errori. Ma dopo un po' di pratica, impara davvero a capire come funziona il puzzle.
Il vantaggio: Mentre impara, non dimentica le vecchie ricette. Sa ancora fare la carbonara e sa ancora leggere il menu. Perché? Perché ha costruito la nuova abilità partendo da ciò che già sapeva, senza cancellare la vecchia conoscenza.

La Scoperta Sorprendente: Non è la "ricetta", è il "tocco"

I ricercatori hanno scoperto qualcosa di geniale. Hanno notato che il problema non è tanto come si insegna (il metodo), ma cosa si usa per insegnare.

Hanno fatto un esperimento:

Hanno preso il cuoco che aveva imparato col metodo lento (RFT).
Hanno raccolto i suoi pensieri (i suoi tentativi, i suoi ragionamenti mentre risolveva il puzzle).
Hanno usato questi pensieri per insegnare al cuoco veloce (SFT).

Risultato: Il cuoco veloce ha imparato il puzzle rapidamente, ma senza dimenticare le vecchie ricette!

La Metafora Finale: Il Sentiero nella Foresta

Immagina la conoscenza del cuoco come una foresta piena di sentieri battuti (le vecchie conoscenze).

SFT (Metodo vecchio): È come se qualcuno arrivasse con un bulldozer per tagliare un nuovo sentiero dritto verso il puzzle. È veloce, ma il bulldozer distrugge tutto ciò che c'era intorno, cancellando i vecchi sentieri.
RFT (Metodo nuovo): È come se il cuoco camminasse nella foresta, esplorando con cautela. Trova un nuovo sentiero che si intreccia delicatamente con quelli vecchi, senza distruggerli.
La Scoperta: Hanno scoperto che se prendi le "impronte" lasciate dal cuoco mentre esplorava (i sentieri che aveva già trovato naturalmente) e le usi per guidare il bulldozer, il bulldozer può costruire il nuovo sentiero velocemente senza distruggere la foresta.

In Sintesi

Il paper ci dice che per insegnare cose nuove alle Intelligenze Artificiali senza farle diventare "dimenticanti":

Non basta dare loro le risposte pronte (SFT), perché distruggono la memoria.
È meglio farle ragionare da sole (RFT) per trovare le risposte.
Ancora meglio: usare i ragionamenti che l'AI ha prodotto da sola per addestrarla. Questo crea un equilibrio perfetto: impari veloce, ma non dimentichi chi sei.

È come dire: "Non insegnare al tuo studente solo la risposta finale, insegnagli a pensare come ha fatto tu per trovarla, e così non dimenticherà mai le basi."

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "WHY REINFORCEMENT FINE-TUNING PRESERVES PRIOR KNOWLEDGE BETTER: A DATA PERSPECTIVE", presentato come paper di conferenza all'ICLR 2026.

1. Il Problema: Dimenticanza Catastrofica nel Post-Training

Nel contesto dei Large Language Models (LLM) e dei Multimodal Large Language Models (MLLM), gli algoritmi di post-training come il Supervised Fine-Tuning (SFT) e il Reinforcement Fine-Tuning (RFT) sono fondamentali per adattare i modelli a compiti specifici. Tuttavia, esiste un trade-off critico: mentre questi metodi migliorano le prestazioni su nuovi compiti, spesso causano una dimenticanza catastrofica delle conoscenze pregresse (prior knowledge) acquisite durante il pre-addestramento.
La domanda centrale della ricerca è: Perché l'SFT tende a causare una dimenticanza catastrofica mentre l'RFT sembra preservare meglio le conoscenze precedenti, anche quando entrambi mirano ad aumentare la probabilità delle risposte corrette?

2. Metodologia e Setup Sperimentale

Compito di Valutazione: Puzzle Jigsaw

Per isolare l'effetto dell'apprendimento di una conoscenza nuova e assente nei corpus di pre-addestramento, gli autori introducono i puzzle jigsaw (puzzle di immagini) come compito target.

Setup: Un'immagine viene suddivisa in una griglia 3x3, le tessere vengono mescolate e il modello deve riordinarle correttamente.
Novità: Gli esperimenti preliminari mostrano che anche i modelli SOTA (come GPT-4o e Qwen2.5-VL-72B) ottengono un'accuratezza casuale (0%), confermando che questo compito è estraneo alla loro conoscenza preesistente.

Algoritmi Confrontati

Gli autori hanno condotto esperimenti sistematici sulla serie open-source Qwen2.5-VL (modelli 3B e 7B):

SFT (Supervised Fine-Tuning): Addestrato su due tipi di dati:
- Non-Reasoning: Risposte dirette senza processo di pensiero.
- Rea-4o-Rollout: Risposte con tracce di ragionamento (Chain-of-Thought) generate da GPT-4o.
RFT (Reinforcement Fine-Tuning): Utilizzo dell'algoritmo GRPO (Group Relative Policy Optimization) per addestrare il modello a risolvere i puzzle tramite esplorazione e ricompense basate su regole (precisione, formato, hit rate).
SFT su Rollout RFT: Un esperimento chiave dove i dati di addestramento per l'SFT sono stati generati dal modello stesso dopo una fase di RFT (chiamato SFT-Rea-GRPO-Rollout).

Analisi Teorica: Dinamiche di Apprendimento

Per spiegare il fenomeno, gli autori applicano la teoria delle dinamiche di apprendimento (learning dynamics), analizzando come un esempio di addestramento ( $x_u$ ) influenzi la probabilità di un esempio di conoscenza pregressa ( $x_v$ ).

Interferenza (Magnitudine): Misurata tramite la norma dell'Empirical Neural Tangent Kernel (eNTK). Un valore più alto indica un'interferenza maggiore.
Allineamento (Direzione): Analizzato tramite la Perplexity (PPL) del modello base sui dati di addestramento.

3. Risultati Chiave

Trade-off Prestazioni vs. Dimenticanza

SFT: Impara rapidamente il compito dei puzzle (in poche centinaia di step), ma subisce una dimenticanza catastrofica severa su benchmark preesistenti (Grounding, OCR, VQA generale). L'addestramento su dati "Non-Reasoning" è il più dannoso.
RFT: Richiede molti più step (decine di migliaia) per raggiungere prestazioni simili all'SFT, ma preserva quasi completamente le conoscenze pregresse.
SFT su Dati RFT: Quando l'SFT viene eseguito sui dati generati dal modello stesso durante l'RFT (SFT-Rea-GRPO-Rollout), il modello impara il nuovo compito rapidamente e mantiene le prestazioni sui compiti vecchi, superando sia l'SFT standard che quello su dati GPT-4o.

Analisi delle Dinamiche di Apprendimento

Magnitudine dell'Interferenza (eNTK): I dati privi di ragionamento (Non-Reasoning) mostrano un valore di eNTK molto più alto rispetto ai dati con ragionamento. Ciò significa che l'SFT diretto interferisce violentemente con le conoscenze pregresse, spostando bruscamente la distribuzione di output.
Allineamento e Perplexity:
- I dati generati da GPT-4o (Rea-4o-Rollout) risiedono spesso in regioni ad alta perplexity per il modello base, indicando che sono "stranieri" alla sua distribuzione interna.
- I dati generati dall'RFT (Rea-GRPO-Rollout) risiedono naturalmente in regioni a bassa perplexity, allineandosi meglio con lo spazio linguistico già modellato dal pre-addestramento.
Simmetria: Grazie alla proprietà di simmetria delle dinamiche di apprendimento, addestrare su dati che il modello già "capisce" (bassa perplexity) degrada meno la probabilità delle conoscenze pregresse rispetto all'addestramento su dati ad alta perplexity.

Validazione su Altri Compiti

I risultati sono stati confermati su compiti puramente testuali (Qwen2.5-Instruct) in ambiti di Ragionamento Matematico (Open-Reasoner-Zero, GSM8K, MATH-500) e QA Scientifico (Sci-MCQ4). In tutti i casi, l'ordine di gravità della dimenticanza è stato:
Non-Reasoning > Rea-4o-Rollout > Rea-GRPO-Rollout

4. Contributi Principali

Dimostrazione Empirica: Hanno provato che l'RFT può insegnare compiti completamente nuovi (come i puzzle jigsaw) senza sacrificare le competenze pregresse, mentre l'SFT standard fallisce in questo equilibrio.
Ruolo Centrale dei Dati: Hanno dimostrato che la differenza non risiede nell'algoritmo di ottimizzazione in sé, ma nella distribuzione dei dati di addestramento. L'SFT su dati generati dal modello (rollout RFT) replica i benefici dell'RFT, suggerendo che la costruzione del dataset è il fattore critico.
Interpretazione Teorica: Hanno fornito una spiegazione basata sulle dinamiche di apprendimento, decomponendo l'interferenza in magnitudine (norma eNTK) e direzione (allineamento della perplexity). Hanno stabilito che i dati a bassa perplexity (allineati al modello base) sono intrinsecamente meno distruttivi per la conoscenza preesistente.

5. Significato e Implicazioni

Questo lavoro ribalta la prospettiva comune sul post-training:

Non è solo l'algoritmo: La stabilità nel continual learning non dipende esclusivamente dall'uso di algoritmi RL complessi, ma dalla capacità di questi algoritmi di scoprire e rafforzare regioni linguistiche che sono già parzialmente allineate con il modello base.
Strategia Ibrida: Suggerisce una strategia pratica per il futuro: utilizzare una fase breve di RFT per generare dati di ragionamento coerenti con il modello, e poi utilizzare questi dati per un SFT efficiente. Questo permette di ottenere la velocità di apprendimento dell'SFT con la stabilità della conservazione della conoscenza dell'RFT.
Impatto sulla Ricerca: Sposta il focus dalla progettazione di nuovi algoritmi di ottimizzazione alla selezione e costruzione intelligente dei dati (data-centric approach) come chiave per mitigare la dimenticanza catastrofica nei modelli multimodali e linguistici.

In sintesi, il paper conclude che l'RFT preserva meglio la conoscenza perché, attraverso l'esplorazione attiva, trova esempi che il modello ha già una certa familiarità (bassa perplexity), riducendo l'interferenza con le conoscenze preesistenti, mentre l'SFT su dati esterni spesso forza il modello in regioni di spazio ad alta perplexity, causando un collasso delle capacità precedenti.