DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper DeReason, pensata per chiunque, anche senza conoscenze tecniche di intelligenza artificiale.

Immagina di dover addestrare un giovane studente (la nostra Intelligenza Artificiale) per farlo diventare un genio della scienza e della logica. Fino a poco tempo fa, c'era un grande dibattito: è meglio fargli leggere libri di testo (addestramento supervisionato o SFT) o fargli risolvere problemi da solo, sbagliando e correggendosi (apprendimento per rinforzo o RL)?

Gli esperti pensavano che la seconda opzione fosse la "polvere magica" per il ragionamento. Ma questo studio dice: "Aspetta, non è così semplice!".

Ecco come funziona la loro nuova ricetta, DeReason, spiegata con tre metafore chiave:

1. Il Problema: Non puoi saltare la scuola elementare

Gli autori hanno scoperto che se lanci un modello "base" (uno studente appena nato) direttamente in una gara di matematica avanzata o di scienze complesse, fallisce miseramente. È come se dessi a un bambino di 5 anni un libro di fisica quantistica e gli dicessi: "Impara da solo provando e sbagliando!".

La scoperta: Lasciare che l'IA impari solo sbagliando (RL) è lentissimo e inefficiente.
La soluzione migliore: Prima, fagli leggere le risposte giuste scritte da un insegnante competente (SFT). Questo gli dà le basi, le formule e i concetti fondamentali. Senza questo passo, l'IA non sa nemmeno da dove iniziare.

2. La Soluzione: La "Cucina a Due Fasi" (DeReason)

Il punto di svolta di questo paper è capire che SFT e RL non sono nemici, ma hanno compiti diversi. Il segreto non è scegliere l'uno o l'altro, ma dividere i compiti in base alla difficoltà.

Immagina di avere un mucchio enorme di esercizi scolastici. Invece di mescolarli tutti insieme, DeReason li separa in due ceste:

La Cesta "Facile e Ampia" (Per l'Insegnante / SFT):
Qui ci metti tutti i problemi che richiedono di ricordare fatti, definizioni o applicare regole semplici (es. "Qual è la capitale della Francia?" o "Calcola 2+2").
- Cosa succede: L'IA legge le risposte giuste di un insegnante. Impara velocemente a memorizzare le conoscenze di base. È come studiare le mappe prima di partire in viaggio.
La Cesta "Difficile e Complessa" (Per l'Allenatore / RL):
Qui metti solo i problemi "da campioni": quelli che richiedono 10 passaggi di ragionamento, logica complessa o creatività (es. problemi di fisica avanzata o enigmi logici).
- Cosa succede: Ora che l'IA ha le basi, le dici: "Prova a risolvere questi da solo!". Se sbaglia, le dai un feedback (un punto in meno). Se indovina, le dai un premio.
- Perché funziona: L'IA è già abbastanza forte da non perdersi, ma abbastanza "flessibile" da imparare a pensare in modo nuovo quando si trova di fronte a ostacoli difficili.

3. L'Analogia Finale: Il Campione di Scacchi

Pensa a un futuro campione di scacchi:

Fase SFT (Studio): Prima deve studiare le aperture, le regole e le partite famose dei grandi maestri. Deve memorizzare i movimenti. Se saltasse questo passaggio, non saprebbe nemmeno come muovere i pezzi.
Fase RL (Partite contro il computer): Una volta che conosce le regole, inizia a giocare migliaia di partite contro un avversario forte. Qui non impara più le regole a memoria, ma impara la strategia, l'intuizione e come reagire a situazioni impreviste.

DeReason dice: "Non far studiare le regole di scacchi giocando a partite difficili (è frustrante e lento), e non far giocare partite strategiche a chi non sa ancora come muove il cavallo (è inutile). Separa i compiti!"

In sintesi: Cosa ci insegna questo studio?

Non esiste una soluzione unica: L'IA ha bisogno sia di "studio" (SFT) che di "allenamento pratico" (RL).
L'ordine conta: Prima le basi (SFT), poi la sfida (RL).
La selezione è tutto: Non usare tutti i dati per tutto. Dai all'IA le domande facili per imparare i fatti, e tieni le domande difficili per farle allenare il "muscolo" del ragionamento.

Grazie a questo metodo, i modelli di intelligenza artificiale diventano molto più bravi a ragionare su scienza, matematica e logica, senza bisogno di algoritmi complicati, ma semplicemente organizzando meglio i compiti a casa.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning", redatto in italiano.

1. Il Problema

Il Reinforcement Learning with Verifiable Rewards (RLVR) si è dimostrato un paradigma potente per stimolare capacità di ragionamento nei Large Language Models (LLM), specialmente in domini come matematica e coding dove esistono segnali di verifica deterministici. Tuttavia, l'estensione di questo approccio a domini scientifici generali (STEM) presenta sfide significative:

Inefficienza del RL puro: Applicare direttamente l'RLVR a modelli base (senza pre-addestramento) nei domini STEM generali si rivela altamente inefficiente in termini di campioni e spesso sottoperforma rispetto al Supervised Fine-Tuning (SFT) su risposte di qualità moderata.
Mancanza di conoscenza di dominio: Il ragionamento scientifico richiede una vasta conoscenza di base (es. formule fisiche, identità algebriche) che è difficile da acquisire tramite semplice esplorazione per tentativi ed errori (RL), mentre l'SFT offre una via più diretta per la consolidazione della conoscenza.
Interazione SFT-RL non esplorata: Sebbene molte pipeline utilizzino una sequenza SFT seguita da RL, non è chiaro come allocare i dati di addestramento tra queste due fasi. La divisione dei dati è spesso casuale o non ottimizzata, ignorando la natura complementare delle due tecniche.

2. Metodologia: DeReason

Gli autori propongono DeReason, una strategia di addestramento curricolare basata sulla difficoltà che decouple (separa) i dati tra le fasi di SFT e RL. L'approccio opera a livello di selezione dei dati senza modificare gli algoritmi sottostanti.

Il processo si articola in tre fasi principali:

Stima della Difficoltà: Ogni problema nel dataset di addestramento viene valutato da un LLM (di dimensioni simili al modello target, es. Qwen3-4B-Instruct) su una scala da 1 a 5. La valutazione considera il numero di passaggi di ragionamento, la conoscenza di dominio prerequisita e il potenziale di errore.
- Bassa intensità di ragionamento (Punteggi 1-3): Problemi che richiedono principalmente il richiamo di conoscenze o l'applicazione diretta di fatti noti.
- Alta intensità di ragionamento (Punteggi 4-5): Problemi che richiedono derivazioni multi-step e ragionamento complesso.
Partizionamento dei Dati: Il dataset viene diviso in due sottoinsiemi basati su una soglia di difficoltà ( $\tau$ $τ$ ):
- $D_{SFT}$ (Facile/ampio): Contiene problemi a bassa intensità di ragionamento. Su questi dati viene eseguito l'SFT per costruire una base di conoscenza di dominio solida.
- $D_{RL}$ (Difficile/focalizzato): Contiene problemi ad alta intensità di ragionamento. Questi vengono riservati alla fase di RL.
Addestramento Curricolare Decoupled:
- Fase 1 (SFT): Addestramento supervisionato su $D_{SFT}$ per ottenere un modello $\pi_{SFT}$ .
- Fase 2 (RL): Addestramento con GRPO (Group Relative Policy Optimization) su $D_{RL}$ , inizializzando il modello da $\pi_{SFT}$ . L'RL serve qui a spingere il modello oltre i limiti della dimostrazione, esplorando percorsi di ragionamento complessi.

3. Contributi Chiave

Analisi Sistematica SFT vs. RL: Gli autori dimostrano attraverso esperimenti controllati che, per modelli di dimensioni ridotte (es. 4B) in domini STEM generali, l'SFT puro su risposte di qualità moderata supera costantemente l'RL puro applicato al modello base. Questo ribalta la percezione comune che l'RL sia sempre superiore per il ragionamento.
Strategia DeReason: Propongono una strategia di decoupling basata sulla difficoltà che assegna i dati "facili" (ricerca di conoscenza) all'SFT e i dati "difficili" (ragionamento complesso) all'RL. Questo approccio supera le baseline che dividono i dati in modo casuale o utilizzano solo una delle due tecniche.
Analisi Comportamentale Dettagliata: Forniscono una visione granulare della dinamica di addestramento, mostrando come SFT e RL influenzino diversamente l'entropia della policy, la lunghezza delle risposte e l'ottimizzazione del reward.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli base da 4 miliardi di parametri (Qwen3-4B) utilizzando dataset STEM come WebInstruct-Verified e Webscale-RL, valutati su benchmark come MMLU-Pro, GPQA-Diamond, SuperGPQA e BBEH.

Prestazioni Generali: Il modello DeReason (SFT su dati facili + RL su dati difficili) supera significativamente le baseline:
- Rispetto all'RL puro (che fatica a competere con l'SFT).
- Rispetto all'SFT puro (che non riesce a generalizzare oltre le risposte insegnate).
- Rispetto alla divisione casuale dei dati tra SFT e RL.
- Esempio: Su GPQA-Diamond, DeReason ha raggiunto il 50.0% (rispetto al 46.8% di SFT-only e 42.9% di SFT+RL casuale).
Ragionamento Matematico: Anche sui benchmark matematici (AIME24, AIME25, MATH500), la strategia decoupled mostra miglioramenti consistenti rispetto alle controparti SFT-only e RL-only.
Analisi delle Dinamiche:
- Lunghezza delle risposte: Partendo da un checkpoint SFT, l'RL agisce come meccanismo di compressione, riducendo la verbosità mantenendo la gerarchia qualità/lunghezza. Partendo dal modello base, l'RL crea una divergenza drastica: le risposte ad alto punteggio aumentano di lunghezza, quelle a basso punteggio si accorciano.
- Entropia: Il modello inizializzato con SFT parte con un'entropia più bassa e stabile, mentre il modello base subisce un crollo rapido dell'entropia, convergendo verso una policy più deterministica ma con un percorso di addestramento più instabile.

5. Significato e Implicazioni

Il lavoro di DeReason offre un "ricetta" post-training altamente efficace e generalizzabile per il ragionamento STEM.

Ottimizzazione delle Risorse: Dimostra che non è necessario applicare l'RL a tutto il dataset, ma che un'allocazione intelligente basata sulla difficoltà massimizza l'efficienza.
Ruoli Complementari: Conferma che SFT ed RL hanno ruoli distinti: l'SFT è essenziale per l'acquisizione efficiente della conoscenza di base (distillazione), mentre l'RL è cruciale per affinare il ragionamento su problemi complessi che vanno oltre le dimostrazioni supervisionate.
Indipendenza Algoritmica: Poiché DeReason agisce a livello di selezione dei dati, è ortogonale ai miglioramenti algoritmici (come nuovi metodi di ottimizzazione RL) e può essere integrato immediatamente in qualsiasi framework di addestramento esistente.

In sintesi, il paper suggerisce che per i domini generali, la combinazione sequenziale di SFT (su dati facili) e RL (su dati difficili) è superiore sia all'uso esclusivo di una tecnica che a combinazioni non curate, fornendo una guida pratica per lo sviluppo di modelli di ragionamento più robusti.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

1. Il Problema: Non puoi saltare la scuola elementare

2. La Soluzione: La "Cucina a Due Fasi" (DeReason)

3. L'Analogia Finale: Il Campione di Scacchi

In sintesi: Cosa ci insegna questo studio?

1. Il Problema

2. Metodologia: DeReason

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Implicazioni

Articoli simili

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry