DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Il paper presenta DeReason, una strategia di curriculum didattico che migliora l'addestramento sequenziale SFT-RL per il ragionamento generale STEM, assegnando i problemi meno complessi alla fase di SFT per acquisire conoscenze di base e quelli più difficili alla fase RL per affinare le capacità di ragionamento complesso, ottenendo prestazioni superiori rispetto alle metodologie tradizionali.

Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich

Pubblicato 2026-03-13
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper DeReason, pensata per chiunque, anche senza conoscenze tecniche di intelligenza artificiale.

Immagina di dover addestrare un giovane studente (la nostra Intelligenza Artificiale) per farlo diventare un genio della scienza e della logica. Fino a poco tempo fa, c'era un grande dibattito: è meglio fargli leggere libri di testo (addestramento supervisionato o SFT) o fargli risolvere problemi da solo, sbagliando e correggendosi (apprendimento per rinforzo o RL)?

Gli esperti pensavano che la seconda opzione fosse la "polvere magica" per il ragionamento. Ma questo studio dice: "Aspetta, non è così semplice!".

Ecco come funziona la loro nuova ricetta, DeReason, spiegata con tre metafore chiave:

1. Il Problema: Non puoi saltare la scuola elementare

Gli autori hanno scoperto che se lanci un modello "base" (uno studente appena nato) direttamente in una gara di matematica avanzata o di scienze complesse, fallisce miseramente. È come se dessi a un bambino di 5 anni un libro di fisica quantistica e gli dicessi: "Impara da solo provando e sbagliando!".

  • La scoperta: Lasciare che l'IA impari solo sbagliando (RL) è lentissimo e inefficiente.
  • La soluzione migliore: Prima, fagli leggere le risposte giuste scritte da un insegnante competente (SFT). Questo gli dà le basi, le formule e i concetti fondamentali. Senza questo passo, l'IA non sa nemmeno da dove iniziare.

2. La Soluzione: La "Cucina a Due Fasi" (DeReason)

Il punto di svolta di questo paper è capire che SFT e RL non sono nemici, ma hanno compiti diversi. Il segreto non è scegliere l'uno o l'altro, ma dividere i compiti in base alla difficoltà.

Immagina di avere un mucchio enorme di esercizi scolastici. Invece di mescolarli tutti insieme, DeReason li separa in due ceste:

  • La Cesta "Facile e Ampia" (Per l'Insegnante / SFT):
    Qui ci metti tutti i problemi che richiedono di ricordare fatti, definizioni o applicare regole semplici (es. "Qual è la capitale della Francia?" o "Calcola 2+2").

    • Cosa succede: L'IA legge le risposte giuste di un insegnante. Impara velocemente a memorizzare le conoscenze di base. È come studiare le mappe prima di partire in viaggio.
  • La Cesta "Difficile e Complessa" (Per l'Allenatore / RL):
    Qui metti solo i problemi "da campioni": quelli che richiedono 10 passaggi di ragionamento, logica complessa o creatività (es. problemi di fisica avanzata o enigmi logici).

    • Cosa succede: Ora che l'IA ha le basi, le dici: "Prova a risolvere questi da solo!". Se sbaglia, le dai un feedback (un punto in meno). Se indovina, le dai un premio.
    • Perché funziona: L'IA è già abbastanza forte da non perdersi, ma abbastanza "flessibile" da imparare a pensare in modo nuovo quando si trova di fronte a ostacoli difficili.

3. L'Analogia Finale: Il Campione di Scacchi

Pensa a un futuro campione di scacchi:

  1. Fase SFT (Studio): Prima deve studiare le aperture, le regole e le partite famose dei grandi maestri. Deve memorizzare i movimenti. Se saltasse questo passaggio, non saprebbe nemmeno come muovere i pezzi.
  2. Fase RL (Partite contro il computer): Una volta che conosce le regole, inizia a giocare migliaia di partite contro un avversario forte. Qui non impara più le regole a memoria, ma impara la strategia, l'intuizione e come reagire a situazioni impreviste.

DeReason dice: "Non far studiare le regole di scacchi giocando a partite difficili (è frustrante e lento), e non far giocare partite strategiche a chi non sa ancora come muove il cavallo (è inutile). Separa i compiti!"

In sintesi: Cosa ci insegna questo studio?

  • Non esiste una soluzione unica: L'IA ha bisogno sia di "studio" (SFT) che di "allenamento pratico" (RL).
  • L'ordine conta: Prima le basi (SFT), poi la sfida (RL).
  • La selezione è tutto: Non usare tutti i dati per tutto. Dai all'IA le domande facili per imparare i fatti, e tieni le domande difficili per farle allenare il "muscolo" del ragionamento.

Grazie a questo metodo, i modelli di intelligenza artificiale diventano molto più bravi a ragionare su scienza, matematica e logica, senza bisogno di algoritmi complicati, ma semplicemente organizzando meglio i compiti a casa.