LLMs Can Learn to Reason Via Off-Policy RL

Il paper introduce OAPL, un nuovo algoritmo di apprendimento per rinforzo off-policy che supera i limiti dei metodi attuali consentendo agli LLM di apprendere il ragionamento in modo efficiente anche con ritardi significativi tra le politiche di addestramento e inferenza, ottenendo prestazioni superiori su benchmark matematici e di coding con un minor numero di generazioni.

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot molto intelligente (un modello linguistico, o LLM) a risolvere problemi di matematica complessa o a scrivere codice. Per farlo, gli diamo un "punteggio" ogni volta che prova una soluzione: se indovina, prende un punto; se sbaglia, non ne prende.

Il problema è come il robot impara da questi punteggi.

Il Problema: Il "Sincronizzatore" Rottto

Fino a poco tempo fa, il metodo standard (chiamato GRPO) funzionava così:

  1. Il robot prova a risolvere un problema.
  2. Il "maestro" (il computer che fa i calcoli) guarda la soluzione, dà il punteggio e aggiorna le regole del robot immediatamente.
  3. Il robot riprova con le nuove regole.

In teoria, questo è perfetto. Ma nella realtà, i computer sono lenti e complessi. Spesso, il "maestro" che corregge i compiti e il "motore" che fa fare le prove al robot non sono perfettamente sincronizzati. È come se il maestro stesse correggendo i compiti di un'ora fa, mentre il robot sta già facendo i compiti di oggi con regole diverse.
Questo crea un disordine: il robot impara da dati che non sono più suoi. I metodi precedenti cercavano di "aggiustare" questo errore con calcoli matematici complicati (come pesare le risposte in modo diverso), ma era come cercare di tenere in equilibrio una torre di Jenga mentre qualcuno la scuote: instabile e lento.

La Soluzione: OAPL (L'Approccio "Off-Policy")

Gli autori di questo paper hanno detto: "Perché cercare di forzare il robot a essere sincronizzato? Perché non accettiamo che sia disallineato e cambiamo il modo in cui insegna?"

Hanno creato un nuovo metodo chiamato OAPL. Ecco come funziona, usando un'analogia semplice:

L'Analogia del "Cucina e Impara"

Immagina un chef (il modello) che sta imparando a cucinare.

  • Il vecchio metodo (GRPO): Il chef assaggia il piatto, il critico lo corregge, e il chef deve subito cambiare la ricetta prima di cucinare il prossimo piatto. Se il critico è lento o se il chef ha già iniziato a cucinare il prossimo piatto con la vecchia ricetta, il sistema si rompe.
  • Il nuovo metodo (OAPL): Il chef cucina 50 piatti di fila usando la ricetta attuale. Nel frattempo, il critico assaggia e corregge i primi 50 piatti. Il chef continua a cucinare i prossimi 50 piatti senza fermarsi. Solo ogni tanto (ogni 50 piatti), il chef si ferma, prende le note del critico e aggiorna la sua ricetta ufficiale.

La magia di OAPL:
Invece di dire "Hai sbagliato perché la tua ricetta era diversa da quella di prima", OAPL dice: "Guarda tutti i piatti che hai cucinato. Quale era il migliore? Quella è la direzione giusta. Ora, aggiorna la tua ricetta per avvicinarla a quella direzione, anche se hai cucinato quei piatti con una ricetta leggermente diversa."

Perché è Geniale?

  1. Non serve la sincronizzazione perfetta: Puoi avere un "ritardo" enorme (fino a 400 passi di calcolo) tra chi genera le risposte e chi le corregge. È come se il chef cucinasse per giorni interi prima di ricevere le correzioni, eppure imparerebbe comunque.
  2. È più veloce ed efficiente: Poiché non si perde tempo a cercare di sincronizzare tutto in tempo reale, il sistema è molto più veloce. Hanno dimostrato che OAPL ha bisogno di 3 volte meno tentativi (generazioni) per raggiungere lo stesso livello di un modello famoso come DeepCoder.
  3. Migliore creatività (Entropia): I metodi vecchi tendevano a far diventare il robot "pessimista" e ripetitivo (per paura di sbagliare). OAPL mantiene il robot più creativo e vario, permettendogli di trovare soluzioni migliori quando ha molte possibilità (misurato con la metrica "Pass@k", ovvero la probabilità di trovare la soluzione giusta tra molti tentativi).

I Risultati

Hanno testato questo metodo su:

  • Matematica: Il robot ha battuto i metodi precedenti in gare di matematica difficili (come l'AIME o l'HMMT).
  • Programmazione: Ha raggiunto le stesse prestazioni di un modello di coding molto avanzato, ma usando un terzo delle risorse.

In Sintesi

Il paper ci dice che non dobbiamo preoccuparci se il nostro insegnante e il nostro studente sono perfettamente sincronizzati. Se accettiamo che ci sia un po' di ritardo e usiamo un metodo di apprendimento più intelligente (OAPL), possiamo addestrare intelligenze artificiali più potenti, più veloci e più creative, senza impazzire cercando di tenere tutto in perfetta sincronia.

È come dire: "Non fermare il treno per controllare il binario. Continua a correre, e correggi la rotta quando hai abbastanza dati, anche se sei un po' indietro."

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →