LLMs Can Learn to Reason Via Off-Policy RL

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot molto intelligente (un modello linguistico, o LLM) a risolvere problemi di matematica complessa o a scrivere codice. Per farlo, gli diamo un "punteggio" ogni volta che prova una soluzione: se indovina, prende un punto; se sbaglia, non ne prende.

Il problema è come il robot impara da questi punteggi.

Il Problema: Il "Sincronizzatore" Rottto

Fino a poco tempo fa, il metodo standard (chiamato GRPO) funzionava così:

Il robot prova a risolvere un problema.
Il "maestro" (il computer che fa i calcoli) guarda la soluzione, dà il punteggio e aggiorna le regole del robot immediatamente.
Il robot riprova con le nuove regole.

In teoria, questo è perfetto. Ma nella realtà, i computer sono lenti e complessi. Spesso, il "maestro" che corregge i compiti e il "motore" che fa fare le prove al robot non sono perfettamente sincronizzati. È come se il maestro stesse correggendo i compiti di un'ora fa, mentre il robot sta già facendo i compiti di oggi con regole diverse.
Questo crea un disordine: il robot impara da dati che non sono più suoi. I metodi precedenti cercavano di "aggiustare" questo errore con calcoli matematici complicati (come pesare le risposte in modo diverso), ma era come cercare di tenere in equilibrio una torre di Jenga mentre qualcuno la scuote: instabile e lento.

La Soluzione: OAPL (L'Approccio "Off-Policy")

Gli autori di questo paper hanno detto: "Perché cercare di forzare il robot a essere sincronizzato? Perché non accettiamo che sia disallineato e cambiamo il modo in cui insegna?"

Hanno creato un nuovo metodo chiamato OAPL. Ecco come funziona, usando un'analogia semplice:

L'Analogia del "Cucina e Impara"

Immagina un chef (il modello) che sta imparando a cucinare.

Il vecchio metodo (GRPO): Il chef assaggia il piatto, il critico lo corregge, e il chef deve subito cambiare la ricetta prima di cucinare il prossimo piatto. Se il critico è lento o se il chef ha già iniziato a cucinare il prossimo piatto con la vecchia ricetta, il sistema si rompe.
Il nuovo metodo (OAPL): Il chef cucina 50 piatti di fila usando la ricetta attuale. Nel frattempo, il critico assaggia e corregge i primi 50 piatti. Il chef continua a cucinare i prossimi 50 piatti senza fermarsi. Solo ogni tanto (ogni 50 piatti), il chef si ferma, prende le note del critico e aggiorna la sua ricetta ufficiale.

La magia di OAPL:
Invece di dire "Hai sbagliato perché la tua ricetta era diversa da quella di prima", OAPL dice: "Guarda tutti i piatti che hai cucinato. Quale era il migliore? Quella è la direzione giusta. Ora, aggiorna la tua ricetta per avvicinarla a quella direzione, anche se hai cucinato quei piatti con una ricetta leggermente diversa."

Perché è Geniale?

Non serve la sincronizzazione perfetta: Puoi avere un "ritardo" enorme (fino a 400 passi di calcolo) tra chi genera le risposte e chi le corregge. È come se il chef cucinasse per giorni interi prima di ricevere le correzioni, eppure imparerebbe comunque.
È più veloce ed efficiente: Poiché non si perde tempo a cercare di sincronizzare tutto in tempo reale, il sistema è molto più veloce. Hanno dimostrato che OAPL ha bisogno di 3 volte meno tentativi (generazioni) per raggiungere lo stesso livello di un modello famoso come DeepCoder.
Migliore creatività (Entropia): I metodi vecchi tendevano a far diventare il robot "pessimista" e ripetitivo (per paura di sbagliare). OAPL mantiene il robot più creativo e vario, permettendogli di trovare soluzioni migliori quando ha molte possibilità (misurato con la metrica "Pass@k", ovvero la probabilità di trovare la soluzione giusta tra molti tentativi).

I Risultati

Hanno testato questo metodo su:

Matematica: Il robot ha battuto i metodi precedenti in gare di matematica difficili (come l'AIME o l'HMMT).
Programmazione: Ha raggiunto le stesse prestazioni di un modello di coding molto avanzato, ma usando un terzo delle risorse.

In Sintesi

Il paper ci dice che non dobbiamo preoccuparci se il nostro insegnante e il nostro studente sono perfettamente sincronizzati. Se accettiamo che ci sia un po' di ritardo e usiamo un metodo di apprendimento più intelligente (OAPL), possiamo addestrare intelligenze artificiali più potenti, più veloci e più creative, senza impazzire cercando di tenere tutto in perfetta sincronia.

È come dire: "Non fermare il treno per controllare il binario. Continua a correre, e correggi la rotta quando hai abbastanza dati, anche se sei un po' indietro."

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: L'Assunzione "On-Policy" Rottata nel RL Post-Training

L'ottimizzazione end-to-end dei Large Language Models (LLM) tramite Reinforcement Learning (RL) è fondamentale per far emergere capacità di ragionamento (es. DeepSeek-R1). Tuttavia, gli algoritmi di RL moderni per LLM, come GRPO (Group Relative Policy Optimization) e il suo predecessore PPO, sono teoricamente progettati per essere on-policy. Questo significa che assumono che i dati di addestramento siano generati dalla stessa politica che viene aggiornata.

Nella pratica, l'infrastruttura di addestramento RL su larga scala rompe questa assunzione a causa di due fattori principali:

Differenze di Implementazione: Il "trainer" (es. HuggingFace) e il motore di inferenza (es. vLLM) possono produrre log-probabilità diverse per la stessa sequenza di token, anche con gli stessi pesi, a causa di differenze nei kernel o nelle implementazioni.
Architetture Asincrone: In pipeline distribuite, il motore di inferenza spesso utilizza una versione "vecchia" dei pesi del trainer (policy lag). I dati generati sono quindi off-policy per definizione.

Le soluzioni attuali tentano di correggere questo problema rendendo i dati "più on-policy" attraverso:

Importance Sampling (IS): Aggiunta di pesi di correzione per bilanciare la discrepanza tra le politiche. Questo introduce alta varianza nel loss function.
Allineamento dell'Inferenza: Modifiche al motore di inferenza per ridurre il gap, rendendo però l'inferenza più lenta e non risolvendo completamente il problema nelle pipeline asincrone.

2. Metodologia: OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy)

Gli autori propongono OAPL, un nuovo algoritmo di RL che abbraccia la natura off-policy invece di combatterla. OAPL non richiede importance sampling, clipping dei ratio o modifiche all'engine di inferenza.

Concetti Chiave e Formulazione

OAPL tratta la discrepanza tra la politica del trainer ( $\pi$ ) e quella del motore di inferenza ( $\pi_{vllm}$ ) come un problema di RL regolarizzato con KL. L'obiettivo è massimizzare la ricompensa $r$ minimizzando la divergenza KL rispetto alla politica di inferenza corrente:
$\max_{\pi} \mathbb{E}_{x,y \sim \pi} [r(x, y)] - \beta KL(\pi || \pi_{vllm})$

La soluzione ottima per questo problema ha una forma chiusa. Sfruttando questa proprietà, gli autori derivano un obiettivo di ottimizzazione basato sul vantaggio ottimale ( $A^*$ ):
$\min_{\pi} \sum_{x} \sum_{i=1}^{G} \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)) \right)^2$

Dove:

$\hat{V}^*(x)$ è una stima del valore ottimo calcolata su un gruppo di rollouts generati da $\pi_{vllm}$ .
L'obiettivo è una semplice regressione ai minimi quadrati (squared regression).
Non sono necessari ratio di importanza o clipping.

Algoritmo OAPL

Sincronizzazione Iniziale: $\pi$ e $\pi_{vllm}$ partono con gli stessi pesi.
Generazione Asincrona: $\pi_{vllm}$ genera dati in modo asincrono e li memorizza in un buffer.
Aggiornamento Off-Policy: Il trainer $\pi$ aggiorna i propri pesi minimizzando l'equazione di regressione sopra citata, utilizzando i dati dal buffer e le log-probabilità di $\pi_{vllm}$ come riferimento KL.
Sincronizzazione Rara: Ogni $L$ iterazioni (es. ogni 50 o 100 step), i pesi di $\pi_{vllm}$ vengono aggiornati con quelli di $\pi$ e il buffer viene svuotato.
Vantaggio: Questo permette un addestramento altamente off-policy (con lag di oltre 400 gradienti) mantenendo la stabilità, poiché l'obiettivo regolarizza esplicitamente $\pi$ verso $\pi_{vllm}$ corrente.

3. Contributi Chiave

Dimostrazione che l'On-Policy non è necessario: Smentiscono l'idea che il post-training RL per LLM richieda strettamente dati on-policy, allineandosi a risultati classici del RL (es. DDPG, SAC) dove metodi off-policy sono spesso più efficienti.
Algoritmo Semplice ed Efficace: OAPL elimina la complessità dell'importance sampling e del clipping, sostituendoli con una funzione di perdita di regressione stabile.
Robustezza al Lag: L'algoritmo rimane stabile anche con ritardi significativi tra la politica di generazione e quella di addestramento (fino a 400 step di gradiente), un livello di "off-policyness" 100 volte superiore rispetto agli approcci precedenti.
Miglioramento del Test-Time Scaling: I modelli addestrati con OAPL mostrano un miglioramento delle metriche Pass@k (dove $k$ è il numero di tentativi) che non collassano, a differenza di GRPO che tende a ridurre l'entropia.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su benchmark di matematica competitiva e generazione di codice.

Matematica (AIME 25, HMMT 25, BRUMO 25)

Prestazioni: OAPL supera GRPO (con importance sampling) su tutte le metriche Pass@k (da 1 a 10).
Stabilità: Le curve di apprendimento mostrano che OAPL converge a un'accuratezza più alta e rimane più stabile.
Entropia: Mentre GRPO tende a causare il collasso dell'entropia (riducendo la diversità delle risposte), OAPL mantiene un'entropia più alta, permettendo una migliore esplorazione e un migliore scaling su Pass@k.
Lag: OAPL funziona stabilmente anche con un intervallo di sincronizzazione di 100 step (molto più alto del "one-step" tipico di GRPO).

Generazione di Codice (LiveCodeBench)

Confronto con DeepCoder: OAPL riesce a eguagliare o superare le prestazioni di DeepCoder (un modello pubblico addestrato con GRPO e molte euristiche aggiuntive).
Efficienza del Campione: OAPL raggiunge prestazioni equivalenti utilizzando 3 volte meno generazioni durante l'addestramento (circa 200K campioni contro 650K di DeepCoder).
Lag Estremo: Nell'esperimento di codice, OAPL è stato eseguito con un lag di circa 400 gradienti senza alcuna importance sampling, dimostrando una robustezza senza precedenti.

5. Significato e Implicazioni

Il lavoro di Ritter et al. rappresenta un cambio di paradigma nel post-training RL per LLM:

Efficienza Computazionale: Abbracciare l'off-policy permette un addestramento completamente asincrono, riducendo i tempi di attesa e migliorando l'utilizzo delle risorse hardware.
Semplificazione: Rimuove la necessità di iperparametri complessi legati all'importance sampling (clipping, thresholding) e di modifiche all'engine di inferenza.
Scalabilità: La capacità di mantenere l'entropia e migliorare le metriche Pass@k suggerisce che OAPL è più adatto per scenari dove la diversità delle soluzioni è cruciale (es. ragionamento complesso, coding).
Futuro: Apre la strada all'uso di dati offline (inclusi dati umani) e all'addestramento di funzioni valore in modo off-policy per un migliore assegnamento del credito, superando i limiti attuali degli algoritmi on-policy.

In sintesi, OAPL dimostra che l'inevitabile discrepanza tra trainer e inferenza nelle infrastrutture moderne non è un ostacolo da correggere, ma una caratteristica da sfruttare per creare algoritmi di RL più robusti, efficienti e scalabili.