The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

Il Paradosso del "Genio Unico" vs. "Il Poliedrico"

Immagina di avere un allievo molto intelligente (un'intelligenza artificiale) che sta imparando a risolvere problemi di matematica o a scrivere codice.

Il problema attuale (RLVR):
Attualmente, quando addestriamo questi modelli con tecniche di "Ricompensa Verificabile" (RLVR), succede una cosa strana. L'allievo diventa bravissimo a trovare una soluzione corretta al primo colpo (Pass@1). È come se avesse imparato a memoria la strada più breve per arrivare a casa.
Tuttavia, se gli chiediamo di provare a trovare molte soluzioni diverse (Pass@k), le cose vanno male. L'allievo smette di essere creativo. Se gli diamo 10 tentativi, tutti e 10 sono identici. Peggio ancora, se gli chiediamo di risolvere un problema leggermente diverso da quelli che ha visto prima (fuori dal suo "campo di gioco"), dimentica tutto ciò che sapeva. È come se, per diventare un campione di scacchi, avesse dimenticato come si gioca a dama.

Questo fenomeno è chiamato Collasso della Diversità e Dimenticanza Catastrofica.

La causa nascosta: La "Bussola" sbagliata

Il paper dice che il problema non è l'allievo, ma la bussola che usiamo per guidarlo.
Nell'addestramento attuale, usiamo una bussola chiamata Reverse-KL.

Cosa fa la Reverse-KL: È come un insegnante severo che dice: "Non devi deviare di un millimetro dalla soluzione perfetta che ho già visto! Se provi a fare qualcosa di nuovo, ti punisco!".
Il risultato: L'allievo si restringe. Smette di esplorare, si aggrappa a una sola strada e dimentica tutte le altre strade che conosceva. Diventa un "monocromo" (una sola soluzione) invece di un "arcobaleno" (molte soluzioni).

La soluzione: La "Bussola della Memoria" (DPH-RL)

Gli autori propongono di cambiare bussola. Invece di usare quella che punisce la novità, usano una bussola chiamata Forward-KL o Divergenza JS.

Ecco l'analogia per capire la differenza:

Il vecchio metodo (Reverse-KL): È come se il modello fosse un turista che ha trovato un ristorante fantastico. La bussola gli dice: "Non andare da nessun'altra parte! Mangia solo lì, altrimenti sei un cattivo turista". Risultato: Il turista non scopre mai altri ristoranti e, se il ristorante chiude, non sa dove mangiare.
Il nuovo metodo (DPH-RL con Forward-KL/JS): È come se avessimo un diario di viaggio (il modello di partenza). La nuova bussola dice: "Ogni volta che provi una nuova strada, controlla il tuo diario. Assicurati di non dimenticare le vecchie strade che già conoscevi. Se trovi un nuovo ristorante, fantastico, ma non cancellare quelli vecchi dalla tua memoria!".

In termini tecnici, questo nuovo metodo agisce come un "meccanismo di ripetizione" (Rehearsal). Costringe il modello a "ripassare" mentalmente le soluzioni che già conosceva, mantenendo la sua mente aperta e diversificata.

Come funziona in pratica?

Gli autori dividono i problemi in due categorie:

Problemi facili (già risolti bene): Qui usano la "bussola della memoria". Il modello deve ricordare come li ha risolti prima, per non dimenticarli.
Problemi difficili (da esplorare): Qui lasciano il modello libero di esplorare e provare nuove strade senza punizioni.

Questa strategia intelligente permette al modello di:

Migliorare la sua capacità di trovare una soluzione corretta (Pass@1).
Mantenere alta la capacità di trovare molte soluzioni diverse (Pass@k).
Non dimenticare le competenze vecchie quando impara quelle nuove (niente dimenticanza catastrofica).
Funzionare bene anche su problemi nuovi che non ha mai visto (generalizzazione).

Il Risultato Sperimentale

Hanno provato questo metodo su modelli di intelligenza artificiale che risolvono problemi di Matematica e scrivono codice SQL (linguaggio per database).
I risultati sono stati sorprendenti:

I modelli con il nuovo metodo sono diventati più bravi di tutti gli altri metodi attuali.
Hanno mantenuto la loro "creatività" (diversità) anche dopo migliaia di ore di addestramento.
Non hanno bisogno di computer extra o modelli di riferimento complessi durante l'addestramento, rendendo il processo più veloce ed economico.

In sintesi

Il paper ci insegna che per creare un'intelligenza artificiale davvero intelligente e versatile, non dobbiamo solo spingerla a trovare la "soluzione giusta", ma dobbiamo anche proteggerla dal diventare troppo rigida.
Usare la giusta "bussola" (una divergenza matematica diversa) è come dare al modello un diario di bordo: gli permette di esplorare il mondo nuovo senza perdere la mappa del mondo che già conosce. È la differenza tra un robot che esegue un solo comando e un vero pensatore che sa adattarsi a qualsiasi situazione.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Paradosso della Diversità nel RLVR

Il paper affronta un paradosso centrale nel fine-tuning dei Large Language Models (LLM) tramite Reinforcement Learning with Verifiable Reward (RLVR):

Il Fenomeno: Sebbene i modelli addestrati con RLVR migliorino costantemente l'accuratezza in un singolo tentativo (Pass@1), la loro capacità di generare soluzioni corrette quando sono permessi più tentativi (Pass@k) spesso stagna o peggiora rispetto al modello base.
La Causa: Questo declino è accompagnato da un collasso della diversità (diversity collapse) e da una dimenticanza catastrofica (catastrophic forgetting). I modelli tendono a sovrapporsi su percorsi di soluzione noti, perdendo la capacità di esplorare nuove strategie e dimenticando competenze acquisite in precedenza.
L'Errore di Approccio: La comunità ha finora focalizzato l'attenzione su metodi per controllare l'entropia o ottimizzare direttamente il Pass@k, trascurando un componente fondamentale dell'obiettivo RL: la divergenza di Kullback-Leibler (KL).
Il Ruolo della KL Standard: L'uso universale della reverse-KL ( $D_{KL}(\pi_\theta || \pi_{ref})$ ) è stato identificato come una causa primaria del problema. Essendo una divergenza "mode-seeking" (che cerca il modo), essa forza la politica a convergere su una singola soluzione ad alta probabilità, restringendo drasticamente lo spazio delle soluzioni e accelerando la perdita di diversità.

2. Metodologia: DPH-RL (Diversity-Preserving Hybrid RL)

Gli autori propongono un cambio di paradigma: utilizzare il termine di divergenza non come semplice vincolo, ma come un meccanismo attivo di preservazione della diversità.

Concetto Chiave: Divergenze "Mass-Covering"

Invece della reverse-KL, il framework DPH-RL utilizza divergenze $f$ che sono "mass-covering" (copertura di massa), come la Forward-KL ( $D_{KL}(\pi_{ref} || \pi_\theta)$ ) e la Divergenza di Jensen-Shannon (JS).

Forward-KL: Penalizza la nuova politica $\pi_\theta$ se non copre tutte le modalità della distribuzione di riferimento $\pi_{ref}$ . Agisce come un "meccanismo di ripetizione" (rehearsal), costringendo il modello a mantenere la copertura delle soluzioni originali.
JS Divergence: Offre un approccio simmetrico e stabile che bilancia la somiglianza con la politica di riferimento e le prestazioni.

Architettura del Framework

Il metodo divide il dataset di addestramento in due sottoinsiemi basati sulle prestazioni del modello di riferimento iniziale:

$D_{pef}$ (Near-Perfect): Campioni che il modello di riferimento risolve correttamente con alta probabilità.
- Obiettivo: Mantenere le competenze acquisite.
- Meccanismo: Si applica una perdita basata sulla divergenza $f$ (Forward-KL o JS) per "ripetere" queste soluzioni e prevenire la dimenticanza catastrofica.
$D_{exp}$ (Exploration): Campioni difficili dove il modello di riferimento fallisce.
- Obiettivo: Massimizzare l'esplorazione.
- Meccanismo: La penalità KL viene rimossa, permettendo al modello di ottimizzare puramente il segnale di ricompensa per trovare nuove soluzioni.

Implementazione Efficiente

Un contributo tecnico significativo è l'uso di una implementazione basata su generatori (Generator-based).

Invece di eseguire inferenze online con il modello di riferimento ( $\pi_{ref}$ ) durante ogni step di addestramento (costoso), il framework pre-campiona i dati da $\pi_{ref}$ in una fase preliminare.
Questo permette di calcolare la divergenza utilizzando un dataset statico, eliminando la necessità di un modello di riferimento online e rendendo il metodo efficiente dal punto di vista computazionale, paragonabile al GRPO standard.

3. Contributi Principali

Analisi Sistematica del Collasso: Identificazione della reverse-KL come causa principale del collasso della diversità e della dimenticanza catastrofica nel RLVR, dimostrando che la sua natura "mode-seeking" è controproducente per il Pass@k.
Nuovo Framework (DPH-RL): Introduzione di un framework che utilizza divergenze $f$ mass-covering come meccanismo di "rehearsal" per preservare la diversità delle soluzioni senza richiedere modelli esterni durante l'addestramento.
Validazione Empirica Estensiva: Dimostrazione che DPH-RL supera i baseline (GRPO, DAPO, Reverse-KL) sia su compiti in-domain (SQL, Matematica) che out-of-domain, migliorando sia Pass@1 che Pass@k.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su modelli Llama (3.1-8B) e Qwen (2.5-7B/32B) su task di generazione SQL e ragionamento matematico.

Performance In-Domain (SQL - Dataset Bird/Spider):
- I metodi GRPO e DAPO mostrano un calo significativo del Pass@8 e Pass@16 rispetto al modello base.
- DPH-JS e DPH-F superano il modello base e i baseline RL. Ad esempio, su Bird, DPH-JS supera GRPO di circa il 4.3% in Pass@8.
- La capacità di mantenere la diversità è evidente: mentre GRPO collassa in uno stile di soluzione unico, DPH-JS mantiene una distribuzione multi-stile simile al modello base.
Generalizzazione Out-of-Domain (OOD):
- Modelli addestrati su SQL con GRPO/DAPO soffrono di un drastico calo delle prestazioni su task matematici (OOD), indicando un sovrainadattamento al dominio di addestramento.
- DPH-RL mantiene prestazioni OOD molto più elevate, dimostrando che il meccanismo di "rehearsal" previene la dimenticanza catastrofica delle competenze generali.
Efficienza e Scalabilità:
- Il metodo è più efficiente perché non richiede un modello di riferimento online.
- Funziona bene anche su modelli più grandi (OmniSQL-32B), raggiungendo performance Greedy vicine ai limiti dei modelli open-source attuali.

5. Significato e Impatto

Questo lavoro ribalta una convinzione consolidata nel campo dell'RL per LLM:

Ridefinizione della KL: Sposta la percezione della divergenza da un semplice vincolo di regolarizzazione a uno strumento attivo per la gestione della diversità.
Soluzione al Trade-off: Risolve il compromesso tra l'ottimizzazione della ricompensa (Pass@1) e la preservazione della diversità (Pass@k), un problema critico per l'affidabilità dei modelli di ragionamento.
Semplicità ed Efficacia: Dimostra che una scelta corretta della misura di divergenza (Forward-KL o JS) è uno strumento potente e a basso costo computazionale per costruire modelli di ragionamento più robusti e generalizzabili, senza bisogno di architetture complesse o dati aggiuntivi massicci.

In sintesi, il paper sostiene che la scelta della divergenza è la "chiave trascurata" per mitigare il collasso della diversità, e propone DPH-RL come la soluzione pratica e teorica per questo problema.