The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Il paper propone il framework DPH-RL, che utilizza divergenze f di tipo "mass-covering" come meccanismo di ripasso per preservare la diversità delle soluzioni e mitigare il collasso della diversità nel RLVR, migliorando così le prestazioni sia Pass@1 che Pass@k senza richiedere un modello di riferimento online.

Long Li, Zhijian Zhou, Jiaran Hao, Jason Klein Liu, Yanting Miao, Wei Pang, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Il Paradosso del "Genio Unico" vs. "Il Poliedrico"

Immagina di avere un allievo molto intelligente (un'intelligenza artificiale) che sta imparando a risolvere problemi di matematica o a scrivere codice.

Il problema attuale (RLVR):
Attualmente, quando addestriamo questi modelli con tecniche di "Ricompensa Verificabile" (RLVR), succede una cosa strana. L'allievo diventa bravissimo a trovare una soluzione corretta al primo colpo (Pass@1). È come se avesse imparato a memoria la strada più breve per arrivare a casa.
Tuttavia, se gli chiediamo di provare a trovare molte soluzioni diverse (Pass@k), le cose vanno male. L'allievo smette di essere creativo. Se gli diamo 10 tentativi, tutti e 10 sono identici. Peggio ancora, se gli chiediamo di risolvere un problema leggermente diverso da quelli che ha visto prima (fuori dal suo "campo di gioco"), dimentica tutto ciò che sapeva. È come se, per diventare un campione di scacchi, avesse dimenticato come si gioca a dama.

Questo fenomeno è chiamato Collasso della Diversità e Dimenticanza Catastrofica.

La causa nascosta: La "Bussola" sbagliata

Il paper dice che il problema non è l'allievo, ma la bussola che usiamo per guidarlo.
Nell'addestramento attuale, usiamo una bussola chiamata Reverse-KL.

  • Cosa fa la Reverse-KL: È come un insegnante severo che dice: "Non devi deviare di un millimetro dalla soluzione perfetta che ho già visto! Se provi a fare qualcosa di nuovo, ti punisco!".
  • Il risultato: L'allievo si restringe. Smette di esplorare, si aggrappa a una sola strada e dimentica tutte le altre strade che conosceva. Diventa un "monocromo" (una sola soluzione) invece di un "arcobaleno" (molte soluzioni).

La soluzione: La "Bussola della Memoria" (DPH-RL)

Gli autori propongono di cambiare bussola. Invece di usare quella che punisce la novità, usano una bussola chiamata Forward-KL o Divergenza JS.

Ecco l'analogia per capire la differenza:

  1. Il vecchio metodo (Reverse-KL): È come se il modello fosse un turista che ha trovato un ristorante fantastico. La bussola gli dice: "Non andare da nessun'altra parte! Mangia solo lì, altrimenti sei un cattivo turista". Risultato: Il turista non scopre mai altri ristoranti e, se il ristorante chiude, non sa dove mangiare.
  2. Il nuovo metodo (DPH-RL con Forward-KL/JS): È come se avessimo un diario di viaggio (il modello di partenza). La nuova bussola dice: "Ogni volta che provi una nuova strada, controlla il tuo diario. Assicurati di non dimenticare le vecchie strade che già conoscevi. Se trovi un nuovo ristorante, fantastico, ma non cancellare quelli vecchi dalla tua memoria!".

In termini tecnici, questo nuovo metodo agisce come un "meccanismo di ripetizione" (Rehearsal). Costringe il modello a "ripassare" mentalmente le soluzioni che già conosceva, mantenendo la sua mente aperta e diversificata.

Come funziona in pratica?

Gli autori dividono i problemi in due categorie:

  1. Problemi facili (già risolti bene): Qui usano la "bussola della memoria". Il modello deve ricordare come li ha risolti prima, per non dimenticarli.
  2. Problemi difficili (da esplorare): Qui lasciano il modello libero di esplorare e provare nuove strade senza punizioni.

Questa strategia intelligente permette al modello di:

  • Migliorare la sua capacità di trovare una soluzione corretta (Pass@1).
  • Mantenere alta la capacità di trovare molte soluzioni diverse (Pass@k).
  • Non dimenticare le competenze vecchie quando impara quelle nuove (niente dimenticanza catastrofica).
  • Funzionare bene anche su problemi nuovi che non ha mai visto (generalizzazione).

Il Risultato Sperimentale

Hanno provato questo metodo su modelli di intelligenza artificiale che risolvono problemi di Matematica e scrivono codice SQL (linguaggio per database).
I risultati sono stati sorprendenti:

  • I modelli con il nuovo metodo sono diventati più bravi di tutti gli altri metodi attuali.
  • Hanno mantenuto la loro "creatività" (diversità) anche dopo migliaia di ore di addestramento.
  • Non hanno bisogno di computer extra o modelli di riferimento complessi durante l'addestramento, rendendo il processo più veloce ed economico.

In sintesi

Il paper ci insegna che per creare un'intelligenza artificiale davvero intelligente e versatile, non dobbiamo solo spingerla a trovare la "soluzione giusta", ma dobbiamo anche proteggerla dal diventare troppo rigida.
Usare la giusta "bussola" (una divergenza matematica diversa) è come dare al modello un diario di bordo: gli permette di esplorare il mondo nuovo senza perdere la mappa del mondo che già conosce. È la differenza tra un robot che esegue un solo comando e un vero pensatore che sa adattarsi a qualsiasi situazione.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →