Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gruppo di studenti molto intelligenti (i modelli di intelligenza artificiale) che stanno imparando a risolvere problemi di matematica complessi. Il loro obiettivo è trovare la risposta giusta.

Fino a poco tempo fa, il metodo principale per insegnar loro (chiamato RLVR o "Apprendimento con Ricompense Verificabili") funzionava un po' come un allenatore che assegna un punteggio numerico a ogni tentativo. Se la risposta è giusta, il punteggio è alto; se è sbagliata, è basso. L'allenatore dice poi: "Fai di più di quello che hai fatto per ottenere quel punteggio alto, e meno di quello che hai fatto per ottenere il punteggio basso".

Il metodo più famoso, chiamato GRPO, ha funzionato bene, ma gli autori di questo nuovo studio (REAL) hanno scoperto che questo allenatore aveva due difetti gravi, come se fosse un po' "confuso" nel dare gli ordini.

Ecco i due problemi, spiegati con delle metafore:

1. Il Problema dei "Troppi Bravi" (Gradient Misassignment)

Immagina uno studente che ha già quasi capito come risolvere il problema. È quasi sicuro della sua risposta.

Cosa fa GRPO: Gli dà un premio enorme perché è quasi sicuro. Ma se lo studente fa un piccolo errore o è un po' incerto (anche se la risposta è giusta), GRPO gli dà un premio minuscolo.
Il risultato: L'allenatore premia troppo chi è già bravo e non aiuta abbastanza chi sta faticando. È come se un insegnante desse un premio d'oro a chi ha già il 90% e un "bravo" a chi ha il 60%, ignorando che quello con il 60% ha bisogno di più aiuto per migliorare.

2. Il Problema dei "Rumori Forti" (Gradient Domination)

Ora immagina uno studente che ha sbagliato clamorosamente, ma lo ha fatto con una sicurezza incrollabile (pensava di essere geniale).

Cosa fa GRPO: Poiché lo studente era così sicuro di sé (anche se sbagliato), GRPO gli dà una "sberla" gigantesca. Questa sberla è così forte che copre tutti gli altri errori meno gravi.
Il risultato: L'allenatore si concentra solo su quel singolo errore "urlante" e ignora gli altri studenti che hanno fatto piccoli errori. È come se in una classe, l'insegnante urlasse così forte contro uno studente che ha fatto un errore enorme, da non sentire più le correzioni necessarie per gli altri 29 studenti.

La Soluzione: REAL (Ricompense come Etichette)

Gli autori di questo paper dicono: "Basta con i punteggi numerici complicati! Tratteremo le ricompense come semplici etichette".

Immagina di non dare più un voto da 0 a 100, ma di usare due cestini:

Cestino "Giusto" (Etichetta 1)
Cestino "Sbagliato" (Etichetta 0)

Il nuovo metodo, chiamato REAL, trasforma tutto in un gioco di classificazione, come un gioco di "Vero o Falso".

Come funziona: Invece di dire "Fai di più perché hai preso 90", REAL dice semplicemente: "Metti questa risposta nel cestino 'Vero' e quella nel cestino 'Falso'".
L'ancora (Anchor Logits): Per evitare confusione, REAL immagina una linea di confine fissa (come una linea di meta). Se la risposta è nel cestino "Vero", deve essere sopra la linea. Se è nel cestino "Falso", deve essere sotto la linea.

Perché è meglio?

Equità: Non importa quanto uno studente era sicuro o incerto. Se la risposta è giusta, viene spinta verso il cestino "Vero" con una spinta costante e controllata. Se è sbagliata, viene spinta verso il cestino "Falso". Nessuno viene ignorato e nessuno urla troppo forte.
Stabilità: Il metodo evita che l'allenatore impazzisca (diventa instabile) quando vede errori enormi. Le "spinte" (gradienti) sono sempre limitate a una grandezza massima, come se ci fosse un limitatore di velocità sull'auto dell'allenatore.
Semplicità: Non serve più un "freno" complicato (chiamato KL penalty) per tenere a bada l'allenatore, perché il gioco stesso è già bilanciato.

I Risultati nella Vita Reale

Gli autori hanno fatto delle prove su modelli di intelligenza artificiale di diverse dimensioni (piccoli come 1.5 miliardi di parametri e grandi come 7 miliardi).

Hanno usato questi modelli per risolvere problemi di matematica molto difficili (come quelli delle Olimpiadi o dei test d'ingresso universitari).
Risultato: Il nuovo metodo REAL ha battuto tutti i metodi precedenti (incluso il famoso GRPO e le sue varianti avanzate).
Su un modello piccolo, ha migliorato la capacità di risolvere i problemi del 6,7% rispetto al migliore concorrente. Su un modello grande, ha continuato a vincere.

In Sintesi

Questo paper ci dice che per insegnare alle intelligenze artificiali a ragionare, non serve complicarsi la vita con punteggi numerici precisi che possono creare squilibri. Basta trattare le risposte corrette e sbagliate come due categorie distinte (come "Vero" e "Falso") e usare un metodo di classificazione semplice ma intelligente.

È come passare da un sistema di voti scolastici che premia solo i geni e punisce i "geni sbagliati" a un sistema in cui l'insegnante aiuta tutti a capire la differenza tra giusto e sbagliato, in modo equilibrato e senza urla.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Limiti degli Attuali Metodi RLVR

Il paper si concentra sul Reinforcement Learning with Verifiable Rewards (RLVR), un paradigma fondamentale per migliorare le capacità di ragionamento dei Large Language Models (LLM) in compiti come la matematica e la programmazione, dove le risposte possono essere verificate oggettivamente.

Attualmente, il metodo dominante è il Group Relative Policy Optimization (GRPO) e le sue varianti (come DAPO, GSPO). Tuttavia, gli autori identificano due gravi difetti fondamentali nell'allocazione dei gradienti indotta da GRPO, che portano a aggiornamenti della politica inefficienti e subottimali:

Gradient Misassignment in Positives (Assegnazione errata del gradiente nei positivi):
- Per i roll-out (sequenze di generazione) corretti (reward = 1), i token che hanno già un'alta probabilità sotto la politica corrente ricevono aggiornamenti sproporzionatamente grandi.
- Al contrario, i token "difficili" (a bassa probabilità ma corretti) ricevono gradienti molto deboli. Questo impedisce al modello di correggere efficacemente le parti sottosfruttate della politica.
Gradient Domination in Negatives (Dominio del gradiente nei negativi):
- Per i roll-out errati (reward = 0), l'ampiezza del gradiente non è limitata superiormente e cresce esponenzialmente con la probabilità relativa.
- Ciò fa sì che pochi token negativi ad alta probabilità (outlier) dominino l'aggiornamento dell'intero gruppo, soffocando il contributo di altri token informativi e rendendo l'addestramento instabile e sensibile agli outlier.

Questi squilibri causano un'allocazione del credito inefficiente, aumentando il rischio di convergenza prematura su ottimi locali subottimali.

2. Metodologia: Il Framework REAL

Gli autori propongono REAL (Rewards as Labels), un nuovo framework che cambia radicalmente la prospettiva sull'ottimizzazione della politica.

Riformulazione come Classificazione: Invece di trattare le ricompense verificabili come pesi scalari continui per il gradiente, REAL le reinterpreta come etichette categoriali (binarie: 0 o 1). Di conseguenza, l'ottimizzazione della politica viene riformulata come un problema di classificazione: distinguere tra roll-out desiderati (positivi) e indesiderati (negativi).
Logit Relativi Normalizzati: Per ogni roll-out, viene calcolato un punteggio basato sulla probabilità relativa normalizzata per la lunghezza:
$\bar{s}_k = \frac{1}{|o_k|} \sum_{t} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
Questo punteggio funge da "logit" per la classificazione.
Funzione di Perdita (Loss Function):
- REAL utilizza una funzione di perdita Softmax Cross-Entropy unificata che contrasta esplicitamente i logit positivi ( $S_+$ ) con quelli negativi ( $S_-$ ).
- Anchor Logits: Viene introdotto un "logit di ancoraggio" fisso a 0 ( $S_0$ ). Per i campioni positivi, 0 agisce come un logit negativo; per i negativi, come un logit positivo. Questo forza una separazione chiara: i positivi devono superare 0, i negativi devono scendere sotto 0.
- La perdita finale è la somma di due termini: $L_{REAL} = L_{CE}(S_+, S_0) + L_{CE}(S_0, S_-)$ .

3. Analisi Teorica e Proprietà

L'analisi teorica dimostra che REAL risolve i problemi di GRPO grazie a due proprietà chiave del gradiente:

Gradiente Limitato (Bounded): L'ampiezza del gradiente indotta da REAL è limitata superiormente da $1/\tau $(dove$ \tau$ è un parametro di temperatura). Questo elimina il problema del "Gradient Domination" nei negativi.
Gradiente Monotono: Per i positivi, l'ampiezza del gradiente diminuisce monotonicamente all'aumentare della probabilità relativa. Questo risolve il "Gradient Misassignment", garantendo che i token difficili (bassa probabilità) ricevano gradienti più forti rispetto a quelli facili.

Un risultato cruciale è che REAL non richiede esplicitamente una penalità KL (Kullback-Leibler) per stabilizzare l'addestramento, poiché il meccanismo di clipping implicito del gradiente è sufficiente a prevenire collassi o esplosioni dell'entropia.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su benchmark di ragionamento matematico (AIME 2024/2025, MATH 500, AMC 2023, Minerva, Olympiad Bench) utilizzando modelli di base da 1.5B e 7B parametri (DeepSeek-R1-Distill-Qwen).

Performance Superiori:
- Sul modello 1.5B, REAL supera DAPO (una delle varianti più forti di GRPO) con un miglioramento medio del 6.7% su Pass@1.
- Sul modello 7B, REAL supera DAPO del 6.2% e GSPO del 1.7%.
- REAL supera anche GRPO base e altre varianti come TRPA e GSPO in tutti i benchmark.
Stabilità dell'Addestramento:
- Mentre GRPO soffre di "collasso dell'entropia" e DAPO di "esplosione dell'entropia", REAL mantiene un profilo di entropia stabile durante tutto l'addestramento (1400 step).
- REAL raggiunge performance competitive anche senza penalità KL esplicita.
Robustezza:
- Anche utilizzando una semplice Binary Cross-Entropy (BCE) invece della Softmax loss, REAL supera DAPO del 4.5% in media, dimostrando la solidità del concetto di "ricompense come etichette".
- I risultati si generalizzano bene anche su dataset diversi (DAPO-Math-17K).

5. Contributi Chiave e Significato

I principali contributi del lavoro sono:

Identificazione dei difetti di GRPO: Dimostrazione teorica ed empirica dei problemi di "Gradient Misassignment" e "Gradient Domination" nelle attuali metodologie RLVR.
Proposta di REAL: Un nuovo framework che riformula l'RLVR come problema di classificazione, utilizzando le ricompense come etichette categoriali.
Stabilità senza KL: La dimostrazione che un'allocazione del gradiente bilanciata e limitata può garantire stabilità di addestramento senza la necessità di regolarizzazione KL esplicita, semplificando l'ipertuning.
Performance Scalabili: Validazione empirica che REAL scala efficacemente da modelli piccoli (1.5B) a grandi (7B), offrendo miglioramenti costanti rispetto allo stato dell'arte.

Significato:
Questo lavoro offre una nuova prospettiva teorica sull'ottimizzazione dei LLM per il ragionamento. Spostando il focus dalla ponderazione scalare delle ricompense alla classificazione binaria, REAL risolve problemi fondamentali di stabilità e allocazione del credito, fornendo una via più principiale ed efficace per l'addestramento di modelli di ragionamento robusti e affidabili.

Rewards as Labels: Revisiting RLVR from a Classification Perspective

1. Il Problema dei "Troppi Bravi" (Gradient Misassignment)

2. Il Problema dei "Rumori Forti" (Gradient Domination)

La Soluzione: REAL (Ricompense come Etichette)

Perché è meglio?

I Risultati nella Vita Reale

In Sintesi

1. Il Problema: Limiti degli Attuali Metodi RLVR

2. Metodologia: Il Framework REAL

3. Analisi Teorica e Proprietà

4. Risultati Sperimentali

5. Contributi Chiave e Significato

Articoli simili

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference