Rewards as Labels: Revisiting RLVR from a Classification Perspective

Il paper propone REAL, un nuovo framework che riformula l'ottimizzazione della politica nei modelli linguistici con ricompense verificabili come un problema di classificazione per risolvere le inefficienze dei metodi RLVR esistenti, ottenendo risultati superiori e una maggiore stabilità su benchmark di ragionamento matematico.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu

Pubblicato 2026-03-05
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gruppo di studenti molto intelligenti (i modelli di intelligenza artificiale) che stanno imparando a risolvere problemi di matematica complessi. Il loro obiettivo è trovare la risposta giusta.

Fino a poco tempo fa, il metodo principale per insegnar loro (chiamato RLVR o "Apprendimento con Ricompense Verificabili") funzionava un po' come un allenatore che assegna un punteggio numerico a ogni tentativo. Se la risposta è giusta, il punteggio è alto; se è sbagliata, è basso. L'allenatore dice poi: "Fai di più di quello che hai fatto per ottenere quel punteggio alto, e meno di quello che hai fatto per ottenere il punteggio basso".

Il metodo più famoso, chiamato GRPO, ha funzionato bene, ma gli autori di questo nuovo studio (REAL) hanno scoperto che questo allenatore aveva due difetti gravi, come se fosse un po' "confuso" nel dare gli ordini.

Ecco i due problemi, spiegati con delle metafore:

1. Il Problema dei "Troppi Bravi" (Gradient Misassignment)

Immagina uno studente che ha già quasi capito come risolvere il problema. È quasi sicuro della sua risposta.

  • Cosa fa GRPO: Gli dà un premio enorme perché è quasi sicuro. Ma se lo studente fa un piccolo errore o è un po' incerto (anche se la risposta è giusta), GRPO gli dà un premio minuscolo.
  • Il risultato: L'allenatore premia troppo chi è già bravo e non aiuta abbastanza chi sta faticando. È come se un insegnante desse un premio d'oro a chi ha già il 90% e un "bravo" a chi ha il 60%, ignorando che quello con il 60% ha bisogno di più aiuto per migliorare.

2. Il Problema dei "Rumori Forti" (Gradient Domination)

Ora immagina uno studente che ha sbagliato clamorosamente, ma lo ha fatto con una sicurezza incrollabile (pensava di essere geniale).

  • Cosa fa GRPO: Poiché lo studente era così sicuro di sé (anche se sbagliato), GRPO gli dà una "sberla" gigantesca. Questa sberla è così forte che copre tutti gli altri errori meno gravi.
  • Il risultato: L'allenatore si concentra solo su quel singolo errore "urlante" e ignora gli altri studenti che hanno fatto piccoli errori. È come se in una classe, l'insegnante urlasse così forte contro uno studente che ha fatto un errore enorme, da non sentire più le correzioni necessarie per gli altri 29 studenti.

La Soluzione: REAL (Ricompense come Etichette)

Gli autori di questo paper dicono: "Basta con i punteggi numerici complicati! Tratteremo le ricompense come semplici etichette".

Immagina di non dare più un voto da 0 a 100, ma di usare due cestini:

  1. Cestino "Giusto" (Etichetta 1)
  2. Cestino "Sbagliato" (Etichetta 0)

Il nuovo metodo, chiamato REAL, trasforma tutto in un gioco di classificazione, come un gioco di "Vero o Falso".

  • Come funziona: Invece di dire "Fai di più perché hai preso 90", REAL dice semplicemente: "Metti questa risposta nel cestino 'Vero' e quella nel cestino 'Falso'".
  • L'ancora (Anchor Logits): Per evitare confusione, REAL immagina una linea di confine fissa (come una linea di meta). Se la risposta è nel cestino "Vero", deve essere sopra la linea. Se è nel cestino "Falso", deve essere sotto la linea.

Perché è meglio?

  1. Equità: Non importa quanto uno studente era sicuro o incerto. Se la risposta è giusta, viene spinta verso il cestino "Vero" con una spinta costante e controllata. Se è sbagliata, viene spinta verso il cestino "Falso". Nessuno viene ignorato e nessuno urla troppo forte.
  2. Stabilità: Il metodo evita che l'allenatore impazzisca (diventa instabile) quando vede errori enormi. Le "spinte" (gradienti) sono sempre limitate a una grandezza massima, come se ci fosse un limitatore di velocità sull'auto dell'allenatore.
  3. Semplicità: Non serve più un "freno" complicato (chiamato KL penalty) per tenere a bada l'allenatore, perché il gioco stesso è già bilanciato.

I Risultati nella Vita Reale

Gli autori hanno fatto delle prove su modelli di intelligenza artificiale di diverse dimensioni (piccoli come 1.5 miliardi di parametri e grandi come 7 miliardi).

  • Hanno usato questi modelli per risolvere problemi di matematica molto difficili (come quelli delle Olimpiadi o dei test d'ingresso universitari).
  • Risultato: Il nuovo metodo REAL ha battuto tutti i metodi precedenti (incluso il famoso GRPO e le sue varianti avanzate).
  • Su un modello piccolo, ha migliorato la capacità di risolvere i problemi del 6,7% rispetto al migliore concorrente. Su un modello grande, ha continuato a vincere.

In Sintesi

Questo paper ci dice che per insegnare alle intelligenze artificiali a ragionare, non serve complicarsi la vita con punteggi numerici precisi che possono creare squilibri. Basta trattare le risposte corrette e sbagliate come due categorie distinte (come "Vero" e "Falso") e usare un metodo di classificazione semplice ma intelligente.

È come passare da un sistema di voti scolastici che premia solo i geni e punisce i "geni sbagliati" a un sistema in cui l'insegnante aiuta tutti a capire la differenza tra giusto e sbagliato, in modo equilibrato e senza urla.