CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Il paper propone CoRPO, una modifica all'ottimizzazione GRPO che introduce un bias di correttezza tramite l'uso di una soglia minima fissa per evitare la sovrastima dei vantaggi delle soluzioni errate, migliorando così la generalizzazione e il trasferimento delle capacità di ragionamento tra diversi domini.

Anisha Garg, Claire Zhang, Nishit Neema, David Bick, Ganesh Venkatesh, Joel Hestness

Pubblicato 2026-03-06
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un bambino (l'Intelligenza Artificiale) a risolvere problemi di matematica o a scrivere codice.

Il Problema: Il Metodo "GRPO" (Il Giudice di Gruppo)

Fino a poco tempo fa, il metodo standard per addestrare queste intelligenze si chiamava GRPO. Funziona così:

  1. Chiedi al bambino di provare a risolvere lo stesso problema 8 volte diverse (creando 8 risposte diverse).
  2. Prendi tutte le 8 risposte e calcoli la media di quanto sono state bravi.
  3. Se una risposta è migliore della media, il bambino viene premiato. Se è peggiore, viene punito.

Il difetto fatale:
Immagina che il bambino sia molto confuso e che tutte le 8 risposte siano sbagliate.

  • La "media" sarà molto bassa (perché tutti hanno sbagliato).
  • Tuttavia, se una delle 8 risposte sbagliate è leggermente meno sbagliata delle altre (ad esempio, ha fatto un errore di calcolo invece di cancellare tutto), questa risposta risulterà "migliore della media".
  • Risultato disastroso: Il sistema premia quella risposta sbagliata perché è "migliore delle altre risposte sbagliate". Invece di imparare che la risposta è errata, il bambino impara che "essere un po' meno sbagliati degli altri" è un buon comportamento. Si allena a essere "meno peggio" invece che "giusto".

La Soluzione: CoRPO (Il Giudice con la Soglia di Sicurezza)

Gli autori propongono un nuovo metodo chiamato CoRPO. È una piccola modifica intelligente al metodo precedente.

Invece di guardare solo la media del gruppo, CoRPO introduce una soglia di verità (una linea rossa immaginaria).

Ecco come funziona con un'analogia:
Immagina che il bambino stia lanciando frecce a un bersaglio.

  • Metodo vecchio (GRPO): Se tutti i lanci finiscono fuori dal bersaglio, ma uno finisce a 10 metri e gli altri a 50, il sistema dice: "Bravo! Hai vinto perché sei stato il migliore del gruppo!". Il bambino pensa: "Ok, 10 metri va bene".
  • Metodo nuovo (CoRPO): Il sistema ha una regola fissa: "Se il lancio non è dentro il cerchio rosso (la soglia di correttezza), non ricevi punti, non importa quanto sei stato bravo rispetto agli altri".
    • Se il lancio è a 10 metri (fuori dal cerchio rosso): Il sistema dice "Niente punti, anzi, ti sgrido perché sei fuori dal bersaglio".
    • Se il lancio è dentro il cerchio rosso: Solo allora il sistema confronta chi è stato più vicino al centro per dare premi extra.

Perché questo è rivoluzionario?

  1. Niente premi per gli errori: CoRPO impedisce che le risposte sbagliate ricevano premi solo perché gli altri erano peggiori. Questo evita che l'AI impari a "barare" o a trovare scorciatoie che sembrano funzionare ma non sono corrette.
  2. Imparare davvero, non solo a memoria: Poiché l'AI non riceve premi per risposte "abbastanza buone" ma sbagliate, è costretta a cercare la verità assoluta. Questo la rende molto più brava a risolvere problemi che non ha mai visto prima (il famoso "generalizzazione").
  3. Il risultato: Nel paper, hanno addestrato l'AI su problemi di programmazione e poi l'hanno testata su problemi di matematica.
    • L'AI addestrata col vecchio metodo (GRPO) faceva fatica a trasferire le sue abilità.
    • L'AI addestrata con CoRPO è diventata bravissima anche in matematica, perché ha imparato a ragionare in modo corretto e robusto, non solo a indovinare la risposta giusta per quel tipo di esercizio.

In sintesi

Il vecchio metodo era come dire a un atleta: "Sei il migliore della squadra, anche se la squadra ha perso tutte le partite".
Il nuovo metodo (CoRPO) dice: "Se non hai segnato il gol, non hai vinto, anche se gli altri compagni hanno sbagliato ancora di più".

Questa piccola regola di "onestà" (la soglia di correttezza) ha reso l'intelligenza artificiale più intelligente, più affidabile e capace di imparare cose nuove molto più velocemente.