Autori originali: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Pubblicato 2026-05-07

📖 5 min di lettura🧠 Approfondimento

CC BY 4.0

Autori originali: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Articolo originale sotto licenza CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Questa è una spiegazione generata dall'IA dell'articolo qui sotto. Non è stata scritta né approvata dagli autori. Per precisione tecnica, consulta l'articolo originale. Leggi il disclaimer completo

Each language version is independently generated for its own context, not a direct translation.

Il Quadro Generale: Insegnare all'IA a Risolvere Enigmi

Immagina di addestrare un robot per risolvere problemi di matematica o scrivere codice. Gli fornisci un prompt e lui tenta di generare una risposta. Per insegnarglielo, utilizzi un metodo chiamato Apprendimento per Rinforzo con Ricompense Verificabili (RLVR).

Pensa a questo come a un gioco televisivo. Il robot (l'IA) genera diverse risposte diverse a una singola domanda. Un arbitro (un semplice programma informatico) le controlla:

Se la risposta è corretta, il robot riceve un "pollice in su" (ricompensa positiva).
Se è sbagliata, il robot riceve un "pollice in giù" (ricompensa negativa).

L'obiettivo è insegnare al robot a generare più risposte con "pollice in su" e meno con "pollice in giù". Il paper si concentra su un metodo di addestramento specifico chiamato GRPO, che è popolare perché è semplice e funziona bene.

Il Problema: Come Contare i Voti

La questione centrale affrontata dal paper è una domanda sottile ma critica: Quando il robot genera un gruppo di risposte, come calcoliamo la "lezione media" da imparare?

Il robot potrebbe generare 16 risposte contemporaneamente. Alcune sono brevi (5 parole), altre sono lunghe (500 parole). Alcune sono corrette, altre sono sbagliate. L'algoritmo di addestramento deve combinare tutte queste singole parole in un unico grande "aggiornamento" per migliorare il cervello del robot.

Ci sono due modi principali con cui le persone hanno finora operato, e il paper sostiene che entrambi presentano un difetto nascosto:

1. Il Metodo "Conteggio Parole" (Aggregazione dei Token)

Come funziona: Si conta ogni singola parola (token) da ogni risposta e si fa la media di tutte insieme.
Il Difetto (Il "Villano Chiacchierone"): Immagina un gruppo di studenti che sostengono un esame.
- Studente A indovina la risposta ma scrive una spiegazione molto breve e concisa (10 parole).
- Studente B sbaglia la risposta ma scrive un saggio enorme e prolisso (500 parole).
- Se conti solo le parole, la risposta sbagliata dello Studente B ha un "peso" 50 volte maggiore nella media rispetto alla risposta corretta dello Studente A.
- Il Risultato: L'IA si confonde. Pensa che le risposte lunghe e sbagliate siano più importanti perché occupano più spazio. Questo è chiamato "Accoppiamento Segno-Lunghezza". La lunghezza della risposta cambia accidentalmente il segno (positivo o negativo) della lezione.

2. Il Metodo "Per Persona" (Aggregazione per Sequenza)

Come funziona: Si calcola prima la lezione media per ogni risposta individualmente, e poi si fa la media di quelle risposte tra loro.
Il Difetto (L'Elettore Pigro): Usando lo stesso esempio degli studenti:
- Studente A (Breve, Corretto) riceve 1 voto.
- Studente B (Lungo, Sbagliato) riceve 1 voto.
- Il Risultato: Questo risolve il problema del "villano chiacchierone". Ma ora, tratta una risposta di 10 parole esattamente allo stesso modo di una di 500 parole. Se l'IA impara molto da una spiegazione lunga e dettagliata, questo metodo ignora quel sforzo extra. "Svaluta" le risposte lunghe, trattandole come se fossero semplici quanto quelle brevi.

La Soluzione: "Aggregazione Bilanciata" (BA)

Gli autori propongono un nuovo metodo chiamato Aggregazione Bilanciata (BA). È come un arbitro intelligente che corregge i difetti di entrambi i metodi precedenti.

Come funziona:

Ordinare le Risposte: Prima, l'arbitro separa le risposte in due mucchi: il mucchio "Buono" (pollice in su) e il mucchio "Cattivo" (pollice in giù).
Contare le Parole Dentro i Mucchi: All'interno del mucchio "Buono", contano tutte le parole e ne fanno la media. All'interno del mucchio "Cattivo", contano tutte le parole e ne fanno la media.
Bilanciare i Mucchi: Infine, combinano i due mucchi. Ma ecco il trucco: non li mescolano semplicemente a caso. Si assicurano che il mucchio "Buono" e il mucchio "Cattivo" abbiano un'influenza uguale sulla decisione finale, indipendentemente da quante parole ci sono in ciascun mucchio.

L'Analogia:
Immagina un consiglio comunale che vota per un nuovo parco.

Vecchio Metodo 1 (Conteggio Parole): Le persone che parlano più a lungo ottengono più voti, anche se hanno torto.
Vecchio Metodo 2 (Per Persona): Ogni persona ha un voto, anche se una persona ha scritto un rapporto di 50 pagine e un'altra ha detto solo "Sì".
Aggregazione Bilanciata: Il consiglio si divide in gruppi "Pro-Parco" e "Anti-Parco". Fanno la media degli argomenti all'interno di ciascun gruppo. Poi, danno al gruppo "Pro" e al gruppo "Anti" un peso uguale nella decisione finale, assicurandosi che la lunghezza degli argomenti non distorca il risultato.

Cosa Hanno Scoperto?

I ricercatori hanno testato questo nuovo metodo su due diversi modelli di IA (Qwen2.5-Math-7B e Qwen3-1.7B) utilizzando dataset di matematica e coding.

La Stabilità è Fondamentale: I vecchi metodi spesso funzionavano bene all'inizio ma poi crollavano o diventavano instabili più avanti nell'addestramento. Il metodo "Conteggio Parole" era particolarmente instabile quando l'IA iniziava a scrivere risposte sbagliate molto lunghe.
Risultati Migliori: Il metodo Aggregazione Bilanciata ha prodotto costantemente punteggi finali migliori. Era più stabile, il che significa che l'IA imparava con costanza senza oscillazioni selvagge nelle prestazioni.
Perché è Importante: Il paper dimostra che il modo "migliore" per addestrare un'IA dipende da quanto varia la lunghezza delle risposte.
- Se le risposte variano enormemente in lunghezza, il metodo "Conteggio Parole" può essere rischioso.
- Se la differenza tra le lunghezze delle risposte "Buone" e "Cattive" è enorme, il metodo "Per Persona" può essere ingiusto.
- L'Aggregazione Bilanciata funziona bene in entrambe le situazioni perché corregge il pregiudizio specifico di ciascun metodo.

La Conclusione

Il paper conclude che il modo in cui si "mescolano gli ingredienti" (aggregando i dati) nell'addestramento dell'IA non è solo un piccolo dettaglio tecnico; è una scelta di progettazione fondamentale che determina se l'IA impara efficacemente o se si confonde. Separando semplicemente gli esempi "buoni" e "cattivi" prima di farne la media, gli autori hanno creato un metodo più robusto, stabile ed efficace per insegnare all'IA a ragionare e programmare.

Each language version is independently generated for its own context, not a direct translation.

Riepilogo Tecnico: Aggregazione Bilanciata: Comprensione e Correzione del Bias di Aggregazione in GRPO

Enunciato del Problema

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) è diventato un paradigma standard per potenziare il ragionamento e la generazione di codice nei Modelli Linguistici di Grande Dimensione (LLM), con l'Ottimizzazione della Politica Relativa di Gruppo (GRPO) che rappresenta un metodo ampiamente adottato grazie alla sua semplicità e all'assenza di un critico separato. Tuttavia, una scelta progettuale critica all'interno di GRPO rimane poco esplorata: la regola di aggregazione per i termini del gradiente della politica a livello di token all'interno di un gruppo campionato.

Le pratiche attuali ricadono generalmente in due categorie:

Aggregazione di Sequenza: Il default nel GRPO standard, che media i contributi dei token all'interno di ciascuna risposta prima, e poi media tra le risposte. Questo riduce implicitamente il peso delle risposte più lunghe perché ogni sequenza contribuisce in modo uguale indipendentemente dal numero di token.
Aggregazione di Token: Sostenuta da lavori recenti come DAPO e Dr.GRPO, che media direttamente l'obiettivo troncato su tutti i token nel gruppo campionato.

Il documento identifica che queste due regole inducono bias di ottimizzazione sistematicamente diversi:

L'Aggregazione di Token introduce un bias di accoppiamento segno-lunghezza. Il contributo relativo dei campioni positivi (vantaggio > 0) e negativi (vantaggio < 0) dipende non solo dai loro vantaggi normalizzati, ma anche dalle loro lunghezze medie di risposta. Se le risposte positive e negative hanno distribuzioni di lunghezza diverse, l'aggregazione di token può amplificare sistematicamente un lato dell'aggiornamento, portando a dinamiche di addestramento instabili.
L'Aggregazione di Sequenza rimuove l'accoppiamento segno-lunghezza assegnando un peso uguale a ciascuna risposta. Tuttavia, introduce un bias di ponderazione uguale per sequenza, dove le risposte più lunghe sono implicitamente penalizzate perché la perdita è mediata per sequenza e non per token.

Nessuno dei due approcci è universalmente ottimale; l'efficacia di ciascuno dipende dalla varianza nelle lunghezze delle risposte e dal divario nelle lunghezze tra i campioni positivi e negativi.

Metodologia: Aggregazione Bilanciata (BA)

Per affrontare la tensione tra questi bias, gli autori propongono l'Aggregazione Bilanciata (BA), una semplice sostituzione diretta per la fase di aggregazione nell'RLVR in stile GRPO.

Il meccanismo centrale di BA prevede un processo in tre fasi:

Partizionamento: Il gruppo campionato di risposte viene suddiviso in due sottoinsiemi in base al segno dei loro vantaggi normalizzati: un sottoinsieme positivo ( $S_+$ ) e un sottoinsieme negativo ( $S_-$ ).
Media Intrinsottoinsieme: Le medie a livello di token vengono calcolate separatamente all'interno di ciascun sottoinsieme. Questo mantiene la proprietà di media a livello di token all'interno dei gruppi di segno, evitando la forte ponderazione uguale per sequenza tipica dell'aggregazione di sequenza standard.
Combinazione Intersottoinsieme: Le due perdite dei sottoinsiemi vengono combinate utilizzando pesi proporzionali al numero di sequenze in ciascun sottoinsieme ( $k/G$ per il positivo e $(G-k)/G$ per il negativo, dove $k$ è il conteggio delle sequenze positive).

Giustificazione Teorica:
Nell'impostazione GRPO a ricompensa binaria standard, questo specifico schema di ponderazione garantisce che BA induca lo stesso fattore di bilanciamento inter-segno dell'aggregazione di sequenza ( $\sqrt{k(G-k)}/G$ ). Di conseguenza, BA preserva la proprietà di equilibrio dei segni dell'aggregazione di sequenza (rimuovendo l'accoppiamento segno-lunghezza) evitando al contempo il forte effetto di ponderazione uguale per sequenza che penalizza le risposte lunghe. Il documento fornisce anche una formulazione generalizzata per ricompense non binarie, dove i pesi sono determinati dalla massa di vantaggio piuttosto che dal conteggio delle sequenze.

Contributi Chiave

Analisi Unificata del Bias di Aggregazione: Il documento fornisce un'analisi formale che dimostra come l'aggregazione della perdita in GRPO non sia un dettaglio implementativo benigno. Caratterizza il specifico bias di "accoppiamento segno-lunghezza" nell'aggregazione di token e il bias di "ponderazione uguale per sequenza" nell'aggregazione di sequenza.
Aggregazione Bilanciata (BA): La proposta di BA come alternativa semplice e diretta che disaccoppia i bias di segno e lunghezza. Esegue la media a livello di token all'interno dei gruppi di segno, ma bilancia i gruppi in base ai conteggi delle sequenze.
Validazione Empirica e Criteri Diagnostici: Esperimenti estesi che dimostrano come l'efficacia relativa dell'aggregazione di token rispetto a quella di sequenza sia governata dalla varianza della lunghezza delle risposte e dal divario di lunghezza tra positivi e negativi. Il documento dimostra che BA supera costantemente entrambi i baseline su diversi modelli e dataset.

Risultati Sperimentali

Gli autori hanno valutato BA utilizzando Qwen2.5-Math-7B e Qwen3-1.7B su due dataset di addestramento (DAPO-17k e Polaris). Le prestazioni sono state misurate su sei benchmark: Math-500, AIME 2024, AIME 2025, OlympicBench, Minerva-MATH e LiveCodeBench.

Risultati Chiave:

Stabilità dell'Addestramento: L'aggregazione di token porta spesso a un grave degrado delle prestazioni nelle fasi successive dell'addestramento (alto calo dal picco all'ultimo passo), mentre BA mantiene un'accuratezza robusta all'ultimo passo.
Dinamiche Dipendenti dal Modello:
- Su Qwen2.5-Math-7B (che ha mostrato una maggiore variazione nella lunghezza delle risposte), l'aggregazione di token ha inizialmente superato l'aggregazione di sequenza, ma BA ha superato entrambi sia nelle prestazioni di picco che in quelle all'ultimo passo.
- Su Qwen3-1.7B (che ha mostrato un divario di lunghezza positivo-negativo più ampio), l'aggregazione di sequenza è stata più stabile dell'aggregazione di token, ma BA ha nuovamente raggiunto le metriche più alte sia di picco che all'ultimo passo.
Dinamiche della Perdita: L'analisi delle traiettorie della perdita del gradiente della politica ha rivelato che l'aggregazione di token causa enormi derive lontano dallo zero a causa dell'accoppiamento segno-lunghezza, mentre BA e l'aggregazione di sequenza rimangono stabili vicino allo zero.
Prestazioni Complessive: BA ha fornito costantemente prestazioni finali più forti e una migliore stabilità di addestramento rispetto all'aggregazione standard di token e sequenza in tutti i regimi testati.

Significato e Affermazioni

Il documento afferma che l'aggregazione è una scelta progettuale di primo piano nell'RLVR in stile GRPO, piuttosto che un dettaglio implementativo minore. Il significato del lavoro risiede in:

Stabilità: BA fornisce un segnale di ottimizzazione più robusto che previene il collasso dell'addestramento spesso osservato con l'aggregazione di token nelle fasi successive.
Universalità: A differenza dell'aggregazione di token o di sequenza, che funzionano bene solo in condizioni specifiche di distribuzione delle lunghezze, BA è robusta attraverso diverse dimensioni di modello e dataset.
Principio di Progettazione: Il lavoro evidenzia che un RLVR efficace richiede un bilanciamento della ponderazione inter-segno (per prevenire il bias) senza scartare le informazioni sui token all'interno del segno (per preservare il segnale dalle risposte lunghe).

Gli autori concludono che l'Aggregazione Bilanciata offre una soluzione semplice ma efficace ai compromessi intrinseci in GRPO, portando a un'ottimizzazione più stabile e a prestazioni finali migliorate del modello in compiti di ragionamento e codifica.

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO