Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

🎓 Le Titre : "Les Récompenses comme des Étiquettes" (Rewards as Labels)

Imaginez que vous apprenez à un élève très intelligent (une IA) à résoudre des problèmes de mathématiques complexes. Pour l'aider, vous lui donnez des exercices et vous vérifiez ses réponses.

Jusqu'à présent, la méthode la plus populaire (appelée GRPO) fonctionnait un peu comme un professeur qui donne des notes chiffrées très précises, mais qui a quelques défauts bizarres. Les auteurs de ce papier ont dit : "Attendez, on peut faire beaucoup plus simple et plus efficace !"

Voici comment ils ont fait, avec des analogies du quotidien.

1. Le Problème : La méthode actuelle est un peu "tordue"

Dans la méthode actuelle (GRPO), quand l'IA donne une bonne réponse, le professeur (l'algorithme) lui dit : "Bravo ! Mais attention, si tu étais déjà très sûr de toi, je vais te féliciter énormément. Si tu étais un peu hésitant, je vais à peine te féliciter."

C'est contre-intuitif ! C'est comme si un coach sportif félicitait un athlète qui a déjà gagné l'or, mais ignorait celui qui a fait un effort incroyable pour gagner sa médaille de bronze.

Le problème des "Positifs" (Les bonnes réponses) : L'IA apprend mal les réponses difficiles qu'elle a pourtant trouvées. Elle se concentre trop sur ce qu'elle maîtrise déjà.
Le problème des "Négatifs" (Les mauvaises réponses) : Si l'IA donne une mauvaise réponse mais qu'elle était très sûre d'elle (confiante mais dans l'erreur), le professeur se met en colère de manière disproportionnée et crie si fort que l'IA oublie tout le reste. C'est comme si un seul élève bruyant dominait toute la classe.

En résumé : La méthode actuelle donne des "gradients" (des signaux d'apprentissage) mal répartis. Elle est soit trop douce avec les erreurs difficiles, soit trop violente avec les erreurs confiantes.

2. La Solution : REAL (Récompenses comme Étiquettes)

Les auteurs proposent une nouvelle méthode appelée REAL. Leur idée géniale ? Arrêter de voir la récompense comme un chiffre (une note sur 10) et la voir comme une étiquette simple : "C'est bon" ou "C'est mauvais".

Imaginez que vous trie des pommes dans un panier :

Méthode ancienne : Vous essayez de mesurer la "perfection" de chaque pomme avec une règle ultra-précise.
Méthode REAL : Vous avez deux paniers. Un pour les bonnes pommes (réponse correcte) et un pour les mauvaises pommes (réponse incorrecte). Votre seul but est de mettre la bonne pomme dans le bon panier.

C'est ce qu'ils appellent un problème de classification. Au lieu de calculer des scores complexes, l'IA apprend simplement à distinguer le "vrai" du "faux".

3. L'Innovation Magique : Le "Logit Ancre" (Anchor Logits)

Pour que ce tri fonctionne parfaitement, ils ajoutent une petite règle supplémentaire : L'Ancre.

Imaginez une ligne de démarcation au sol.

Si l'IA propose une bonne réponse, elle doit la pousser au-dessus de la ligne.
Si elle propose une mauvaise réponse, elle doit la pousser en dessous de la ligne.

Cette "ligne" (l'ancre) empêche l'IA de devenir folle. Elle garantit que :

Les bonnes réponses difficiles (qui étaient hésitantes) reçoivent assez d'attention pour être renforcées.
Les mauvaises réponses confiantes ne dominent pas tout le processus d'apprentissage.

C'est comme un régulateur de vitesse automatique qui empêche la voiture d'aller trop vite (instabilité) ou de s'arrêter (stagnation).

4. Les Résultats : Pourquoi c'est mieux ?

Les chercheurs ont testé cette méthode sur des modèles d'IA de différentes tailles (1,5 milliard et 7 milliards de paramètres) avec des problèmes de maths très difficiles (comme des Olympiades de mathématiques).

Les résultats sont impressionnants :

Plus stable : L'IA n'a pas de "crises de nerfs" pendant l'apprentissage. Elle progresse doucement et sûrement.
Plus performante : Sur le modèle moyen (1,5B), REAL bat l'ancienne méthode de pointe (DAPO) de 6,7 %. C'est énorme dans le monde de l'IA !
Plus simple : Étonnamment, REAL fonctionne si bien qu'on n'a même pas besoin d'ajouter des règles de sécurité complexes (appelées "KL penalty") pour éviter que l'IA ne devienne bizarre. La méthode elle-même est déjà stable.

En conclusion

Ce papier nous dit : "Pour apprendre à une IA à raisonner, on n'a pas besoin de calculs compliqués et de notes précises. Il suffit de lui apprendre à bien trier le 'vrai' du 'faux' avec une ligne de démarcation claire."

C'est comme passer d'un professeur qui note chaque virgule d'une dictée à un coach qui dit simplement : "Tu as gagné, continue comme ça !" ou "Tu as perdu, essaie autre chose !". Résultat : l'élève apprend plus vite, plus fort et sans stress.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode clé pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), notamment en mathématiques et en programmation. La méthode dominante actuelle est GRPO (Group Relative Policy Optimization) et ses variantes (comme DAPO, GSPO).

Cependant, les auteurs identifient deux défauts fondamentaux dans l'allocation des gradients induite par les méthodes de type GRPO, qui entraînent des mises à jour de politique inefficaces et sous-optimales :

Mauvaise attribution du gradient sur les échantillons positifs (Gradient Misassignment in Positives) : Pour les réponses correctes (récompense = 1), les tokens déjà très probables reçoivent des mises à jour disproportionnellement grandes, tandis que les tokens "difficiles" (faible probabilité initiale mais corrects) reçoivent des gradients trop faibles. Cela empêche le modèle d'apprendre efficacement sur les parties complexes de la réponse.
Domination du gradient sur les échantillons négatifs (Gradient Domination in Negatives) : Pour les réponses incorrectes (récompense = 0), la magnitude du gradient n'est pas bornée. Les tokens très probables (mais incorrects) génèrent des gradients exponentiellement grands qui dominent la mise à jour, écrasant la contribution d'autres tokens informatifs et rendant l'entraînement instable.

Ces phénomènes créent un désalignement entre l'attribution de crédit souhaitée et la réalité de l'optimisation, menant souvent à une convergence prématurée vers des optima locaux sous-optimaux.

2. Méthodologie : Le cadre REAL

Pour résoudre ces problèmes, les auteurs proposent REAL (Rewards as Labels), un nouveau cadre qui reformule l'optimisation de la politique non plus comme un problème de pondération de gradients scalaires, mais comme un problème de classification.

Principes Clés :

Récompenses comme Étiquettes Catégorielles : Au lieu de traiter les récompenses vérifiables comme des poids scalaires, REAL les considère comme des étiquettes de classe binaire (Positif/Négatif). L'objectif est de discriminer les trajectoires désirables des indésirables.
Logits de Probabilité Relative : Pour chaque trajectoire (rollout), on calcule un score de logit normalisé par la longueur, basé sur le changement de probabilité relative entre la nouvelle politique $\pi_\theta$ et l'ancienne $\pi_{old}$ :
$\bar{s}_k = \frac{1}{|o_k|} \sum_{t} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
Objectif de Classification (Softmax Cross-Entropy) : REAL optimise une fonction de perte unifiée qui sépare les logits des trajectoires positives ( $S_+$ ) et négatives ( $S_-$ ).
Logits Ancre (Anchor Logits) : Pour stabiliser l'apprentissage et éviter des directions de mise à jour ambiguës, les auteurs introduisent un "logit ancre" fixe à 0.
- Pour les échantillons positifs, l'ancre 0 agit comme un négatif (on veut que $\bar{s} > 0$ ).
- Pour les échantillons négatifs, l'ancre 0 agit comme un positif (on veut que $\bar{s} < 0$ ).

La fonction de perte finale est la somme de deux termes de perte softmax :
$\mathcal{L}_{REAL} = \log\left(1 + \sum_{O_+} e^{-\bar{s}_i/\tau}\right) + \log\left(1 + \sum_{O_-} e^{\bar{s}_j/\tau}\right)$
où $\tau$ est un paramètre de température.

Analyse Théorique des Gradients

L'analyse théorique démontre que REAL induit un poids de gradient borné et monotone :

La magnitude du gradient est majorée par $1/\tau$.
Pour les positifs, le gradient diminue lorsque la probabilité relative augmente (évitant la sur-optimisation des tokens faciles).
Pour les négatifs, le gradient augmente avec la probabilité relative mais reste strictement borné, empêchant la domination par quelques échantillons aberrants.
Conséquence majeure : Cette propriété bornée permet d'éliminer le besoin d'un terme de régularisation KL (Kullback-Leibler) explicite, souvent utilisé dans GRPO pour stabiliser l'entraînement, car le mécanisme de clipping implicite de REAL suffit à contrôler l'exploration.

3. Contributions Principales

Identification des défauts de GRPO : Mise en évidence théorique et empirique du "Gradient Misassignment" et du "Gradient Domination" comme causes racines de l'instabilité et de la sous-performance.
Proposition du cadre REAL : Une reformulation novatrice du RLVR en problème de classification, utilisant les récompenses comme étiquettes et les scores de logit relatif comme logits.
Validation Empirique Complète : Des expériences extensives sur des benchmarks de raisonnement mathématique (AIME, MATH, AMC, Minerva, Olympiad) et à différentes échelles de modèles (1.5B et 7B).

4. Résultats Expérimentaux

Les expériences montrent que REAL surpasse systématiquement GRPO et ses variantes les plus avancées (DAPO, GSPO, TRPA).

Modèle 1.5B : REAL améliore le Pass@1 moyen de 6,7 % par rapport à DAPO. Sur le benchmark AIME 2024, REAL atteint 40,6 % contre 37,7 % pour GSPO.
Modèle 7B : Les gains se maintiennent à l'échelle. REAL dépasse DAPO de 6,2 % et GSPO de 1,7 % en Pass@1 moyen.
Stabilité de l'entraînement : Contrairement à GRPO (qui souffre d'effondrement de l'entropie) et DAPO (qui souffre d'explosion de l'entropie), REAL maintient une entropie stable tout au long de l'entraînement, sans nécessiter de pénalité KL explicite.
Robustesse : Même avec une perte binaire simple (BCE) sans logits ancre, REAL reste stable et surpasse DAPO de 4,5 % en moyenne, bien que la version complète avec logits ancre et perte softmax soit la plus performante.

5. Signification et Impact

Ce travail offre un changement de paradigme dans l'optimisation des LLM pour le raisonnement. En passant d'une approche de "pondération de récompense" à une approche de "classification", REAL résout des problèmes fondamentaux d'allocation de gradient qui limitaient les méthodes précédentes.

Simplicité et Efficacité : La méthode élimine la complexité liée au réglage des hyperparamètres de clipping et des termes KL, tout en offrant une meilleure stabilité.
Généralisabilité : La performance supérieure sur des modèles de différentes tailles et sur divers datasets suggère que REAL est une approche plus fondamentale et robuste pour l'apprentissage par renforcement avec récompenses vérifiables.
Futur : Ce papier établit la reformulation par classification comme une voie privilégiée pour un apprentissage de politique stable et efficace, ouvrant la voie à de nouvelles recherches dans l'optimisation des modèles de raisonnement.