Auteurs originaux : Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Publié 2026-05-07

📖 6 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

La Vue d'Ensemble : Enseigner à l'IA à Résoudre des Énigmes

Imaginez que vous entraînez un robot à résoudre des problèmes de mathématiques ou à écrire du code. Vous lui donnez une consigne, et il tente de générer une réponse. Pour l'enseigner, vous utilisez une méthode appelée Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR).

Pensez-y comme à une émission de télé-réalité. Le robot (l'IA) génère plusieurs réponses différentes à une seule question. Un arbitre (un simple programme informatique) les vérifie :

Si la réponse est correcte, le robot reçoit un « pouce vers le haut » (récompense positive).
Si elle est incorrecte, le robot reçoit un « pouce vers le bas » (récompense négative).

L'objectif est d'enseigner au robot à générer plus de réponses avec « pouce vers le haut » et moins de réponses avec « pouce vers le bas ». Le papier se concentre sur une méthode d'entraînement spécifique appelée GRPO, qui est populaire car elle est simple et fonctionne bien.

Le Problème : Comment Compter les Votes

La question centrale que le papier aborde est subtile mais critique : Lorsque le robot génère un groupe de réponses, comment calculons-nous la « leçon moyenne » à en tirer ?

Le robot peut générer 16 réponses à la fois. Certaines sont courtes (5 mots), d'autres sont longues (500 mots). Certaines sont correctes, d'autres sont fausses. L'algorithme d'entraînement doit combiner tous ces mots individuels en une seule grande « mise à jour » pour améliorer le cerveau du robot.

Il existe deux façons principales dont les gens ont procédé jusqu'ici, et le papier soutient que les deux présentent un défaut caché :

1. La Méthode « Comptage de Mots » (Agrégation par Jetons)

Comment ça marche : Vous comptez chaque mot (jeton) de chaque réponse et vous les moyennez tous ensemble.
Le Défaut (Le « Méchant Verbeux ») : Imaginez un groupe d'élèves passant un examen.
- L'Élève A trouve la bonne réponse mais écrit une explication très courte et concise (10 mots).
- L'Élève B trouve la mauvaise réponse mais écrit un essai massif et décousu (500 mots).
- Si vous comptez simplement les mots, la mauvaise réponse de l'Élève B a 50 fois plus de « poids » dans la moyenne que la bonne réponse de l'Élève A.
- Le Résultat : L'IA est confuse. Elle pense que les réponses longues et fausses sont plus importantes parce qu'elles occupent plus d'espace. C'est ce qu'on appelle le « Couplage Signe-Longueur ». La longueur de la réponse modifie accidentellement le signe (positif ou négatif) de la leçon.

2. La Méthode « Par Personne » (Agrégation par Séquence)

Comment ça marche : Vous calculez d'abord la leçon moyenne pour chaque réponse individuellement, puis vous moyennez ces réponses entre elles.
Le Défaut (Le « Votant Paresseux ») : En utilisant le même exemple d'élèves :
- L'Élève A (Court, Correct) obtient 1 vote.
- L'Élève B (Long, Incorrect) obtient 1 vote.
- Le Résultat : Cela résout le problème du « méchant verbeux ». Mais maintenant, cela traite une réponse de 10 mots exactement de la même manière qu'une réponse de 500 mots. Si l'IA apprend beaucoup d'une explication longue et détaillée, cette méthode ignore cet effort supplémentaire. Elle « sous-pèse » les réponses longues, les traitant comme si elles étaient aussi simples que les courtes.

La Solution : « Agrégation Équilibrée » (BA)

Les auteurs proposent une nouvelle méthode appelée Agrégation Équilibrée (BA). C'est comme un arbitre intelligent qui corrige les défauts des deux méthodes précédentes.

Comment ça marche :

Trier les Réponses : D'abord, l'arbitre sépare les réponses en deux tas : le tas « Bon » (pouces vers le haut) et le tas « Mauvais » (pouces vers le bas).
Compter les Mots à l'Intérieur des Tas : À l'intérieur du tas « Bon », ils comptent tous les mots et les moyennent. À l'intérieur du tas « Mauvais », ils comptent tous les mots et les moyennent.
Équilibrer les Tas : Enfin, ils combinent les deux tas. Mais voici l'astuce : ils ne les mélangent pas au hasard. Ils s'assurent que le tas « Bon » et le tas « Mauvais » ont une influence égale sur la décision finale, indépendamment du nombre de mots dans chaque tas.

L'Analogie :
Imaginez un conseil municipal votant sur un nouveau parc.

Ancienne Méthode 1 (Comptage de Mots) : Les gens qui parlent le plus longtemps obtiennent le plus de votes, même s'ils ont tort.
Ancienne Méthode 2 (Par Personne) : Chaque personne obtient un vote, même si l'une a écrit un rapport de 50 pages et l'autre a juste dit « Oui ».
Agrégation Équilibrée : Le conseil se divise en groupes « Pour le Parc » et « Contre le Parc ». Ils moyennent les arguments à l'intérieur de chaque groupe. Ensuite, ils donnent au groupe « Pour » et au groupe « Contre » un poids égal dans la décision finale, garantissant que la longueur des arguments ne fausse pas le résultat.

Que Ont-ils Découvert ?

Les chercheurs ont testé cette nouvelle méthode sur deux modèles d'IA différents (Qwen2.5-Math-7B et Qwen3-1.7B) en utilisant des ensembles de données de mathématiques et de codage.

La Stabilité est Clé : Les anciennes méthodes fonctionnaient souvent bien au début, puis s'effondraient ou devenaient instables plus tard dans l'entraînement. La méthode « Comptage de Mots » était particulièrement instable lorsque l'IA commençait à écrire des réponses incorrectes très longues.
Meilleurs Résultats : La méthode Agrégation Équilibrée a produit de manière constante de meilleurs scores finaux. Elle était plus stable, ce qui signifie que l'IA apprenait régulièrement sans oscillations sauvages de performance.
Pourquoi Cela Compte : Le papier montre que la « meilleure » façon d'entraîner une IA dépend de la variation de la longueur des réponses.
- Si les réponses varient considérablement en longueur, la méthode « Comptage de Mots » peut être risquée.
- Si la différence entre les longueurs des réponses « Bonnes » et « Mauvaises » est énorme, la méthode « Par Personne » peut être injuste.
- L'Agrégation Équilibrée fonctionne bien dans les deux situations car elle corrige le biais spécifique de chaque méthode.

L'Essentiel

Le papier conclut que la façon dont vous « mélangez les ingrédients » (agrègez les données) dans l'entraînement de l'IA n'est pas juste un détail technique mineur ; c'est un choix de conception majeur qui détermine si l'IA apprend efficacement ou si elle se trompe. En séparant simplement les exemples « bons » et « mauvais » avant de les moyenner, les auteurs ont créé une méthode plus robuste, stable et efficace pour enseigner à l'IA à raisonner et à coder.

Each language version is independently generated for its own context, not a direct translation.

Résumé technique : Agrégation équilibrée : Comprendre et corriger le biais d'agrégation dans GRPO

Énoncé du problème

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme standard pour améliorer le raisonnement et la génération de code dans les grands modèles de langage (LLM), l'optimisation de politique relative par groupe (GRPO) étant une méthode largement adoptée en raison de sa simplicité et de l'absence de critique séparé. Cependant, un choix de conception critique au sein de GRPO reste sous-exploré : la règle d'agrégation des termes de gradient de politique au niveau des jetons au sein d'un groupe échantillonné.

Les pratiques actuelles relèvent généralement de deux catégories :

Agrégation de séquence : Le défaut dans GRPO standard, qui moyenne d'abord les contributions des jetons au sein de chaque réponse, puis moyenne sur les réponses. Cela pénalise implicitement les réponses plus longues car chaque séquence contribue de manière égale, indépendamment du nombre de jetons.
Agrégation de jetons : Prônée par des travaux récents comme DAPO et Dr.GRPO, qui moyenne l'objectif tronqué directement sur tous les jetons du groupe échantillonné.

L'article identifie que ces deux règles induisent des biais d'optimisation systématiquement différents :

L'agrégation de jetons introduit un biais de couplage signe-longueur. La contribution relative des échantillons positifs (avantage > 0) et négatifs (avantage < 0) dépend non seulement de leurs avantages normalisés, mais aussi de leurs longueurs de réponse moyennes. Si les réponses positives et négatives ont des distributions de longueur différentes, l'agrégation de jetons peut amplifier systématiquement un côté de la mise à jour, conduisant à une dynamique d'entraînement instable.
L'agrégation de séquence élimine le couplage signe-longueur en attribuant un poids égal à chaque réponse. Cependant, elle introduit un biais de pondération égale des séquences, où les réponses plus longues sont implicitement pénalisées car la perte est moyennée par séquence plutôt que par jeton.

Aucune approche n'est universellement optimale ; l'efficacité de chacune dépend de la variance des longueurs de réponse et de l'écart de longueur entre les échantillons positifs et négatifs.

Méthodologie : Agrégation équilibrée (BA)

Pour résoudre la tension entre ces biais, les auteurs proposent l'agrégation équilibrée (BA), un remplacement simple et direct pour l'étape d'agrégation dans le RLVR de style GRPO.

Le mécanisme central de BA implique un processus en trois étapes :

Partitionnement : Le groupe échantillonné de réponses est divisé en deux sous-ensembles basés sur le signe de leurs avantages normalisés : un sous-ensemble positif ( $S_+$ ) et un sous-ensemble négatif ( $S_-$ ).
Moyenne intra-sous-ensemble : Les moyennes au niveau des jetons sont calculées séparément au sein de chaque sous-ensemble. Cela conserve la propriété de moyennage au niveau des jetons au sein des groupes de signes, évitant ainsi le fort pondération égale par séquence de l'agrégation de séquence standard.
Combinaison inter-sous-ensemble : Les deux pertes de sous-ensemble sont combinées en utilisant des poids proportionnels au nombre de séquences dans chaque sous-ensemble ( $k/G$ pour les positifs et $(G-k)/G$ pour les négatifs, où $k$ est le nombre de séquences positives).

Justification théorique :
Dans le cadre GRPO standard à récompense binaire, ce schéma de pondération spécifique garantit que BA induit le même facteur de prépondération d'équilibrage inter-signes que l'agrégation de séquence ( $\sqrt{k(G-k)}/G$ ). Par conséquent, BA préserve la propriété d'équilibre des signes de l'agrégation de séquence (éliminant le couplage signe-longueur) tout en évitant l'effet fort de pondération égale des séquences qui pénalise les réponses longues. L'article fournit également une formulation généralisée pour les récompenses non binaires où les poids sont déterminés par la masse d'avantage plutôt que par le nombre de séquences.

Contributions clés

Analyse unifiée du biais d'agrégation : L'article fournit une analyse formelle démontrant que l'agrégation de perte dans GRPO n'est pas un détail d'implémentation bénin. Il caractérise le biais spécifique de « couplage signe-longueur » dans l'agrégation de jetons et le biais de « pondération égale des séquences » dans l'agrégation de séquence.
Agrégation équilibrée (BA) : La proposition de BA comme alternative simple et directe qui découple les biais de signe et de longueur. Elle effectue un moyennage au niveau des jetons au sein des groupes de signes, mais équilibre les groupes en fonction des comptes de séquences.
Validation empirique et critères de diagnostic : Des expériences extensives montrant que l'efficacité relative de l'agrégation de jetons par rapport à l'agrégation de séquence est régie par la variance des longueurs de réponse et l'écart de longueur positif-négatif. L'article démontre que BA surpasse constamment les deux lignes de base sur différents modèles et ensembles de données.

Résultats expérimentaux

Les auteurs ont évalué BA en utilisant Qwen2.5-Math-7B et Qwen3-1.7B sur deux ensembles de données d'entraînement (DAPO-17k et Polaris). La performance a été mesurée sur six benchmarks : Math-500, AIME 2024, AIME 2025, OlympicBench, Minerva-MATH et LiveCodeBench.

Constats clés :

Stabilité de l'entraînement : L'agrégation de jetons conduit souvent à une dégradation sévère des performances aux stades ultérieurs de l'entraînement (chute élevée du pic à la dernière étape), tandis que BA maintient une précision robuste à la dernière étape.
Dynamiques dépendantes du modèle :
- Sur Qwen2.5-Math-7B (qui présentait une plus grande variation de longueur de réponse), l'agrégation de jetons a initialement surpassé l'agrégation de séquence, mais BA a dépassé les deux en performance de pic et de dernière étape.
- Sur Qwen3-1.7B (qui présentait un plus grand écart de longueur positif-négatif), l'agrégation de séquence était plus stable que l'agrégation de jetons, mais BA a à nouveau atteint les métriques de pic et de dernière étape les plus élevées.
Dynamiques de perte : L'analyse des trajectoires de perte de gradient de politique a révélé que l'agrégation de jetons provoque des dérives massives loin de zéro en raison du couplage signe-longueur, tandis que BA et l'agrégation de séquence restent stables près de zéro.
Performance globale : BA a constamment livré une performance finale plus forte et une meilleure stabilité d'entraînement par rapport aux agrégations de jetons et de séquence standard sur tous les régimes testés.

Importance et revendications

L'article revendique que l'agrégation est un choix de conception de premier ordre dans le RLVR de style GRPO, plutôt qu'un détail d'implémentation mineur. L'importance du travail réside dans :

Stabilité : BA fournit un signal d'optimisation plus robuste qui empêche l'effondrement de l'entraînement souvent observé avec l'agrégation de jetons aux stades ultérieurs.
Universalité : Contrairement à l'agrégation de jetons ou de séquence, qui fonctionnent bien uniquement dans des conditions spécifiques de distribution de longueur, BA est robuste à travers différentes tailles de modèles et ensembles de données.
Principe de conception : Le travail met en évidence que le RLVR efficace nécessite un équilibre du pondération inter-signes (pour prévenir le biais) sans rejeter les informations de jetons intra-signes (pour préserver le signal des réponses longues).

Les auteurs concluent que l'agrégation équilibrée offre une solution simple mais efficace aux compromis inhérents de GRPO, conduisant à une optimisation plus stable et à une amélioration des performances finales du modèle dans les tâches de raisonnement et de codage.

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO