The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme du "Génie à une seule corde"

Imaginez que vous entraînez un élève très intelligent (notre modèle d'IA) pour résoudre des problèmes de mathématiques ou écrire du code.

Avant l'entraînement : L'élève est curieux. S'il doit résoudre un problème, il peut essayer 10 méthodes différentes. Parfois, il se trompe, mais souvent, il trouve la solution en essayant plusieurs approches. C'est ce qu'on appelle la diversité.
Après l'entraînement (avec la méthode classique) : L'élève devient un expert sur un seul type de problème. Il trouve la réponse parfaite la première fois qu'il essaie (c'est génial !). MAIS, s'il essaie de résoudre le même problème d'une autre manière, il est perdu. Il a oublié toutes les autres façons de faire. Pire encore, s'il doit résoudre un problème légèrement différent (hors de sa zone de confort), il panique et oublie tout ce qu'il savait avant.

C'est le paradoxe que les auteurs de ce papier ont découvert : en voulant rendre l'IA plus précise, on l'a rendue plus rigide et plus oublieuse.

🚫 Le Problème : Le "Bouclier" qui étouffe

Jusqu'à présent, les chercheurs utilisaient une règle mathématique appelée divergence Reverse-KL.
Imaginez que cette règle est un gardien très strict qui surveille l'élève.

Si l'élève essaie une nouvelle méthode (même si elle est bonne), le gardien crie : "Non ! Reste sur la voie que tu connais déjà !"
Résultat : L'élève se concentre uniquement sur une seule "voie" (un seul style de réponse). Il devient très fort sur cette voie, mais il perd sa capacité à explorer d'autres chemins. C'est comme si un pianiste ne jouait plus que la même note, parfaitement, mais ne pouvait plus jouer de mélodie.

✅ La Solution : Le "Miroir" qui encourage l'exploration

Les auteurs proposent de changer le gardien. Au lieu de celui qui crie "Reste ici", ils utilisent une nouvelle règle mathématique (la divergence Forward-KL ou JS-divergence) qui agit comme un miroir bienveillant.

Voici l'analogie du Musicien de Jazz :

La Méthode Ancienne (Reverse-KL) : Le musicien écoute un enregistrement de son maître. Il essaie de copier exactement la note jouée par le maître. S'il s'écarte, il se corrige immédiatement. Il finit par jouer la même note à l'infini.
La Nouvelle Méthode (DPH-RL) : Le musicien écoute l'enregistrement, mais le but n'est pas de copier la note exacte. Le but est de s'assurer que toutes les notes que le maître savait jouer sont toujours accessibles.
- Si le musicien essaie une nouvelle note (exploration), le miroir lui dit : "Super ! Continue !".
- Si le musicien oublie une vieille note qu'il maîtrisait (oubli catastrophique), le miroir lui dit : "Attends, tu sais jouer ça aussi, ne l'oublie pas !".

En gros, cette nouvelle méthode force l'IA à réviser ses anciennes connaissances tout en apprenant de nouvelles choses. C'est comme un étudiant qui révise ses cours de l'année dernière tout en apprenant ceux de cette année, au lieu de jeter ses vieux livres pour ne garder que le nouveau.

🛠️ Comment ça marche concrètement ? (Le "Replay" Intelligent)

Les chercheurs ont créé une méthode appelée DPH-RL. Imaginez que l'IA joue à un jeu vidéo :

Le terrain facile (Dpef) : Là où l'IA sait déjà gagner. Au lieu de la laisser s'entraîner frénétiquement pour aller plus vite, on lui demande de rejouer calmement les niveaux qu'elle maîtrise déjà, en utilisant le "miroir" pour s'assurer qu'elle ne change pas son style de jeu. Cela préserve sa mémoire.
Le terrain difficile (Dexp) : Là où l'IA échoue. Ici, on enlève le miroir et on lui dit : "Explore tout ! Essaie n'importe quoi !" Cela lui permet de découvrir de nouvelles stratégies.

En séparant intelligemment ces deux zones, l'IA devient à la fois plus précise (elle trouve la bonne réponse plus souvent) et plus diverse (elle peut trouver plusieurs bonnes réponses).

🌟 Les Résultats : Pourquoi c'est important ?

Les tests montrent que cette méthode est magique :

Moins d'oubli : L'IA n'oublie pas ses anciennes compétences (pas de "catastrophic forgetting").
Plus de créativité : Elle peut proposer plusieurs solutions différentes au même problème (ce qui augmente ses chances de succès, noté Pass@k).
Meilleure généralisation : Si on lui donne un problème qu'elle n'a jamais vu (hors du domaine d'entraînement), elle s'en sort beaucoup mieux que les autres IA, car elle n'est pas "coincée" dans une seule façon de penser.

En résumé

Ce papier nous dit : "Arrêtez de forcer l'IA à être un robot qui répète une seule solution parfaite. Utilisez les bons outils mathématiques pour lui rappeler qu'elle a un large éventail de talents."

C'est un peu comme passer d'un entraînement militaire rigide (où tout le monde marche au pas) à un entraînement de danse (où l'on apprend à être précis, mais aussi à improviser et à garder son équilibre). Le résultat ? Une IA plus intelligente, plus sûre d'elle et plus humaine dans sa façon de raisonner.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Paradoxe de la Collapse de Diversité

L'article aborde un paradoxe central dans l'affinement (fine-tuning) des Grands Modèles de Langage (LLM) par l'apprentissage par renforcement avec récompense vérifiable (RLVR) :

Le constat : Bien que le RLVR améliore systématiquement la précision sur une seule tentative (Pass@1), il entraîne souvent une dégradation des performances lorsque plusieurs tentatives sont autorisées (Pass@k).
La cause identifiée : Les méthodes actuelles, notamment celles utilisant la divergence de Kullback-Leibler (KL) inverse (Reverse-KL) comme régularisateur, provoquent un effondrement de la diversité. La divergence Reverse-KL est "chercheuse de modes" (mode-seeking) : elle force la politique à converger vers une seule solution à haute probabilité, supprimant ainsi les autres chemins de résolution valides.
Conséquences : Cela conduit non seulement à une baisse du Pass@k, mais aussi à un oubli catastrophique (catastrophic forgetting) des compétences acquises précédemment et à une mauvaise généralisation hors domaine (OOD).

2. Méthodologie : DPH-RL (Diversity-Preserving Hybrid RL)

Les auteurs proposent un changement de paradigme : utiliser la divergence elle-même non pas comme une simple contrainte, mais comme un mécanisme actif de préservation de la diversité.

A. Le Cadre Conceptuel

Au lieu de la divergence Reverse-KL ( $D_{KL}(\pi_\theta || \pi_{ref})$ ), l'article explore les divergences $f$ couvrant la masse (mass-covering), telles que :

Forward-KL ( $D_{KL}(\pi_{ref} || \pi_\theta)$ ) : Pénalise le fait que la nouvelle politique $\pi_\theta$ ne couvre pas les modes de la politique de référence $\pi_{ref}$ . Cela agit comme un mécanisme de "répétition" (rehearsal), forçant le modèle à maintenir une couverture large des solutions originales.
Divergence de Jensen-Shannon (JS) : Une alternative symétrique et plus stable qui équilibre la similarité avec la référence et la performance.

B. Architecture de l'Algorithme

La méthode DPH-RL partitionne l'ensemble de données $D$ en deux sous-ensembles distincts pour traiter différemment les échantillons :

Phase de Pré-échantillonnage :
- Les requêtes sont évaluées avec plusieurs tentatives.
- $D_{pef}$ (Near-perfect) : Requêtes où le modèle de référence réussit déjà (ex: 8/8 tentatives).
- $D_{exp}$ (Exploration) : Requêtes difficiles où le modèle de référence échoue.
Phase d'Entraînement en Ligne :
- Pour $D_{exp}$ : Aucune pénalité de divergence n'est appliquée. Le modèle est libre d'explorer agressivement pour trouver de nouvelles solutions (optimisation pure par récompense).
- Pour $D_{pef}$ : Une perte basée sur une divergence $f$ (Forward-KL ou JS) est appliquée. Cela force le modèle à "répéter" et maintenir les connaissances déjà acquises, empêchant l'oubli catastrophique.

C. Efficacité Computationnelle

Une innovation clé est l'utilisation d'une implémentation basée sur des générateurs (generator-based).

Au lieu d'avoir un modèle de référence en ligne (qui nécessiterait des inférences coûteuses à chaque étape), la méthode utilise des échantillons pré-calculés de la politique de référence.
Cela permet de calculer la divergence sans modèle de référence actif pendant la boucle d'entraînement, rendant la méthode aussi efficace que GRPO standard.

3. Contributions Principales

Analyche Systématique de l'Effondrement : Identification de la divergence Reverse-KL comme cause principale de la perte de diversité et de l'oubli catastrophique dans le RLVR, démontrant que son absence totale ou son utilisation standard sont toutes deux sous-optimales.
Cadre DPH-RL : Introduction d'une nouvelle approche utilisant des divergences $f$ couvrant la masse (Forward-KL, JS) comme mécanisme de "répétition" pour préserver la diversité des solutions tout en apprenant.
Garantie Théorique Améliorée : Démonstration mathématique (Théorème 1) que cette approche offre une borne inférieure d'amélioration de la politique plus stricte que l'analyse TRPO originale, grâce à l'exploitation des comportements experts dans $D_{pef}$ .
Validation Empirique Robuste : Résultats supérieurs sur des modèles variés (Llama, Qwen) et des tâches complexes (Mathématiques, SQL).

4. Résultats Expérimentaux

Les expériences ont été menées sur des tâches de génération SQL (Bird, Spider) et de raisonnement mathématique (AIME, AMC, etc.) avec des modèles de 7B à 32B.

Performance Pass@k : DPH-RL (surtout la variante JS) surpasse significativement les baselines (GRPO, DAPO, Reverse-KL) en termes de Pass@k, tout en maintenant ou améliorant le Pass@1.
- Exemple SQL (Bird) : DPH-JS dépasse GRPO de 4,3% en Pass@8.
- Exemple Math : DPH-JS améliore le Mean@k de ~20% sur Qwen tout en préservant la diversité.
Généralisation Hors Domaine (OOD) : C'est le point fort de la méthode. Alors que les modèles entraînés avec Reverse-KL ou sans KL chutent drastiquement sur des tâches hors domaine (ex: un modèle entraîné sur SQL échouant sur les mathématiques), DPH-RL maintient des performances élevées, évitant l'oubli catastrophique.
Stabilité : Contrairement à GRPO qui montre un effondrement progressif de la diversité au fil des époques d'entraînement, DPH-RL maintient une stabilité supérieure.
Efficacité : La méthode n'ajoute pas de coût computationnel significatif par rapport à GRPO car elle évite l'inférence du modèle de référence en temps réel.

5. Signification et Impact

Cet article met en lumière un axe critique mais négligé dans l'optimisation des LLM par RL : le choix de la mesure de divergence.

Il démontre que la divergence Reverse-KL, standard dans le domaine, est intrinsèquement incompatible avec l'objectif de maintenir une diversité de solutions (Pass@k) et la généralisation.
En repensant la divergence comme un mécanisme de "répétition" plutôt que de simple régularisation, DPH-RL offre une solution élégante et efficace au compromis entre performance greedy (Pass@1) et diversité (Pass@k).
La méthode est orthogonale aux techniques existantes de contrôle d'entropie ou de façonnage de récompense, suggérant qu'elle peut être facilement intégrée dans les pipelines RLVR futurs pour construire des modèles de raisonnement plus robustes et généralisables.

En résumé, DPH-RL propose que la clé pour éviter l'effondrement de la diversité ne réside pas dans l'ajout de complexité, mais dans le changement stratégique de la divergence utilisée pour ancrer le modèle à ses connaissances initiales tout en lui permettant d'explorer.