DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

Le papier propose DyJR, un cadre de régularisation innovant qui préserve la diversité dans l'apprentissage par renforcement pour les grands modèles de langage en utilisant une distribution de référence dynamique et une divergence Jensen-Shannon, surpassant ainsi les méthodes existantes comme GRPO tout en maintenant une efficacité computationnelle élevée.

Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

Publié 2026-03-18
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'élève qui oublie ses meilleures idées

Imaginez que vous apprenez à résoudre des énigmes mathématiques complexes avec un robot très intelligent (un modèle de langage).
Aujourd'hui, la méthode standard (appelée GRPO) fonctionne comme un étudiant qui ne regarde que la leçon du jour.

  • Il essaie une solution.
  • S'il a raison, il est content.
  • S'il se trompe, il recommence.
  • Le problème : Une fois la leçon finie, il jette tout ce qu'il a écrit sur ses brouillons précédents. Il oublie immédiatement ses anciennes tentatives, même celles qui étaient brillantes mais qui n'ont pas tout à fait réussi.

C'est comme si un chef cuisinier goûtait un plat, le trouvait bon, mais jetait la recette dans la poubelle avant de cuisiner le plat suivant. De plus, comme le robot ne se souvient que de la dernière chose qu'il a faite, il finit par devenir "paresseux" : il répète toujours la même solution facile qu'il a trouvée par hasard, au lieu d'explorer d'autres façons ingénieuses de résoudre le problème. C'est ce qu'on appelle la perte de diversité (ou "effondrement de mode").

💡 La Solution : DyJR, le "Journal de Bord Intelligent"

Les auteurs de cet article proposent une nouvelle méthode appelée DyJR. Imaginez que nous donnons au robot un journal de bord spécial pour apprendre de son passé, mais avec deux règles très intelligentes pour ne pas se perdre.

1. Le Journal qui s'auto-nettoie (Le Tampon Dynamique)

La plupart des méthodes d'apprentissage essaient de garder toutes les anciennes recettes dans un immense coffre-fort. C'est lourd, lent et encombrant.
DyJR, lui, utilise une règle simple : "Seules les idées récentes comptent."

  • L'analogie : Imaginez un tamis qui ne garde que les poissons les plus frais. Si un poisson (une solution) a été pêché il y a trop longtemps, il commence à pourrir (il ne correspond plus à ce que le robot sait faire aujourd'hui) et est jeté.
  • L'astuce : Au tout début de l'apprentissage, quand le robot explore beaucoup, le tamis est grand pour garder plein d'idées variées. Dès que le robot commence à bien comprendre, le tamis rétrécit pour ne garder que les solutions les plus proches de sa façon actuelle de penser. Cela économise énormément de mémoire et de temps.

2. Le "Compas de Diversité" (La Régularisation JS)

C'est la partie la plus géniale. Au lieu de dire au robot : "Regarde cette vieille solution parfaite, fais exactement pareil !", DyJR lui dit : "Regarde cette vieille solution, assure-toi juste de ne pas t'éloigner trop de son esprit."

  • L'analogie :
    • L'ancienne méthode (Mauvaise) : C'est comme un professeur qui force l'élève à copier mot pour mot la solution d'un camarade. L'élève finit par ne plus réfléchir par lui-même et perd sa créativité.
    • La méthode DyJR (Bonne) : C'est comme un professeur qui dit : "Reste dans le même quartier que les bonnes solutions, mais tu as le droit de prendre des rues différentes."
    • Techniquement, ils utilisent une mesure mathématique (la Divergence de Jensen-Shannon) qui agit comme un compas. Elle empêche le robot de s'écarter trop de la diversité qu'il a déjà trouvée, sans l'obliger à copier bêtement.

🚀 Les Résultats : Pourquoi c'est génial ?

Grâce à cette approche, le robot devient :

  1. Plus créatif : Il n'abandonne pas ses idées originales. Il continue d'explorer plusieurs chemins pour résoudre un problème, au lieu de se bloquer sur le premier qui marche.
  2. Plus rapide et léger : Il n'a pas besoin de stocker des montagnes de données. Il garde juste l'essentiel, le "frais".
  3. Plus performant : Sur des tests de mathématiques et de génération de code (SQL), DyJR bat largement les méthodes actuelles. Il trouve plus de bonnes solutions, même pour des problèmes très difficiles.

🎯 En résumé

DyJR, c'est comme donner à un apprenti génie un journal de bord intelligent qui :

  • Garde les idées fraîches et jette les vieilles.
  • Lui rappelle de rester curieux et diversifié, sans le forcer à copier aveuglément le passé.

Résultat : Le robot apprend plus vite, utilise moins d'énergie et devient beaucoup plus brillant pour résoudre des énigmes complexes !

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →