Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme du Génie qui a "oublié" comment rêver

Imaginez que vous avez un étudiant très brillant (une Intelligence Artificielle) qui excelle en mathématiques. Pour le rendre encore meilleur, vous lui donnez des exercices avec des réponses corrigées automatiquement (c'est ce qu'on appelle le RLVR).

Le problème ? Cet étudiant a tendance à devenir un peu rigide.

Avant : Il pouvait imaginer 100 façons différentes de résoudre un problème, même si certaines étaient étranges.
Après l'entraînement : Il devient très efficace pour choisir la "meilleure" solution parmi celles qu'il connaît déjà. Mais il a perdu sa capacité à inventer de nouvelles stratégies. C'est comme un musicien qui ne joue plus que les classiques qu'il maîtrise parfaitement, mais qui a oublié comment improviser.

Les chercheurs ont constaté que si on demande à cet IA de générer 256 réponses différentes pour un même problème, elle ne fait souvent que varier légèrement les mêmes vieilles solutions. Elle a atteint un "plafond de verre" : elle ne peut plus explorer de nouveaux territoires.

🎨 La Solution : Le "Bruit" dans les Cerveaux (PSN-RLVR)

Pour briser ce plafond, les auteurs proposent une méthode géniale appelée PSN-RLVR. Au lieu de perturber les mots que l'IA écrit (comme changer un mot par hasard), ils perturbent les paramètres internes du cerveau de l'IA (ses poids neuronaux) avant qu'elle ne commence à réfléchir.

Voici trois analogies pour comprendre comment ça marche :

1. L'Analogie du Peintre et de ses Pinceaux 🖌️

La méthode habituelle (Bruit dans l'action) : C'est comme si le peintre essayait de peindre un tableau en tremblant la main à chaque coup de pinceau. Le résultat est chaotique, incohérent, et le dessin final perd son sens. C'est ce qui arrive quand on perturbe les mots un par un : la logique de l'histoire se brise.
La méthode PSN (Bruit dans les paramètres) : Imaginez que vous changez légèrement la façon dont le peintre voit les couleurs ou tient son pinceau avant de commencer. Il va peindre tout le tableau avec cette nouvelle "vision". Le résultat est cohérent du début à la fin, mais c'est un style totalement nouveau. L'IA explore une nouvelle "façon de penser" pour toute la durée de la résolution du problème.

2. L'Analogie du Voyageur et de la Boussole 🧭

Le problème : L'IA est un voyageur qui a une boussole très précise (le modèle entraîné). Elle sait exactement où aller pour trouver le trésor (la bonne réponse), mais elle ne part jamais vers l'inconnu.
La solution PSN : On donne au voyageur une boussole légèrement décalée. Il va explorer des sentiers qu'il n'aurait jamais pris avec sa boussole normale. Comme le décalage est constant pendant tout le voyage, il ne se perd pas ; il découvre simplement de nouveaux chemins qui mènent peut-être à un trésor caché que l'IA normale ignorait.

3. L'Analogie du Chef de Cuisine 👨‍🍳

L'approche classique : Le chef ajuste le sel à chaque bouchée. C'est imprévisible et ça gâche le goût global.
L'approche PSN : Le chef change légèrement la recette de base (la quantité de farine, la température du four) avant de commencer à cuisiner. Il va créer un plat entier avec une saveur subtilement différente. S'il trouve une combinaison délicieuse, il peut l'apprendre et l'ajouter à son répertoire.

⚙️ Les Deux Astuces Magiques pour que ça marche

Pour que cette méthode fonctionne sans casser l'IA, les chercheurs ont ajouté deux ingrédients secrets :

Le "Filtre de Correction" (Truncated Importance Sampling) :
Puisque l'IA explore avec une "boussole décalée", elle produit des réponses qui ne correspondent pas exactement à ce qu'elle apprendra plus tard. C'est comme si un élève faisait ses devoirs avec une règle tordue, puis devait apprendre la leçon avec une règle droite.
- La solution : Un petit filtre mathématique qui "redresse" les leçons apprises, pour s'assurer que l'IA ne se trompe pas en apprenant de ses propres erreurs d'exploration.
Le "Régulateur Intelligent" (Adaptive Noise Scheduler) :
Si on met trop de "bruit" (trop de décalage), l'IA devient folle et ne trouve rien. Si on en met trop peu, elle ne change rien.
- La solution : Au lieu de régler ce bruit manuellement, les chercheurs ont créé un petit assistant qui regarde l'IA en temps réel.
  - Si l'IA semble trop sûre d'elle et répète toujours les mêmes choses (manque de diversité), l'assistant augmente le bruit pour la forcer à sortir de sa zone de confort.
  - Si l'IA semble perdue, l'assistant calme le jeu.
    C'est comme un coach sportif qui ajuste la difficulté de l'entraînement en fonction de la fatigue de l'athlète, sans avoir besoin de le mesurer avec des instruments lourds.

🏆 Le Résultat : Pourquoi c'est génial ?

Les tests montrent que cette méthode permet à l'IA de :

Trouver des solutions que personne n'avait vues avant, surtout sur des problèmes très difficiles qui demandent de longues chaînes de logique (comme les mathématiques de haut niveau).
Être beaucoup plus performante quand on lui demande de générer beaucoup d'essais (par exemple, trouver la bonne réponse parmi 256 tentatives).
Rester cohérente : Contrairement aux méthodes qui bricolent les mots un par un, l'IA garde une logique solide du début à la fin de sa réflexion.

En résumé : Ce papier nous dit que pour faire progresser l'IA au-delà de ses limites actuelles, il ne faut pas juste lui apprendre à mieux choisir ses réponses, mais lui apprendre à changer sa façon de penser pour explorer de nouveaux mondes de solutions, tout en gardant le cap grâce à des outils de correction intelligents. C'est comme donner à un explorateur une nouvelle carte, plutôt que de simplement lui dire de marcher plus vite sur le même chemin.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Plafond d'Exploration du RLVR

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu le paradigme dominant pour améliorer le raisonnement des grands modèles de langage (LLM), notamment en mathématiques et en code. Cependant, les auteurs identifient un "plafond d'exploration" (exploration ceiling) :

Limitation actuelle : Les méthodes RLVR standard (comme GRPO) agissent principalement comme des mécanismes de repondération de distribution. Elles améliorent l'efficacité de l'échantillonnage (pass@1) en sélectionnant de meilleures trajectoires parmi celles déjà présentes dans la distribution pré-entraînement du modèle, mais elles échouent à découvrir de nouvelles stratégies de raisonnement qualitatives.
Conséquence : Sous de grands budgets d'échantillonnage (ex: pass@256), les gains saturent. Les modèles entraînés par RLVR présentent une diversité sémantique et opérationnelle réduite par rapport au modèle de base, limitant leur capacité à explorer des régions de l'espace de raisonnement peu probables mais potentiellement supérieures.
Échec des approches existantes :
- Perturbations de l'espace d'action (Token-level) : Le bruit ajouté au niveau des tokens (ex: température) est souvent non corrélé dans le temps, ce qui dégrade la cohérence globale des chaînes de pensée (CoT) sur de longues trajectoires.
- Régularisation de l'objectif : Les méthodes modifiant la fonction de perte (ex: bonus d'entropie) dépendent souvent de signaux proxy instables.

2. Méthodologie : PSN-RLVR

Pour surmonter ces limites, les auteurs proposent PSN-RLVR (Parameter-Space Noise for RLVR), un cadre qui perturbe les paramètres du modèle plutôt que les actions (tokens) pour induire une exploration cohérente au niveau de la trajectoire.

A. Le Cœur de la Méthode : Bruit dans l'Espace des Paramètres (PSN)

Au lieu de perturber les sorties token par token, le bruit est ajouté aux poids du modèle avant la génération de l'échantillon (rollout) :
$\tilde{\theta} = \theta + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2 I)$

Avantage clé : Une fois perturbé, le paramètre $\tilde{\theta}$ reste fixe pour toute la durée de la génération d'une trajectoire. Cela induit une exploration temporellement cohérente, préservant la logique à long terme essentielle au raisonnement CoT, contrairement au bruit aléatoire par token.
Injection optimale : Les expériences montrent que l'injection du bruit dans les blocs MLP (Feed-Forward) des Transformers est plus efficace que dans la couche de sortie (LM Head) ou l'ensemble des couches.

B. Modules de Correction et d'Adaptation

L'application du PSN pose deux défis majeurs que l'article résout via deux modules légers :

Échantillonnage par Importance Tronqué (TIS) :
- Problème : Il y a un décalage de distribution (off-policy mismatch) car les données sont générées par la politique bruitée $\pi_{\tilde{\theta}}$ mais utilisées pour mettre à jour la politique propre $\pi_{\theta}$ .
- Solution : Intégration du TIS dans l'objectif de GRPO. Le rapport d'importance est tronqué ( $w_t = \min(\frac{\pi_\theta}{\pi_{\tilde{\theta}}}, C)$ ) pour stabiliser l'apprentissage et éviter une variance infinie lorsque les politiques divergent trop.
Ordonnanceur de Bruit Adaptatif en Temps Réel :
- Problème : Ajuster manuellement l'échelle de bruit ( $\sigma$ ) est difficile. Les méthodes basées sur la divergence KL sont coûteuses et souffrent de latence.
- Solution : Un ordonnanceur léger qui ajuste $\sigma$ $σ$ en temps réel en fonction de deux indicateurs calculés sur de petits échantillons de sondage (probe rollouts) :
  - Diversité Sémantique : Similarité cosinus entre les embeddings de deux trajectoires générées par la politique propre. Une forte similarité indique un besoin d'exploration accrue.
  - Auto-certitude (Self-Certainty) : Mesure de la concentration de la distribution de probabilité du modèle (divergence KL par rapport à une distribution uniforme). Une forte certitude (distribution pointue) signale un besoin d'exploration.
- Efficacité : Cette approche évite le calcul coûteux de la KL entre politiques et ne réduit le débit global que d'environ 8%.

3. Contributions Clés

PSN-RLVR : Premier cadre systématique appliquant le bruit dans l'espace des paramètres aux LLM entraînés par RLVR, démontrant que cela permet de découvrir de nouvelles stratégies de raisonnement plutôt que de simplement repondérer les anciennes.
Stabilité et Efficacité : Introduction du TIS pour corriger le biais hors-police et d'un ordonnanceur adaptatif basé sur la certitude et la diversité, éliminant le besoin de réglages manuels complexes ou de calculs KL coûteux.
Analyse de l'Espace de Conception : Une étude approfondie montrant que l'injection de bruit dans les couches MLP est optimale et que le PSN est orthogonal aux autres méthodes d'exploration (comme l'entraînement Pass@k), permettant des gains additifs lorsqu'ils sont combinés.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de la famille Qwen (Qwen2.5-Math-7B, Qwen3-4B) et des benchmarks mathématiques difficiles (AIME 2024/2025, OlympiadBench, Minerva Math).

Extension de la frontière de raisonnement : PSN-GRPO surpasse systématiquement les méthodes de base (GRPO standard) et les méthodes d'exploration par température, en particulier sous de grands budgets d'échantillonnage (pass@128, pass@256).
- Exemple : Sur AIME 2024, PSN-GRPO améliore le pass@256 de +8,9 points par rapport au meilleur réglage de température.
Diversité accrue : Les trajectoires générées montrent une diversité sémantique et opérationnelle significativement plus élevée, prouvant que le modèle explore de nouveaux modes de raisonnement.
Supériorité sur le bruit d'action : Contrairement au bruit de température qui dégrade la cohérence sur les longues trajectoires, le PSN maintient la cohérence logique, ce qui se traduit par des gains massifs sur les tâches longues (ex: AIME 2024 avec ~2000 tokens de réponse).
Orthogonalité : La combinaison de PSN avec l'entraînement Pass@k améliore encore les performances, atteignant un pass@256 moyen de 79,12% contre 76,37% pour Pass@k seul.

5. Signification et Impact

Ce travail remet en question l'hypothèse selon laquelle le RLVR ne fait que repondérer les trajectoires existantes. En introduisant une exploration structurée via le bruit des paramètres, PSN-RLVR permet aux modèles de franchir des barrières de capacité que les méthodes traditionnelles ne peuvent pas atteindre.

Implication théorique : Cela valide l'idée que l'exploration dans l'espace des paramètres est plus adaptée aux tâches de raisonnement séquentiel à long terme que l'exploration au niveau des tokens.
Implication pratique : La méthode offre une solution efficace et peu coûteuse (grâce à l'ordonnanceur adaptatif) pour améliorer la robustesse et la créativité des modèles de raisonnement, ce qui est crucial pour des applications nécessitant une fiabilité élevée dans des domaines comme l'éducation, la science et le développement logiciel.

En résumé, l'article propose une avancée majeure en transformant le RLVR d'un outil d'optimisation locale en un mécanisme capable de découvrir des stratégies de résolution de problèmes qualitativement nouvelles.