Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Each language version is independently generated for its own context, not a direct translation.

🧩 Le Problème : Apprendre à résoudre sans savoir comment on résout

Imaginez que vous apprenez à un robot (une intelligence artificielle) à résoudre un casse-tête de Zèbre (un jeu de logique complexe où il faut déduire qui possède quel animal, quelle couleur de maison, etc.).

Habituellement, on entraîne ces robots de deux façons :

L'entraînement classique : On lui montre des milliers de solutions, mais on mélange l'ordre des étapes (comme si on lui donnait les pièces du puzzle dans le désordre). Il apprend à trouver la bonne réponse finale, mais il ne comprend pas la logique de l'ordre.
L'entraînement par récompense (RL) : Une fois le robot entraîné, on lui dit : "Bravo si tu trouves la solution !". C'est comme un dresseur de chien qui donne une friandise à la fin du tour, mais ne dit pas comment faire le tour.

Le problème ? Le robot peut trouver la bonne réponse, mais il le fait de manière chaotique, comme quelqu'un qui devine au hasard jusqu'à tomber juste. Il ne développe pas de "bonnes habitudes" de raisonnement.

💡 L'Idée Géniale : Le "Boulot de l'Ordre"

Les auteurs de cette étude se sont demandé : "Et si, pendant la phase de récompense, on donnait au robot un petit indice secret sur l'ordre des étapes, sans lui montrer les solutions parfaites ?"

Ils ont créé une méthode ingénieuse qu'on pourrait appeler "La Boussole de l'Ordre".

1. La Scène de départ

Le robot a d'abord été entraîné sur des solutions en désordre. Il sait résoudre le puzzle, mais il le fait n'importe comment.

2. Le Nouveau Système de Récompense

Ensuite, ils ont lancé une phase d'apprentissage avancée (appelée GRPO). Au lieu de donner une seule récompense ("Bravo, c'est juste !"), ils ont donné deux types de récompenses mélangées :

La Récompense "Succès" (Le Drapeau) : 1 point si le puzzle est entièrement résolu correctement.
La Récompense "Ordre" (La Boussole) : Des petits points bonus si le robot suit l'ordre logique qu'un humain expert utiliserait (par exemple : "D'abord on regarde la maison rouge, ensuite on déduit la couleur du chat...").

Le tour de force : Le robot n'a jamais vu les solutions dans le bon ordre pendant son entraînement initial. Il ne connaît pas la "boussole". Il ne la découvre que grâce à ces petits points bonus pendant la phase de récompense.

3. L'Équilibre Parfait (Le "Mix")

Les chercheurs ont mélangé ces deux récompenses.

Si on donne 100% de points pour le succès et 0% pour l'ordre, le robot reste un peu brouillon.
Si on donne un tout petit peu de points pour l'ordre (même seulement 1% !), le robot change radicalement de comportement.

C'est comme si vous appreniez à un enfant à faire un gâteau.

Méthode A : "Si le gâteau est bon, tu as un bonbon." (L'enfant peut mélanger les œufs avant la farine, ou après, ça marche, mais c'est chaotique).
Méthode B : "Si le gâteau est bon, tu as un bonbon. Et si tu as mis les œufs avant la farine, tu as un petit sifflet de félicitation."
Résultat : Même avec un seul sifflet, l'enfant commence à suivre la recette logique, car cela l'aide à obtenir le bonbon plus facilement.

🚀 Les Résultats : Moins de 1% suffit !

Le résultat est surprenant :

Le robot qui n'avait que la récompense de "succès" a résolu 32,6% des puzzles.
Le robot qui avait 99% de récompense de succès + 1% de récompense d'ordre a résolu 36,3% des puzzles.

Le message clé : Même une toute petite indication sur l'ordre des actions suffit à transformer un robot qui "devine" en un robot qui "raisonne" comme un humain.

🌟 Pourquoi c'est important ?

Imaginez que vous vouliez améliorer un modèle d'intelligence artificielle pour qu'il soit plus intelligent, mais que vous n'avez pas le temps de réécrire tous vos livres d'entraînement ou de changer son architecture complexe.

Cette étude montre que vous pouvez simplement ajouter un petit "guide d'ordre" dans le système de récompense. C'est comme ajouter une petite aiguille magnétique dans une boussole déjà existante : ça ne coûte rien, ça ne change pas la carte, mais ça permet au voyageur de trouver son chemin beaucoup plus vite et plus sûrement.

En résumé : Pour apprendre à une IA à mieux raisonner, il ne suffit pas de lui dire "Tu as raison". Il faut aussi lui dire, très subtilement, "Tu as raison, et tu as fait les choses dans le bon ordre".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'apprentissage par renforcement (RL) en phase de post-entraînement des modèles de langage (LLM) optimise généralement une unique fonction objectif scalaire (par exemple, la réussite de la tâche). Cette approche tend à ignorer la structure interne de la solution, notamment l'ordre dans lequel les actions intermédiaires sont exécutées.

Les auteurs se posent la question suivante : Une simple « indication » scalaire vers un ordre canonique de résolution, utilisée uniquement durant le post-entraînement par RL, peut-elle améliorer les performances, même si le modèle a été préalablement affiné (fine-tuned) sur des séquences de solutions randomisées ?

L'étude se concentre sur les énigmes de Zebra (ou énigmes d'Einstein), traitées comme des environnements déterministes avec des transitions d'états latentes. Des travaux antérieurs suggèrent que les modèles entraînés sur des trajectoires de résolution ordonnées développent un « moteur de raisonnement » implicite, contrairement à ceux entraînés sur des séquences aléatoires.

2. Méthodologie

L'approche proposée combine un affinage supervisé standard avec une phase de post-entraînement par RL utilisant une récompense mixte.

A. Architecture et Données

Modèle : Un Transformer de style GPT-2 (4 couches, 4 têtes d'attention, taille cachée 256), entraîné à partir de zéro.
Données : Le jeu de données Zebra (Shah et al., 2024). Chaque énigme est résolue par une séquence d'actions (triplets : ligne, colonne, valeur).
Pré-entraînement (Fine-tuning) : Le modèle est d'abord affiné sur des séquences de solutions randomisées (ordre des actions mélangé), masquant ainsi toute information structurelle sur l'ordre canonique.

B. Post-entraînement par RL (GRPO)

Le modèle est ensuite optimisé via l'algorithme Group Relative Policy Optimization (GRPO). L'innovation réside dans la conception de la fonction de récompense, qui ne se limite pas à la réussite de la tâche.

Design de la Récompense :
La récompense totale ( $R_{total}$ ) est une somme pondérée de deux composantes :

Récompense de Résolution ( $R_{solve}$ ) : Une récompense sparse (0 ou 1) qui ne s'active que si le modèle produit une solution entièrement correcte.
Récompense d'Ordre ( $R_{order}$ ) : Une récompense de mise en forme (reward shaping) qui mesure l'alignement entre l'ordre de génération du modèle et l'ordre canonique du solveur, indépendamment de la justesse des valeurs. Elle est calculée comme l'inverse de la distance absolue entre l'index de génération et l'index canonique.

Mélange et Mise à l'échelle (Bootstrapped Scaling) :
Pour éviter que l'une des récompenses ne domine l'autre en raison de différences d'échelle brute, les auteurs proposent une procédure de mise à l'échelle bootstrap :

Avant le début du RL, le modèle est évalué sur un ensemble de validation.
Les moyennes empiriques de $R_{solve}$ et $R_{order}$ sont calculées.
Des facteurs d'échelle globaux sont fixés pour que, à l'initialisation, les composantes contribuent à la récompense totale selon le ratio cible $\alpha$ (ex: 0.99 pour la résolution, 0.01 pour l'ordre).
Ces facteurs restent constants pendant tout le post-entraînement.

3. Contributions Clés

Injection de structure par récompense scalaire : Une méthode permettant d'introduire une contrainte d'ordre canonique dans le processus de RL (GRPO) sans modifier les données d'affinage supervisé ni l'architecture du modèle.
Procédure de mise à l'échelle bootstrap : Une technique simple pour normaliser des récompenses hétérogènes, permettant des études de mélange contrôlées et interprétables.
Preuve empirique : La démonstration que des signaux d'ordre grossiers, lorsqu'ils sont mélangés avec la récompense de justesse, améliorent significativement la précision de résolution, même lorsque le modèle n'a jamais vu de séquences ordonnées durant l'affinage.

4. Résultats

Les expériences ont été menées sur un ensemble de test d'énigmes de Zebra, avec le modèle initialisé à partir d'un affinage sur ordre aléatoire (précision de base : 0.279).

Impact du mélange de récompenses : L'utilisation de récompenses mixtes améliore systématiquement les performances par rapport à l'optimisation par tâche seule ( $\alpha=1.0$ ).
Meilleure performance : Le mélange optimal est obtenu avec un poids de 0.99 pour la résolution et 0.01 pour l'ordre, atteignant une précision de 0.363.
Efficacité du signal d'ordre : Même une contribution très faible de la récompense d'ordre (1%) suffit à produire un gain significatif par rapport à la récompense de résolution seule (0.326).
Robustesse : D'autres mélanges (ex: 0.9 : 0.1) surpassent également la ligne de base, confirmant que le signal d'ordre guide le modèle vers des trajectoires plus canoniques.

5. Signification et Conclusion

Ce travail démontre que la structure temporelle d'une solution (l'ordre des actions) est une information critique que les modèles de langage peuvent apprendre à exploiter via le RL, même si cette information n'est pas présente dans les données d'entraînement supervisé.

Implication : L'ajout d'une récompense de mise en forme (shaping reward) basée sur l'ordre canonique agit comme un « bouton de contrôle » post-entraînement peu coûteux et modulaire. Cela permet d'orienter le modèle vers des trajectoires de raisonnement plus efficaces sans avoir besoin de curer de nouveaux jeux de données supervisées ou de réentraîner le modèle de zéro.
Limites et Perspectives : L'étude se limite actuellement aux énigmes de Zebra et à un modèle spécifique. Les auteurs suggèrent d'explorer des mises à jour périodiques des facteurs d'échelle (au lieu de fixes) pour s'adapter à l'évolution du modèle durant l'entraînement, ainsi que la généralisation à d'autres tâches et architectures.

En résumé, l'article valide l'hypothèse que des signaux structurels faibles, injectés via le RL, peuvent révéler et exploiter des capacités de raisonnement latentes dans les modèles de langage.