Learn Hard Problems During RL with Reference Guided Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tous, même sans connaissances techniques en intelligence artificielle.

Le Problème : L'Étudiant Bloqué dans le Noir

Imaginez que vous essayez d'apprendre à un élève très doué (une Intelligence Artificielle) à résoudre des problèmes de mathématiques de niveau olympique.

Pour apprendre, cet élève a besoin de feedback (des corrections).

S'il trouve la bonne réponse, il reçoit une félicitation (une "récompense").
S'il se trompe, il ne reçoit rien.

Le problème, c'est que sur les questions très difficiles, l'élève est tellement perdu qu'il ne trouve jamais la bonne réponse, même s'il essaie 100 fois. Il reste donc dans le noir complet, sans aucune félicitation. C'est ce que les chercheurs appellent la sparsité de la récompense (la récompense est trop rare). Sans félicitations, l'élève ne sait pas comment progresser et l'apprentissage s'arrête.

L'Idée Fausse : Copier le Professeur

On pourrait penser : "Bah, on a les solutions écrites par des humains dans le manuel ! On lui fait juste apprendre par cœur ces solutions."

Mais cela ne marche pas bien. Pourquoi ? Parce que si l'élève copie mot pour mot la solution d'un génie, il ne comprend pas la logique. C'est comme si vous appreniez à conduire en lisant le manuel d'un pilote de course, sans jamais toucher le volant. Quand vous serez seul face à une nouvelle route, vous ne saurez pas réagir. L'IA, elle aussi, ne peut pas imiter parfaitement des raisonnements qui ne correspondent pas à sa propre façon de penser.

La Solution Magique : Le Guide de Montagne (ReGFT)

Les auteurs du papier proposent une méthode brillante appelée ReGFT (Fine-tuning Guidé par la Référence).

Imaginez que l'élève est un alpiniste bloqué au milieu d'une montagne difficile. Il ne voit pas le sommet.

L'ancienne méthode (RL seul) : On le laisse grimper seul. Il tombe souvent, ne trouve jamais le sommet, et finit par abandonner.
La méthode ReGFT : On lui donne une carte partielle (la solution humaine), mais seulement jusqu'à un certain point du chemin.
- On lui dit : "Voici les premiers pas sûrs que le professeur a faits (la référence). Maintenant, à toi de continuer le reste du chemin en utilisant ta propre logique pour arriver au sommet."

C'est génial pour deux raisons :

Il ne copie pas bêtement : Il doit encore réfléchir et construire son propre raisonnement pour la suite.
Il trouve le chemin : Grâce aux premiers pas indiqués, il a assez de chances de réussir à atteindre le sommet (la bonne réponse) pour la première fois.

Le Résultat : Un Entraînement Plus Efficace

Une fois que l'élève a réussi à résoudre ces problèmes difficiles grâce à ce petit coup de pouce (la carte partielle), on lui donne la félicitation. Il apprend enfin !

Ensuite, on lance l'apprentissage automatique classique (Renforcement Learning) sur cette nouvelle version de l'élève. Comme il a déjà "dégagé" des solutions correctes sur des problèmes difficiles, il reçoit beaucoup plus de félicitations. Il progresse donc beaucoup plus vite et devient beaucoup plus fort à la fin.

En Résumé avec une Analogie Culinaire

Le problème : Un chef cuisinier (l'IA) essaie de créer un plat complexe mais échoue 100 fois de suite. Il ne sait pas quoi faire.
La mauvaise solution : Lui donner la recette exacte d'un grand chef. Il la copie, mais ne comprend pas pourquoi on met tel ingrédient à tel moment.
La solution ReGFT : Lui donner les 3 premières étapes de la recette (les ingrédients de base, la préparation initiale). On lui dit : "Voici le début, c'est sûr. Maintenant, toi, le chef, invente la suite pour finir le plat."
Le résultat : Le chef réussit son plat, reçoit une étoile, et comprend mieux comment cuisiner. La prochaine fois, même sans la recette, il sera capable de réussir des plats encore plus complexes.

Conclusion du papier :
En utilisant des indices humains intelligents pour aider l'IA à trouver ses propres solutions sur les problèmes difficiles avant de commencer l'entraînement final, on évite qu'elle reste bloquée. Cela permet d'obtenir des modèles de mathématiques beaucoup plus performants et capables de résoudre des énigmes qu'ils ne pouvaient pas toucher auparavant.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Sparsité des Récompenses en RL pour le Raisonnement Mathématique

L'apprentissage par renforcement (RL) a démontré son efficacité pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), comme le montrent les modèles o1 et R1. Cependant, dans le cadre du RL avec récompenses vérifiables (RLVR) pour les mathématiques, une limitation fondamentale persiste : la sparsité des récompenses.

Le Défi : Pour les problèmes complexes (niveau olympiades), le modèle de base échoue souvent à générer aucune trajectoire de raisonnement correcte lors de l'échantillonnage initial.
La Conséquence : Sans trajectoires correctes, le vérificateur automatique n'attribue aucune récompense positive. Le modèle ne reçoit donc aucun signal de gradient significatif, ce qui entraîne un blocage de l'apprentissage (stagnation) et une inefficacité computationnelle massive.
La Limite des Solutions Existantes : Bien que des solutions de référence écrites par des humains soient souvent disponibles (ex: AoPS), un affinage supervisé (SFT) direct sur ces solutions échoue. Les modèles ne parviennent pas à imiter des preuves qui sont en dehors de leur propre distribution de raisonnement, ce qui nuit à la généralisation.

2. Méthodologie : ReGFT (Reference-Guided Fine-Tuning)

Les auteurs proposent ReGFT, une méthode simple mais efficace conçue pour synthétiser des trajectoires positives sur des problèmes difficiles avant de lancer l'apprentissage par renforcement.

Principe de Fonctionnement

Au lieu d'apprendre directement à copier les solutions humaines ou de se fier uniquement à l'auto-exploration (comme dans ReFT), ReGFT combine les deux :

Guidage par Référence Partielle : Pour un problème donné, le modèle reçoit une partie de la solution de référence humaine (par exemple, les 80 % initiaux) comme indice contextuel.
Génération Autonome : Le modèle est contraint de générer sa propre trace de raisonnement en partant de zéro (ou en complétant la logique), en s'appuyant sur l'indice mais sans copier la fin de la solution.
Alignement de Distribution : Cette approche garantit que les trajectoires générées restent dans l'espace de raisonnement du modèle (évitant le "mismatch" du SFT direct) tout en étant guidées vers la solution correcte.

Pipeline d'Entraînement

Identification des Problèmes Difficiles : Sélection des problèmes où le modèle de base a une précision inférieure à 25 % (sur 16 échantillons).
Affinage Supervisé (ReGFT) : Le modèle est affiné sur un mélange de :
- Trajectoires correctes générées par le modèle lui-même (comme dans ReFT).
- Trajectoires guidées par référence (synthétisées via la méthode décrite ci-dessus).
Initialisation pour le RL : Ce checkpoint affiné sert de point de départ pour l'algorithme de RL (DAPO dans cette étude).

3. Contributions Clés

Résolution de la Sparsité des Récompenses : ReGFT transforme des problèmes "impossibles" (où le modèle ne trouve aucune solution) en problèmes "solubles" en augmentant la probabilité de générer des trajectoires correctes avant même le début du RL.
Distinction par rapport au SFT Direct : L'article démontre que le simple fait d'exposer le modèle à des solutions humaines (SFT brut) est insuffisant. La génération autonome guidée est essentielle pour que le modèle internalise le raisonnement.
Amélioration de l'Initialisation RL : En fournissant un checkpoint initial plus compétent, ReGFT permet au RL de démarrer avec des signaux de récompense plus denses et informatifs, accélérant la convergence et augmentant le plafond de performance final.
Évolutivité à l'Inférence (Inference-Time Scaling) : Les modèles entraînés avec ReGFT montrent une amélioration plus stable et durable de la métrique pass@k (performance avec plusieurs tentatives) par rapport aux méthodes de base ou ReFT seul.

4. Résultats Expérimentaux

Les expériences ont été menées sur le modèle Qwen3-4B et les ensembles de données OmniMath (entraînement), AIME'24, AIME'25 et Beyond-AIME (évaluation). L'algorithme de RL utilisé est DAPO.

Performance Globale : Les modèles initialisés avec ReGFT surpassent systématiquement les modèles de base ("Raw") et ceux initialisés avec ReFT sur tous les benchmarks.
- Convergence : Gain de vitesse significatif lors des premières étapes du RL.
- Plafond de Performance : Précision finale supérieure (ex: +2 à 3 points sur AIME'24 par rapport au Raw).
Comparaison ReFT vs ReGFT :
- ReFT accélère l'apprentissage initial mais atteint un plateau plus bas.
- ReGFT permet d'atteindre des niveaux de précision asymptotique plus élevés, prouvant que le guidage par référence étend réellement les capacités de raisonnement du modèle au-delà de ses limites initiales.
Analyse pass@k :
- ReGFT + DAPO montre une amélioration constante de la précision à mesure que le budget d'inférence ( $k$ ) augmente.
- Contrairement à ReFT dont les gains s'estompent pour les grands $k$ , ReGFT maintient un avantage, indiquant une meilleure couverture de l'espace des solutions et une diversité accrue.
Étude d'Ablation : L'entraînement direct sur des solutions humaines (sans génération autonome) échoue à produire des résultats compétitifs, confirmant la nécessité de l'alignement avec la distribution du modèle.

5. Signification et Impact

Ce travail apporte une contribution majeure à la communauté du RL pour le raisonnement :

Changement de Paradigme : Il déplace le focus de l'optimisation pure de l'algorithme de RL vers l'amélioration de la compétence initiale du modèle via un affinage ciblé.
Efficacité Computationnelle : En réduisant la sparsité des récompenses, ReGFT rend l'entraînement RL beaucoup plus efficace, évitant le gaspillage de ressources sur des trajectoires non informatives.
Généralisation : La méthode permet de résoudre des problèmes qui étaient auparavant hors de portée du modèle, prouvant que l'intégration intelligente de connaissances externes (références humaines) avec l'inférence autonome est la clé pour débloquer de nouvelles capacités de raisonnement.

En résumé, ReGFT agit comme un catalyseur qui prépare le modèle à recevoir des signaux de renforcement, transformant des problèmes "impossibles" en opportunités d'apprentissage et permettant d'atteindre des performances de pointe en raisonnement mathématique.

Learn Hard Problems During RL with Reference Guided Fine-tuning

Le Problème : L'Étudiant Bloqué dans le Noir

L'Idée Fausse : Copier le Professeur

La Solution Magique : Le Guide de Montagne (ReGFT)

Le Résultat : Un Entraînement Plus Efficace

En Résumé avec une Analogie Culinaire

1. Problématique : La Sparsité des Récompenses en RL pour le Raisonnement Mathématique

2. Méthodologie : ReGFT (Reference-Guided Fine-Tuning)

Principe de Fonctionnement

Pipeline d'Entraînement

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers