DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Secret pour Apprendre à une IA à "Réfléchir" : La Méthode DeReason

Imaginez que vous voulez apprendre à un élève très intelligent (une Intelligence Artificielle) à résoudre des problèmes complexes, comme des énigmes scientifiques ou des maths avancées. Jusqu'à récemment, les chercheurs pensaient que la meilleure façon était de le laisser deviner par lui-même en lui donnant des points quand il trouvait la bonne réponse. C'est ce qu'on appelle l'apprentissage par renforcement (RL).

Mais l'équipe derrière DeReason a découvert quelque chose de surprenant : si on lance cet élève directement dans le grand bain des problèmes difficiles, il se noie. Il apprend très lentement et fait beaucoup d'erreurs.

Voici comment ils ont résolu le problème avec une méthode simple mais brillante, qu'ils appellent DeReason.

1. Le Problème : L'Élève qui se perd dans la tempête 🌊

Pour comprendre leur découverte, imaginez deux scénarios :

Scénario A (L'approche pure RL) : Vous donnez à l'élève un livre de 1000 problèmes de physique, de chimie et de maths, sans aucune explication. Vous lui dites : "Essaie de trouver la solution. Si tu as juste, tu gagnes un bonbon."
- Résultat : L'élève essaie, se trompe, essaie encore. C'est inefficace. Il passe des heures à chercher des formules qu'il ne connaît même pas. Il s'épuise et progresse très peu.
Scénario B (L'approche pure SFT) : Vous lui donnez les mêmes problèmes, mais avec les solutions détaillées écrites par un professeur. Il lit et mémorise.
- Résultat : Il apprend vite les bases et les faits. Mais il reste un peu "robotique". Il sait réciter la leçon, mais il a du mal à improviser quand le problème est vraiment bizarre ou très difficile.

La conclusion de l'article : Pour les matières scientifiques générales (pas juste les maths pures), l'approche "mémorisation" (SFT) est bien meilleure que l'approche "devinette" (RL) si on commence de zéro.

2. La Solution : La Méthode "DeReason" (Le Cours en Deux Temps) 🎓

L'équipe a eu une idée géniale : Pourquoi ne pas mélanger les deux, mais dans le bon ordre et avec les bons exercices ?

Ils proposent de trier les problèmes par difficulté (comme un professeur qui classe ses exercices) et de les donner à l'IA à deux moments différents :

Étape 1 : La "Mémorisation" (SFT) sur les exercices "Faciles et Moyens"
- L'analogie : C'est comme remplir le coffre à outils de l'élève. On lui donne des problèmes qui demandent surtout de connaître des faits (ex: "Quelle est la formule de l'eau ?" ou "Comment on calcule un pourcentage ?").
- On lui montre les solutions d'un professeur. Il apprend le vocabulaire, les règles et les bases. Il devient solide.
Étape 2 : L' "Entraînement de Haute Intensité" (RL) sur les exercices "Très Difficiles"
- L'analogie : Maintenant que l'élève a son coffre à outils rempli, on le met dans un gymnase pour l'entraînement de force. On ne lui donne que les problèmes les plus durs, ceux qui demandent de la logique pure, de la créativité et plusieurs étapes de raisonnement (ex: "Résolvez ce problème de physique qui n'a jamais été vu").
- Là, on ne lui donne pas la solution. On le laisse essayer, se tromper, et on le félicite seulement quand il trouve la bonne logique. Comme il a déjà les bases, il peut enfin "réfléchir" et innover sans se perdre.

3. Pourquoi ça marche si bien ? 🚀

L'article montre que si on mélange tout au hasard (donner des problèmes faciles et difficiles en même temps pour les deux étapes), ça ne marche pas aussi bien.

Le tri par difficulté est la clé : En réservant les problèmes "intelligents" et complexes uniquement à la phase de "devinette" (RL), on force l'IA à développer une vraie capacité de raisonnement, au lieu de juste répéter ce qu'elle a lu.
Le résultat : L'IA devient à la fois savante (elle connaît ses faits grâce à l'étape 1) et stratège (elle sait résoudre des énigmes grâce à l'étape 2).

En résumé 🎯

Imaginez que vous apprenez à conduire :

SFT (Étape 1) : Vous apprenez d'abord la théorie, le code de la route et vous faites des tours de manège avec un moniteur qui vous dit exactement quoi faire. (C'est efficace pour apprendre les bases).
RL (Étape 2) : Ensuite, on vous emmène sur une piste de course difficile ou dans une ville encombrée. Vous devez prendre des décisions rapides, gérer l'imprévu et trouver votre chemin. (C'est là que vous devenez un vrai conducteur).

DeReason dit simplement : "Ne mettez pas l'élève sur la piste de course avant qu'il n'ait appris le code de la route, et ne le laissez pas seulement lire le code de la route s'il veut devenir un champion de course."

C'est une méthode simple, basée sur l'organisation des données, qui permet aux intelligences artificielles de devenir bien plus fortes et plus intelligentes dans les domaines scientifiques.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche DeReason en français, structuré selon vos demandes.

1. Le Problème : L'interplay SFT-RL dans le Raisonnement Général

Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait démontré une efficacité remarquable pour stimuler les capacités de raisonnement des grands modèles de langage (LLM) dans des domaines à vérification stricte comme les mathématiques et le code, son application aux domaines scientifiques généraux (STEM) reste sous-étudiée.

Les auteurs identifient un défi critique :

Inefficacité de l'échantillonnage du RL pur : Appliquer directement le RLVR à un modèle de base (sans pré-entraînement par apprentissage supervisé) est extrêmement inefficace en termes d'échantillons et donne systématiquement de moins bons résultats que l'apprentissage supervisé (SFT) sur des réponses de qualité modérée.
Manque de stratégie de répartition des données : Bien que le SFT et le RL aient des rôles complémentaires (le SFT pour l'acquisition de connaissances, le RL pour l'exploration de chemins de raisonnement complexes), la manière d'allouer les données d'entraînement entre ces deux étapes séquentielles n'est pas optimisée. La plupart des approches actuelles utilisent une répartition aléatoire ou se concentrent uniquement sur le RL.

2. Méthodologie : DeReason (Curriculum basé sur la Difficulté)

L'article propose DeReason, une stratégie de découplage des données basée sur la difficulté, qui ne modifie pas les algorithmes d'entraînement mais optimise la sélection des données.

A. Estimation de la Difficulté (Reasoning Intensity)

Le cœur de la méthode réside dans la partition des données selon l'intensité du raisonnement nécessaire :

Un modèle LLM instructeur (de taille similaire au modèle cible, ici Qwen3-4B) évalue chaque problème sur une échelle de 1 à 5.
Scores faibles (1-3) : Problèmes nécessitant principalement la récupération de connaissances ou l'application directe de faits.
Scores élevés (4-5) : Problèmes exigeant une dérivation multi-étapes et un raisonnement complexe.

B. Pipeline d'Entraînement Découplé

La méthode suit un curriculum en trois étapes :

Partitionnement : Le jeu de données complet $D$ $D$ est divisé en deux sous-ensembles basés sur un seuil de difficulté $\tau$ $τ$ :
- $D_{SFT}$ : Données "faciles" (scores $\le \tau$ ), couvrant une large gamme de connaissances.
- $D_{RL}$ : Données "difficiles" (scores $> \tau$ ), focalisées sur le raisonnement complexe.
Phase SFT (Supervised Fine-Tuning) : Le modèle est entraîné sur $D_{SFT}$ en utilisant des réponses générées par un modèle enseignant modéré. Cela permet d'établir une base de connaissances domainale solide et efficace.
Phase RL (Reinforcement Learning) : Le modèle issu du SFT est ensuite affiné via GRPO (Group Relative Policy Optimization) uniquement sur $D_{RL}$ . Cela permet au modèle d'explorer des chemins de raisonnement complexes au-delà de ce qui est démontré par l'enseignant.

3. Contributions Clés

Analyse Systématique SFT vs RL : Les auteurs démontrent, via des expériences contrôlées, que pour les petits modèles (ex: 4B) dans les domaines STEM généraux, le SFT pur surpasse systématiquement le RL pur appliqué à un modèle de base. Le SFT agit comme un mécanisme de distillation indispensable pour l'acquisition de connaissances.
Le Curriculum DeReason : Proposition d'une stratégie de découplage où les données faciles sont réservées au SFT et les données difficiles au RL. Cette approche surpasse les baselines de SFT seul, RL seul, et les combinaisons SFT-RL avec répartition aléatoire des données.
Analyse Comportementale Fine : Une étude détaillée de la dynamique d'entraînement montre comment le SFT et le RL façonnent différemment l'entropie de la politique, la longueur des réponses et l'optimisation des récompenses.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de 4 milliards de paramètres (Qwen3-4B) et évaluées sur des benchmarks généralistes (MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH) et mathématiques (AIME, MATH500).

Performance Globale : La méthode DeReason (SFT sur données faciles + RL sur données difficiles) obtient les meilleurs résultats dans tous les benchmarks, surpassant les modèles de base et les approches concurrentes de même échelle.
- Exemple : Sur GPQA-Diamond, DeReason atteint 50.0 (WebInstruct-Verified) contre 46.8 pour le SFT seul et 42.9 pour une répartition aléatoire SFT-RL.
Spécificité des Benchmarks :
- Sur des tâches nécessitant beaucoup de connaissances (ex: MMLU-Pro), le SFT seul est déjà très performant, et le gain de DeReason est modeste.
- Sur des tâches de raisonnement pur et complexe (ex: BBEH, GPQA), le RL sur les données difficiles apporte un gain significatif, comblant l'écart avec les modèles plus grands.
Efficacité Mathématique : Sur les tâches mathématiques, la combinaison SFT (facile) + RL (difficile) améliore également les scores par rapport aux méthodes isolées.

5. Signification et Implications

Optimisation des Ressources : DeReason offre une "recette" post-entraînement hautement efficace qui maximise l'utilisation des données sans nécessiter de modifications algorithmiques complexes.
Complémentarité Démontrée : L'article valide l'hypothèse que le SFT et le RL ont des rôles distincts et complémentaires : le SFT est optimal pour l'acquisition de connaissances factuelles et la stabilité, tandis que le RL excelle à pousser les limites du raisonnement sur des problèmes complexes.
Généralisation : Contrairement aux travaux précédents limités aux mathématiques, cette méthode prouve son efficacité sur l'ensemble des domaines STEM généraux.
Orthogonalité : Étant une stratégie de sélection de données, DeReason est compatible avec n'importe quel algorithme d'optimisation SFT ou RL existant, ce qui en fait une solution immédiatement applicable dans divers pipelines de formation.

En conclusion, DeReason établit qu'une allocation intelligente des données basée sur la difficulté est cruciale pour réussir l'entraînement de modèles de raisonnement général, transformant le processus d'entraînement en un curriculum structuré plutôt qu'en une simple séquence aléatoire.

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

🧠 Le Secret pour Apprendre à une IA à "Réfléchir" : La Méthode DeReason

1. Le Problème : L'Élève qui se perd dans la tempête 🌊

2. La Solution : La Méthode "DeReason" (Le Cours en Deux Temps) 🎓

3. Pourquoi ça marche si bien ? 🚀

En résumé 🎯

1. Le Problème : L'interplay SFT-RL dans le Raisonnement Général

2. Méthodologie : DeReason (Curriculum basé sur la Difficulté)

A. Estimation de la Difficulté (Reasoning Intensity)

B. Pipeline d'Entraînement Découplé

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Implications

Articles similaires

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry