Training Large Language Models To Reason In Parallel With Global Forking Tokens

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le "Sur-réflexion" et le Chaos

Imaginez que vous avez un super-cuisinier (c'est l'IA, ou "Grand Modèle de Langage"). Quand on lui pose une question difficile, comme un problème de mathématiques complexe, il essaie de réfléchir.

L'ancienne méthode : On lui dit : "Réfléchis très fort !" (en augmentant la température). Il commence alors à générer des milliers de pensées à la suite.
Le problème : Parfois, il réfléchit trop ("sur-réflexion"). Il tourne en rond, se perd dans des détails inutiles, ou pire, il commence à inventer des solutions fausses parce qu'il est trop stressé par le bruit. C'est comme si un chef essayait de faire un gâteau en mélangeant 50 recettes différentes en même temps sans savoir laquelle choisir : le résultat est souvent un désastre.

De plus, pour avoir une bonne solution, il faut que le cuisinier trouve le bon point de départ dans sa réflexion. Mais ce point de départ (appelé "token fourche") est souvent caché très profondément dans le processus de pensée. Trouver le bon chemin au hasard, c'est comme chercher une aiguille dans une botte de foin.

La Solution : SSFT (L'Entraînement par "Fourches Globales")

Les auteurs de ce papier proposent une nouvelle façon d'entraîner le cuisinier. Au lieu de lui dire "réfléchis au hasard", ils lui donnent des boutons de commande spéciaux.

Imaginez que le cuisinier a 6 boutons sur son tablier, étiquetés <penser 1>, <penser 2>, ..., <penser 6>.

L'Idée Géniale : Avant même de commencer à cuisiner, on appuie sur un bouton.
- Si on appuie sur <penser 1>, le cuisinier adopte une stratégie très précise (ex: "Utilisons les formules algébriques").
- Si on appuie sur <penser 2>, il adopte une autre stratégie (ex: "Voyons si on peut dessiner un graphique").
- Chaque bouton déclenche un mode de réflexion différent et unique.
L'Entraînement (SSFT) :
- Habituellement, si on montre au cuisinier 4 recettes différentes pour le même plat, il finit par tout mélanger et ne garder qu'une seule recette moyenne (qui est souvent moyenne). C'est ce qu'on appelle l'effondrement des modes.
- Avec leur méthode (SSFT), ils utilisent un système de matching (comme un jeu de mariage parfait). Ils disent : "Le bouton 1 doit être associé à la recette A, le bouton 2 à la recette B, etc."
- Ils forcent le cuisinier à apprendre que chaque bouton ouvre une porte vers un chemin de pensée spécifique. Ainsi, le bouton ne sert plus à deviner, il sert à choisir une stratégie.

Le Résultat : Une Cuisine Organisée

Grâce à cette méthode, le cuisinier devient un génie organisé :

Moins de gaspillage : Il ne perd pas de temps à essayer des stratégies qui ne marchent pas.
Plus de diversité : Si on lui demande de faire 6 plats différents, il ne va pas faire 6 fois la même chose. Il va utiliser 6 stratégies différentes (l'une rapide, l'autre détaillée, une autre créative).
Meilleure précision : Comme chaque stratégie est bien définie, la probabilité d'avoir la bonne réponse augmente considérablement.

L'Analogie Finale : Le Chef et ses Assistants

Imaginez que vous avez un problème difficile à résoudre.

Avant (Méthode classique) : Vous envoyez un seul chef dans une pièce avec un casque à bruit blanc. Il essaie de tout résoudre seul, en parlant tout haut, mais il se trompe souvent car il est confus.
Après (Méthode SSFT) : Vous avez 6 chefs assistants. Vous leur donnez un code couleur :
- Le chef en Bleu est l'expert en logique pure.
- Le chef en Rouge est l'expert en intuition visuelle.
- Le chef en Vert est l'expert en calcul rapide.
Au lieu de laisser le chef principal deviner quoi faire, vous lui dites : "Active le chef Bleu !" ou "Active le chef Rouge !". Le système apprend à associer le bon "bouton" (le bon chef) au bon problème.

En Résumé

Ce papier montre comment entraîner une IA pour qu'elle ait plusieurs façons de penser, et qu'elle sache exactement laquelle activer en fonction de la question posée. Au lieu de réfléchir au hasard et de se perdre, elle utilise des "boutons magiques" pour basculer instantanément vers la meilleure stratégie, ce qui la rend plus intelligente, plus rapide et plus fiable sur des tâches complexes comme les maths ou la programmation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage (LLM) ont démontré des améliorations de performance en augmentant le calcul au moment de l'inférence (test-time compute), soit par sérialisation (générer plus de tokens de raisonnement), soit par parallélisation (échantillonnage multiple et agrégation). Cependant, deux limitations majeures persistent :

Le "sur-réflexion" (Overthinking) : L'extension séquentielle du raisonnement peut entraîner une dégradation des performances au-delà d'une certaine longueur.
Le compromis Diversité-Précision : Pour les problèmes complexes, les "tokens de bifurcation" (forking tokens) qui déclenchent des modes de raisonnement corrects et diversifiés se trouvent souvent profondément dans l'arbre d'échantillonnage. Les stratégies courantes pour encourager la diversité, comme l'augmentation de la température, aggravent le compromis entre diversité et précision, car elles ne garantissent pas la couverture des modes de raisonnement corrects sans un entraînement explicite.

L'objectif est donc d'entraîner les modèles à générer des traces de raisonnement parallèles, diverses et précises, en utilisant des mécanismes de contrôle explicites plutôt que de simples variations stochastiques.

2. Méthodologie : SSFT et GFPO

Les auteurs proposent une approche en deux étapes pour apprendre et exploiter des tokens de bifurcation globaux (Global Forking Tokens).

A. Set Supervised Fine-Tuning (SSFT)

Au lieu de traiter le problème comme une prédiction de token suivant standard (Next Token Prediction - NTP) sur une seule trace, le SSFT reformule le problème comme une prédiction d'un ensemble de tokens suivants (Set of Next-Token Prediction).

Tokens de Bifurcation Globaux : Le modèle est conditionné par un ensemble de tokens réservés (ex: <think 1>, <think 2>, ..., <think N>) placés avant le prompt. Chaque token est censé déclencher un mode de raisonnement unique.
Appariement Bipartite Optimal : Pour chaque question, le modèle reçoit un ensemble de $M$ $M$ traces de raisonnement de référence (issues de différents enseignants ou distillations) et $N$ $N$ tokens de bifurcation ( $N \ge M$ $N \geq M$ ).
- Le but est de trouver la correspondance (matching) qui minimise la perte totale entre les tokens de bifurcation et les traces de référence.
- Une matrice de coût est calculée où chaque entrée représente la perte NTP d'une trace $r^{(j)}$ conditionnée par un token $g^{(i)}$ .
- L'algorithme Hungarian est utilisé pour trouver l'appariement optimal $\hat{\sigma}$ qui minimise la somme des pertes.
Fonction de Perte : La perte d'entraînement est la somme des pertes NTP des traces, chacune conditionnée par le token de bifurcation qui lui a été apparié de manière optimale. Cela force le modèle à apprendre que des tokens spécifiques doivent initier des modes de raisonnement spécifiques, évitant ainsi l'effondrement des modes (mode collapse) souvent observé dans le fine-tuning standard (SFT) sur des données multiples.

B. Global Forking Policy Optimization (GFPO)

Une fois le modèle SSFT entraîné, les tokens de bifurcation sont appris mais leur sélection pour une question donnée peut encore être aléatoire.

Optimisation de la Stratégie : Les auteurs appliquent une étape de Reinforcement Learning (RL) légère, appelée GFPO, qui optimise uniquement la distribution de probabilité des tokens de bifurcation $g^{(i)}$ conditionnée à la question $x$ .
Efficacité : Contrairement au RL standard qui optimise tous les tokens générés, GFPO ne met à jour que les paramètres liés à la sélection du token de départ, ce qui est extrêmement efficace en termes de calcul.

3. Contributions Clés

Introduction des Tokens de Bifurcation Globaux : Une nouvelle méthode pour contrôler le mode de raisonnement via des tokens explicites, permettant de guider le modèle vers des stratégies de résolution distinctes.
SSFT (Set Supervised Fine-Tuning) : Un cadre d'entraînement qui intègre une perte basée sur l'ensemble via un appariement bipartite. Cela permet au modèle d'apprendre à associer des tokens de contrôle uniques à des traces de raisonnement diverses, préservant ainsi la diversité des modes de pensée.
GFPO : Une méthode d'optimisation de politique efficace pour apprendre à sélectionner le token de bifurcation optimal pour une question donnée, améliorant ainsi la performance en inférence à un seul chemin (Pass@1).
Preuve de Concept : Démonstration que le fine-tuning standard sur des traces multiples entraîne un effondrement des modes (tous les tokens de contrôle mènent au même raisonnement), tandis que SSFT préserve et distingue ces modes.

4. Résultats Expérimentaux

Les expériences ont été menées sur le modèle Qwen2.5-32B-Instruct et évaluées sur des benchmarks de raisonnement mathématique (AIME 2024/2025, MATH-500, GPQA-Diamond) et de génération de code (LiveCodeBench).

Performance Pass@1 : SSFT surpasse systématiquement les modèles de base et les modèles SFT standard (avec ou sans température). Par exemple, sur AIME 2024, SSFT atteint 64,06% contre 58,23% pour le meilleur SFT multi-cible.
Performance Cons@k (Parallélisme) : Avec l'agrégation de 6 ou 32 générations parallèles (Cons@6, Cons@32), SSFT montre une couverture (coverage) supérieure. Sur AIME 2025, SSFT atteint 73,94% en Cons@6, surpassant le SFT multi-cible de plus de 3 points.
Diversité des Modes de Raisonnement :
- L'analyse montre que différents tokens <think i> entraînent des longueurs de réflexion et des stratégies mathématiques distinctes (ex: utilisation de polynômes cyclotomiques vs factorisation).
- Les modèles SFT standards avec appariement aléatoire ne montrent aucune corrélation significative entre le token de contrôle et la stratégie de raisonnement.
Généralisation (OOD) : Les gains sont robustes sur des tâches hors distribution (LiveCodeBench) et sur des modèles de tailles différentes (Qwen3-4B, Llama3.1-8B).
Ablation : L'utilisation de l'appariement optimal (Hungarian) est cruciale ; un appariement aléatoire dans SSFT ne permet pas d'obtenir les mêmes performances, confirmant que l'apprentissage de la corrélation token-trace est la clé.

5. Signification et Impact

Ce travail propose un changement de paradigme dans l'entraînement des LLM pour le raisonnement :

Contrôle Explicite vs Stochastique : Au lieu de compter sur la température pour explorer l'espace de recherche, SSFT apprend des "interrupteurs" explicites (tokens de bifurcation) qui activent des modes de raisonnement spécifiques et validés.
Efficacité du Calcul : La méthode permet d'exploiter le calcul parallèle au moment de l'inférence sans sacrifier la précision, résolvant le compromis classique entre diversité et exactitude.
Scalabilité : La méthode est applicable à divers domaines (mathématiques, code) et tailles de modèles, offrant une voie prometteuse pour améliorer les capacités d'agents IA complexes sans nécessiter des quantités massives de données annotées manuellement, mais plutôt en exploitant des traces distillées de manière intelligente.

En résumé, l'article démontre que l'apprentissage supervisé structuré autour d'un ensemble de traces et d'un mécanisme d'appariement optimal permet de "verrouiller" des modes de raisonnement complexes, rendant les LLM plus robustes, diversifiés et performants face aux problèmes difficiles.

Training Large Language Models To Reason In Parallel With Global Forking Tokens

Le Problème : Le "Sur-réflexion" et le Chaos

La Solution : SSFT (L'Entraînement par "Fourches Globales")

Le Résultat : Une Cuisine Organisée

L'Analogie Finale : Le Chef et ses Assistants

En Résumé

1. Problématique

2. Méthodologie : SSFT et GFPO

A. Set Supervised Fine-Tuning (SSFT)

B. Global Forking Policy Optimization (GFPO)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics