Do Post-Training Algorithms Actually Differ? A Controlled Study Across Model Scales Uncovers Scale-Dependent Ranking Inversions

Cette étude présente OXRL, un cadre unifié évaluant 51 algorithmes de post-entraînement, et révèle que les classements des méthodes sont instables selon l'échelle du modèle, que les modifications de la fonction de perte apportent des gains négligeables, et que le choix de l'algorithme n'a un impact significatif que pour des tâches spécifiques au domaine d'entraînement.

Xiaoyi Li

Publié 2026-03-23
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un chef cuisinier (le développeur d'IA) qui veut transformer un ingrédient brut (un modèle d'intelligence pré-entraîné) en un plat délicieux (un modèle capable de raisonner et d'aider).

Pendant les deux dernières années, des dizaines de nouvelles "recettes" (algorithmes) ont été inventées pour cette transformation finale, appelée post-entraînement. Les gens se demandent : Quelle est la meilleure recette ? Est-ce la DPO, la SimPO, la SFT ou la RL ?

Cette étude, appelée OXRL, est comme un grand concours de cuisine scientifique où l'on a testé 51 recettes différentes dans des conditions parfaitement identiques, pour enfin savoir qui gagne vraiment.

Voici les découvertes principales, expliquées simplement :

1. La taille du modèle change tout (Le paradoxe de l'échelle)

C'est la découverte la plus surprenante. Imaginez que vous testez ces recettes sur des modèles de différentes tailles : un petit modèle (0,5 milliard de paramètres) comme un enfant de 5 ans, et un gros modèle (7 milliards) comme un adulte expert.

  • Chez les "enfants" (petits modèles) : La recette "RL en ligne" (SGRPO) est la championne incontestée. Elle apprend très vite en pratiquant.
  • Chez les "adultes" (gros modèles) : Tout s'inverse ! La recette qui était la pire pour les enfants (SimPO) devient soudainement la meilleure pour les adultes.

L'analogie : C'est comme si vous appreniez à conduire. Pour un enfant, il vaut mieux qu'il suive strictement un manuel (SFT). Mais pour un adulte expérimenté, il vaut mieux qu'il apprenne par l'expérience et l'erreur (SimPO).
Leçon : Ne choisissez pas votre algorithme en fonction de ce qui fonctionne sur un petit modèle. Ce qui marche pour un petit modèle peut être catastrophique pour un grand, et vice-versa.

2. Changer la recette ne sert à presque rien (Le mythe des variantes)

Les chercheurs ont pris la recette de base la plus populaire (DPO) et ont créé 20 variantes en changeant de petits détails mathématiques (comme changer la quantité de sel ou le type de four).

Résultat : Aucune de ces 20 variantes n'a été meilleure que la recette de base originale. En fait, la plupart ont fait aussi bien, et une seule (SimPO) a fait beaucoup plus mal.

L'analogie : C'est comme si des centaines de chefs passaient des années à inventer de nouvelles formes de casseroles ou de nouveaux types de cuillères, en pensant que ça changerait le goût de la soupe. En réalité, le goût dépend surtout de la qualité des ingrédients (les données) et de la taille de la marmite (le modèle), pas de la forme de la cuillère.
Leçon : Arrêtez de chercher la "recette mathématique parfaite". Utilisez la version standard (Vanilla DPO), elle suffit amplement.

3. La compétence est spécifique à la tâche (Le spécialiste vs le généraliste)

Les modèles ont été entraînés sur des problèmes de mathématiques (GSM8K). Ensuite, on les a testés sur des mathématiques très difficiles (MATH) et sur des questions de culture générale.

  • Sur les maths entraînées : Il y a une grande différence entre les recettes (certaines sont 19 points meilleures que d'autres).
  • Sur les maths difficiles ou la culture générale : Toutes les recettes donnent le même résultat. Les différences disparaissent presque totalement.

L'analogie : Imaginez un étudiant qui a révisé intensivement pour un examen de mathématiques spécifique.

  • Si on lui pose des questions exactement comme dans le livre, il sera excellent (et la méthode d'étude compte).
  • Si on lui pose des questions de culture générale ou des maths très complexes qu'il n'a jamais vues, il aura le même niveau, quelle que soit sa méthode d'étude.
    Leçon : Le choix de l'algorithme ne compte que pour la tâche précise sur laquelle vous avez entraîné le modèle. Cela n'améliore pas (et ne détériore pas) l'intelligence générale du modèle.

4. La hiérarchie de l'importance (Ce qui compte vraiment)

L'étude classe les facteurs d'importance du plus puissant au moins puissant :

  1. La taille du modèle (Le géant) : Passer d'un petit à un grand modèle fait gagner énormément de performance (comme passer d'une bicyclette à un avion).
  2. Le paradigme d'entraînement (La méthode) : Choisir entre entraînement en ligne ou hors ligne fait une différence moyenne.
  3. Le type de tâche : Si la tâche demande une réponse très structurée (comme un code ou une formule), la méthode compte. Sinon, peu importe.
  4. La fonction de perte (La recette) : Changer les détails mathématiques de l'algorithme a un impact négligeable (moins de 1 point de différence).

En résumé pour vous, le praticien :

  • Si vous avez un petit modèle : Utilisez l'entraînement classique (SFT), c'est le plus simple et le plus efficace.
  • Si vous avez un gros modèle : Utilisez SimPO, c'est le plus performant et le plus rapide.
  • Ne perdez pas de temps à inventer de nouvelles variantes mathématiques de l'algorithme DPO.
  • Vérifiez toujours la taille de votre modèle avant de choisir votre algorithme, car le classement change complètement selon la taille.

Cette étude nous dit essentiellement : "Arrêtez de chercher la baguette magique mathématique. Concentrez-vous sur la taille de votre modèle et la qualité de vos données."

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →