Auteurs originaux : Yuhao Li, Shengchao Liu

Publié 2026-05-12

📖 7 min de lecture🧠 Analyse approfondie

Auteurs originaux : Yuhao Li, Shengchao Liu

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

La Grande Question : Avons-nous enseigné au modèle, ou l'avons-nous simplement réveillé ?

Imaginez que vous avez un musicien très talentueux mais légèrement confus (le modèle d'IA) qui s'est entraîné seul pendant des années (pré-entraînement). Maintenant, vous voulez lui apprendre une nouvelle chanson.

Il existe un grand débat dans le monde de l'IA sur comment nous les enseignons.

Méthode A (SFT) : Vous lui faites écouter un enregistrement d'une performance parfaite et vous dites : « Copiez cela exactement. »
Méthode B (RL) : Vous le laissez jouer, et chaque fois qu'il touche une bonne note, vous lui donnez une friandise. Chaque fois qu'il touche une mauvaise note, vous ne le faites pas.

La croyance commune est : La Méthode A les fait simplement imiter ce qu'ils savent déjà (Imitation), tandis que La Méthode B les aide à découvrir de nouvelles choses étonnantes qu'ils ne savaient pas pouvoir faire (Découverte).

Les auteurs de ce papier disent : « Stop. Cette distinction est trop simple. »

Ils soutiennent que la vraie question n'est pas comment vous enseignez (copier vs récompenser), mais ce que vous enseignez réellement. Avez-vous simplement aidé le musicien à jouer une chanson qu'il était déjà capable de jouer mais qu'il continuait à rater ? Ou lui avez-vous réellement donné la capacité de jouer une chanson qu'il ne pouvait physiquement pas jouer auparavant ?

Ils appellent ces deux choses :

Élicitation de capacité : Réveiller une compétence qui était déjà là mais endormie.
Création de capacité : Donner au musicien une toute nouvelle compétence qu'il n'avait pas.

L'analogie du « Paysage Énergétique »

Pour expliquer cela, les auteurs utilisent un concept de physique appelé Énergie Libre. Imaginez l'esprit du musicien comme un paysage vallonné.

Les Vallées (Bassins) : Ce sont les chansons faciles que le musicien joue naturellement. Elles sont profondes, confortables et faciles à atteindre.
Les Collines (Queues) : Ce sont les chansons que le musicien pourrait jouer, mais qui sont très haut perchées. Il faut beaucoup d'effort (ou beaucoup d'essais) pour y arriver.
Les Murs (Barrières) : Ce sont les chansons séparées par un mur massif et infranchissable. Le musicien ne peut pas les atteindre simplement en marchant ; il a besoin d'une échelle ou d'un pont.
L'Autre Bout du Monde (Non pris en charge) : Ce sont les chansons qui n'existent tout simplement pas encore dans l'univers du musicien.

Comment l'entraînement fonctionne sur cette carte

À la fois le « Copier » (SFT) et les « Récompenses » (RL) fonctionnent en inclinant le paysage.

Si vous donnez une récompense pour une chanson dans une Vallée, la vallée devient plus profonde. Le musicien joue cette chanson plus souvent.
Si vous donnez une récompense pour une chanson sur une Colline, la colline se voit dotée d'une rampe. Le musicien peut maintenant grimper jusqu'à cette chanson plus facilement.

Le Point Crucial :
Si la chanson était déjà dans une Vallée ou sur une Colline, vous n'avez pas créé une nouvelle capacité. Vous avez simplement rendu une capacité existante plus fiable. C'est de l'Élicitation.

Si la chanson était derrière un Mur, et que votre méthode d'entraînement a en quelque sorte construit un pont ou une échelle pour y accéder, alors vous avez créé une nouvelle capacité. C'est de la Création.

Les Quatre Zones d'Apprentissage

Le papier décompose l'entraînement postérieur en quatre scénarios spécifiques basés sur cette carte :

1. La « Zone Sûre » (Élicitation couverte par la démonstration)

Le Scénario : Le musicien connaît déjà la chanson parfaitement mais oublie parfois les paroles. Vous lui montrez la partition (démonstrations).
Le Résultat : Il arrête d'oublier. Il n'a pas appris une nouvelle chanson ; il a simplement stabilisé une ancienne.
L'Enseignement : Que vous utilisiez la copie ou les récompenses, si la réponse était déjà facile à trouver, vous ne faites que polir un gemme brute, pas en créer une nouvelle.

2. Le « Joyau Caché » (Repondération des queues)

Le Scénario : Le musicien connaît un solo de jazz complexe, mais il ne le joue qu'une fois sur un million d'essais. Il est caché dans les « Collines ».
Le Résultat : Vous utilisez un système de récompense pour dire : « Wow, ce solo de jazz était génial ! » Soudain, il commence à le jouer tout le temps.
L'Enseignement : Cela ressemble à de la magie car la performance a bondi. Mais le musicien aurait pu le jouer tout le long ; il avait juste besoin d'une petite pousse pour le trouver. C'est toujours de l'Élicitation, pas de la création.

3. Le « Constructeur de Ponts » (Découverte par franchissement de barrières)

Le Scénario : Le musicien doit jouer une chanson qui nécessite une séquence d'étapes qu'il n'a jamais prises ensemble. Elle est derrière un mur.
Le Résultat : Vous ne donnez pas seulement une récompense à la fin. Vous donnez des récompenses pour les étapes en cours de route, ou vous lui permettez d'utiliser un outil (comme une échelle) pour franchir le fossé.
L'Enseignement : C'est de la Création de capacité. L'entraînement n'a pas seulement incliné la colline ; il a changé le terrain pour que le musicien puisse atteindre un endroit où il était précédemment bloqué.

4. La « Zone Impossible » (Régimes non pris en charge)

Le Scénario : Vous demandez au musicien de jouer une chanson qui nécessite un violon, mais il n'a qu'une guitare.
Le Résultat : Aucune quantité de copie ou de récompense n'aidera. L'« énergie » requise pour jouer cette chanson est infinie.
L'Enseignement : Vous ne pouvez pas « créer » une capacité ici avec juste de l'entraînement. Vous avez besoin de nouvelles informations, d'un nouvel instrument, ou d'un modèle entièrement différent.

Pourquoi cela compte

Le papier soutient que nous sommes souvent confus parce que nous regardons la méthode (SFT vs RL) au lieu du mécanisme.

Mythe : « Le RL est magique car il crée de nouvelles compétences. »
Réalité : Le RL ne crée de nouvelles compétences que s'il est couplé à des outils, une recherche ou une interaction qui aide le modèle à franchir les « murs ». Si le RL se contente de récompenser le modèle pour des choses qu'il pouvait déjà faire, c'est simplement de l'Élicitation.
Mythe : « Le SFT est faible car il se contente de copier. »
Réalité : Si les données de « copie » proviennent d'une source super-intelligente (comme un moteur de recherche ou une IA plus puissante), le SFT peut enseigner au modèle des choses qu'il ne connaissait pas, agissant efficacement comme de la Création.

La Conclusion

Lorsque nous voyons une IA s'améliorer, nous ne devrions pas simplement demander : « Ont-ils utilisé l'apprentissage par renforcement ? »

Nous devrions demander : « Ont-ils simplement rendu l'IA meilleure dans des choses qu'elle pouvait déjà faire, ou lui ont-ils réellement donné la capacité de faire quelque chose qu'elle ne pouvait pas faire auparavant ? »

Le papier suggère que la plupart du temps, nous ne faisons que réveiller des compétences qui étaient déjà là (Élicitation), et nous devons être très prudents avant de prétendre avoir véritablement inventé de nouvelles capacités (Création).

Résumé technique : Distinction entre l'élicitation et la création de capacités dans le post-entraînement

1. Énoncé du problème

Le discours dominant dans le post-entraînement des grands modèles de langage (LLM) présente souvent la distinction entre l'ajustement fin supervisé (SFT) et l'apprentissage par renforcement (RL) comme une dichotomie entre imitation (SFT) et découverte (RL). Cet article soutient que cette distinction est trop grossière et obscurcit le mécanisme fondamental par lequel le post-entraînement modifie le comportement du modèle.

Le problème central consiste à déterminer si une procédure de post-entraînement :

Élicite des capacités : Augmente la probabilité de comportements que le modèle de base pré-entraîné pouvait déjà produire, mais de manière peu fiable.
Crée des capacités : Étend l'ensemble des comportements que le modèle peut atteindre pratiquement, permettant des résultats auparavant inaccessibles.

Les auteurs soutiennent que l'étiquetage d'une méthode comme « SFT » ou « RL » ne détermine pas son mécanisme de capacité. Au lieu de cela, le mécanisme dépend de la source des signaux d'entraînement (démonstrations vs récompenses), de la génération des comportements candidats, et de savoir si le processus étend le support accessible du modèle.

2. Méthodologie et cadre théorique

2.1 La perspective de l'énergie libre

Les auteurs formalisent le post-entraînement en utilisant un cadre d'énergie libre, en établissant une analogie avec la physique statistique ($F = E - TS$). Ils interprètent les objectifs de post-entraînement comme la minimisation d'une énergie libre effective :
$F_x(q) = \mathbb{E}_{y \sim q(y|x)}[E(x, y)] + \beta \text{KL}[q(y|x) \parallel p_0(y|x)]$
Où :

$p_0(y|x)$ est la distribution de référence pré-entraînée.
$q(y|x)$ est la distribution post-entraînée.
$E(x, y)$ est l'énergie effective dérivée des signaux externes.
$\beta$ agit comme une température inverse, contrôlant le compromis entre l'exploitation des comportements préférés et le maintien de la diversité (contrainte KL).

Principales insights théoriques :

SFT comme énergie : Le SFT minimise le négatif de la vraisemblance logarithmique sur les démonstrations. Cela équivaut à définir une énergie effective $E_{SFT}(x, y) = -\beta \log \frac{p_{demo}(y|x)}{p_0(y|x)}$ . Si un comportement se trouve dans la distribution de démonstration mais a une probabilité nulle dans le modèle de base ( $p_0 \to 0$ ), l'énergie devient singulière, brisant l'interprétation de la réaffectation locale.
RL comme énergie : Le RL maximise les récompenses sous contrainte KL. Cela correspond à $E_{RL}(x, y) = -R(x, y)$ . La distribution optimale est une réaffectation de Boltzmann de la référence : $q^*(y|x) \propto p_0(y|x) \exp(R(x, y)/\beta)$ .
Réaffectation locale : Lorsque les mises à jour restent proches du modèle de référence (contrainte KL forte), l'effet principal est la réaffectation locale de la distribution existante, et non la création de nouveaux comportements.

2.2 Support accessible

Pour opérationnaliser la distinction entre élicitation et création, l'article introduit le support accessible : l'ensemble des comportements qu'un modèle peut produire pratiquement sous des budgets finis d'échantillonnage, d'optimisation et de divergence. Ce concept va au-delà du support mathématique strict (probabilité non nulle) pour atteindre la réalisabilité pratique.

Les auteurs catégorisent le paysage comportemental en quatre régimes basés sur la relation entre le comportement cible et le support accessible du modèle de base :

Élicitation couverte par les démonstrations : Le comportement cible se trouve dans un « bassin » de haute probabilité du modèle de base et est couvert par les démonstrations. Le post-entraînement stabilise ce comportement existant.
Réaffectation de la queue : Le comportement cible se trouve dans la « queue » de la distribution du modèle de base (rare sous un décodage glouton mais accessible sous des budgets d'échantillonnage plus larges comme le meilleur parmi N). Le post-entraînement amplifie ces comportements rares mais accessibles.
Découverte par franchissement de barrières : Le comportement cible est séparé des sorties typiques du modèle de base par des « barrières » (séquences d'étapes intermédiaires de faible probabilité). Atteindre ces états nécessite de modifier le processus de génération de trajectoires (par exemple, via la recherche, l'utilisation d'outils ou la supervision de processus), et pas seulement la réaffectation.
Régimes non supportés : Le comportement cible se trouve en dehors du support du modèle de base ( $p_0(y|x) = 0$ ). L'énergie effective devient divergente. Le post-entraînement ne peut pas créer ces capacités sans nouvelles informations, outils ou changements architecturaux.

3. Contributions clés

Recadrage du débat SFT vs RL : L'article déplace l'accent des étiquettes algorithmiques (SFT/RL) vers le mécanisme de changement de capacité (élicitation vs création). Il soutient que le SFT peut éliciter de nouveaux comportements si les démonstrations sont de haute qualité (couvrant la queue), et que le RL peut n'être qu'une simple réaffectation s'il est contraint par une forte pénalité KL.
Cadre diagnostique : En appliquant la perspective de l'énergie libre, les auteurs fournissent un outil mathématique pour diagnostiquer si les gains de performance découlent d'une réaffectation locale (dans le support accessible) ou d'une expansion du support (franchissement de barrières).
Les quatre régimes : L'article établit une taxonomie des résultats du post-entraînement, clarifiant que la « création de capacités » n'est pas une propriété binaire d'une méthode, mais une propriété de l'interaction entre le signal d'entraînement, le processus de génération de candidats et l'accessibilité du modèle de base.
Clarification de la « création » : Les auteurs soutiennent que la véritable création de capacités (découverte par franchissement de barrières) nécessite des mécanismes qui altèrent le processus de génération de trajectoires (par exemple, recherche, interaction, utilisation d'outils), plutôt qu'une maximisation isolée des récompenses.

4. Résultats et affirmations

L'article ne présente pas de nouveaux benchmarks empiriques mais offre une analyse diagnostique des phénomènes existants de post-entraînement :

Le SFT n'est pas intrinsèquement faible : Si les démonstrations contiennent des trajectoires générées par recherche ou par des modèles plus puissants, le SFT peut éliciter des comportements que le modèle de base produit rarement. La limite du SFT réside dans la couverture de la distribution de démonstration, et non dans l'objectif supervisé lui-même.
Le RL n'est pas intrinsèquement créatif : Si le RL est appliqué avec des contraintes KL fortes et sans mécanismes de recherche, il ne fait que réaffecter les comportements de la queue du modèle de base. Les grands gains sur les benchmarks dans ce régime reflètent une réaffectation de la queue, et non la création de nouvelles capacités.
La frontière de singularité : La transition de l'élicitation à la création est marquée par une singularité dans la formulation de l'énergie libre. Lorsque $p_0(y|x) \to 0$ pour un comportement requis, la vision de la réaffectation locale s'effondre, indiquant que le comportement se trouve en dehors du support accessible.

5. Signification et portée

L'article affirme que distinguer entre l'élicitation de capacités et la création de capacités est essentiel pour une recherche rigoureuse sur le post-entraînement.

Affirmations modestes : Les auteurs déclarent explicitement ne pas affirmer que le SFT et le RL sont identiques, ni que les dynamiques d'optimisation sont sans importance. Au lieu de cela, ils soutiennent que les dynamiques d'optimisation doivent être interprétées par rapport au régime (par exemple, dans les régimes de franchissement de barrières, l'optimisation doit être couplée à des changements de génération de trajectoires).
Portée : Le cadre est diagnostique. Il clarifie que les améliorations de performance seules sont insuffisantes comme preuve de création de capacités. Pour revendiquer une création, il faut démontrer que la méthode a étendu l'espace comportemental accessible du modèle, souvent par la recherche, l'interaction ou de nouvelles informations, plutôt que par une simple réaffectation des probabilités existantes.
Direction future : L'article appelle les travaux futurs à distinguer explicitement ces régimes. Les chercheurs devraient rapporter non seulement les gains de performance, mais aussi si ces gains reflètent la stabilisation de bassins, l'amplification de queues, ou le franchissement de barrières.

En résumé, l'article postule que la question centrale du post-entraînement n'est pas « SFT ou RL ? » mais « Cette méthode réaffecte-t-elle ce qui est déjà accessible, ou étend-elle ce qui est accessible ? »

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective