Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de ce papier de recherche, imagée et simplifiée, comme si nous parlions autour d'une table de café.

Le Titre : "L'Entraînement Postérieur : Quand le Modèle de Base est une Barrière"

Imaginez que vous avez un cuisinier débutant (le "modèle de base"). Il a appris à cuisiner en regardant des milliers de vidéos de recettes (c'est l'entraînement préliminaire). Il est bon pour faire des plats qu'il a déjà vus, mais il a du mal à inventer de nouvelles choses.

Maintenant, vous voulez le perfectionner. Vous lui donnez un jury (le "récompenseur") qui lui dit simplement : "Bravo, c'est bon !" ou "Non, c'est raté". C'est ce qu'on appelle l'apprentissage par renforcement (RL).

Ce papier pose une question cruciale : Ce jury peut-il vraiment aider le cuisinier à créer des plats qu'il n'a jamais vus, ou va-t-il juste le rendre plus rapide à répéter les mêmes recettes ?

La réponse est nuancée et dépend de comment le jury donne ses notes.

1. Le Problème : La "Barrière du Modèle de Base"

Imaginons que le cuisinier doit écrire une histoire de 100 pages (une séquence de tokens).

Le cas facile (Sur le support) : Si le cuisinier a déjà vu l'histoire ou une version très proche dans ses vidéos d'apprentissage, le jury peut l'aider à corriger quelques fautes de grammaire. Il devient excellent.
Le cas difficile (Hors du support) : Si le cuisinier doit inventer une histoire totalement nouvelle, qu'il n'a jamais vue, la probabilité qu'il la devine par hasard est infime (comme gagner au loto).

La découverte clé du papier :
Si vous utilisez un jury qui ne donne une note qu'à la fin de l'histoire (Récompense de Résultat ou Outcome Reward), le cuisinier est bloqué.

S'il rate l'histoire, le jury dit "Non".
Le cuisinier ne sait pas où il s'est trompé (au début ? au milieu ?).
Pour trouver la bonne histoire par essais et erreurs, il devrait écrire des milliards de fausses histoires. C'est impossible.
Résultat : Le modèle ne peut pas sortir du "support" de ce qu'il a déjà appris. Il ne peut pas créer de nouvelles connaissances, il ne fait qu'affiner les anciennes.

L'analogie : C'est comme essayer d'apprendre à jouer du piano en écoutant seulement si le morceau final est beau. Si vous jouez une fausse note au début, le morceau est raté à la fin, mais vous ne savez pas quelle note était fausse. Vous ne progresserez jamais.

2. La Solution : Le "Jury Interne" (Récompense de Processus)

Et si le jury ne donnait pas une note à la fin, mais à chaque mot ?
C'est ce qu'on appelle la Récompense de Processus (Process Reward).

Le cuisinier écrit le premier mot. Le jury dit : "Oui, ça commence bien !"
Il écrit le deuxième mot. Le jury dit : "Non, ce mot ne va pas avec le précédent."
Il corrige immédiatement.

Le résultat magique :
Avec cette méthode, le cuisinier peut apprendre à inventer des histoires totalement nouvelles, même si le modèle de base ne les connaissait pas.

Le papier prouve mathématiquement que cette méthode évite la "malédiction de la dimensionnalité" (le fait que la difficulté explose avec la longueur de l'histoire).
Au lieu de devoir essayer des milliards d'histoires, il suffit de vérifier chaque étape. C'est comme avoir un coach qui vous guide pas à pas plutôt qu'un critique qui vous juge à la fin.

3. Les Limites Mathématiques (Pourquoi c'est inévitable)

Les auteurs ne se contentent pas de dire "ça marche". Ils prouvent aussi que c'est impossible de faire mieux sans ce type de guide.

Théorème de la barrière : Si vous n'avez que le jury final, il existe une limite mathématique stricte. Peu importe l'algorithme que vous utilisez (même le plus intelligent), si le cuisinier de base ne connaît pas le plat, il faudra un temps infini pour l'apprendre.
Le rôle de l'entraînement initial : Le papier montre aussi que si vous entraînez le cuisinier de base avec la méthode standard (descente de gradient), il atteint déjà une limite. Pour aller au-delà, il faut absolument changer la méthode de feedback (passer du jury final au jury étape par étape).

En Résumé : La Métaphore du Voyage

Imaginez que vous devez traverser une forêt immense pour trouver un trésor.

Le Modèle de Base : C'est votre carte initiale. Elle est bonne pour les sentiers connus, mais elle est vide pour les zones sauvages.
L'Entraînement avec Récompense Finale (Outcome Reward) : C'est comme si vous marchiez au hasard dans la forêt et que quelqu'un vous criait "Tu as trouvé le trésor !" seulement si vous arrivez exactement au bon endroit. Si vous ratez le trésor (ce qui est très probable dans une grande forêt), vous ne savez pas si vous étiez à gauche, à droite, ou en arrière. Vous ne pouvez pas apprendre. Vous restez bloqué dans les sentiers connus.
L'Entraînement avec Récompense de Processus (Process Reward) : C'est comme avoir un GPS qui vous dit à chaque pas : "Tu es sur la bonne route" ou "Tourne à gauche". Même si vous êtes dans une zone inconnue, le GPS vous guide pas à pas vers le trésor. Vous pouvez explorer de nouveaux territoires.

La conclusion du papier :
Pour que l'Intelligence Artificielle puisse vraiment "réfléchir" et créer de nouvelles connaissances (comme résoudre des problèmes de mathématiques complexes ou écrire du code original), il ne suffit pas de la féliciter à la fin. Il faut lui donner des indices intermédiaires (des récompenses de processus) pour l'aider à naviguer dans l'inconnu. Sans cela, elle restera prisonnière de ce qu'elle a déjà appris.

Each language version is independently generated for its own context, not a direct translation.

Titre : Post-entraînement par gradients de politique : Optimalité et la barrière du modèle de base

1. Problématique et Contexte

L'article examine les limites théoriques du post-entraînement (fine-tuning) des modèles de langage autoregressifs linéaires à l'aide de l'apprentissage par renforcement (RL), spécifiquement via des algorithmes de gradients de politique (Policy Gradient - PG).

Le problème central est de déterminer dans quelle mesure le RL peut permettre à un modèle de générer des réponses correctes pour des contextes où le modèle de base (pré-entraîné) a une probabilité de succès négligeable (samples "hors support").

Récompenses de résultat (Outcome Rewards - ORM) : Le modèle reçoit une récompense binaire uniquement à la fin de la séquence (correct/incorrect).
Récompenses de processus (Process Rewards - PRM) : Le modèle reçoit des récompenses intermédiaires à chaque token généré, permettant une vérification étape par étape.

Les auteurs s'interrogent sur la complexité d'échantillonnage (nombre de requêtes de récompense) et le nombre d'itérations nécessaires pour améliorer le modèle au-delà de ses performances initiales, en fonction des propriétés du modèle de base.

2. Méthodologie et Cadre Théorique

Les auteurs formalisent le problème en considérant des modèles linéaires autoregressifs où la réponse $y$ est une séquence de longueur $N$ sur un alphabet de taille $k$ . Ils introduisent une hypothèse de marge $\gamma$ au niveau des tokens, garantissant qu'il existe un vecteur de poids optimal $w^*$ qui sépare le token correct des autres, conditionnellement à ce que les tokens précédents soient corrects.

L'analyse compare deux régimes :

Apprentissage supervisé (Pré-entraînement) : Utilisation de la Descente de Gradient Stochastique (SGD) sur des données étiquetées.
Post-entraînement (RL) : Utilisation de PG avec des récompenses (ORM ou PRM) sans accès direct aux étiquettes, seulement via un oracle de récompense.

Les auteurs définissent une métrique clé appelée Quantile de Vraisemblance (Likelihood Quantile - LQ), notée $Q_q(\varepsilon)$ , qui caractérise la distribution des probabilités de succès du modèle de base $q$ sur l'ensemble des données de test.

3. Contributions Clés et Résultats

A. La Barrière du Modèle de Base avec ORM (Récompenses de Résultat)

Convergence conditionnelle : Si le modèle de base a une probabilité de succès initiale non triviale $\alpha$ pour un échantillon donné, une variante de PG peut atteindre une erreur $\varepsilon$ avec un nombre de requêtes de récompense de l'ordre de $\tilde{O}((\alpha^{-1} + \varepsilon^{-1})/\gamma^2)$ .
La Barrière : Pour les échantillons où la probabilité initiale est très faible (exponentiellement petite en $N$ , typique des échantillons "hors support"), le nombre de requêtes nécessaires pour améliorer le modèle devient exponentiel en $N$ .
Optimalité Minimax : Les auteurs prouvent que cette dépendance exponentielle est inévitable pour tout algorithme utilisant des récompenses de résultat, même avec un modèle de base pré-entraîné par SGD. Le nombre de requêtes dépend inversement du quantile de vraisemblance $Q_q(\varepsilon)$ . Si le modèle de base a une erreur de SGD de l'ordre de $1/n$, le PG nécessite exponentiellement plus de requêtes pour descendre en dessous de ce seuil.

B. La Solution avec PRM (Récompenses de Processus)

Élimination de la malédiction de la dimension : En utilisant des récompenses de processus (vérification token par token), les auteurs montrent que la complexité change radicalement.
Quantile de Vraisemblance au Niveau Token (Token-Level LQ) : Ils introduisent une nouvelle métrique $Q^{TL}_q(\varepsilon)$ , qui dépend de la probabilité de prédire le prochain token correct, conditionnellement aux tokens précédents corrects.
Résultat : Avec des PRM, le nombre de requêtes de récompense nécessaire devient linéaire en $N$ (et dépend de $Q^{TL}_q$ ), évitant ainsi l'explosion exponentielle observée avec les ORM. Cela permet au PG de sortir du support du modèle de base et d'atteindre une erreur de test significativement plus faible.

C. Résultats sur l'Apprentissage en Ligne et le SGD

SGD Adaptatif : L'article démontre que le SGD avec un taux d'apprentissage adaptatif (type Adagrad) atteint une complexité d'échantillonnage quasi-minimax optimale pour le pré-entraînement, même pour des séquences longues ( $N$ ), contrairement au SGD avec taux constant.
Optimalité du PG : Les variantes de PG proposées (avec taux d'apprentissage adaptatif) sont prouvées comme étant minimax optimales pour l'apprentissage en ligne avec feedback de bandit, atteignant une borne d'erreurs $\tilde{O}(k^N/\gamma^2)$ pour $N=1$ et s'adaptant efficacement aux séquences.

4. Signification et Implications

Limites fondamentales du RL avec ORM : L'article fournit une preuve théorique rigoureuse que le RL basé sur des récompenses finales (comme dans beaucoup d'applications actuelles de RLHF) ne peut pas "inventer" de nouvelles connaissances si le modèle de base n'a aucune chance initiale de générer la réponse correcte. La barrière est computationnelle : il faudrait un nombre de tentatives exponentiel pour trouver la bonne séquence par hasard.
Supériorité théorique des PRM : Les résultats soutiennent l'idée que les récompenses de processus (Process Reward Models) sont théoriquement nécessaires pour surmonter les limitations du modèle de base et permettre une exploration efficace de l'espace des séquences.
Rôle du modèle de base : La qualité du post-entraînement n'est pas seulement une question d'algorithme, mais dépend intrinsèquement de la couverture (coverage) fournie par le modèle pré-entraîné, mesurée par le Quantile de Vraisemblance.
Algorithmes Efficaces : L'article propose des variantes de PG avec taux d'apprentissage adaptatif qui sont à la fois computationnellement efficaces et statistiquement optimales, répondant à des questions ouvertes sur l'apprentissage en ligne pour la classification multiclasse.

Conclusion

Ce travail établit des limites fondamentales pour le post-entraînement des LLMs. Il démontre que sans récompenses intermédiaires (PRM), le RL est bloqué par la capacité du modèle de base à couvrir l'espace des solutions correctes. Pour dépasser cette barrière et atteindre des performances supérieures à celles du modèle de base sur des tâches complexes, l'utilisation de signaux de récompense granulaires (token-level) est non seulement bénéfique mais théoriquement nécessaire pour éviter une complexité exponentielle.