Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : La "Course aux Essais" qui gâche le "Tir de Précision"

Imaginez que vous entraînez un élève (le modèle d'IA) à résoudre des problèmes de mathématiques.

Pass@1 (Le tir unique) : C'est comme un examen final où l'élève a une seule chance de répondre correctement. S'il se trompe, c'est zéro. C'est crucial car dans la vraie vie, on n'a pas toujours le temps ou l'argent de demander à l'IA de réfléchir 10 fois.
Pass@k (La course aux essais) : C'est comme un jeu où l'élève a le droit de faire k tentatives (par exemple 5). Si l'une des 5 réponses est bonne, il gagne. C'est très utile pour le code informatique ou les maths complexes où l'on peut vérifier automatiquement si la réponse est juste.

Le constat surprenant : Les chercheurs ont remarqué quelque chose d'étrange. Quand on entraîne l'élève spécifiquement pour gagner la "course aux essais" (Pass@k), il devient excellent pour trouver une bonne réponse parmi 5, mais paradoxalement, il devient moins bon pour donner la bonne réponse dès le premier coup (Pass@1).

C'est comme si, pour apprendre à gagner au "100 mètres avec 5 tentatives", l'élève apprenait à courir n'importe comment tant qu'il finit la course, et qu'il oubliait comment courir vite et droit dès le départ.

🧠 La Cause : Le "Bruit" des Prompts et la Récompense Injuste

Pourquoi cela arrive-t-il ? La réponse réside dans la façon dont le modèle apprend et dans un phénomène appelé "Interférence des Prompts".

1. L'Analogie du Professeur qui favorise les élèves en difficulté

Imaginez un professeur (l'algorithme d'optimisation) qui veut que la classe entière réussisse.

Pour le Pass@1, le professeur donne la même importance à tous les élèves. Il veut que tout le monde comprenne.
Pour le Pass@k, le professeur change sa méthode. Il se dit : "Les élèves qui réussissent déjà bien n'ont pas besoin de mon aide. Je vais me concentrer à 100% sur les élèves qui échouent tout le temps, car c'est là que je peux gagner le plus de points."

C'est ce que fait l'optimisation Pass@k : elle donne un poids énorme (une loupe) aux questions difficiles que le modèle rate souvent, et elle ignore presque totalement les questions faciles qu'il réussit déjà.

2. Le Conflit : Quand aider les uns blesse les autres

C'est ici que le drame se joue.
Imaginons deux types de questions :

Question A (Facile) : Le modèle la connaît bien.
Question B (Difficile) : Le modèle la rate souvent.

Parfois, pour apprendre à résoudre la Question B, le modèle doit ajuster sa "mémoire" d'une manière qui, par hasard, détruit sa capacité à résoudre la Question A.

En termes techniques, les chercheurs appellent cela une interférence négative. Les deux questions sont "en conflit" : la direction dans laquelle il faut pousser le modèle pour réussir la question difficile est l'opposé de la direction pour réussir la question facile.

3. Le Catastrophe : La Récompense Exagérée

Quand on optimise pour le Pass@k, le professeur (l'algorithme) crie très fort aux questions difficiles : "Il faut absolument que tu réussisses !" (Poids énorme).
Pendant ce temps, il chuchote aux questions faciles : "Tu as déjà réussi, ne bouge pas trop." (Poids minime).

Comme les questions difficiles sont "négativement interférentes" (leur réussite demande de changer les choses dans le sens opposé des questions faciles), le modèle obéit au cri fort. Il se réoriente massivement pour réussir les questions difficiles.
Résultat :

✅ Il réussit enfin les questions difficiles (le score Pass@k augmente).
❌ Mais en faisant cela, il oublie comment résoudre les questions faciles (le score Pass@1 chute).

📉 L'Analogie du Chien de Chasse

Imaginez un chien de chasse (le modèle) qui doit attraper des lapins.

Pass@1 : Le chien doit attraper le lapin dès la première course.
Pass@k : Le chien a le droit de courir 5 fois. S'il attrape le lapin à la 3ème ou 5ème fois, c'est gagné.

Si vous entraînez le chien spécifiquement pour le Pass@k, vous allez le récompenser uniquement quand il attrape un lapin après avoir fait des détours, des erreurs, ou en courant dans tous les sens pour le rattraper à la fin.

Le chien va apprendre à être très bon pour "rattraper" les lapins qui s'échappent (les cas difficiles). Mais en apprenant à courir en zigzag pour rattraper les fuyards, il perd son réflexe de lancer droit et rapide.
Quand vous lui donnez un seul lapin à attraper (Pass@1), il panique, fait des zigzags inutiles, et rate le coup.

💡 La Conclusion des Chercheurs

Les auteurs (Anas Barakat et son équipe) ont prouvé mathématiquement que ce n'est pas un accident, mais une conséquence inévitable dans certaines situations :

Le mécanisme : L'optimisation Pass@k modifie automatiquement la "liste de courses" du modèle, en donnant une priorité démesurée aux cas difficiles.
Le piège : Si ces cas difficiles sont "négativement interférents" (c'est-à-dire que les solutions pour eux nuisent aux solutions des cas faciles), alors forcer le modèle à les résoudre va le faire régresser sur les cas faciles.
Le danger : Dans le monde réel, on ne peut pas toujours se permettre de faire 10 tentatives (trop lent, trop cher). Si on utilise un modèle entraîné uniquement pour le Pass@k, il risque de devenir peu fiable pour les tâches quotidiennes où une seule réponse est attendue.

En résumé : Vouloir être parfait sur "au moins une tentative sur dix" peut vous rendre médiocre sur "la première tentative". Il faut trouver un équilibre pour ne pas sacrifier la fiabilité immédiate au profit de la persévérance à long terme.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Dans les tâches vérifiables (raisonnement mathématique, génération de code), la métrique Pass@k est devenue le standard pour évaluer les modèles de langage (LLM). Elle mesure la probabilité qu'au moins une solution sur $k$ échantillons indépendants soit correcte. Récemment, des méthodes de fine-tuning ont été développées pour optimiser directement l'objectif Pass@k, ce qui a conduit à des améliorations significatives sur les benchmarks.

Cependant, une observation empirique inquiétante émerge : l'optimisation de Pass@k entraîne souvent une dégradation du Pass@1 (la probabilité de succès d'un seul échantillon). Cette dégradation est critique car, dans de nombreux déploiements réels, les contraintes de latence, de coût ou l'absence de vérificateurs fiables pour chaque tentative imposent une forte fiabilité du modèle en "un seul coup" (single-shot).

L'article pose la question fondamentale : Pourquoi et dans quelles conditions l'optimisation de Pass@k dégrade-t-elle le Pass@1 ?

2. Méthodologie et Cadre Théorique

Les auteurs proposent une analyse théorique rigoureuse combinée à une validation empirique pour expliquer ce phénomène de compromis (trade-off).

A. Définition de l'Interférence des Prompts (Prompt Interference)

Le cœur de l'analyse repose sur une nouvelle notion : l'interférence des prompts.

Définition : Deux prompts $x$ et $x'$ sont dits négativement interférents si une mise à jour des paramètres du modèle qui améliore la probabilité de succès sur $x$ tend à réduire la probabilité de succès sur $x'$ .
Mécanisme : Cela est formalisé par un noyau de similarité $\kappa_\theta(x, x') = \langle \nabla p_\theta(x), \nabla p_\theta(x') \rangle$ , où $\nabla p_\theta(x)$ est le gradient de la probabilité de succès pour un prompt donné. Si ce produit scalaire est négatif, les gradients s'opposent.

B. Analyse des Gradients et du Recalibrage (Reweighting)

L'article décompose le gradient de l'objectif Pass@k par rapport à celui de Pass@1.

Gradient Pass@1 : C'est la moyenne des gradients par prompt sur la distribution des prompts $D$ .
Gradient Pass@k : Il s'écrit comme une moyenne pondérée des mêmes gradients par prompt, mais avec des poids $w_{k,\theta}(x) = k(1 - p_\theta(x))^{k-1}$ .
Le mécanisme clé : Le poids $w_{k,\theta}(x)$ est inversement proportionnel à la probabilité de succès actuelle. Ainsi, l'optimisation Pass@k surpondère massivement les prompts difficiles (faible $p_\theta$ ) et sous-pondère les prompts faciles.

C. Conflit de Gradients

Les auteurs démontrent que le conflit entre les directions de mise à jour de Pass@k et Pass@1 survient lorsque :

Les prompts difficiles (surpondérés par Pass@k) sont négativement interférents avec le reste de la distribution (leurs gradients s'opposent au gradient global Pass@1).
La surpondération de ces prompts difficiles par le mécanisme Pass@k est suffisamment forte pour que la moyenne pondérée des gradients (Pass@k) forme un angle obtus avec le gradient global Pass@1.

Mathématiquement, le produit scalaire entre les deux gradients devient négatif :
$\langle \nabla J_k(\theta), \nabla J_1(\theta) \rangle < 0$
Cela signifie qu'une mise à jour suivant la direction du gradient Pass@k augmentera Pass@k tout en diminuant Pass@1.

3. Contributions Clés

Concept d'Interférence des Prompts : Introduction d'une définition formelle de l'interférence négative entre prompts basée sur la similarité de leurs gradients de succès Pass@1.
Caractérisation du Conflit de Gradients : Démonstration théorique que les gradients Pass@k et Pass@1 ne sont pas nécessairement colinéaires au niveau de la population, contrairement à ce que l'on pourrait penser au niveau d'un prompt individuel. L'article fournit une expression explicite du produit scalaire reliant ce conflit à la covariance entre les poids Pass@k et les scores d'accord des prompts.
Conditions Suffisantes et Influence de $k$ : Établissement de conditions suffisantes pour qu'un conflit survienne. Il est prouvé qu'au-delà d'un certain seuil de $k$ (noté $k^*$ ), le conflit devient inévitable si la distribution contient une masse de prompts négativement interférents difficiles.
Preuve de Dégradation : Preuve formelle que, sous des conditions de régularité et avec un pas d'apprentissage approprié, une mise à jour basée sur Pass@k entraîne une diminution stricte de Pass@1 tout en augmentant Pass@k.
Validation Empirique : Expérimentation sur des modèles LLM (DeepSeek-R1-Distill-Llama-8B et Qwen-7B) sur le dataset MATH, confirmant les prédictions théoriques.

4. Résultats Expérimentaux

Les expériences sur le dataset MATH valident la théorie de plusieurs manières :

Séparation des Scores d'Accord : Les prompts "faciles" ont des scores d'accord positifs (leurs gradients améliorent le Pass@1 global), tandis que les prompts "difficiles" ont des scores d'accord négatifs (leurs dégradent le Pass@1 global).
Disparité Extrême des Poids : L'analyse des poids $w_{k,\theta}$ montre que les prompts difficiles (faible succès) reçoivent des poids des ordres de grandeur supérieurs (jusqu'à $10^{28}$ fois plus) que les prompts faciles.
Inversion du Conflit : Bien que la moyenne non pondérée des scores d'accord soit positive (indiquant une amélioration potentielle de Pass@1), la moyenne pondérée par Pass@k devient fortement négative.
- Exemple : Pour le modèle Qwen-7B, le produit scalaire entre les gradients passe de $+0.029$ (non pondéré) à $-181$ (pondéré), indiquant un conflit violent.
Conséquence : Lors de l'optimisation, le modèle améliore sa capacité à résoudre des problèmes difficiles avec plusieurs tentatives (Pass@k augmente), mais sa capacité à résoudre n'importe quel problème du premier coup se détériore (Pass@1 baisse).

5. Signification et Implications

Ce travail a des implications majeures pour le développement et le déploiement des LLM :

Limites de l'Optimisation Pass@k : Il met en garde contre l'utilisation aveugle de l'optimisation Pass@k comme objectif de formation, car elle peut compromettre la fiabilité opérationnelle (Pass@1) requise dans de nombreux scénarios réels.
Compréhension du "Trade-off" : Il fournit une explication théorique fondamentale au compromis observé empiriquement, reliant ce phénomène à la structure des gradients et à l'interférence entre sous-populations de prompts (faciles vs difficiles).
Perspectives Futures : Les auteurs suggèrent que les futures méthodes de fine-tuning doivent intégrer des mécanismes pour atténuer cette interférence (par exemple, via des techniques de "chirurgie de gradient" ou des objectifs hybrides) afin d'obtenir des gains en Pass@k sans sacrifier le Pass@1.

En résumé, l'article démontre que l'optimisation Pass@k agit comme un mécanisme de recalibrage qui amplifie l'influence des prompts difficiles. Si ces prompts sont structurellement incompatibles avec les prompts faciles (interférence négative), cette amplification force le modèle à s'orienter dans une direction qui nuit à sa performance globale en un seul essai.