Code Roulette: How Prompt Variability Affects LLM Code Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un chef cuisinier très doué (l'Intelligence Artificielle) de préparer un plat. Si vous lui dites "Faites-moi une omelette", il vous sortira une omelette parfaite. Mais que se passe-t-il si vous changez légèrement votre commande ?

"Faites-moi une omelette" (avec une faute de frappe).
"Préparez un plat d'œufs brouillés" (synonyme).
"Je voudrais un matin doré avec des œufs" (reformulation).

Selon le chef, le plat final sera-t-il toujours une omelette ? Ou va-t-il vous servir un œuf au plat, une omelette brûlée, ou pire, un gâteau aux œufs ?

C'est exactement ce que les auteurs de cette étude, Code Roulette, ont voulu découvrir. Ils ont étudié comment les modèles d'intelligence artificielle (LLM) réagissent quand on change un tout petit peu la façon dont on leur demande de coder.

Voici l'explication de leur travail, découpée en images simples :

1. Le Problème : La "Roue de la Fortune" du Code

Aujourd'hui, tout le monde peut demander à une IA de créer du code informatique. C'est comme si n'importe qui pouvait commander un plat dans un restaurant sans être chef. Le problème, c'est que l'IA est très sensible à la façon dont on lui parle.

Les chercheurs ont découvert que deux personnes demandant la même chose, mais avec des mots légèrement différents, pourraient obtenir des résultats totalement différents. C'est comme si deux clients commandaient "un café" : l'un reçoit un espresso, l'autre un cappuccino, et le troisième un thé, juste parce qu'ils ont utilisé des mots différents.

2. L'Expérience : Le Test des "Trois Types de Perturbations"

Pour tester cette sensibilité, les chercheurs ont créé une "machine à tester" (un pipeline d'évaluation). Ils ont pris des demandes de code et les ont modifiées de trois manières, comme si on jouait avec la recette :

Les Fautes de Frappe (Typos) : Comme si vous tapiez "omellette" au lieu de "omelette" sur votre clavier.
- Résultat : C'est le pire scénario. Dès qu'il y a une petite erreur de frappe, le chef (l'IA) panique et vous sert un plat complètement différent. La qualité du code s'effondre vite.
Les Synonymes : Remplacer "voiture" par "automobile".
- Résultat : L'IA est plus calme ici. Elle comprend que c'est la même chose. Le plat reste à peu près le même, même si le chef change un peu les épices.
Le Reformulation (Paraphrase) : Dire "Je veux un véhicule à quatre roues" au lieu de "Je veux une voiture".
- Résultat : Similaire aux synonymes. L'IA reste stable, tant que le sens global est conservé.

3. Le Jauge de Mesure : La "Règle de la Structure"

Comment savent-ils si le plat est différent ? Ils ne goûtent pas le code pour voir s'il fonctionne (c'est trop long et compliqué). Au lieu de cela, ils regardent la structure du plat.

Imaginez que vous comparez deux maisons. Même si l'une est peinte en bleu et l'autre en rouge, si l'une a un toit en pente et l'autre un toit plat, ce sont des maisons différentes. Les chercheurs utilisent une règle spéciale (appelée TSED) qui mesure si la "forme" du code a changé.

Si la forme change beaucoup, c'est que l'IA est très sensible à votre demande.
Si la forme reste identique, c'est que l'IA est robuste.

4. La Révélation : Le Secret des "Anciennes Recettes"

Une découverte très importante concerne les données d'entraînement.

Le Cas des "Vieux Problèmes" (LeetCode Old) : Les chercheurs ont testé l'IA avec des problèmes de code très connus, qui sont peut-être dans la mémoire de l'IA depuis sa création. Résultat ? L'IA est incroyablement stable. Même si vous faites des fautes de frappe, elle vous donne le même code. C'est comme si elle avait déjà mémorisé la recette par cœur.
Le Cas des "Nouveaux Problèmes" : Quand ils ont demandé à l'IA de créer du code pour des tâches qu'elle n'a jamais vues avant, la sensibilité explose. Une petite faute de frappe suffit à changer complètement le résultat.

Cela signifie que si vous utilisez une IA pour des tâches courantes, vous êtes en sécurité. Mais si vous l'utilisez pour inventer quelque chose de nouveau, chaque mot compte énormément.

5. Pourquoi c'est important pour vous ?

Cette étude nous apprend trois choses essentielles :

La confiance est fragile : On ne peut pas faire confiance aveuglément à l'IA. Si vous changez un mot dans votre demande, le résultat peut changer radicalement.
La clarté est reine : Pour obtenir un bon résultat, il faut être très précis et éviter les fautes de frappe, surtout si vous demandez quelque chose de nouveau.
L'IA n'est pas un humain : Un humain comprendrait que "voiture" et "automobile" sont pareils, peu importe la faute de frappe. L'IA, elle, est plus rigide et mécanique.

En résumé

Imaginez que l'IA est un chef robot très talentueux mais un peu rigide.

Si vous lui donnez une commande parfaite, il est génial.
Si vous faites une faute de frappe, il peut vous servir un plat bizarre.
Si vous utilisez des mots compliqués pour dire la même chose, il s'en sort bien.
Mais surtout, il ne faut pas le tester avec des recettes qu'il connaît déjà par cœur, car cela fausse les résultats.

Les chercheurs ont créé une méthode pour mesurer cette "instabilité" afin que, à l'avenir, nous puissions construire des systèmes plus fiables et apprendre aux utilisateurs à mieux parler à ces chefs robots.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La génération de code par les Modèles de Langage à Grande Échelle (LLM) est devenue une application majeure, démocratisant l'accès au développement logiciel. Cependant, la qualité et la fonctionnalité du code généré dépendent fortement de la formulation du prompt (l'entrée utilisateur).

Le problème central identifié par les auteurs est la sensibilité des LLM aux variations d'entrée. Les utilisateurs, ayant des backgrounds, des niveaux d'expertise et des modèles mentaux différents, formulent les mêmes exigences techniques de manières variées (synonymes, paraphrases, fautes de frappe).

Enjeu : Si un LLM produit un code radicalement différent (ou incorrect) pour des prompts sémantiquement équivalents mais textuellement différents, cela compromet la fiabilité, la maintenabilité et la confiance des utilisateurs.
Objectif : Quantifier cette sensibilité pour comprendre dans quelle mesure de petites perturbations textuelles (typos, synonymes, reformulations) dégradent la cohérence du code généré, indépendamment de la tâche de programmation spécifique ou du modèle utilisé.

2. Méthodologie

Les auteurs proposent un pipeline d'évaluation agnostique, conçu pour mesurer la sensibilité des LLM aux augmentations de prompts.

A. Pipeline d'Évaluation

Le processus est formalisé par un algorithme (Algorithme 1) :

Ligne de base : Pour un prompt $p$ donné, on génère $n$ échantillons de code indépendants (référence) avec le modèle $M$ .
Augmentation : Une fonction $F$ perturbe le prompt original avec un taux $r \in [0, 1]$ . Ce taux contrôle l'intensité de la modification (de 0% à 100% du texte modifié).
Génération : Pour chaque taux d'augmentation, on génère un nouvel ensemble de codes.
Mesure de distance : On calcule la distance entre les codes générés par les prompts perturbés et la ligne de base.
Agrégation : On calcule la distance moyenne pour chaque niveau de perturbation, produisant une courbe de sensibilité.

B. Méthodes d'Augmentation des Prompts

Trois types de perturbations textuelles sont appliqués pour simuler des variations humaines :

Fautes de frappe (Keyboard Typos) : Remplacement aléatoire de caractères par des touches adjacentes sur un clavier QWERTY (simulation d'erreurs de saisie).
Synonymes : Remplacement aléatoire de mots par leurs synonymes (via la base de données WordNet).
Paraphrasage : Utilisation d'un LLM (Gemini) pour reformuler le prompt tout en conservant le sens, mais en variant le vocabulaire.

C. Métrique de Similarité de Code

Contrairement aux métriques textuelles générales (BLEU, BERT Score) qui s'avèrent inefficaces pour le code (plafond de performance élevé, coût computationnel), les auteurs utilisent TSED (Tree Similarity of Edit Distance).

Fonctionnement : TSED mesure la similarité structurelle entre les arbres de syntaxe abstraite (AST) de deux fragments de code.
Justification : L'objectif n'est pas de juger la correction fonctionnelle (qui peut être identique pour des structures différentes), mais la cohérence structurelle. Une grande variabilité structurelle rend le code difficile à maintenir et à déboguer, même s'il fonctionne.

D. Données et Modèles

Modèles testés : GPT-4o mini, Claude 3 Haiku, Gemini 2.0 Flash, Llama 3.3 70B.
Ensembles de données :
1. LeetCode (Old) : Tâches classiques (risque élevé de contamination des données d'entraînement).
2. LeetCode (New) : Tâches publiées en mars 2025 (hors fenêtre d'entraînement).
3. Notre Dataset : 22 tâches créées manuellement, ouvertes et variées (simulations, jeux, data science), conçues pour ne pas ressembler aux exercices standards.

3. Résultats Clés

Les expériences, menées avec une température de 0 pour minimiser le bruit stochastique, révèlent plusieurs tendances importantes :

A. Impact des Types d'Augmentation

Fautes de frappe : C'est l'augmentation la plus invasive. La similarité du code (mesurée par TSED) chute rapidement entre un taux de 0,0 et 0,6, se stabilisant autour de 0,3. Cela indique que les modèles sont très sensibles aux erreurs de saisie, produisant des implémentations structurellement très différentes.
Synonymes et Paraphrasage : Les modèles sont beaucoup plus robustes à ces variations. La chute de similarité est plus lente et moins sévère. Gemini 2.0 Flash montre une résilience exceptionnelle aux synonymes, ne descendant jamais en dessous de 0,6 de similarité.

B. Stabilité Intrinsèque (Sans Augmentation)

GPT-4o mini et Gemini 2.0 Flash : Présentent une stabilité remarquable (similarité ~0,9) même sans perturbation, suggérant une forte déterminisme à température 0.
Llama 3.3 et Claude 3 Haiku : Montrent une instabilité plus élevée même sur les prompts originaux, produisant des variations structurelles significatives.

C. Phénomène de Contamination des Données

LeetCode (Old) : Les modèles montrent une sensibilité très faible (très robuste) car ces problèmes sont probablement dans leurs données d'entraînement. Ils reconnaissent la tâche même avec des signaux faibles.
LeetCode (New) : La sensibilité augmente, mais les modèles restent stables jusqu'à 50% de modification du prompt.
Notre Dataset (Tâches originales) : C'est ici que la sensibilité est la plus critique.
- Variance élevée même sur les prompts non modifiés (similarité ~0,7).
- La similarité du code chute en dessous de 0,5 après seulement 10% de modification du prompt.
- Cela démontre que pour des tâches non vues en entraînement, les LLM sont extrêmement fragiles aux variations textuelles mineures.

4. Contributions Principales

Pipeline d'évaluation novel : Une procédure standardisée et agnostique pour mesurer la sensibilité des LLM à la variabilité des prompts, applicable à n'importe quelle tâche de codage.
Analyse comparative : Une évaluation approfondie de quatre modèles LLM populaires, démontrant que la robustesse varie selon le type de perturbation et la nature des données (contaminées vs nouvelles).
Jeu de données ouvert : Création et partage d'un ensemble de 22 tâches de programmation ouvertes et originales, conçues spécifiquement pour éviter la contamination des données d'entraînement et tester la véritable capacité de généralisation.
Preuve empirique : Démonstration que des variations textuelles simples (typos, synonymes) peuvent entraîner des changements structurels majeurs dans le code généré, posant un risque pour la fiabilité des systèmes de développement assistés par IA.

5. Signification et Implications

Ce travail met en lumière un défi critique pour l'adoption industrielle des LLM dans le développement logiciel : l'instabilité des sorties.

Confiance et Sécurité : Les utilisateurs ne peuvent pas faire confiance à un modèle s'il produit des implémentations radicalement différentes pour la même demande, ce qui complique la revue de code et la maintenance.
Conception de Pipeline : Les outils de développement doivent intégrer des mécanismes pour gérer cette variabilité, tels que des questions de suivi pour clarifier les prompts, ou des techniques de régularisation (moyenne de plusieurs sorties).
Évaluation future : Les benchmarks actuels (comme HumanEval) sont insuffisants car ils ne testent pas la sensibilité aux variations de prompts. Il est crucial d'utiliser des tâches "fraîches" (non contaminées) et de mesurer la cohérence structurelle (TSED) plutôt que la seule exactitude fonctionnelle.

En conclusion, « Code Roulette » appelle à une meilleure compréhension de la relation entre la formulation du prompt et la stabilité du code généré, soulignant la nécessité de rendre les LLM plus robustes aux imperfections naturelles de la communication humaine.