Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous engagez trois assistants différents pour réparer une maison complexe. Vous leur donnez exactement la même liste de tâches et vous les observez travailler. La question cruciale n'est pas seulement : « Ont-ils fini le travail ? », mais : « S'ils refont le travail demain, feront-ils exactement la même chose ? »

Ce papier de recherche explore cette idée avec des intelligences artificielles (des agents LLM) qui doivent réparer du code informatique. Voici l'explication simple, avec quelques images pour mieux comprendre.

1. Le problème : La fiabilité vs. La chance

Dans le monde réel, si un agent (un robot logiciel) réussit une tâche une fois sur deux, c'est un cauchemar. C'est comme si un pilote d'avion atterrissait en sécurité la moitié du temps, mais que l'autre moitié, il ne savait pas pourquoi il a atterri ou s'il a raté la piste.

Les chercheurs ont testé trois "assistants" (Claude, GPT-5 et Llama) sur 10 tâches de réparation de code, en les faisant répéter chaque tâche 5 fois.

2. Les trois profils d'assistants

Imaginez trois types de mécaniciens :

Claude (Le Mécanicien Rigoureux) :
- Son style : Il prend son temps, lit tout, vérifie trois fois.
- Le résultat : Il est très constant. S'il décide de serrer un boulon, il le fait toujours exactement de la même manière.
- La performance : Il réussit souvent (58 % de réussite). Mais attention : s'il comprend mal le problème, il le comprendra mal toujours de la même façon. C'est un "échec constant".
- L'analogie : C'est comme un chef cuisinier qui suit une recette à la lettre. Si la recette est bonne, le plat est parfait à chaque fois. Si la recette est fausse, il servira un plat raté à chaque fois, avec une précision chirurgicale.
GPT-5 (Le Mécanicien Rapide) :
- Son style : Il va vite, il triche un peu, il essaie des solutions rapides.
- Le résultat : Il est moins constant. Parfois il trouve la solution, parfois il rate, parfois il fait une autre erreur.
- La performance : Il est 4,7 fois plus rapide que Claude, mais il réussit moins souvent (32 %) et ses actions varient beaucoup.
- L'analogie : C'est un coureur de fond qui court très vite mais qui trébuche souvent. Il arrive parfois à la ligne d'arrivée, mais son chemin est chaotique.
Llama (Le Mécanicien Débutant) :
- Son style : Il essaie plein de choses au hasard.
- Le résultat : C'est le plus imprévisible. Ses actions varient énormément d'une fois à l'autre.
- La performance : Il réussit très rarement (4 %).
- L'analogie : C'est quelqu'un qui lance des pièces de monnaie pour décider quelle pièce de rechange utiliser. Parfois, par pur hasard, ça marche. Mais la plupart du temps, c'est le chaos.

3. La grande révélation : La cohérence amplifie (pour le meilleur et pour le pire)

C'est le point le plus important du papier. On pensait souvent que "être constant = être fiable". C'est faux.

La cohérence agit comme un amplificateur de volume :

Si l'assistant a la bonne idée, la cohérence garantit qu'il réussira à chaque fois.
MAIS, si l'assistant a la mauvaise idée, la cohérence garantit qu'il échouera à chaque fois, avec une confiance totale.

Dans l'étude, 71 % des échecs de Claude étaient des "erreurs d'interprétation constantes". Il a compris le problème de travers, et comme il est très cohérent, il a répété cette erreur 5 fois sur 5, sans jamais se dire : "Attends, peut-être que je me trompe ?".

C'est comme un GPS très fiable qui vous dit de tourner à gauche. Si le GPS a raison, vous arrivez à temps. Si le GPS est mal configuré et vous dit de tourner à gauche vers un précipice, il vous y emmènera avec une précision absolue à chaque fois.

4. Le compromis : Vitesse vs. Précision

Les chercheurs ont découvert un triangle d'or (ou de compromis) :

GPT-5 est rapide mais imprévisible et moins précis.
Claude est lent mais très précis et très constant.
Llama est lent, imprévisible et peu précis.

Pour une entreprise, le choix dépend du besoin :

Si vous voulez prototyper vite (tester des idées), prenez GPT-5.
Si vous voulez déployer un système critique (comme un avion ou un hôpital) où l'erreur est inacceptable, prenez Claude, mais assurez-vous d'abord qu'il a bien compris la tâche !

5. Conclusion simple

Ce papier nous apprend que la constance n'est pas la solution magique.

Un agent qui fait toujours la même chose n'est pas forcément fiable. La vraie clé de la réussite, c'est la qualité de la compréhension initiale. Si l'agent comprend mal la tâche, le faire de manière cohérente ne fait qu'aggraver le problème.

En résumé : Ne vous fiez pas seulement à la régularité de vos agents IA. Assurez-vous d'abord qu'ils ont bien compris ce qu'on leur demande, sinon, plus ils sont cohérents, plus ils seront sûrement et régulièrement dans l'erreur !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Avec le déploiement croissant d'agents basés sur les grands modèles de langage (LLM) dans des systèmes de production (assistants de code, outils de recherche autonomes), une question fondamentale reste sous-étudiée : les agents se comportent-ils de manière cohérente lorsqu'ils sont confrontés à la même tâche à plusieurs reprises ?

La variabilité comportementale pose trois problèmes majeurs :

Imprévisibilité : Rend les agents difficiles à faire confiance dans des applications à haut risque.
Complexité du débogage : Si un agent réussit parfois et échoue parfois sur des entrées identiques, isoler la cause de l'échec devient ardu.
Fiabilité du benchmarking : Des résultats variant considérablement d'une exécution à l'autre rendent les évaluations sur une seule passe (single-run) potentiellement trompeuses.

L'étude vise à comprendre la relation entre la cohérence comportementale (variance faible) et la précision (taux de réussite) dans des tâches complexes, au-delà des simples raisonnements logiques.

2. Méthodologie

Benchmarks et Tâches

Environnement : Utilisation de SWE-bench Verified, un sous-ensemble de tâches issues de l'entrepôt astropy sur GitHub, validées par des humains.
Sélection : 10 tâches variées (types de bugs, complexité de correction, nombre de fichiers). Chaque tâche nécessite de comprendre un problème, de localiser le code, d'implémenter une correction et de la vérifier.
Cadre d'agent : Utilisation de mini-SWE-agent, un scaffold minimaliste fournissant une interface Bash (commandes de navigation, édition, exécution de tests) dans des conteneurs Docker isolés.

Modèles Évalués

Trois modèles représentant différents niveaux de capacité ont été comparés :

Claude 4.5 Sonnet : Modèle de pointe connu pour ses capacités de codage et l'utilisation d'outils.
GPT-5 : Modèle de pointe d'OpenAI (février 2026) avec de fortes capacités de raisonnement.
Llama-3.1-70B-Instruct : Modèle open-weight, plus petit mais largement déployé.

Protocole Expérimental

Exécutions : 5 essais indépendants par modèle et par tâche (Total : 50 runs par modèle, 150 trajectoires au total).
Paramètres : Température fixée à 0,5 (stochasticité modérée), limite de 250 étapes, prompts et accès aux outils identiques.
Métriques :
- Cohérence : Mesurée par le Coefficient de Variation (CV) du nombre d'étapes ( $CV = \frac{\sigma}{\mu} \times 100\%$ ). Un CV plus bas indique une meilleure cohérence.
- Précision : Déterminée par l'exécution officielle des tests de SWE-bench (patch "résolu" si tous les tests échoués passent).
- Décomposition de phase : Analyse des actions en phases (Exploration, Compréhension, Édition, Vérification).

3. Contributions Clés

Caractérisation quantitative : Établissement d'une hiérarchie claire où la cohérence s'aligne sur la précision globale entre les modèles.
L'insight de l'amplification : Démonstration que la cohérence amplifie les résultats (bons ou mauvais) plutôt que de garantir la justesse. Une interprétation erronée cohérente conduit à un échec systématique.
Le compromis Vitesse-Précision-Cohérence : Identification d'un arbitrage fondamental chez GPT-5 (rapide mais moins précis et moins cohérent) par rapport à Claude.
Mode d'échec par fixation : Identification du phénomène où la rigueur d'un modèle (Claude) conduit à une fixation sur une mauvaise interprétation initiale, empêchant la correction de trajectoire.
Divergence vs Cohérence : Preuve que le moment de la divergence des trajectoires n'est pas le seul déterminant de la cohérence globale.

4. Résultats Principaux

Hiérarchie de Performance

Modèle	Précision (Accuracy)	Cohérence (CV)	Étapes Moyennes
Claude 4.5	58%	15,2% (Le plus cohérent)	46,1
GPT-5	32%	32,2%	9,9
Llama-3.1	4%	47,0% (Le moins cohérent)	17,0

Observation : Claude est significativement plus cohérent et précis. GPT-5 est 4,7 fois plus rapide (moins d'étapes) mais souffre d'une précision 1,8 fois inférieure et d'une cohérence 2,1 fois pire.

L'Insight de l'Amplification

Corrélation intra-modèle : Au niveau d'une tâche spécifique, la cohérence ne prédit pas la précision (pas de corrélation significative). Un modèle peut être cohérentement faux ou incohéremment juste.
Analyse des échecs de Claude : 71% des échecs de Claude sont dus à une "interprétation erronée cohérente" (consistent wrong interpretation). Le modèle fait la même hypothèse incorrecte sur les 5 runs, appliquant la même solution fausse avec une grande rigueur.
Données clés : Pour les tâches où Claude comprend correctement le bug, il réussit 100% des runs. Pour celles où il se trompe, il échoue 100% des runs.

Analyse des Trajectoires et Divergence

Moment de divergence : Claude et GPT-5 divergent à des moments très similaires (environ l'étape 3,2 vs 3,4), mais Claude maintient une cohérence bien supérieure par la suite.
Première action : GPT-5 commence toujours par ls (100% des cas), mais cela ne garantit pas le succès (32% de précision). La cohérence stratégique post-démarrage est plus importante que l'action initiale.
Diversité des séquences : 100% des runs produisent des séquences d'actions uniques pour tous les modèles, montrant que la cohérence ne signifie pas un comportement déterministe, mais une cohérence stratégique.

Études de Cas

Cas 1 (Astropy-13236) : Llama a réussi là où les autres ont échoué. Claude et GPT-5 ont été "fixés" sur une mauvaise interprétation (ajouter un avertissement de dépréciation au lieu de supprimer une conversion). La variance de Llama lui a permis de tomber par hasard sur la bonne solution.
Cas 2 (Astropy-14309) : Tâche simple où GPT-5 a égalé la précision de Claude (5/5) avec 7,6 fois moins d'étapes, illustrant le paradoxe de l'efficacité : la rigueur est parfois inutile pour des tâches simples.

5. Signification et Implications

Le goulot d'étranglement est l'interprétation : Pour les tâches agentiques complexes, la qualité de l'interprétation initiale du problème est plus critique que la qualité de l'exécution ou la cohérence de l'exécution. Améliorer la compréhension du contexte rapporte plus que d'optimiser l'exécution.
La cohérence est une épée à double tranchant : Dans un contexte de production, une haute cohérence est souhaitable uniquement si la stratégie de base est correcte. Sinon, elle amplifie les erreurs de manière fiable.
Changement de paradigme pour le Benchmarking : Les évaluations sur une seule passe sont insuffisantes. Il est nécessaire de passer à des évaluations multi-runs rapportant la variance et la cohérence pour évaluer la fiabilité réelle d'un agent.
Stratégies Adaptatives : Les agents futurs devraient probablement adapter leur niveau de "thoroughness" (rigueur/exploration) en fonction de la complexité estimée de la tâche, plutôt que d'appliquer une stratégie uniforme.

Conclusion : La recherche conclut que pour le déploiement en production, la qualité de l'interprétation prime sur la cohérence d'exécution. La cohérence seule ne garantit pas la fiabilité ; elle garantit simplement que l'agent répétera sa stratégie, qu'elle soit bonne ou mauvaise.