Arbiter: Detecting Interference in LLM Agent System Prompts

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Enquêteur Invisible : Comment nous avons "audité" les cerveaux des IA

Imaginez que vous embauchez un assistant très intelligent pour gérer votre entreprise. Vous lui donnez un manuel d'instructions (le "prompt système") pour lui dire comment se comporter.

Le problème ? Ce manuel est écrit dans un langage naturel (comme l'anglais), il n'a pas de correcteur orthographique, pas de test de sécurité, et personne ne vérifie s'il contient des contradictions.

C'est là qu'intervient Arbiter, le nouveau détective créé par les chercheurs.

1. Le Problème : Le Manuel Contredit Lui-même 🤯

Les chercheurs ont analysé les manuels d'instructions de trois grands assistants de codage (Claude, Codex et Gemini). Ils ont découvert des choses folles :

Parfois, le manuel dit : "Utilise TOUJOURS cet outil !" dans une section.
Et juste à côté, il dit : "NE JAMAIS utiliser cet outil !" dans une autre.

L'analogie du Chef Cuisinier :
Imaginez un chef cuisinier (l'IA) qui reçoit deux ordres contradictoires de son patron (le prompt) :

"Ajoute toujours du sel !"
"Ne mets JAMAIS de sel !"

Le chef ne va pas crier "Erreur !" ou appeler la police. Il va simplement deviner ce que le patron voulait dire à ce moment-là. Parfois, il met du sel, parfois non. Le résultat est imprévisible, et personne ne s'en rend compte. C'est ce qu'on appelle une interférence.

2. La Solution : Arbiter, le Détective à Deux Visages 🕵️‍♀️🕵️‍♂️

Les chercheurs ont créé un outil appelé Arbiter qui utilise deux méthodes pour trouver ces erreurs, comme un détective qui utilise à la fois une loupe et un chien de recherche.

Méthode 1 : L'Archéologie Dirigée (La Loupe) 🧐
C'est une analyse rigoureuse. Arbiter découpe le manuel en petits blocs et vérifie chaque paire de phrases avec des règles strictes.
- Exemple : "Est-ce que la phrase A interdit ce que la phrase B autorise ?"
- C'est comme un correcteur de grammaire ultra-puissant qui cherche spécifiquement les contradictions logiques.
Méthode 2 : Le Dépoussiérage Non-Orienté (Le Chien de Recherche) 🐕
C'est la partie la plus géniale. Au lieu de chercher une erreur précise, Arbiter envoie le manuel à 10 IA différentes (Claude, Gemini, Llama, etc.) avec une instruction très vague : "Lis ce texte attentivement et dis-moi ce qui te semble étrange ou intéressant."
- Chaque IA a une "personnalité" différente. L'une remarque les problèmes de sécurité, une autre les problèmes d'argent, une autre les bugs de mémoire.
- Elles se relaient : la deuxième IA lit ce que la première a trouvé et cherche autre chose.
- L'enquête s'arrête quand trois IA d'affilée disent : "Non, je ne vois plus rien de nouveau."

3. Les Découvertes : Trois Types de Manuels, Trois Types de Bugs 🏗️

En comparant les manuels de Claude, Codex et Gemini, les chercheurs ont vu que la structure du manuel détermine le type d'erreur :

Le Monolithe (Claude Code) : C'est un énorme pavé de 1 500 lignes.
- Le bug : Comme un immeuble construit pièce par pièce sans plan global, les contradictions apparaissent aux frontières entre les équipes. C'est le "mur" qui a été mal construit.
Le Plat (Codex CLI) : C'est un manuel court et simple (298 lignes).
- Le bug : Il est très cohérent, mais il manque de fonctionnalités. C'est comme une maison très simple : il n'y a pas de fuites, mais il n'y a pas non plus de piscine ni de garage.
Le Modulaire (Gemini CLI) : C'est un manuel construit avec des blocs assemblés à la volée.
- Le bug : Les blocs fonctionnent bien seuls, mais ils ne parlent pas bien entre eux.
- La découverte majeure : L'un des blocs dit "Sauvegarde les préférences de l'utilisateur", mais le bloc suivant (qui résume l'histoire) efface tout ce qui n'est pas dans son format strict. Résultat : Les préférences sauvegardées sont effacées automatiquement. C'est un bug invisible car chaque pièce fonctionne bien, mais l'ensemble est cassé.

4. Pourquoi c'est génial ? 💡

La diversité est la clé : Une seule IA ne voit pas tout. En utilisant 10 IA différentes, on découvre des problèmes que l'autre n'aurait jamais vus. C'est comme demander à 10 experts différents de lire un contrat : l'avocat voit les pièges juridiques, le comptable voit les erreurs de chiffres, et l'architecte voit les failles de sécurité.
C'est incroyablement peu cher : Tout ce travail d'analyse a coûté 0,27 $ (27 cents). C'est moins cher que trois minutes de travail au salaire minimum aux États-Unis.
La validation réelle : Google a reçu l'alerte sur le bug de "sauvegarde effacée" et a corrigé le problème (même s'ils n'ont pas tout à fait compris la racine du problème, ils ont réparé le symptôme).

En Résumé 🎯

Les prompts (les instructions des IA) sont devenus des logiciels complexes, mais on les traite comme de simples textes. Arbiter nous montre qu'il faut les traiter comme du vrai code : avec des tests, des vérifications de cohérence et une équipe d'auditeurs diversifiée.

C'est un peu comme si on avait découvert que les constitutions de nos pays contenaient des lois qui s'annulaient mutuellement, et qu'il fallait un nouveau système pour les vérifier avant qu'elles ne causent des catastrophes.

Le message final ? Ne faites jamais confiance aveuglément à l'IA pour vérifier ses propres règles. Il faut un juge extérieur, et aujourd'hui, ce juge coûte moins cher qu'un café. ☕

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de recherche "Arbiter: Detecting Interference in LLM Agent System Prompts" (Détection des interférences dans les prompts système des agents LLM), basé sur le document fourni.

1. Problématique

Les prompts système des agents de codage basés sur les LLM (comme Claude Code, Codex CLI, Gemini CLI) sont des artefacts logiciels critiques qui définissent le comportement, la hiérarchie des priorités, les contrats d'outils et la gestion de l'état de l'agent. Cependant, contrairement au logiciel traditionnel, ces "constitutions" manquent d'infrastructures de test standardisées (pas de vérificateur de type, pas de linter, pas de suite de tests).

Le problème central est que lorsqu'un prompt contient des instructions contradictoires (par exemple, "utiliser toujours TodoWrite" dans une section et "NE JAMAIS utiliser TodoWrite" dans une autre), le LLM exécutant résout ce conflit silencieusement via ses heuristiques internes, sans lever d'erreur ni générer d'avertissement. L'article soutient que l'agent qui résout le conflit ne peut pas être l'agent qui le détecte, car le même mécanisme de "jugement" qui rend les LLM utiles les rend peu fiables en tant qu'auditeurs de leurs propres instructions. Une évaluation externe et formelle est donc nécessaire.

2. Méthodologie : Le Framework Arbiter

Les auteurs présentent Arbiter, un cadre d'évaluation combinant deux phases complémentaires pour détecter les motifs d'interférence dans les prompts système :

A. Évaluation Dirigée (Directed Evaluation)

Cette phase agit comme une analyse statique exhaustive basée sur des règles formelles.

Décomposition : Le prompt est découpé en blocs contigus classés par niveau (système/domaine/application), catégorie (identité, sécurité, etc.), modalité (mandat, interdiction, etc.) et portée.
Application de règles : Des règles formelles détectent des types d'interférences spécifiques (ex: conflits mandat-interdiction, chevauchement de portée, ambiguïté des marqueurs de priorité, dépendances implicites).
Filtrage : Des pré-filtres réduisent l'espace de recherche (de $O(n^2)$ à quelques centaines de paires pertinentes).
Limitation : Cette méthode est exhaustive dans son cadre défini mais aveugle aux vulnérabilités pour lesquelles aucune règle n'a été écrite.

B. Évaluation Non-Dirigée : Le "Scouring" Multi-Modèle

Cette phase comble les lacunes de l'analyse dirigée en utilisant une approche exploratoire.

Instruction vague : Un "scourer" (balayeur) reçoit le prompt avec une instruction délibérément floue ("lisez attentivement et notez ce qui vous semble intéressant").
Multi-modèle : Chaque passage utilise un LLM différent (ex: Claude Opus, DeepSeek, Kimi, Grok, etc.). L'objectif n'est pas le consensus, mais la complémentarité : différents modèles, entraînés sur des données différentes, apportent des biais analytiques distincts.
Composition itérative : Chaque passage reçoit les découvertes des passages précédents et est invité à explorer des territoires non couverts.
Critère d'arrêt convergent : L'exploration s'arrête lorsque trois modèles consécutifs déclarent ne rien trouver de nouveau.

C. Analyse Structurelle (AST)

Un analyseur syntaxique abstrait (AST) décompose le prompt en une arborescence de nœuds typés (Document, Section, Directive, etc.) pour analyser la structure physique et sémantique, permettant de détecter les clones structurels et les changements de version indépendamment du formatage.

3. Contributions Clés

Une taxonomie des modes de défaillance des prompts système, fondée sur des preuves empiriques multi-fournisseurs.
Une méthodologie d'analyse systématique combinant règles dirigées et fouille non-dirigée multi-modèle.
Preuve de la complémentarité des modèles : L'évaluation multi-modèle découvre des classes de vulnérabilités catégoriquement différentes de l'analyse mono-modèle.
Validation externe : Une découverte du scourer (perte de données structurelle dans le système de mémoire de Gemini CLI) a été confirmée indépendamment par un rapport de bug et un correctif de Google, bien que le correctif n'ait pas résolu la cause racine au niveau du schéma.
Coût négligeable : L'analyse complète multi-fournisseurs a coûté 0,27 USD (moins de 3 minutes de travail au salaire minimum américain).

4. Résultats Principaux

Analyse Quantitative

Corpus : Trois prompts majeurs analysés :
- Claude Code (Anthropic) : 1 490 lignes (Monolithique).
- Codex CLI (OpenAI) : 298 lignes (Plat/Flat).
- Gemini CLI (Google) : 245 lignes (Modulaire).
Découvertes :
- 152 découvertes issues du "scouring" non-dirigé.
- 21 motifs d'interférence étiquetés manuellement via l'analyse dirigée (sur Claude Code).
Coût : Total de 0,27 USD pour l'ensemble de l'analyse.

Architecture et Modes de Défaillance

L'étude révèle une corrélation forte entre l'architecture du prompt et le type de bugs observés :

Monolithique (Claude Code) : Bugs de niveau "croissance" aux frontières des sous-systèmes. Les contradictions surviennent lorsque des sous-systèmes développés indépendamment (ex: gestion de tâches vs flux de travail de commit) entrent en conflit.
Plat (Codex CLI) : Compromis entre simplicité et capacité. Moins de contradictions opérationnelles, mais des problèmes structurels (confusion d'identité, détails d'implémentation fuités).
Modulaire (Gemini CLI) : Bugs de niveau "conception" aux coutures de composition. Les modules fonctionnent isolément, mais les contrats entre eux sont manquants ou incohérents.
- Exemple critique : Le système de compression d'historique de Gemini CLI supprime structurellement les préférences utilisateur sauvegardées car le schéma XML de compression ne contient pas de champ pour les mémoires sauvegardées.

Complémentarité des Modèles

Les différents LLMs ne trouvent pas simplement "plus" de choses, ils trouvent des choses différentes :

Claude Opus se concentre sur les contradictions structurelles et la sécurité.
Kimi K2.5 détecte les vecteurs d'exploitation économique et l'épuisement des ressources.
GLM 4.7 identifie les problèmes d'intégrité des données et les paradoxes temporels.
La couverture globale est obtenue par la somme de ces perspectives hétérogènes, pas par la répétition.

5. Signification et Implications

Les prompts sont du logiciel : L'article établit que les prompts système doivent être traités comme des artefacts logiciels nécessitant la même rigueur d'ingénierie que le code traditionnel (linters, tests d'intégration, pipelines CI/CD).
Loi de Conway appliquée aux LLM : La structure du prompt reflète la structure de l'équipe qui l'a produit. Les architectures monolithiques reflètent des équipes travaillant en silos sans tests d'intégration transversaux.
Accessibilité : La faible coût (0,27 $) démontre qu'une analyse de sécurité et de cohérence approfondie est accessible à tout développeur, pas seulement aux équipes disposant de budgets de sécurité importants.
Paradoxe de l'observateur : L'agent exécutant ne peut pas auditer ses propres instructions contradictoires ; une évaluation externe est indispensable pour garantir la fiabilité des agents autonomes.

En conclusion, Arbiter démontre que l'analyse multi-modèle couplée à des règles formelles est une méthode efficace, peu coûteuse et nécessaire pour sécuriser et fiabiliser les systèmes d'agents LLM, révélant des vulnérabilités structurelles qui échappent aux analyses conventionnelles.