Arbiter: Detecting Interference in LLM Agent System Prompts

Ce papier présente Arbiter, un cadre d'évaluation combinant des règles formelles et un balayage multi-modèles pour détecter des interférences dans les prompts système d'agents de codage LLM, révélant ainsi des vulnérabilités structurelles et des corrélations entre l'architecture des prompts et les types d'échecs.

Tony Mason

Publié Wed, 11 Ma
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Enquêteur Invisible : Comment nous avons "audité" les cerveaux des IA

Imaginez que vous embauchez un assistant très intelligent pour gérer votre entreprise. Vous lui donnez un manuel d'instructions (le "prompt système") pour lui dire comment se comporter.

Le problème ? Ce manuel est écrit dans un langage naturel (comme l'anglais), il n'a pas de correcteur orthographique, pas de test de sécurité, et personne ne vérifie s'il contient des contradictions.

C'est là qu'intervient Arbiter, le nouveau détective créé par les chercheurs.

1. Le Problème : Le Manuel Contredit Lui-même 🤯

Les chercheurs ont analysé les manuels d'instructions de trois grands assistants de codage (Claude, Codex et Gemini). Ils ont découvert des choses folles :

  • Parfois, le manuel dit : "Utilise TOUJOURS cet outil !" dans une section.
  • Et juste à côté, il dit : "NE JAMAIS utiliser cet outil !" dans une autre.

L'analogie du Chef Cuisinier :
Imaginez un chef cuisinier (l'IA) qui reçoit deux ordres contradictoires de son patron (le prompt) :

  1. "Ajoute toujours du sel !"
  2. "Ne mets JAMAIS de sel !"

Le chef ne va pas crier "Erreur !" ou appeler la police. Il va simplement deviner ce que le patron voulait dire à ce moment-là. Parfois, il met du sel, parfois non. Le résultat est imprévisible, et personne ne s'en rend compte. C'est ce qu'on appelle une interférence.

2. La Solution : Arbiter, le Détective à Deux Visages 🕵️‍♀️🕵️‍♂️

Les chercheurs ont créé un outil appelé Arbiter qui utilise deux méthodes pour trouver ces erreurs, comme un détective qui utilise à la fois une loupe et un chien de recherche.

  • Méthode 1 : L'Archéologie Dirigée (La Loupe) 🧐
    C'est une analyse rigoureuse. Arbiter découpe le manuel en petits blocs et vérifie chaque paire de phrases avec des règles strictes.

    • Exemple : "Est-ce que la phrase A interdit ce que la phrase B autorise ?"
    • C'est comme un correcteur de grammaire ultra-puissant qui cherche spécifiquement les contradictions logiques.
  • Méthode 2 : Le Dépoussiérage Non-Orienté (Le Chien de Recherche) 🐕
    C'est la partie la plus géniale. Au lieu de chercher une erreur précise, Arbiter envoie le manuel à 10 IA différentes (Claude, Gemini, Llama, etc.) avec une instruction très vague : "Lis ce texte attentivement et dis-moi ce qui te semble étrange ou intéressant."

    • Chaque IA a une "personnalité" différente. L'une remarque les problèmes de sécurité, une autre les problèmes d'argent, une autre les bugs de mémoire.
    • Elles se relaient : la deuxième IA lit ce que la première a trouvé et cherche autre chose.
    • L'enquête s'arrête quand trois IA d'affilée disent : "Non, je ne vois plus rien de nouveau."

3. Les Découvertes : Trois Types de Manuels, Trois Types de Bugs 🏗️

En comparant les manuels de Claude, Codex et Gemini, les chercheurs ont vu que la structure du manuel détermine le type d'erreur :

  • Le Monolithe (Claude Code) : C'est un énorme pavé de 1 500 lignes.
    • Le bug : Comme un immeuble construit pièce par pièce sans plan global, les contradictions apparaissent aux frontières entre les équipes. C'est le "mur" qui a été mal construit.
  • Le Plat (Codex CLI) : C'est un manuel court et simple (298 lignes).
    • Le bug : Il est très cohérent, mais il manque de fonctionnalités. C'est comme une maison très simple : il n'y a pas de fuites, mais il n'y a pas non plus de piscine ni de garage.
  • Le Modulaire (Gemini CLI) : C'est un manuel construit avec des blocs assemblés à la volée.
    • Le bug : Les blocs fonctionnent bien seuls, mais ils ne parlent pas bien entre eux.
    • La découverte majeure : L'un des blocs dit "Sauvegarde les préférences de l'utilisateur", mais le bloc suivant (qui résume l'histoire) efface tout ce qui n'est pas dans son format strict. Résultat : Les préférences sauvegardées sont effacées automatiquement. C'est un bug invisible car chaque pièce fonctionne bien, mais l'ensemble est cassé.

4. Pourquoi c'est génial ? 💡

  • La diversité est la clé : Une seule IA ne voit pas tout. En utilisant 10 IA différentes, on découvre des problèmes que l'autre n'aurait jamais vus. C'est comme demander à 10 experts différents de lire un contrat : l'avocat voit les pièges juridiques, le comptable voit les erreurs de chiffres, et l'architecte voit les failles de sécurité.
  • C'est incroyablement peu cher : Tout ce travail d'analyse a coûté 0,27 $ (27 cents). C'est moins cher que trois minutes de travail au salaire minimum aux États-Unis.
  • La validation réelle : Google a reçu l'alerte sur le bug de "sauvegarde effacée" et a corrigé le problème (même s'ils n'ont pas tout à fait compris la racine du problème, ils ont réparé le symptôme).

En Résumé 🎯

Les prompts (les instructions des IA) sont devenus des logiciels complexes, mais on les traite comme de simples textes. Arbiter nous montre qu'il faut les traiter comme du vrai code : avec des tests, des vérifications de cohérence et une équipe d'auditeurs diversifiée.

C'est un peu comme si on avait découvert que les constitutions de nos pays contenaient des lois qui s'annulaient mutuellement, et qu'il fallait un nouveau système pour les vérifier avant qu'elles ne causent des catastrophes.

Le message final ? Ne faites jamais confiance aveuglément à l'IA pour vérifier ses propres règles. Il faut un juge extérieur, et aujourd'hui, ce juge coûte moins cher qu'un café. ☕