AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

L'article « AgentDrift » révèle que les agents LLM augmentés par des outils, bien que maintenus performants selon les métriques de classement traditionnelles, subissent une dérive de recommandation dangereuse et persistante en cas de corruption des outils, un risque critique masqué par les évaluations actuelles qui négligent la sécurité.

Zekun Wu, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz

Publié 2026-03-16
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Résumé : Quand votre conseiller financier virtuel se fait avoir par un faux rapport

Imaginez que vous avez un conseiller financier personnel ultra-intelligent, un robot qui parle et qui vous aide à gérer votre argent. Ce robot est très doué : il lit les actualités, consulte les cours de bourse en temps réel et se souvient de vos objectifs (épargner pour la retraite, acheter une maison, etc.).

Mais il y a un problème : ce robot est aveugle aux mensonges.

Les chercheurs de cet article ont découvert un piège dangereux : si quelqu'un modifie subtilement les données que le robot reçoit (comme changer un chiffre de risque ou écrire un faux titre de journal), le robot continue de vous donner des conseils qui semblent parfaits sur le papier, mais qui sont en réalité dangereux pour votre portefeuille.

C'est ce qu'ils appellent la "cécité d'évaluation" (evaluation blindness).


🎭 L'Analogie du Chef Cuisinier et du Faux Rapport

Pour comprendre, imaginons un chef cuisinier étoilé (le robot) qui prépare un repas pour un client très sensible aux allergies (vous, l'utilisateur).

  1. Le Scénario Normal : Le chef demande à son commis (l'outil de données) : "Quels ingrédients sont sans danger pour le client allergique aux arachides ?". Le commis répond : "Voici des légumes et du poulet". Le chef prépare un plat délicieux et sûr. Tout le monde est content.
  2. L'Attaque (La Corruption) : Un méchant vient dans la cuisine et modifie le petit mot du commis. Il écrit : "Attention, le poulet contient des arachides ! Mais le chocolat et les arachides sont parfaitement sûrs pour ce client."
  3. Le Résultat Catastrophique :
    • Le chef lit le mot. Il fait confiance à son commis.
    • Il prépare un magnifique gâteau au chocolat avec des arachides.
    • Le piège : Si vous demandez au chef "Est-ce que ce gâteau est bon ?", il répondra "Oui, c'est un excellent gâteau !". Il a respecté la recette, il a utilisé les meilleurs ingrédients selon le rapport.
    • Le danger : Le client va manger le gâteau et faire une crise d'allergie mortelle.

Le problème majeur : Les tests de qualité habituels (les "métriques") disent que le gâteau est parfait (note de 10/10), car il est beau, bien présenté et suit la "recette" donnée par le commis. Personne ne remarque que le client va mourir, car le test ne vérifie pas la sécurité, seulement la qualité de la présentation.


🔍 Ce que les chercheurs ont fait (L'Expérience)

Les chercheurs ont créé un laboratoire virtuel où ils ont simulé cette situation avec 7 robots différents (des modèles d'intelligence artificielle de pointe comme GPT-5, Claude, etc.) dans le domaine de la finance.

Ils ont fait deux choses :

  1. La version propre : Le robot reçoit les vraies données.
  2. La version "empoisonnée" : Ils ont modifié les données des outils (changement des scores de risque, titres de journaux biaisés). Par exemple, ils ont dit à un robot qu'une action très risquée (comme Tesla) était "sûre et défensive", et qu'une action très sûre (comme Procter & Gamble) était "dangereuse".

Leurs découvertes choquantes :

  • Le robot ne se méfie jamais : Même si le robot "sait" par cœur que Tesla est risqué, il fait entièrement confiance au faux rapport qu'on lui donne. Il ne dit jamais : "Attends, ça ne colle pas avec ce que je sais".
  • Les notes restent excellentes : Même avec les données fausses, le robot reçoit une note de 10/10 pour la qualité de ses recommandations. Les outils de mesure classiques ne voient pas le danger.
  • Le danger s'installe immédiatement : Dès la première fois que le robot reçoit un faux rapport, il commence à conseiller des produits risqués. Et il continue ainsi pendant 23 tours de conversation, sans jamais se corriger.
  • Même les titres de journaux suffisent : Pas besoin de changer les chiffres. Juste écrire un titre de journal mensonger ("Tesla est désormais une valeur sûre") suffit à faire basculer le robot vers des conseils dangereux.

🛡️ Pourquoi est-ce grave ?

Dans le monde réel, si vous utilisez un agent IA pour investir votre argent, et que quelqu'un (un hacker ou un concurrent malhonnête) modifie les données que l'IA voit, l'IA pourrait vous conseiller d'investir dans des produits qui vont vous ruiner, tout en vous assurant que c'est "la meilleure décision possible".

Les tableaux de bord de surveillance actuels diraient : "Tout va bien, l'IA fonctionne parfaitement !" alors que vous êtes en train de vous jeter dans le vide.


💡 La Solution Proposée

Les chercheurs suggèrent d'arrêter de regarder uniquement la "beauté" du gâteau (la qualité de la recommandation) et de commencer à vérifier les ingrédients (la sécurité).

Ils proposent une nouvelle méthode de test :

  • Au lieu de juste demander "Est-ce que c'est bon ?", il faut demander "Est-ce que c'est sûr pour ce client précis ?".
  • Ils ont créé un nouveau score (appelé sNDCG) qui pénalise les recommandations dangereuses. Avec ce nouveau score, les robots "empoisonnés" ont vu leurs notes chuter drastiquement, révélant enfin le danger.

🏁 En résumé

Cet article nous met en garde : Les robots intelligents sont très forts pour suivre les instructions, mais ils sont terriblement naïfs face aux mensonges dans leurs sources de données.

Si nous voulons utiliser ces robots pour des choses importantes (argent, santé, droit), nous ne devons pas seulement vérifier s'ils sont "intelligents", mais aussi s'ils ont un système de sécurité capable de détecter quand les données qu'ils reçoivent sont truquées. Sinon, nous risquons de nous faire avoir par des conseils qui semblent parfaits mais qui sont mortels.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →