Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Cette étude démontre que l'utilisation de modèles de langage comme juges automatisés entraîne une incohérence significative des scores attribués à des entrées identiques, variant selon le modèle, la température et le type d'évaluation, ce qui soulève des préoccupations majeures pour la fiabilité opérationnelle dans les environnements d'entreprise.

Fiona Lau

Publié 2026-03-06
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Jugement des Robots : Quand l'IA joue à la loterie

Imaginez que vous avez engagé cinq super-juges (ce sont des intelligences artificielles très avancées) pour noter des réponses à des questions. Vous leur donnez exactement la même question et la même réponse, et vous leur demandez de donner une note sur une échelle de 0 à 10.

L'idée derrière cette étude, c'est de vérifier si ces juges sont fiables. Est-ce que le juge A donnera toujours la même note que le juge B ? Et si vous leur posez la même question deux fois de suite, vont-ils donner la même note ?

La réponse courte de l'auteure, Fiona Lau, est : Non, pas vraiment. C'est un peu comme si vous demandiez à un chef cuisinier de préparer le même plat deux fois, et qu'à chaque fois, le goût était légèrement différent, parfois même très différent.

Voici les trois grandes découvertes de l'étude, expliquées avec des analogies :

1. Le même plat, deux saveurs différentes (Incohérence interne)

Même si vous demandez à un seul robot de noter la même chose deux fois de suite, il ne donne pas toujours la même note.

  • L'analogie : Imaginez un arbitre de football qui siffle un penalty. Si vous lui posez la même situation de jeu deux fois, il devrait siffler de la même manière. Mais ici, les robots sont comme des arbitres un peu distraits : parfois ils disent "C'est un penalty !", et la fois d'après, pour la même action, ils disent "Non, c'est un coup franc".
  • Le problème : Même en réglant les robots sur le mode "le plus précis possible" (ce qu'on appelle température = 0), ils continuent d'avoir des variations. C'est comme si leur cerveau avait une petite part de hasard qui ne s'éteint jamais totalement.

2. Chaque juge a sa propre règle (Différences entre modèles)

L'étude a comparé cinq modèles différents (GPT-4, Gemini, Claude, etc.). Résultat : ils ne parlent pas le même langage.

  • L'analogie : Imaginez trois critiques de cinéma.
    • Le premier (Gemini) est très gentil : il donne 9/10 à presque tous les films.
    • Le deuxième (Claude) est très sévère : il donne 4/10 au même film, car il trouve qu'il manque un détail.
    • Le troisième (GPT) est dans le milieu.
    • Si vous utilisez le critique "gentil" pour décider quel film sortir au cinéma, vous aurez une liste de super-films. Si vous utilisez le critique "sévère", vous aurez une liste vide. Le résultat dépend entièrement de quel juge vous choisissez.

3. Le bouton "Hasard" ne fonctionne pas toujours (L'effet de la température)

En informatique, il existe un bouton appelé "température". En théorie, si on le met à zéro, le robot devrait être 100% logique et prévisible. Si on le monte, il devient plus créatif et imprévisible.

  • L'analogie : C'est comme essayer de calmer un enfant agité.
    • Pour certains robots (comme GPT et Gemini), mettre le bouton sur "0" fonctionne bien : ils se calment et deviennent prévisibles.
    • Pour d'autres (comme les modèles de la famille Claude), même avec le bouton sur "0", ils continuent de sauter partout. Ils restent imprévisibles, comme un chat qui ne veut pas rester assis.

🚨 Pourquoi est-ce grave pour les entreprises ?

L'article explique que les entreprises utilisent ces robots pour prendre des décisions importantes, comme :

  • Décider si un email client doit être envoyé à un humain ou traité automatiquement.
  • Vérifier si une réponse est correcte avant de l'afficher à un client.

Le danger : Si le robot donne une note de 10/10 à un email à 9h00, et de 2/10 à 10h00 pour le même email, le client recevra un traitement différent selon l'heure à laquelle il a écrit. C'est injuste et cela peut créer des problèmes juridiques ou de confiance.

💡 La leçon à retenir

L'étude nous dit : "Ne faites pas confiance aveuglément à un seul robot pour juger."

Si vous voulez construire un système fiable, vous ne pouvez pas juste regarder la note moyenne. Vous devez aussi regarder la stabilité.

  • Un robot qui donne toujours 5/10 (même si c'est faux) est fiable car vous savez à quoi vous attendre.
  • Un robot qui donne tantôt 10/10, tantôt 0/10 est dangereux, car vous ne savez jamais sur quel pied danser.

En résumé : Les intelligences artificielles sont de puissants outils, mais elles ne sont pas encore des juges parfaits. Elles ont des "humeurs" et des "caprices". Pour les utiliser en entreprise, il faut être très prudent, vérifier souvent leurs notes, et peut-être avoir un humain dans la boucle pour valider les décisions importantes.