Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

Cet article introduit Judge-LS, un protocole de méta-évaluation démontrant que, bien que les systèmes de type « LLM-as-a-Judge » présentent une instabilité de préférence significative et une baisse de précision lorsqu'ils évaluent du contenu en chinois ou avec un changement de langue par rapport à l'anglais, ils ne favorisent pas systématiquement l'anglais au détriment des réponses chinoises équivalentes par traduction.

Auteurs originaux : Shaojie Yin

Publié 2026-06-15✓ Author reviewed
📖 5 min de lecture🧠 Analyse approfondie

Auteurs originaux : Shaojie Yin

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous ayez un arbitre automatisé très intelligent (une IA) dont le travail est de regarder deux personnes répondre à une question et de décider qui a fait le meilleur travail. C'est ainsi que de nombreux systèmes d'IA modernes sont testés aujourd'hui : une IA joue le rôle de juge pour d'autres IA.

Cette étude pose une question simple mais délicate : L'arbitre se soucie-t-il de la langue dans laquelle les réponses sont prononcées, ou ne se soucie-t-il que de la qualité des réponses ?

Imaginez cela comme un concours de cuisine. Si deux chefs préparent exactement la même soupe délicieuse, mais que l'un présente son plat dans un restaurant français chic et l'autre dans un petit restaurant décontracté, est-ce que le juge donnera une note plus élevée simplement parce que la présentation semble plus « élégante » ? Ou est-ce que le juge goûtera la soupe et réalisera qu'elles sont identiques ?

L'expérience : Le test du « Traducteur de langue »

Les chercheurs ont pris un ensemble standard de 419 questions et réponses (un benchmark appelé LLMBar) et les ont passés à travers quatre juges d'IA différents. Ils ont fait cela sous trois « costumes » différents :

  1. Anglais : La version originale.
  2. Chinois : Les mêmes questions et réponses, mais traduites parfaitement en chinois.
  3. Alternance codique (Code-Switching) : Un mélange d'anglais et de chinois (comme dire « Please send le email au manager », en mélangeant naturellement les langues).

Ils ont également réalisé un test spécial de « départage ». Ils ont pris une réponse parfaite en anglais et sa traduction parfaite en chinois, puis ont demandé au juge de les comparer. Puisque le contenu est identique, le juge devrait dire : « C'est une égalité ! »

Ce qu'ils ont découvert

Les résultats ont été un peu surprenants et ont montré que les arbitres ne sont pas aussi neutres que nous l'espérerions.

  • Le « biais de l'accent anglais » : Chaque juge a obtenu de meilleurs résultats lorsque les réponses étaient en anglais. Lorsque les réponses étaient en chinois ou dans un mélange de langues, les juges commettaient plus d'erreurs. C'est comme si l'arbitre devenait un peu confus ou moins vif lorsqu'on lui parle dans un dialecte différent, même si la logique reste la même.
  • Le problème du « changement d'avis » : Dans environ 11 % à 14 % des cas, le juge a changé d'avis simplement parce que la langue avait changé.
    • Analogie : Imaginez que le Juge A dise : « Le Chef 1 gagne ! » quand le menu est en anglais. Mais si vous lui donnez le même menu traduit en chinois, le Juge A dit soudainement : « En fait, c'est le Chef 2 qui gagne ! », même si la nourriture n'a pas changé. C'est ce qu'on appelle un « basculement de préférence » (preference flip).
  • Ce n'est pas seulement que « l'anglais est meilleur » : Vous pourriez penser que les juges adorent simplement l'anglais et détestent tout le reste. Mais le test de « départage » a montré quelque chose de plus complexe. Lorsque les juges ont choisi un vainqueur entre une réponse en anglais et sa traduction en chinois, ils ont en fait choisi le chinois plus souvent que l'anglais !
    • La conclusion : Le problème n'est pas que les juges préfèrent aveuglément l'anglais. Le problème est qu'ils sont instables. Ils sont facilement influençables par la manière dont l'information est présentée, que ce soit la langue, l'ordre des réponses ou un mélange des deux.

Pourquoi cela importe

Si vous construisez un système d'IA pour aider les gens en Chine, ou pour gérer des conversations bilingues, vous ne pouvez pas simplement faire confiance à un juge entraîné en anglais pour être équitable.

  • Le juge « fragile » : Un bon juge devrait être comme une balance solide. Si vous posez le même poids dessus, elle doit donner la même lecture, que vous décriviez le poids en kilogrammes ou en livres. Ces juges d'IA sont plutôt comme une balance bancale ; la lecture change selon la façon dont vous la tenez.
  • Le coût de la confusion : Parce que les juges changent de décision si souvent (environ 1 fois sur 10), ils pourraient accidentellement classer une moins bonne IA comme gagnante, simplement parce que le test était écrit dans une langue différente.

La solution proposée

Les auteurs suggèrent un nouveau contrôle de santé léger appelé Judge-LS. Avant de faire confiance à un juge d'IA pour classer des modèles dans un monde multilingue, vous devriez effectuer ce test simple :

  1. Traduisez le test dans la langue cible.
  2. Lancez à nouveau le juge.
  3. Vérifiez si le juge change d'avis.

Si le juge change d'avis trop souvent, il n'est pas prêt pour la tâche. C'est comme embaucher un arbitre qui se laisse déstabiliser par un accent différent ; vous avez besoin d'un arbitre qui juge le jeu, pas la langue.

En bref : L'article prouve que les juges d'IA sont actuellement sensibles aux changements de langue. Ils ne sont pas seulement des « amoureux de l'anglais » ; ce sont des « observateurs instables » qui doivent être testés pour leur cohérence avant que nous puissions leur confier la tâche de décider quelle IA est la meilleure.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →