Imaginez que vous ayez un arbitre automatisé très intelligent (une IA) dont le travail est de regarder deux personnes répondre à une question et de décider qui a fait le meilleur travail. C'est ainsi que de nombreux systèmes d'IA modernes sont testés aujourd'hui : une IA joue le rôle de juge pour d'autres IA.

Cette étude pose une question simple mais délicate : L'arbitre se soucie-t-il de la langue dans laquelle les réponses sont prononcées, ou ne se soucie-t-il que de la qualité des réponses ?

Imaginez cela comme un concours de cuisine. Si deux chefs préparent exactement la même soupe délicieuse, mais que l'un présente son plat dans un restaurant français chic et l'autre dans un petit restaurant décontracté, est-ce que le juge donnera une note plus élevée simplement parce que la présentation semble plus « élégante » ? Ou est-ce que le juge goûtera la soupe et réalisera qu'elles sont identiques ?

L'expérience : Le test du « Traducteur de langue »

Les chercheurs ont pris un ensemble standard de 419 questions et réponses (un benchmark appelé LLMBar) et les ont passés à travers quatre juges d'IA différents. Ils ont fait cela sous trois « costumes » différents :

Anglais : La version originale.
Chinois : Les mêmes questions et réponses, mais traduites parfaitement en chinois.
Alternance codique (Code-Switching) : Un mélange d'anglais et de chinois (comme dire « Please send le email au manager », en mélangeant naturellement les langues).

Ils ont également réalisé un test spécial de « départage ». Ils ont pris une réponse parfaite en anglais et sa traduction parfaite en chinois, puis ont demandé au juge de les comparer. Puisque le contenu est identique, le juge devrait dire : « C'est une égalité ! »

Ce qu'ils ont découvert

Les résultats ont été un peu surprenants et ont montré que les arbitres ne sont pas aussi neutres que nous l'espérerions.

Le « biais de l'accent anglais » : Chaque juge a obtenu de meilleurs résultats lorsque les réponses étaient en anglais. Lorsque les réponses étaient en chinois ou dans un mélange de langues, les juges commettaient plus d'erreurs. C'est comme si l'arbitre devenait un peu confus ou moins vif lorsqu'on lui parle dans un dialecte différent, même si la logique reste la même.
Le problème du « changement d'avis » : Dans environ 11 % à 14 % des cas, le juge a changé d'avis simplement parce que la langue avait changé.
- Analogie : Imaginez que le Juge A dise : « Le Chef 1 gagne ! » quand le menu est en anglais. Mais si vous lui donnez le même menu traduit en chinois, le Juge A dit soudainement : « En fait, c'est le Chef 2 qui gagne ! », même si la nourriture n'a pas changé. C'est ce qu'on appelle un « basculement de préférence » (preference flip).
Ce n'est pas seulement que « l'anglais est meilleur » : Vous pourriez penser que les juges adorent simplement l'anglais et détestent tout le reste. Mais le test de « départage » a montré quelque chose de plus complexe. Lorsque les juges ont choisi un vainqueur entre une réponse en anglais et sa traduction en chinois, ils ont en fait choisi le chinois plus souvent que l'anglais !
- La conclusion : Le problème n'est pas que les juges préfèrent aveuglément l'anglais. Le problème est qu'ils sont instables. Ils sont facilement influençables par la manière dont l'information est présentée, que ce soit la langue, l'ordre des réponses ou un mélange des deux.

Pourquoi cela importe

Si vous construisez un système d'IA pour aider les gens en Chine, ou pour gérer des conversations bilingues, vous ne pouvez pas simplement faire confiance à un juge entraîné en anglais pour être équitable.

Le juge « fragile » : Un bon juge devrait être comme une balance solide. Si vous posez le même poids dessus, elle doit donner la même lecture, que vous décriviez le poids en kilogrammes ou en livres. Ces juges d'IA sont plutôt comme une balance bancale ; la lecture change selon la façon dont vous la tenez.
Le coût de la confusion : Parce que les juges changent de décision si souvent (environ 1 fois sur 10), ils pourraient accidentellement classer une moins bonne IA comme gagnante, simplement parce que le test était écrit dans une langue différente.

La solution proposée

Les auteurs suggèrent un nouveau contrôle de santé léger appelé Judge-LS. Avant de faire confiance à un juge d'IA pour classer des modèles dans un monde multilingue, vous devriez effectuer ce test simple :

Traduisez le test dans la langue cible.
Lancez à nouveau le juge.
Vérifiez si le juge change d'avis.

Si le juge change d'avis trop souvent, il n'est pas prêt pour la tâche. C'est comme embaucher un arbitre qui se laisse déstabiliser par un accent différent ; vous avez besoin d'un arbitre qui juge le jeu, pas la langue.

En bref : L'article prouve que les juges d'IA sont actuellement sensibles aux changements de langue. Ils ne sont pas seulement des « amoureux de l'anglais » ; ce sont des « observateurs instables » qui doivent être testés pour leur cohérence avant que nous puissions leur confier la tâche de décider quelle IA est la meilleure.

Résumé technique : Le juge préfère-t-il l'anglais ? Évaluation de l'invariance au changement de langue dans le cadre du "LLM-as-a-Judge"

1. Énoncé du problème

L'adoption généralisée des grands modèles de langage (LLM) en tant que juges automatiques pour l'évaluation de l'instruction-following (suivi d'instructions) ouverte introduit une question critique de fiabilité : Le juge évalue-t-il la qualité sémantique d'une réponse, ou sa préférence réagit-elle à la langue dans laquelle la comparaison est présentée ?

Bien que le "LLM-as-a-Judge" offre une évolutivité et une conscience sémantique supérieures aux métriques basées sur des références, il hérite des biais des modèles génératifs. Des travaux antérieurs ont documenté le biais de position, le biais de verbosité et la sensibilité au prompt. Ce document isole un mode de défaillance de fiabilité spécifique : l'invariance au changement de langue (language-switching invariance). Plus précisément, il examine si un juge préserve sa préférence lorsqu'une comparaison par paire est présentée en anglais, en chinois ou dans une variante de mélange anglais-chinois, en supposant que la relation de qualité sous-jacente (le "gold label" ou étiquette de référence) reste inchangée.

2. Méthodologie : Le protocole Judge-LS

Les auteurs proposent le Judge-LS, un protocole de méta-évaluation léger, sans entraînement, conçu pour tester l'invariance au changement de langue en utilisant uniquement des appels API.

2.1 Données de base et transformation

Jeu de données : L'étude utilise l'intégralité du benchmark LLMBar, composé de 419 éléments par paire (un sous-ensemble naturel et quatre sous-ensembles adverses) avec des étiquettes de référence objectives indiquant quelle réponse suit le mieux une instruction.
Variantes linguistiques : Pour chaque élément, trois versions sont générées :
1. EN : La version anglaque originale.
2. ZH : Une traduction naturelle en chinois simplifié de l'instruction et des deux réponses candidates.
3. LS : Une variante de mélange anglais-chinois naturelle, préservant les termes techniques, les entités nommées et les termes de tâche en anglais là où cela est approprié.
Modèle de transformation : gpt-4.1-mini est utilisé pour la traduction. Le prompt instruit explicitement le modèle de préserver tous les éléments factuels, mathématiques, de formatage et les erreurs de suivi d'instructions afin de garantir que la validité du "gold label" n'est pas compromise par des "réparations silencieuses".
Audit : Un audit automatique vérifie l'exhaustivité des champs et signale les variantes à haut risque (ex: réduction sévère de la longueur, décalages de tokens numériques). 19 éléments (4,5 %) ont été signalés, et une analyse de sensibilité les exclut.

2.2 Conception expérimentale

Juges : Quatre modèles accessibles via API ont été évalués :
- GPT-4.1 Mini
- Claude Haiku 4.5
- Gemini 2.5 Flash
- DeepSeek V4 Flash
Construction du jugement : Chaque élément est évalué sous les trois conditions linguistiques. Pour chaque condition, le juge reçoit les deux ordres de réponses originaux et inversés (A vs B). De plus, des sondes d'égalité de traduction (translation-equivalent tie probes) sont créées en comparant la réponse anglaise de référence à sa traduction chinoise pour tester la préférence linguistique dans les scénarios de "Tie" (égalité).
Volume total : L'expérience a généré 13 408 jugements par paires uniques réussis.

2.3 Métriques

L'étude rapporte plusieurs métriques diagnostiques au-delà de la simple précision :

Précision stricte et "Tie-Half" : Mesure l'accord avec les étiquettes de référence, cette dernière accordant un crédit partiel aux prédictions de "Tie" (égalité).
Taux de basculement d'invariance linguistique (Language-Invariance Flip Rate) : Le pourcentage de jugements où la préférence change uniquement en raison de la transformation linguistique (EN vs ZH/LS).
Taux de basculement de la correction du "Gold" (Gold-Correctness Flip Rate) : Le pourcentage de cas où un jugement correct devient incorrect (ou vice versa) après la traduction.
Incohérence de position : Le taux auquel le vainqueur change lorsque l'ordre des réponses est inversé.
Préférence linguistique des sondes d'égalité (Tie-Probe Language Preference) : La distribution des victoires entre l'anglais et le chinois dans les sondes d'égalité de traduction.
Rigueur statistique : Le document utilise des intervalles de confiance de Wilson à 95 % et des tests exacts bilatéraux de McNemar/binomial pour les comparaisons appariées.

3. Résultats clés

3.1 Précision et stabilité

Supériorité de l'anglais : Les quatre juges ont obtenu leur précision la plus élevée en anglais. Par exemple, la précision "tie-half" de DeepSeek est passée de 90,5 % (EN) à 87,8 % (ZH) et 88,9 % (LS).
Taux de basculement significatifs : Les transformations linguistiques ont induit des basculements de préférence dans 10,7 % à 14,4 % des cas par rapport à l'anglais.
- GPT-4.1 Mini et Claude Haiku ont été les plus sensibles aux traductions chinoises (taux de basculement respectifs de 14,4 % et 14,2 %).
- DeepSeek et Gemini ont montré des taux de basculement plus faibles mais néanmoins substantiels (~11,1 %).
Impact sur la correction : Les taux de basculement de la correction du "gold" reflètent étroitement les taux de basculement de préférence, indiquant qu'il ne s'agit pas de simples échanges inoffensifs entre une réponse correcte et une égalité, mais de changements réels de l'alignement du juge avec la vérité objective. Les tests de signification appariés ont rejeté la symétrie pour toutes les comparaisons modèle-langue ( $p \le 0,011$ ).

3.2 Préférence linguistique vs Instabilité

Absence de biais systématique pour l'anglais dans les égalités : Contrairement à l'hypothèse selon laquelle les juges préfèrent intrinsèquement l'anglais, les sondes d'égalité de traduction ont été jugées comme "Tie" dans la grande majorité des cas (ex: DeepSeek : 97,5 %, GPT-4.1 Mini : 95,6 %).
Préférence pour le chinois dans les non-égalités : Lorsque les juges n'ont pas déclaré d'égalité, ils ont plus souvent favorisé la version chinoise par rapport à la version anglaise. Cela suggère que le problème n'est pas un simple a priori "priorité à l'anglais", mais plutôt une instabilité dans la manière dont les juges traitent les différentes présentations linguistiques.

3.3 Interaction avec le biais de position

Le changement de langue amplifie la sensibilité de position : L'incohérence de position (changement du vainqueur lors de l'inversion de l'ordre) augmente de manière significative dans les conditions de mélange linguistique (LS).
- L'incohérence de position moyenne est passée de 12,1 % (EN) à 18,1 % (LS) en moyenne sur les modèles.
- Gemini Flash a montré l'augmentation la plus forte, passant de 10,3 % (EN) à 22,2 % (LS).
Difficulté adversaire : Les sous-ensembles adverses (ex: Adv-GPTOut) ont présenté une précision plus faible et des taux de basculement plus élevés, suggérant que les transformations linguistiques ajoutent une couche de difficulté aux tâches de raisonnement déjà complexes.

4. Contributions

Protocole Judge-LS : Introduction d'un protocole simple et à faibles ressources pour tester l'invariance au changement de langue dans l'évaluation LLM-as-a-Judge sans entraînement de modèle.
Benchmarking complet : Transformation de l'intégralité du benchmark LLMBar de 419 éléments en versions anglaise, chinoise et de mélange linguistique avec préservation des étiquettes de référence.
Évaluation à grande échelle : Évaluation de quatre juges API diversifiés à travers 13 408 jugements, incluant des inversions d'ordre de réponse et des sondes d'égalité de traduction.
Cadre de diagnostic : Rapport d'un ensemble multidimensionnel de métriques incluant les taux de basculement, l'incohérence de position, les estimations d'incertitude et les analyses de sensibilité excluant les variantes mécaniquement risquées.

5. Signification et affirmations

Le document affirme que le risque central dans l'évaluation multilingue des LLM n'est pas nécessairement que les juges "préfèrent l'anglais", mais qu'ils sont sensibles à la présentation linguistique de manières qui altèrent la correction et interagissent avec le biais de position.

Implication sur la fiabilité : Un taux de basculement de 10 à 14 % est suffisant pour modifier le classement des modèles lorsque les scores sont serrés. Si un classement utilise un prompt de juge en anglais pour évaluer des réponses en chinois ou en mélange linguistique, la performance rapportée peut confondre la qualité de la réponse avec la sensibilité du juge à la langue.
Principe de conception : Les pipelines d'évaluation doivent être traités comme des systèmes à tester. Un juge robuste doit préserver les préférences fondamentales sous des transformations de surface préservant les étiquettes, de la même manière que des classifieurs robustes doivent gérer les perturbations d'entrée non pertinentes.
Flux de travail pratique : Les auteurs recommandent un flux de travail en cinq étapes pour l'évaluation multilingue : (1) évaluation de base en anglais avec inversion d'ordre, (2) transformation vers les langues cibles, (3) audit et analyse de sensibilité, (4) calcul des basculements d'invariance avec intervalles de confiance, et (5) sondes d'égalité pour distinguer le biais de l'instabilité.

L'étude conclut que les juges LLM actuels ne sont pas encore invariants à la présentation linguistique, et que s'appuyer sur une seule condition linguistique pour la sélection de modèles multilingues est une pratique fragile.

Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge