Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

Dit artikel introduceert Judge-LS, een meta-evaluatieprotocol dat aantoont dat hoewel LLM-als-Judge-systemen een aanzienlijke voorkeurinstabiliteit en nauwkeurigheidsafname vertonen bij het evalueren van Chinese of taalwisselende inhoud in vergelijking met Engels, ze Engels niet systematisch bevoordelen boven vertaal-equivalente Chinese antwoorden.

Oorspronkelijke auteurs: Shaojie Yin

Gepubliceerd 2026-06-15✓ Author reviewed
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Shaojie Yin

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme, geautomatiseerde scheidsrechter hebt (een AI) wiens taak het is om twee mensen een vraag te zien beantwoorden en te beslissen wie het beter heeft gedaan. Dit is hoe veel moderne AI-systemen vandaag de dag worden getest: één AI fungeert als rechter voor andere AI's.

Dit artikel stelt een eenvoudige maar lastige vraag: Geeft deze scheidsrechter om de taal waarin de antwoorden worden gesproken, of geeft hij alleen om de kwaliteit van de antwoorden?

Denk aan een kookwedstrijd. Als twee chefs precies dezelfde heerlijke soep maken, maar de ene chef presenteert het in een chique Frans restaurant en de andere in een informele cafetaria, geeft de rechter dan een hogere score simpelweg omdat de presentatie "chic" klinkt? Of proeft de rechter de soep en beseft hij dat ze identiek zijn?

Het Experiment: De "Taalvertaler"-test

De onderzoekers namen een standaardset van 419 vragen en antwoorden (een benchmark genaamd LLMBar) en haalden deze door vier verschillende AI-rechters. Dit deden ze in vier verschillende "kostuums":

  1. Engels: De originele versie.
  2. Chinees: Dezelfde vragen en antwoorden, maar perfect vertaald naar het Chinees.
  3. Code-Switching: Een mix van Engels en Chinees (zoals zeggen: "Please send de email naar de manager", waarbij talen natuurlijk worden gemengd).

Ze deden ook een speciale "tie-breaker" test. Ze namen een perfect Engels antwoord en de perfecte Chinese vertaling daarvan en vroegen de rechter om ze te vergelijken. Omdat de inhoud identiek is, zou de rechter moeten zeggen: "Het is een gelijkspel!"

Wat ze vonden

De resultaten waren een beetje verrassend en lieten zien dat de rechters niet zo neutraal zijn als we zouden hopen.

  • De "Engelse Accent"-bias: Elke rechter presteerde het best wanneer de antwoorden in het Engels waren. Wanneer de antwoorden in het Chinees of een mix van talen waren, maakten de rechters meer fouten. Het is alsof de scheidsrechter een beetje in de war raakt of minder scherp wordt wanneer de deelnemers een ander dialect spreken, zelfs als de logica hetzelfde is.
  • Het "Flip-Flop" probleem: In ongeveer 11% tot 14% van de gevallen veranderde de rechter van gedachten puur omdat de taal veranderde.
    • Analogie: Stel je voor dat Rechter A zegt: "Chef 1 wint!" wanneer het menu in het Engels is. Maar als je hen hetzelfde menu in het Chinees overhandigt, zegt Rechter A plotseling: "Eigenlijk wint Chef 2!" terwijl het eten helemaal niet is veranderd. Dit wordt een "preference flip" genoemd.
  • Het is niet alleen "Engels is beter": Je zou kunnen denken dat de rechters gewoon van Engels houden en de rest haten. Maar de "tie-breaker" test toonde iets complexers aan. Wanneer de rechters wel een winnaar kozen tussen een Engels antwoord en de Chinese vertaling daarvan, kozen ze vaker voor Chinees dan voor Engels!
    • De les: Het probleem is niet dat de rechters blindelings een voorkeur hebben voor Engels. Het probleem is dat ze instabiel zijn. Ze laten zich gemakkelijk beïelen door hoe de informatie wordt gepresenteerd, of het nu gaat om de taal, de volgorde van de antwoorden of een mix van beide.

Waarom dit belangrijk is

Als je een AI-systeem bouwt om mensen in China te helpen, of om gemengde taalgesprekken af te handelen, kun je niet blind vertrouwen op een Engels getrainde rechter om eerlijk te zijn.

  • De "Breekbare" Rechter: Een goede rechter zou als een rotsvaste weegschaal moeten zijn. Als je hetzelfde gewicht erop legt, moet het dezelfde meting geven, of je het gewicht nu in kilogram of pond beschrijft. Deze AI-rechters zijn meer als een wiebelige weegschaal; de meting verandert afhankelijk van hoe je hem vasthoudt.
  • De Kosten van Verwarring: Omdat de rechters hun beslissingen zo vaak omdraaien (ongeveer 1 op de 10 keer), kunnen ze per ongeluk een minder goede AI als winnaar aanwijzen, simpelweg omdat de test in een andere taal was geschreven.

De Voorgestelde Oplossing

De auteurs stellen een nieuwe, lichtgewicht "gezondheidscheck" voor genaamd Judge-LS. Voordat je een AI-rechter vertrouwt om modellen in een meertalige wereld te rangschikken, moet je deze eenvoudige test uitvoeren:

  1. Vertaal de test naar de doeltaal.
  2. Draai de rechter opnieuw.
  3. Controleer of de rechter van gedachten verandert.

Als de rechter te vaak van gedachten verandert, is hij niet klaar voor de taak. Het is also als het inhuren van een scheidsrechter die in de war raakt door een ander accent; je hebt een scheidsrechter nodig die het spel beoordeelt, niet de taal.

Kortom: Het artikel bewijst dat AI-rechters momenteel gevoelig zijn voor taalveranderingen. Ze zijn niet alleen "Engels-liefhebbers"; het zijn "instabiele waarnemers" die getest moeten worden op consistentie voordat we hen vertrouwen om te beslissen welke AI de beste is.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →