Oorspronkelijke auteurs: Shaojie Yin

Gepubliceerd 2026-06-15✓ Author reviewed ⓘ

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Shaojie Yin

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slimme, geautomatiseerde scheidsrechter hebt (een AI) wiens taak het is om twee mensen een vraag te zien beantwoorden en te beslissen wie het beter heeft gedaan. Dit is hoe veel moderne AI-systemen vandaag de dag worden getest: één AI fungeert als rechter voor andere AI's.

Dit artikel stelt een eenvoudige maar lastige vraag: Geeft deze scheidsrechter om de taal waarin de antwoorden worden gesproken, of geeft hij alleen om de kwaliteit van de antwoorden?

Denk aan een kookwedstrijd. Als twee chefs precies dezelfde heerlijke soep maken, maar de ene chef presenteert het in een chique Frans restaurant en de andere in een informele cafetaria, geeft de rechter dan een hogere score simpelweg omdat de presentatie "chic" klinkt? Of proeft de rechter de soep en beseft hij dat ze identiek zijn?

Het Experiment: De "Taalvertaler"-test

De onderzoekers namen een standaardset van 419 vragen en antwoorden (een benchmark genaamd LLMBar) en haalden deze door vier verschillende AI-rechters. Dit deden ze in vier verschillende "kostuums":

Engels: De originele versie.
Chinees: Dezelfde vragen en antwoorden, maar perfect vertaald naar het Chinees.
Code-Switching: Een mix van Engels en Chinees (zoals zeggen: "Please send de email naar de manager", waarbij talen natuurlijk worden gemengd).

Ze deden ook een speciale "tie-breaker" test. Ze namen een perfect Engels antwoord en de perfecte Chinese vertaling daarvan en vroegen de rechter om ze te vergelijken. Omdat de inhoud identiek is, zou de rechter moeten zeggen: "Het is een gelijkspel!"

Wat ze vonden

De resultaten waren een beetje verrassend en lieten zien dat de rechters niet zo neutraal zijn als we zouden hopen.

De "Engelse Accent"-bias: Elke rechter presteerde het best wanneer de antwoorden in het Engels waren. Wanneer de antwoorden in het Chinees of een mix van talen waren, maakten de rechters meer fouten. Het is alsof de scheidsrechter een beetje in de war raakt of minder scherp wordt wanneer de deelnemers een ander dialect spreken, zelfs als de logica hetzelfde is.
Het "Flip-Flop" probleem: In ongeveer 11% tot 14% van de gevallen veranderde de rechter van gedachten puur omdat de taal veranderde.
- Analogie: Stel je voor dat Rechter A zegt: "Chef 1 wint!" wanneer het menu in het Engels is. Maar als je hen hetzelfde menu in het Chinees overhandigt, zegt Rechter A plotseling: "Eigenlijk wint Chef 2!" terwijl het eten helemaal niet is veranderd. Dit wordt een "preference flip" genoemd.
Het is niet alleen "Engels is beter": Je zou kunnen denken dat de rechters gewoon van Engels houden en de rest haten. Maar de "tie-breaker" test toonde iets complexers aan. Wanneer de rechters wel een winnaar kozen tussen een Engels antwoord en de Chinese vertaling daarvan, kozen ze vaker voor Chinees dan voor Engels!
- De les: Het probleem is niet dat de rechters blindelings een voorkeur hebben voor Engels. Het probleem is dat ze instabiel zijn. Ze laten zich gemakkelijk beïelen door hoe de informatie wordt gepresenteerd, of het nu gaat om de taal, de volgorde van de antwoorden of een mix van beide.

Waarom dit belangrijk is

Als je een AI-systeem bouwt om mensen in China te helpen, of om gemengde taalgesprekken af te handelen, kun je niet blind vertrouwen op een Engels getrainde rechter om eerlijk te zijn.

De "Breekbare" Rechter: Een goede rechter zou als een rotsvaste weegschaal moeten zijn. Als je hetzelfde gewicht erop legt, moet het dezelfde meting geven, of je het gewicht nu in kilogram of pond beschrijft. Deze AI-rechters zijn meer als een wiebelige weegschaal; de meting verandert afhankelijk van hoe je hem vasthoudt.
De Kosten van Verwarring: Omdat de rechters hun beslissingen zo vaak omdraaien (ongeveer 1 op de 10 keer), kunnen ze per ongeluk een minder goede AI als winnaar aanwijzen, simpelweg omdat de test in een andere taal was geschreven.

De Voorgestelde Oplossing

De auteurs stellen een nieuwe, lichtgewicht "gezondheidscheck" voor genaamd Judge-LS. Voordat je een AI-rechter vertrouwt om modellen in een meertalige wereld te rangschikken, moet je deze eenvoudige test uitvoeren:

Vertaal de test naar de doeltaal.
Draai de rechter opnieuw.
Controleer of de rechter van gedachten verandert.

Als de rechter te vaak van gedachten verandert, is hij niet klaar voor de taak. Het is also als het inhuren van een scheidsrechter die in de war raakt door een ander accent; je hebt een scheidsrechter nodig die het spel beoordeelt, niet de taal.

Kortom: Het artikel bewijst dat AI-rechters momenteel gevoelig zijn voor taalveranderingen. Ze zijn niet alleen "Engels-liefhebbers"; het zijn "instabiele waarnemers" die getest moeten worden op consistentie voordat we hen vertrouwen om te beslissen welke AI de beste is.

Technische Samenvatting: Verkiest de Rechter Engels? Het Evalueren van Taalwissel-invariantie in LLM-as-a-Judge

1. Probleemstelling

De brede adoptie van Large Language Models (LLM's) als automatische rechters voor open eind instructievolgende evaluaties introduceert een cruciale betrouwbaarheidsvraag: Beoordeelt een rechter de semantische kwaliteit van een antwoord, of reageert de voorkeur op de taal waarin de vergelijking wordt gepresenteerd?

Hoewel LLM-as-a-Judge een schaalbare en semantisch bewuste methode biedt die superieur is aan referentiegebaseerde metrieken, erft het de biases van generatieve modellen. Voorgaand werk heeft position bias, verbositeitsbias en promptgevoeligheid gedocumenteerd. Dit paper isoleert een specifieke betrouwbaarheidsfout: taalwissel-invariantie (language-switching invariance). Specifiek onderzoekt het of een rechter zijn voorkeur behoudt wanneer een paarvergelijking wordt gepresenteerd in het Engels, Chinees, of een Chinees-Engelse taalwissel-variant, uitgaande van het feit dat de onderliggende kwaliteitsrelatie (het "gold label") ongewijzigd blijft.

2. Methodologie: Het Judge-LS Protocol

De auteurs stellen Judge-LS voor, een lichtgewicht, training-vrij meta-evaluatieprotocol ontworpen om taalwissel-invariantie te testen met enkel API-aanroepen.

2.1 Basismateriaal en Transformatie

Dataset: De studie maakt gebruik van de volledige LLMBar benchmark, bestaande uit 419 paaritems (één natuurlijke subset en vier adversariële subsets) met objectieve gold labels die aangeven welk antwoord de instructie beter volgt.
Taalvarianten: Voor elk item worden drie versies gegenereerd:
1. EN: De originele Engelse versie.
2. ZH: Een natuurlijke vereenvoudigde Chinese vertaling van de instructie en beide kandidaat-outputs.
3. LS: Een natuurlijke Chinees-Engelse taalwissel-variant, waarbij Engelse taken termen, entiteiten en technische termen waar passend behouden blijven.
Transformatie-model: gpt-4.1-mini wordt gebruikt voor vertaling. De prompt instrueert het model expliciet om alle feitelijke, wiskundige, formatterings- en instructievolgende fouten te behouden om te garanderen dat de geldigheid van het gold label niet in gevaar komt door "stille reparaties".
Audit: Een automatische audit verifieert de volledigheid van velden en markeert risicovolle varianten (bijv. ernstige lengteverkorting, numerieke-token mismatch). 19 items (4,5%) werden gemarkeerd en een sensitiviteitsanalyse sluit deze uit.

2.2 Experimenteel Ontwerp

Rechters: Vier API-toegankelijke modellen werden geëvalueerd:
- GPT-4.1 Mini
- Claude Haiku 4.5
- Gemini 2.5 Flash
- DeepSeek V4 Flash
Oordeelconstructie: Elk item wordt geëvalueerd onder alle drie de taalcondities. Voor elke conditie ontvangt de rechter zowel de originele als de omgewisselde volgorde van antwoorden (A vs. B). Daarnaast worden vertaling-equivalente tie-probes gemaakt door het Engelse gold antwoord te vergelijken met de Chinese vertaling ervan om taalvoorkeur in "Tie" scenario's te testen.
Totaal Volume: Het experiment genereerde 13.408 succesvolle unieke paar-oordelen.

2.3 Metrieken

De studie rapporteert verschillende diagnostische metrieken naast eenvoudige nauwkeurigheid:

Strict en Tie-Half Accuracy: Meet de overeenstemming met gold labels, waarbij de laatste gedeeltelijke krediet geeft aan "Tie" voorspellingen.
Language-Invariance Flip Rate: Het percentage oordelen waarbij de voorkeur verandert uitsluitend door de taaltransformatie (EN vs. ZH/LS).
Gold-Correctness Flip Rate: Het percentage gevallen waar een correct oordeel incorrect wordt (of vice versa) na vertaling.
Position Inconsistency: De snelheid waarmee de winnaar verandert wanneer de volgorde van de antwoorden wordt omgewisseld.
Tie-Probe Language Preference: De distributie van winsten tussen Engels en Chinees in vertaling-equivalente tie-probes.
Statistische Rigor: Het paper gebruikt Wilson 95% betrouwbaarheidsintervallen en exacte tweezijdige McNemar/binomial tests voor gepaard vergelijkingen.

3. Belangrijkste Resultaten

3.1 Nauwkeurigheid en Stabiliteit

Engelse Superioriteit: Alle vier de rechters behaalden hun hoogste nauwkeurigheid in het Engels. Bijvoorbeeld, de tie-half nauwkeurigheid van DeepSeek daalde van 90,5% (EN) naar 87,8% (ZH) en 88,9% (LS).
Significante Flip Rates: Taaltransformaties induceerden voorkeurswisselingen (flips) in 10,7% tot 14,4% van de gevallen ten opzichte van het Engels.
- GPT-4.1 Mini en Claude Haiku waren het meest gevoelig voor Chinese vertalingen (flip rates van respectievelijk 14,4% en 14,2%).
- DeepSeek en Gemini vertoonden lagere maar nog steeds substantiële flip rates (~11,1%).
Impact op Correctheid: De gold-correctness flip rates weerspiegelden nauwlettend de voorkeurs-flip rates, wat aangeeft dat dit geen onschadelijke wisselingen zijn tussen een correct antwoord en een gelijkspel (tie), maar werkelijke veranderingen in de afstemming van de rechter op de objectieve waarheid. Gepaard tests voor significantie verwierpen symmetrie voor alle model-taalvergelijkingen ( $p \le 0,011$ ).

3.2 Taalvoorkeur vs. Instabiliteit

Geen Systematische Engelse Bias in Ties: In tegenstelling tot de hypothese dat rechters inherent de voorkeur geven aan Engels, werden vertaling-equivalente tie-probes in de overgrote meerderheid van de gevallen als "Tie" beoordeeld (bijv. DeepSeek: 97,5%, GPT-4.1 Mini: 95,6%).
Chinese Voorkeur in Non-Ties: Wanneer rechters geen gelijkspel (tie) riepen, gaven ze vaker de voorkeur aan de Chinese versie boven de Engelse versie. Dit suggereert dat het probleem niet een simpele "Engels-eerst" prior is, maar eerder instabiliteit in hoe rechters verschillende linguïstische presentaties verwerken.

3.3 Interactie met Position Bias

Taalwisseling Versterkt Position Sensitivity: Position inconsistency (het veranderen van de winnaar bij het omdraaien van de volgorde) nam significant toe in de taalwissel-condities (LS).
- De gemiddelde position inconsistency steeg van 12,1% (EN) naar 18,1% (LS) over alle modellen heen.
- Gemini Flash vertoonde de grootste stijging, van 10,3% (EN) naar 22,2% (LS).
Adversariële Moeilijkheid: Adversariële subsets (bijv. Adv-GPTOut) vertoonden een lagere nauwkeurigheid en hogere flip rates, wat suggereert dat taaltransformaties een extra laag moeilijkheid toevoegen aan reeds uitdagende redeneertaken.

4. Bijdragen

Judge-LS Protocol: Introductie van een eenvoudig, laag-resource protocol voor het testen van taalwissel-invariantie in LLM-as-a-Judge evaluatie zonder modeltraining.
Uitgebreide Benchmarking: Transformatie van de volledige 419-item LLMBar benchmark naar Engels, Chinees en taalwissel-varianten met behoud van de gold labels.
Grootschalige Evaluatie: Evaluatie van vier diverse API-rechters over 13.408 oordelen, inclus_ief antwoordvolgorde-swaps en vertaling-equivalente tie-probes.
Diagnostisch Framework: Rapportage van een multidimensionale set metrieken inclusief flip rates, position inconsistency, onzekerheidsschattingen en sensitiviteitsanalyses die mechanisch risicovolle varianten uitsluiten.

5. Betekenis en Claims

Het paper claimt dat het centrale risico in meertalige LLM-evaluatie niet noodzakelijkerwijs is dat rechters "de voorkeur geven aan Engels", maar dat ze gevoelig zijn voor de taalpresentatie op manieren die de correctheid beïnvloeden en interageren met position bias.

Betrouwbaarheidsimplicatie: Een flip rate van 10–14% is groot genoeg om modelrangschikkingen te veranderen wanneer systemen dicht bij elkaar scoren. Als een leaderboard een Engelse rechter-prompt gebruikt om Chinese of taalwissel-antwoorden te evalueren, kan de gerapporteerde prestatie de antwoordkwaliteit verwarren met de taalgevoeligheid van de rechter.
Ontwerpprincipe: Evaluatie-pipelines moeten worden behandeld als systemen die getest worden. Een robuuste rechter moet kernvoorkeuren behouden onder label-behoudende oppervlakte-transformaties, vergelijkbaar met hoe robuuste classificators onschadelijke input-perturbaties moeten kunnen afhandelen.
Praktische Workflow: De auteurs bevelen een vijffasen workflow aan voor meertalige evaluatie: (1) baseline Engelse evaluatie met volgorde-swaps, (2) transformatie naar doeltaal, (3) audit en sensitiviteitsanalyse, (4) berekening van invariance flips met betrouwbaarheidsintervallen, en (5) tie-probes om bias te onderscheiden van instabiliteit.

De studie concludeert dat huidige LLM-rechters nog niet invariant zijn voor taalpresentatie, en dat het vertrouwen op een enkele taalconditie voor de selectie van meertalige modellen een fragiele praktijk is.

Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge