Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

Dieses Paper führt Judge-LS ein, ein Meta-Evaluationsprotokoll, das zeigt, dass LLM-as-a-Judge-Systeme zwar eine erhebliche Präferenzinstabilität und Genauigkeitsverluste bei der Bewertung von chinesischen oder sprachwechselnden Inhalten im Vergleich zu englischen Inhalten aufweisen, sie jedoch nicht systematisch Englisch gegenüber übersetzungsgleichen chinesischen Antworten bevorzugen.

Ursprüngliche Autoren: Shaojie Yin

Veröffentlicht 2026-06-15✓ Author reviewed
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ursprüngliche Autoren: Shaojie Yin

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen sehr intelligenten, automatisierten Schiedsrichter (eine KI), dessen Aufgabe es ist, zwei Personen beim Beantworten einer Frage zuzusehen und zu entscheiden, wer die bessere Arbeit geleistet hat. Genau so werden viele moderne KI-Systeme heute getestet: Eine KI fungiert als Richter für andere KIs.

Dieses Paper stellt eine einfache, aber knifflige Frage: Kümmert sich dieser Schiedsrichter um die Sprache, in der die Antworten gegeben werden, oder interessiert ihn nur die Qualität der Antworten?

Denken Sie an einen Kochwettbewerb. Wenn zwei Köche exakt dieselbe köstliche Suppe zubereiten, aber einer der Köche sie in einem schicken französischen Restaurant präsentiert und der andere in einem einfachen Imbisslokal, bewertet der Richter die französische Präsentation dann höher, nur weil sie „vornehmer“ klingt? Oder schmeckt der Richter die Suppe und erkennt, dass sie identisch ist?

Das Experiment: Der „Sprachtranslator“-Test

Die Forscher nahmen einen Standard-Satz von 419 Fragen und Antworten (ein Benchmark namens LLMBar) und ließen sie durch vier verschiedene KI-Richter laufen. Dies taten sie in drei verschiedenen „Kostümen“:

  1. Englisch: Die Originalversion.
  2. Chinesisch: Dieselben Fragen und Antworten, perfekt ins Chinesische übersetzt.
  3. Code-Switching: Eine Mischung aus Englisch und Chinesisch (wie zum Beispiel: „Please send the email to the manager“, wobei Sprachen natürlich gemischt werden).

Sie führten auch einen speziellen „Tie-Breaker“-Test (Entscheidungs-Test) durch. Sie nahmen eine perfekte englische Antwort und deren perfekte chinesische Übersetzung und baten den Richter, diese zu vergleichen. Da der Inhalt identisch ist, sollte der Richter sagen: „Es ist ein Unentschieden!“

Was sie herausfanden

Die Ergebnisse waren etwas überraschend und zeigten, dass die Schiedsrichter nicht so neutral sind, wie wir es hoffen würden.

  • Der „Englischer Akzent“-Bias: Jeder einzelne Richter performte am besten, wenn die Antworten auf Englisch gegeben wurden. Wenn die Antworten auf Chinesisch oder in einer Mischsprache waren, machten die Richter mehr Fehler. Es ist, als ob der Schiedsrichter ein wenig verwirrt oder weniger scharfsinning wird, wenn die Teilnehmer in einem anderen Dialekt sprechen, selbst wenn die Logik dieselbe ist.
  • Das „Flip-Flop“-Problem: In etwa 11 % bis 14 % der Fälle änderte der Richter seine Meinung, nur weil sich die Sprache änderte.
    • Analogie: Stellen Sie sich vor, Richter A sagt: „Koch 1 gewinnt!“, wenn die Speisekarte auf Englisch ist. Aber wenn man ihm dieselbe Speisekarte auf Chinesisch überreicht, sagt Richter A plötzlich: „Eigentlich gewinnt Koch 2!“, obwohl das Essen gar nicht verändert wurde. Dies wird als „Preference Flip“ (Präferenzumkehr) bezeichnet.
  • Es ist nicht nur „Englisch ist besser“: Man könnte denken, die Richter lieben einfach Englisch und hassen alles andere. Aber der „Tie-Breaker“-Test zeigte etwas Komplexeres. Wenn die Richter tatsächlich einen Gewinner zwischen einer englischen Antwort und ihrer chinesischen Übersetzung wählten, entschieden sie sich tatsächlich häufiger für Chinesisch als für Englisch!
    • Das Fazit: Das Problem ist nicht, dass die Richter blind Englisch bevorzugen. Das Problem ist, dass sie instabil sind. Sie lassen sich leicht davon beeinflussen, wie die Informationen präsentiert werden – sei es die Sprache, die Reihenfolge der Antworten oder eine Mischung aus beidem.

Warum das wichtig ist

Wenn Sie ein KI-System bauen, das Menschen in China helfen soll oder gemischte Sprachgespräche verarbeiten muss, können Sie einem auf Englisch trainierten Richter nicht einfach vertrauen, um fair zu sein.

  • Der „brüchige“ Richter: Ein guter Richter sollte wie eine solide Waage sein. Wenn man das gleiche Gewicht darauf legt, sollte sie die gleiche Anzeige liefern, egal ob man das Gewicht in Kilogramm oder Pfund beschreibt. Diese KI-Richter sind eher wie eine wackelige Waage; die Anzeige ändert sich, je nachdem, wie man sie hält.
  • Die Kosten der Verwirrung: Da die Richter ihre Entscheidungen so oft ändern (etwa in 1 von 10 Fällen), könnten sie versehentlich eine schlechtere KI als die Gewinnerin einstufen, nur weil der Test in einer anderen Sprache verfasst wurde.

Der vorgeschlagene Lösungsansatz

Die Autoren schlagen einen neuen, leichtgewichtigen „Gesundheitscheck“ namens Judge-LS vor. Bevor Sie einem KI-Richter vertrauen, Modelle in einer multilingualen Welt zu bewerten, sollten Sie diesen einfachen Test durchführen:

  1. Übersetzen Sie den Test in die Zielsprache.
  2. Lassen Sie den Richter erneut laufen.
  3. Prüfen Sie, ob der Richter seine Meinung ändert.

Wenn der Richter seine Meinung zu oft ändert, ist er nicht bereit für den Job. Es ist, als würde man einen Schiedsrichter einstellen, der durch einen anderen Akzent verwirrt wird; man braucht einen Schiedsrichter, der das Spiel bewertet, nicht die Sprache.

Kurz gesagt: Das Paper beweist, dass KI-Richter derzeit empfindlich auf Sprachänderungen reagieren. Sie sind nicht einfach nur „Englisch-Liebhaber“, sondern „instabile Beobachter“, die auf ihre Konsistenz getestet werden müssen, bevor wir ihnen zutrauen können, zu entscheiden, welche KI die beste ist.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →