Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

Wenn KI-Richter nicht immer gleich urteilen: Eine Studie über das Chaos hinter den Kulissen

Stellen Sie sich vor, Sie gehen zu einem Gerichtssaal, um einen Streit zu schlichten. Sie geben dem Richter (in diesem Fall einer Künstlichen Intelligenz) den exakt gleichen Fall vor. Sie erwarten, dass der Richter heute und morgen, bei jedem neuen Versuch, das exakt gleiche Urteil fällt.

Die Studie von Fiona Lau zeigt uns jedoch ein beunruhigendes Bild: Unsere digitalen Richter sind oft chaotisch. Selbst wenn sie denselben Fall sehen, können sie an einem Tag eine 10 von 10 Punkten geben und am nächsten Tag nur eine 3. Und das passiert nicht nur bei verschiedenen Richtern, sondern sogar beim selben Richter!

Hier ist die Geschichte der Studie, einfach erklärt:

1. Das Problem: Der "Zufalls-Richter"

In der modernen Welt nutzen Firmen und Forscher KI-Modelle (wie GPT-4, Gemini oder Claude), um Texte automatisch zu bewerten. Man nennt das "LLM-as-a-judge" (KI als Richter).

Die Erwartung: Wenn die KI denselben Text bewertet, sollte das Ergebnis immer gleich sein.
Die Realität: Die KI ist wie ein Künstler, der jeden Morgen mit einer anderen Laune aufwacht. Selbst wenn man ihr sagt: "Sei heute ganz streng und logisch" (was man technisch als "Temperatur = 0" bezeichnet), macht sie manchmal trotzdem kleine Fehler oder ändert ihre Meinung.

Die Analogie: Stellen Sie sich vor, Sie bestellen jeden Morgen denselben Kaffee in derselben Kaffeebar. Manchmal ist er heiß, manchmal lauwarm, und manchmal schmeckt er nach etwas anderem, obwohl der Barista denselben Kaffee zubereitet hat. Das ist für eine Firma, die auf diese Bewertungen angewiesen ist, ein Albtraum.

2. Was wurde getestet?

Die Forscher haben fünf der bekanntesten KI-Modelle getestet (von OpenAI, Google und Anthropic) und ihnen echte Fragen aus einem Firmen-Chatbot gegeben. Sie haben die Antworten auf drei Dinge geprüft:

Relevanz: Beantwortet die KI die Frage überhaupt?
Genauigkeit: Sind die Fakten richtig?
Vollständigkeit: Ist alles Wichtige enthalten?

Dabei haben sie die KI 10-mal hintereinander denselben Text bewerten lassen, um zu sehen, wie sehr die Punkte schwanken.

3. Die überraschenden Ergebnisse

Das "Vollständigkeits"-Problem: Besonders bei der Frage "Ist die Antwort vollständig?" waren die KI-Richter am unzuverlässigsten.
- Vergleich: Stellen Sie sich vor, ein Lehrer bewertet einen Aufsatz. Bei der Frage "Hast du die Aufgabe verstanden?" (Relevanz) sind alle Lehrer sich einig. Aber bei der Frage "Hast du alles gesagt, was man sagen könnte?" (Vollständigkeit), urteilen sie völlig unterschiedlich. Der eine sagt: "Perfekt!", der andere: "Fehlt noch was."
Verschiedene Familien, verschiedene Meinungen:
- Die Modelle von Google (Gemini) waren sehr großzügig und gaben oft volle Punkte für Vollständigkeit.
- Die Modelle von Anthropic (Claude) waren oft strenger und gaben bei denselben Antworten viel niedrigere Punkte.
- Die Moral: Wenn Sie einen Kundenanruf an eine KI weiterleiten, entscheidet die Wahl des KI-Modells darüber, ob der Kunde als "zufrieden" oder "unzufrieden" eingestuft wird – nur weil ein anderer Algorithmus im Hintergrund läuft.
Der "Temperatur"-Trick funktioniert nicht immer:
In der KI-Welt gibt es einen Schalter namens "Temperatur".
- Hohe Temperatur: Die KI ist kreativ, wild und zufällig (wie ein Dichter).
- Niedrige Temperatur (0): Die KI soll streng, logisch und vorhersehbar sein (wie ein Roboter).
- Das Ergebnis: Die Forscher dachten, wenn sie die Temperatur auf 0 stellen, wird die KI perfekt vorhersehbar. Falsch! Bei manchen Modellen (wie Google) wurde es tatsächlich viel stabiler. Bei anderen (wie Anthropic) änderte sich fast nichts. Die KI blieb auch im "strengen Modus" manchmal launisch.

4. Warum ist das ein Problem für die echte Welt?

Wenn eine Bank oder ein Krankenhaus eine KI nutzt, um Entscheidungen zu treffen (z. B. "Ist diese E-Mail wichtig?" oder "Ist diese Antwort sicher genug?"), dann ist Konsistenz alles.

Das Risiko: Wenn die KI heute sagt "Ja, das ist sicher" und morgen "Nein, das ist gefährlich" – obwohl sich nichts geändert hat –, dann ist das System unzuverlässig. Kunden könnten unfair behandelt werden, oder wichtige Fehler könnten übersehen werden.
Das Format-Chaos: Manchmal gab die KI sogar die falsche Antwortformatierung (z. B. statt "Score: 0,8" schrieb sie "Score: 0,8 Punkte"). Das bringt Computerprogramme zum Absturz, die diese Daten automatisch lesen sollen.

5. Was lernen wir daraus?

Die Studie sagt uns: Vertraue nicht blind auf die KI als Richter.

KI ist nicht deterministisch: Selbst wenn man alles genau so einstellt, wie man will, bleibt ein Rest von "Zufall" übrig.
Überprüfe die Stabilität: Bevor man eine KI in ein wichtiges System einbaut, sollte man nicht nur schauen, wie gut sie ist, sondern wie stabil sie ist. Ein KI-Richter, der immer eine 5 gibt (auch wenn sie falsch ist), ist manchmal besser als einer, der zwischen 1 und 10 springt.
Mensch im Loop: Wir brauchen wahrscheinlich eine Mischung aus KI und Menschen, oder wir müssen die KI mit mehreren Modellen gleichzeitig prüfen lassen, um sicherzugehen, dass das Ergebnis nicht nur ein Zufallstreffer war.

Fazit:
Die KI ist ein mächtiges Werkzeug, aber sie ist noch kein perfekter, unfehlbarer Richter. Sie ist eher wie ein sehr talentierter, aber manchmal launischer Assistent. Wenn wir sie in kritischen Systemen einsetzen, müssen wir ihre Launen kennen und Vorsichtsmaßnahmen treffen, damit wir nicht auf dem falschen Fuß erwischt werden.

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Wenn KI-Richter nicht immer gleich urteilen: Eine Studie über das Chaos hinter den Kulissen

1. Das Problem: Der "Zufalls-Richter"

2. Was wurde getestet?

3. Die überraschenden Ergebnisse

4. Warum ist das ein Problem für die echte Welt?

5. Was lernen wir daraus?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

4. Signifikanz und Implikationen

Fazit

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Wenn KI-Richter nicht immer gleich urteilen: Eine Studie über das Chaos hinter den Kulissen

1. Das Problem: Der "Zufalls-Richter"

2. Was wurde getestet?

3. Die überraschenden Ergebnisse

4. Warum ist das ein Problem für die echte Welt?

5. Was lernen wir daraus?

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Ergebnisse

4. Signifikanz und Implikationen

Fazit

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers