Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom dezelfde vraag, een ander cijfer? Een onderzoek naar de grilligheid van AI-juristen

Stel je voor dat je een groep van vijf zeer slimme, maar soms grillige juryleden hebt. Je geeft ze allemaal exact hetzelfde verslag van een student en vraagt ze om een cijfer te geven tussen 0 en 10. Je zou verwachten dat als je dit tien keer achter elkaar doet, ze elke keer hetzelfde cijfer geven.

Maar wat als je ziet dat jurylid A de eerste keer een 8 geeft, de tweede keer een 6, en de derde keer een 9? En wat als jurylid B, die net zo slim is, het verslag altijd als een 4 beoordeelt, terwijl jurylid C het een 9 vindt?

Dat is precies wat Fiona Lau heeft onderzocht in haar paper. Ze keek naar hoe grote taalmodellen (LLM's) – de slimme AI's zoals die in ChatGPT, Gemini en Claude – fungeren als "rechter" of "jury" om antwoorden te beoordelen. Haar conclusie? AI is niet zo betrouwbaar als we denken, zelfs niet als we proberen het heel streng te maken.

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De "Gokkast" in plaats van de Rekenmachine

Je denkt misschien: "Als ik een computer de opdracht geef om iets te beoordelen, en ik zet de instellingen op 'niet willekeurig' (temperatuur = 0), dan moet het resultaat toch altijd hetzelfde zijn?"

Nee. Het is alsof je een gokkast hebt die eruitziet als een rekenmachine. Zelfs als je de knop "niet willekeurig" indrukt, blijft de machine soms een andere uitkomst geven.

De ontdekking: Zelfs als de AI precies dezelfde vraag krijgt, geeft ze soms een ander cijfer. Dit gebeurt vooral bij de vraag: "Is het antwoord volledig?" (Completeness). Het is alsof de AI soms denkt: "Oh, dit is een 7," en een seconde later: "Nee, wacht, dit is een 5," terwijl de tekst exact hetzelfde is.

2. Verschillende scholen, verschillende regels

De studie keek naar drie grote "scholen" van AI: OpenAI (GPT), Google (Gemini) en Anthropic (Claude).

De analogie: Stel je voor dat je drie verschillende leraren vraagt om een essay te beoordelen.
- De Google-leraar is een beetje een "liefhebbende oom": hij geeft bijna altijd hoge cijfers en is heel genereus.
- De OpenAI-leraar is strenger en geeft gemiddelde cijfers.
- De Anthropic-leraar is heel kritisch en vindt dat het essay vaak te kort komt, zelfs als de andere leraren het goed vinden.
Het probleem: Als je een bedrijf hebt dat beslissingen neemt op basis van deze cijfers (bijvoorbeeld: "Stuur dit klantverzoek door naar een mens als het cijfer onder de 7 zit"), dan hangt je hele proces af van welke "leraar" je kiest. Dezelfde klant kan een mens krijgen bij de ene AI, maar niet bij de andere. Dat is niet eerlijk.

3. De "Temperatuur" knop: Heet of koud?

In de wereld van AI is "temperatuur" een instelling die bepaalt hoe creatief of willekeurig de AI is.

Temperatuur 1 (Heet): De AI is creatief, maar ook onvoorspelbaar. Het is alsof je een kunstenaar vraagt om een schilderij te maken terwijl hij een beetje zenuwachtig is.
Temperatuur 0 (Koud): De AI moet zo logisch en voorspelbaar mogelijk zijn.

Wat leerde het onderzoek?

Voor sommige AI's (zoals Google en OpenAI) helpt het om de temperatuur op 0 te zetten. Ze worden dan stabieler, alsof ze kalmeren.
Maar voor andere AI's (zoals de familie van Claude) maakt het niet veel uit. Zelfs als je ze op "koud" zet, blijven ze soms wisselvallig. Het is alsof je een hond probeert rustig te houden door hem een ijsje te geven; sommige honden kalmeren, maar andere blijven nog steeds springen.

4. Waarom is dit gevaarlijk voor bedrijven?

Veel bedrijven gebruiken deze AI's nu om beslissingen te nemen zonder dat mensen erbij zijn.

Voorbeeld: Een klantbelt met een probleem. De AI kijkt naar het gesprek en geeft een cijfer. Is het cijfer laag? Dan wordt de klant direct doorverbonden met een mens. Is het cijfer hoog? Dan krijgt de klant een automatische e-mail.
Het risico: Omdat de AI soms een 6 geeft en soms een 8 voor exact hetzelfde probleem, kan het zijn dat klant A een mens krijgt en klant B (met hetzelfde probleem) niet. Dat is frustrerend voor de klant en gevaarlijk voor het bedrijf. Het is alsof je een verkeerslicht hebt dat soms groen is en soms rood, terwijl het verkeer precies hetzelfde is.

5. De "Format"-valstrik

Er is nog een vervelend detail. Soms geeft de AI wel het juiste cijfer, maar schrijft ze het in een rare vorm.

Vergelijking: Stel je vraagt iemand om een brief te schrijven. De AI schrijft de inhoud perfect, maar vergeet de aanhef of de zin "Lieve heer" te gebruiken. Als een computerprogramma de brief leest, kan het de boodschap niet begrijpen en crasht het systeem. De AI was "correct" in de inhoud, maar "fout" in de vorm.

Conclusie: Wees voorzichtig met je AI-juristen

De boodschap van dit onderzoek is helder: Vertrouw niet blind op AI om cijfers te geven.

Als je een AI gebruikt om te oordelen, moet je beseffen dat:

Dezelfde vraag soms een ander antwoord krijgt.
Verschillende AI's heel andere "standaarden" hebben.
Zelfs de strengste instellingen (temperatuur 0) niet altijd werken.

De oplossing?
Bedrijven moeten niet alleen kijken naar het gemiddelde cijfer dat een AI geeft, maar ook naar hoe stabiel die AI is. Het is beter om een AI te hebben die consequent een 5 geeft (dan weet je dat je hem niet kunt vertrouwen, maar je weet wat je aan hebt) dan een AI die soms een 9 en soms een 1 geeft.

Voor nu is het verstandig om een menselijke controle in te bouwen, of om meerdere AI's te laten "stemmen" voordat je een definitieve beslissing neemt. Net als bij een echte jury: je wilt niet dat één persoon, die op een willekeurige dag is, de hele zaak beslist.

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. De "Gokkast" in plaats van de Rekenmachine

2. Verschillende scholen, verschillende regels

3. De "Temperatuur" knop: Heet of koud?

4. Waarom is dit gevaarlijk voor bedrijven?

5. De "Format"-valstrik

Conclusie: Wees voorzichtig met je AI-juristen

Titel: Dezelfde Invoer, Verschillende Scores: Een Multi-Model Studie naar de Inconsistentie van LLM-Judges

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

1. De "Gokkast" in plaats van de Rekenmachine

2. Verschillende scholen, verschillende regels

3. De "Temperatuur" knop: Heet of koud?

4. Waarom is dit gevaarlijk voor bedrijven?

5. De "Format"-valstrik

Conclusie: Wees voorzichtig met je AI-juristen

Titel: Dezelfde Invoer, Verschillende Scores: Een Multi-Model Studie naar de Inconsistentie van LLM-Judges

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers