CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

Dit paper introduceert CyclicJudge, een efficiënte round-robin strategie die systematische beoordelaarsbias in LLM-evaluaties elimineert zonder extra kosten, door de variantie van benchmarkscores te ontleden en de bias precies op te heffen.

Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong Chen

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot kookwedstrijd organiseert. Je hebt tien koks (de AI-modellen) die allemaal een gerecht moeten maken. Nu moet je beslissen wie de beste is. Maar wie is de jury?

In de wereld van kunstmatige intelligentie (AI) gebruiken we vaak andere AI's als jury. Dit heet "LLM-as-judge". Het probleem is dat deze juryleden niet altijd eerlijk zijn. Sommige juryleden zijn extreem streng, anderen zijn heel mild, en sommige juryleden geven hun eigen "kookstijl" (of hun eigen AI-model) liever een hogere score dan die van de concurrenten.

De auteurs van dit paper, CyclicJudge, zeggen: "Hé, als we dit zo laten, zijn de uitslagen onbetrouwbaar. Het maakt niet uit hoeveel gerechten je laat maken; als de juryleden vooroordeelen, blijft dat probleem bestaan."

Hier is de uitleg van hun oplossing, vertaald naar alledaags taal met een paar creatieve vergelijkingen.

1. Het Probleem: De "Vooroordeel-Val"

Stel je voor dat je een wedstrijd hebt met 80 verschillende kookopdrachten (scenario's). Je hebt 5 juryleden.

  • De oude methode: Je laat één jurylid alle 80 gerechten beoordelen.
    • Gevolg: Als jurylid A een zwakke smaak heeft voor zoute gerechten, krijgt elke zoute kok een onterechte lage score. De ranglijst is vals.
  • De "veel is beter"-methode: Je laat alle 5 juryleden elk gerecht beoordelen.
    • Gevolg: De vooroordelen middelen zich wel uit, maar het is enorm duur en tijdrovend. Het is alsof je 500 mensen nodig hebt om 100 gerechten te proeven. Dat is te veel geld en tijd.

De onderzoekers ontdekten dat de "stille" fouten van de juryleden (de bias) vaak groter zijn dan de echte verschillen tussen de koks. Je kunt de fouten niet wegvegen door gewoon meer gerechten te laten maken; je moet de juryleden slim verdelen.

2. De Oplossing: CyclicJudge (De Ronde-ronde)

De oplossing heet CyclicJudge. Het klinkt ingewikkeld, maar het is eigenlijk heel simpel, net als een rooster voor schoolrecessen of een ronde tafel.

In plaats van dat één jurylid alles doet, of dat iedereen alles doet, verdelen ze de taken als een ronde-ronde (round-robin):

  • Gerecht 1 wordt beoordeeld door Jurylid A.
  • Gerecht 2 wordt beoordeeld door Jurylid B.
  • Gerecht 3 wordt beoordeeld door Jurylid C.
  • ...en zo verder, totdat je weer bij A komt.

Waarom werkt dit?
Stel je voor dat Jurylid A altijd een punt aftrekt voor "te veel kruiden".

  • Als A alles beoordeelt, krijgen alle koks met kruiden een lage score.
  • Maar als A maar één gerecht beoordeelt per ronde, en B, C, D en E beoordelen de rest, dan "verdwijnt" de strenge smaak van A in de grote massa. De gemiddelde score wordt eerlijk, omdat de strengheid van A wordt gecompenseerd door de mildheid van B, C, D en E.

Het mooie is: dit kost exact evenveel tijd en geld als het oude, simpele systeem (één jurylid per gerecht), maar het resultaat is veel eerlijker.

3. De Wiskunde (Zonder hoofdpijn)

De auteurs hebben een wiskundig model bedacht (een soort "rekenmachine voor fouten") om te bewijzen dat hun methode het beste is. Ze hebben de totale "ruis" in de scores opgesplitst in vier stukken:

  1. Het gerecht zelf: Sommige gerechten zijn gewoon moeilijker dan anderen.
  2. De variatie in het gerecht: Soms maakt een kok een foutje in de bereiding (toevallige ruis).
  3. De juryleden: Dit is het grote probleem. Hun persoonlijke voorkeur.
  4. De rest: Alles wat overblijft.

Hun berekening toont aan dat als je de juryleden slim verdeelt (CyclicJudge), je het stukje "juryleden-voorkeur" volledig wegstreept. Je houdt alleen de echte kwaliteit van de koks over.

4. Wat hebben ze bewezen?

Ze hebben dit getest op twee verschillende gebieden:

  1. Algemene conversaties: Een standaard test voor AI's (MT-Bench).
  2. Mentale gezondheid: Een heel specifieke test waarbij AI's moeten helpen met psychologische problemen (MindEval).

In beide gevallen bleek:

  • Als je één AI als jury gebruikt, is de ranglijst vaak willekeurig en onbetrouwbaar.
  • Met CyclicJudge krijgen ze een stabiele, eerlijke ranglijst, zonder dat ze meer geld hoeven uit te geven.

Samenvatting in één zin

CyclicJudge is een slimme manier om AI's te beoordelen waarbij je de juryleden in een rondje laat draaien, zodat hun persoonlijke vooroordelen elkaar opheffen en je een eerlijke winnaar krijgt, zonder dat je de rekening hoeft te verhogen.

Het is alsof je zegt: "We hoeven niet 100 mensen te vragen om te proeven; als we ze slim verdelen over de borden, weten we precies wie de beste kok is."