When LLM Judge Scores Look Good but Best-of-N Decisions Fail

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kok bent die een nieuwe recepten-applicatie test. Je wilt weten welke van de vijf nieuwe recepten voor "lasagne" het lekkerst is.

Je vraagt een proefpersoon (de "LLM Judge") om elk recept te proeven en een cijfer te geven van 0 tot 100.

Deze proefpersoon doet zijn best. Als je kijkt naar de gemiddelde cijfers die hij geeft voor alle recepten in de hele wereld, lijkt hij heel goed. Hij geeft hoge cijfers aan de goede recepten en lage cijfers aan de slechte. De statistieken zeggen: "Hij is 47% accuraat!" (Dat klinkt best goed, toch?).

Maar hier zit de valstrik, en dat is precies wat dit paper uitlegt: Die gemiddelde cijfers liegen tegen je als je één specifiek recept moet kiezen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het probleem: De "Warme Zomer" vs. De "Koude Winter"

Stel je voor dat de proefpersoon twee soorten dagen heeft:

Dag A (Makkelijk): Je vraagt hem om te kiezen tussen een perfecte lasagne en een bord met alleen maar asbakken. Hij geeft de lasagne een 90 en de asbakken een 10.
Dag B (Moeilijk): Je vraagt hem om te kiezen tussen twee lasagnes die bijna identiek zijn. De ene is net iets beter. Hij geeft ze allebei een 80 en een 82.

Het probleem: De proefpersoon is heel goed in het herkennen van het verschil tussen "goed" en "slecht" (Dag A). Dat zorgt ervoor dat zijn gemiddelde cijfers over de hele wereld er geweldig uitzien. Maar op de dagen dat het echt uitmaakt (Dag B, waar je moet kiezen tussen twee goede opties), is hij onzeker en geeft hij vaak hetzelfde cijfer.

In de paper noemen ze dit: Global Correlation (het gemiddelde) is hoog, maar Within-Prompt Ranking (het kiezen binnen één specifieke situatie) is laag.

2. De "Tie" (Gelijkspel) valstrik

De proefpersoon in het onderzoek gaf cijfers in grote stapels (bijvoorbeeld alleen 0, 20, 40, 60, 80, 100).
Stel je voor dat je twee prachtige lasagnes hebt. De ene is 82% perfect, de andere 83%.
Omdat de proefpersoon alleen in stappen van 20 kan tellen, krijgt beide een 80.

Resultaat: De proefpersoon zegt: "Ze zijn even goed."
Jouw keuze: Omdat ze gelijk zijn, moet jij willekeurig kiezen. Je kans om de beste te pakken is dan 50/50, net als gokken.

In het onderzoek gebeurde dit 67% van de tijd. De proefpersoon gaf bijna altijd een gelijkspel, zelfs als er een duidelijk winnaar was. Omdat hij niet kon zeggen "deze is net iets beter", faalde hij bij de taak waarvoor je hem had ingehuurd: de beste kiezen.

3. De oplossing: Vraag het anders

De onderzoekers dachten: "Misschien is het probleem dat we vragen om een cijfer. Wat als we vragen: 'Welke is beter, A of B?'"

Oude manier (Cijfer geven): "Geef A een 80 en B een 80." -> Gelijkspel -> Willekeurige keuze.
Nieuwe manier (Vergelijken): "Kies A of B." -> De proefpersoon moet een keuze maken. Hij zegt: "A is net iets lekkerder."

In het onderzoek werkte dit wonderbaarlijk goed. Door de proefpersoon te dwingen een keuze te maken tussen twee opties, verdween het "gelijkspel"-probleem bijna volledig. De keuze werd veel slimmer.

4. Waarom is dit belangrijk voor AI?

Vandaag de dag gebruiken bedrijven AI-modellen om andere AI-modellen te beoordelen. Ze laten een AI 100 antwoorden genereren op een vraag, en dan kiest een "Jury-AI" het beste antwoord.

Dit paper zegt: "Stop met kijken naar de gemiddelde score van de Jury-AI!"
Als de Jury-AI gemiddeld goed scoort, betekent dat niet dat hij het beste antwoord kan vinden als er 4 goede antwoorden zijn. Hij kan net zo goed een willekeurig antwoord kiezen.

De les voor de praktijk:

Kijk niet naar het gemiddelde: Een hoge correlatie betekent niet dat je AI goed kan kiezen.
Kijk naar de "binnen-de-situatie" score: Kan de AI het verschil zien tussen twee bijna-identieke opties?
Vermijd gelijkspelen: Als je AI vaak hetzelfde cijfer geeft, is hij nutteloos voor het kiezen van de beste optie.
Vergelijken werkt beter: Vraag de AI niet om een cijfer, maar vraag hem om direct te kiezen tussen twee opties.

Samenvatting in één zin

Het is alsof je een sportcommentator vraagt om de beste speler van de dag te kiezen. Als hij alleen maar zegt "Deze team wint 3-0, die team verliest 0-3", heeft hij een hoge "gemiddelde score" van goedkeuring. Maar als je hem vraagt om de beste speler te kiezen uit een team waar iedereen even goed is, en hij zegt "Ze zijn allemaal even goed", dan heb je aan zijn gemiddelde cijfer niets. Je moet hem dwingen om een keuze te maken.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wanneer LLM-Judge Scores er Goed Uitzien maar Best-of-N Beslissingen Falen

1. Het Probleem

Grote taalmodellen (LLM's) worden steeds vaker gebruikt als "judges" (beoordelaars) om kandidaat-antwoorden te scoren, waarna deze scores worden gebruikt voor Best-of-N selectie (het kiezen van het beste antwoord uit $N$ opties voor een specifieke prompt) of her-ranking.

De huidige praktijk vertrouwt vaak op één globale metriek, zoals de correlatie ( $r$ ) tussen de judge-scores en referentielabels (oracle), om de kwaliteit van de judge te valideren. Als deze correlatie redelijk is (bijv. $r \approx 0.5$ ), gaan teams er vaak ten onrechte van uit dat de judge veilig is om te gebruiken voor optimalisatie.

De kernproblematiek: Een judge kan een hoge globale correlatie hebben, maar toch falen bij de werkelijke taak: het selecteren van het beste kandidaat-antwoord voor een specifieke prompt. Dit komt doordat globale correlatie grotendeels wordt gedreven door prompt-niveau basale effecten (bijv. sommige prompts zijn over het algemeen makkelijker of moeilijker, waardoor alle antwoorden hoog of laag scoren), terwijl Best-of-N selectie afhankelijk is van ranking binnen de prompt (het onderscheid tussen kandidaten voor dezelfde prompt).

2. Methodologie en Opzet

De auteurs analyseren een benchmark van 5.000 prompts afkomstig van Chatbot Arena.

Opzet: Voor elke prompt zijn er 4 kandidaat-antwoorden (van verschillende modellen of systemen).
Judge: Een vast LLM-judge (GPT-5) die elke kandidaat een score geeft (0-100).
Oracle: Een referentie-label (upstream score) dat de "ware" kwaliteit van het antwoord aangeeft.
Doel: Vergelijken van drie selectiestrategieën:
1. Oracle-optimaal: Kies het beste antwoord volgens de oracle.
2. Random: Kies willekeurig.
3. Judge-greedy: Kies het antwoord met de hoogste judge-score.

Belangrijke Metrieken:
In plaats van alleen globale correlatie, introduceren de auteurs een reeks metrieken gericht op besluitvorming:

Global $r$ : Correlatie over alle (prompt, kandidaat) paren.
Within-prompt $r$ ( $r_{within}$ ): Correlatie van de residuen na verwijdering van prompt-basale effecten. Dit meet de werkelijke rangschikkingskwaliteit.
Recovery Rate: Hoeveel procent van de potentiële winst (tussen random en oracle) wordt behaald door de judge?
$\text{Recovery} = \frac{E[O_{judge}] - E[O_{random}]}{E[O_{oracle}] - E[O_{random}]}$
Top-1 Accuracy (PCS): De kans dat de judge het exact beste antwoord kiest.
Tie Rate: Het percentage van paren dat een gelijke score krijgt.

3. Belangrijkste Resultaten

A. De "Gap" tussen Globale Correlatie en Besluitnut
In de hoofdexperimenten (Best-of-4):

De judge bereikte een globale correlatie van $r = 0.47$ , wat op het eerste gezicht acceptabel lijkt.
Echter, de within-prompt correlatie was slechts $r_{within} = 0.27$ .
De Recovery Rate was slechts 21,0%. Dit betekent dat de judge slechts 21% van de mogelijke verbetering boekte ten opzichte van willekeurige selectie.
De Top-1 Accuracy was slechts 31,6%.

B. De Oorzaak: Basale Effecten en Koppeling
De auteurs tonen aan dat globale correlatie wordt gedomineerd door "between-context" variatie (prompt-difficultie). Als een prompt moeilijk is, scoren alle antwoorden laag; als het makkelijk is, scoren ze hoog. De judge en de oracle zijn het hierover eens, wat de globale correlatie opblaast. Maar voor Best-of-N moet de judge het verschil zien tussen kandidaten binnen diezelfde prompt, wat een zwak signaal is.

C. Het Probleem van Koppelingen (Ties)
De judge gebruikt een grove schaal (ongeveer 20 unieke waarden).

Dit leidt tot een koppelingspercentage (tie rate) van 67% bij paarwijze vergelijkingen.
Bij 99% van de gevallen is er een "top-1 tie" (de hoogste score wordt gedeeld door meerdere kandidaten).
Wanneer er een tie is, moet de deployment willekeurig kiezen, waardoor de selectie effectief random wordt.

D. Oplossing: Paarwijze Beoordeling (Pairwise Judging)
De auteurs testten of het dwingen van de judge tot een expliciete paarwijze vergelijking ("Welke is beter, A of B?") het signaal herstelt.

In een Best-of-2 audit (7.000 gepaarde prompts) daalde de tie-rate van 59,8% naar 3,9%.
De Recovery Rate steeg van 21,1% (bij puntsgewijze scoring) naar 61,2% (bij paarwijze scoring).
Nuance: In een strikte Best-of-4 audit met een beperkt token-budget, leverde paarwijze scoring niet automatisch winst op en was puntsgewijze scoring soms efficiënter. Het voordeel is dus afhankelijk van het scenario en het budget.

E. Generaliseerbaarheid
Het patroon (hoge globale $r$ , lage $r_{within}$ , lage recovery) werd geobserveerd bij verschillende judge-families (GPT-5, Claude, Gemini, Llama). Ook bij objectieve taken (wiskunde/PPE-MATH) en bij LLM-to-LLM evaluatie bleef het probleem bestaan, hoewel de gap iets kleiner was.

4. Bijdragen en Aanbevelingen

De paper levert vier praktische bijdragen:

Besluitgerichte Audit: Teams moeten niet alleen naar globale correlatie kijken, maar naar Recovery Rate, Top-1 Accuracy en Within-prompt correlatie.
Decompositie: Het is cruciaal om "between-prompt" (basisniveau) en "within-prompt" (rangschikking) variatie te scheiden.
Tie-Mechanisme: Grove scoreschalen creëren veel ties die de beslissingen verstoren. Paarwijze prompts kunnen dit oplossen, maar zijn niet altijd de beste oplossing voor alle budgetten.
Drempelwaarden: Voor een Best-of-4 scenario is een $r_{within}$ van ongeveer 0,4 nodig om een praktisch nuttige recovery te bereiken. Een $r_{within}$ van 0,27 (zoals in de studie) is te zwak.

Praktische Checklist voor Teams:

Stel het doel: Voor systeem-benchmarking zijn globale metrieken oké; voor Best-of-N selectie zijn ze niet voldoende.
Rapporteer Within-Prompt Metrieken: Gebruik $r_{within}$ , tie-rates en recovery.
Audit in de "Hard Regime": Test judges op moeilijke prompts met vergelijkbare kandidaten (near-neighbors), niet op gemengde datasets met makkelijk onderscheidbare antwoorden.
Gebruik expliciete onzekerheid: Margin-based routing (vragen aan de oracle bij lage marge) werkt slecht. Het is beter om onzekerheid te schatten via resampling of geëliciteerde betrouwbaarheidsintervallen (CI width), wat een sterkere correlatie met winst toont.

5. Significatie

De paper waarschuwt voor een fundamenteel valkuil in de evaluatie van LLM-judges: een hoge globale correlatie garandeert geen goede prestaties bij instance-level selectie.

Dit heeft grote implicaties voor:

RLHF (Reinforcement Learning from Human Feedback): Als reward-modellen een zwak within-prompt signaal hebben, zal de optimalisatie traag of inefficiënt verlopen, zelfs als de globale correlatie hoog lijkt.
Deployments: Systemen die gebruikmaken van Best-of-N selectie (zoals Chatbot Arena of productie-reranking) moeten hun judges valideren op basis van richtingsvaliditeit (directional validity) en niet alleen op niveau-validiteit (level validity).

De auteurs concluderen dat de huidige evaluatiepraktijk moet evolueren van het meten van "hoe goed de judge overeenkomt met de oracle in het gemiddelde" naar "hoe goed de judge het juiste antwoord kiest voor een specifieke prompt".

When LLM Judge Scores Look Good but Best-of-N Decisions Fail

1. Het probleem: De "Warme Zomer" vs. De "Koude Winter"

2. De "Tie" (Gelijkspel) valstrik

3. De oplossing: Vraag het anders

4. Waarom is dit belangrijk voor AI?

Samenvatting in één zin

Titel: Wanneer LLM-Judge Scores er Goed Uitzien maar Best-of-N Beslissingen Falen

1. Het Probleem

2. Methodologie en Opzet

3. Belangrijkste Resultaten

4. Bijdragen en Aanbevelingen

5. Significatie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank