Ranking Reasoning LLMs under Test-Time Scaling

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je de beste denker vindt als iedereen 80 keer hetzelfde probleem oplost

Stel je voor dat je een grote wedstrijd organiseert voor de slimste rekenwonderen van de wereld. Maar in plaats van dat elke deelnemer één keer een vraag krijgt, mag elke deelnemer 80 keer proberen om dezelfde vraag te beantwoorden. Soms lukt het, soms niet. Soms is het antwoord perfect, soms is het net iets minder goed.

Dit is wat er gebeurt met moderne kunstmatige intelligentie (LLMs) die "redeneren" (zoals wiskundeproblemen oplossen). Ze zijn niet altijd 100% betrouwbaar; ze kunnen een beetje als een mens zijn die soms een foutje maakt of een slimme ingeving krijgt.

Deze paper, geschreven door onderzoekers van de Case Western Reserve University, stelt de vraag: Hoe rangschik je deze modellen eerlijk als ze allemaal 80 keer proberen?

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "80-Versie" van een Quiz

Vroeger keek je naar een model alsof het een examenafnemer was: één vraag, één antwoord. Vandaag de dag gebruiken we een techniek genaamd "Test-time scaling". Dit betekent: "Laat het model 80 keer nadenken en kies het beste antwoord."

Maar hoe zet je de winnaars dan op een lijst?

Tel je gewoon het aantal keer dat ze het goed hadden?
Kijk je naar wie het vaakst wint in een duel met een ander model?
Gebruik je ingewikkelde wiskundige formules?

De onderzoekers zeggen: "Er zijn heel veel manieren om dit te doen, en ze geven soms heel verschillende resultaten!"

2. De Oplossing: Scorio (De "Rekenmachine voor Ranglijsten")

De auteurs hebben een nieuwe bibliotheek (een softwarepakket) gemaakt die Scorio heet. Denk aan Scorio als een super-rekenmachine die alle mogelijke manieren om een ranglijst te maken, uitprobeert.

Ze hebben 72 verschillende methoden getest op 20 verschillende AI-modellen en 4 zeer moeilijke wiskundetoetsen (zoals de Olympiade).

3. De Grote Ontdekkingen

A. Als je genoeg tijd hebt (80 pogingen), zijn ze allemaal bijna hetzelfde

Stel je voor dat je een groep mensen laat raden hoeveel bonen er in een pot zitten. Als je ze maar één keer laat raden, is de lijst van "meest nauwkeurige" mensen heel willekeurig. Maar als je ze 80 keer laat raden en het gemiddelde neemt, komen bijna alle methoden tot dezelfde ranglijst.

De les: Als je genoeg rekenkracht hebt (veel pogingen), maakt het niet echt uit welke wiskundige formule je gebruikt. De "gemiddelde score" is vaak al goed genoeg.

B. Het echte gevaar: Als je haast hebt (slechts 1 poging)

In de echte wereld heb je niet altijd tijd of geld om 80 keer te rekenen. Soms moet je beslissen op basis van één poging.
Hier wordt het lastig. Sommige methoden zijn dan heel stabiel, andere springen wild omhoog en omlaag.

De vergelijking: Het is alsof je een speler kiest voor een voetbalteam.
- Als je 80 wedstrijden hebt gezien, weet je zeker wie de beste is.
- Als je maar één wedstrijd hebt gezien, kan het zijn dat de beste speler die dag een slechte dag had.
- De paper zegt: Gebruik methoden die rekening houden met "onzekerheid" (zoals Bayesian methods). Die zeggen niet alleen "Hij is de beste", maar ook "Hij is waarschijnlijk de beste, maar we zijn niet 100% zeker."

C. De "Gierige" Gids (Greedy Prior)

De onderzoekers probeerden een slimme truc: ze gebruikten het antwoord van het model dat niet twijfelde (de "greedy" modus, alsof het model heel zeker van zijn zaak is) als een soort voorspelling voor de 80 andere pogingen.

De analogie: Stel je voor dat je een gids hebt die altijd het snelste pad neemt. Je gebruikt die gids om te voorspellen waar de andere wandelaars (die soms afdwalen) naartoe gaan.
Het resultaat: Dit werkt geweldig als de gids en de wandelaars ongeveer dezelfde route kiezen. Maar als de gids een fout maakt en de wandelaars een betere route vinden, dan sleep je de gids je hele ranglijst de verkeerde kant op.
Advies: Gebruik deze truc alleen als je eerst hebt gecheckt of de "zekerheid" van het model overeenkomt met de "willekeur" van de pogingen.

4. Waarom is dit belangrijk?

Vandaag de dag zien we veel "Leaderboards" (ranglijsten) op internet waar AI-modellen tegen elkaar worden opgevoerd. Deze paper zegt:

Wees voorzichtig met kleine lijsten: Als je een model beoordeelt op basis van te weinig tests, is je ranglijst misschien onbetrouwbaar.
Kies je methode slim: Als je weinig budget hebt, gebruik dan methoden die rekening houden met onzekerheid (zoals de "Bayes" methode).
De "Gouden Standaard": Als je veel tijd hebt, is het simpelste gemiddelde vaak al de beste maatstaf.

Samenvatting in één zin

Als je AI-modellen wilt vergelijken die 80 keer proberen om een vraag te beantwoorden, werkt het simpelste gemiddelde het beste als je veel tijd hebt, maar als je haast hebt, moet je slimme wiskundige methoden gebruiken die rekening houden met onzekerheid, anders kun je de verkeerde winnaar kiezen.

De auteurs hebben hun gereedschapskist (Scorio) gratis beschikbaar gesteld, zodat iedereen in de toekomst eerlijkere ranglijsten kan maken!

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Ranking Reasoning LLMs under Test-Time Scaling" in het Nederlands.

1. Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker gebruikt voor redeneringstaken zoals wiskunde en programmeren. Een cruciaal aspect van evaluatie is het betrouwbaar rangschikken van deze modellen. Traditionele benchmarks gebruiken vaak een enkele uitvoering per prompt, maar de recente trend van Test-Time Scaling (het genereren van meerdere antwoorden per prompt en het aggregeren van deze resultaten) verandert de evaluatie in een herhaaldelijk steekproefprobleem.

De kernuitdaging die dit paper adresseert is: Hoe rangschik je LLMs betrouwbaar wanneer er meerdere steekproeven (trials) per vraag beschikbaar zijn?

Er is geen eenduidige "gouden standaard" voor rangschikking; verschillende statistische methoden (bijv. Bradley-Terry, IRT, stemregels) kunnen tot verschillende ordeningen leiden.
Het is onduidelijk welke methode het meest stabiel is bij een beperkt budget (weinig trials, $N=1$ ) en hoe snel ze convergeren naar een stabiele ranglijst naarmate het aantal trials ( $N$ ) toeneemt.
Er is een gebrek aan gestandaardiseerde bibliotheken om deze methoden te vergelijken in een dichte benchmark-omgeving (waar elk model elke vraag heeft beantwoord).

2. Methodologie

Formalisering van het Probleem

De auteurs formaliseren de evaluatie als een respons-tensor $R \in \{0, 1\}^{L \times M \times N}$ :

$L$ : Aantal modellen.
$M$ : Aantal vragen in de benchmark.
$N$ : Aantal onafhankelijke steekproeven (trials) per model-vraag paar.
$R_{lmn} = 1$ als model $l$ vraag $m$ correct oplost in trial $n$ .

Dit onderscheidt zich van crowdsourced platforms (zoals Chatbot Arena) waar data vaak spaarzaam is (niet alle paren worden vergeleken). Hier is de data "dicht" (dense).

De Scorio Library

De auteurs introduceren Scorio, een open-source Python-bibliotheek die een unificatie biedt voor diverse rangschikkingstechnieken. De methoden worden ingedeeld in families die werken op verschillende transformaties van de tensor $R$ :

Pointwise: Gemiddelde nauwkeurigheid per vraag (bijv. avg, Pass@k, Bayes@N).
Pairwise: Aggregatie naar winst/stilstand-tellingen tussen modelparen (bijv. Bradley-Terry, Elo, TrueSkill).
Listwise/Setwise: Werken op de set van winnaars/verliezers per vraag (bijv. Plackett-Luce).
Voting Rules: Behandelen vragen als kiezers (bijv. Borda, Copeland, Schulze, Minimax).
Graph/Spectral: Gebruiken grafentheorie en spectrale methoden (bijv. PageRank, HodgeRank, Rank Centrality).
IRT (Item Response Theory): Schat latente vaardigheden en vraagmoeilijkheid (bijv. Rasch, 2PL, 3PL).

Evaluatieprotocol

Om de methoden te vergelijken, definiëren de auteurs twee belangrijke metrieken:

Gold-Standard Agreement: Vergelijking van een ranglijst (bij een laag budget, $N=1$ ) met een referentieranglijst gebaseerd op alle 80 trials. De gouden standaard is BayesU@80 (Bayesiaanse schatting met uniforme prior), wat equivalent is aan de gemiddelde nauwkeurigheid over alle trials.
Self-Consistency: Hoe goed een methode bij $N=1$ overeenkomt met zijn eigen ranglijst bij $N=80$ . Dit meet de stabiliteit van de methode zelf.

Het experiment omvat 20 redenerende LLMs op vier wiskundige Olympiade-benchmarks (AIME'24, AIME'25, HMMT'25, BrUMO'25) met tot $N=80$ trials per model-vraag paar.

3. Belangrijkste Bijdragen

Formalisatie van Dichte Benchmark Rangschikking: Het paper stelt een wiskundig raamwerk op voor het rangschikken van modellen onder test-time scaling, gebaseerd op de respons-tensor $R$ .
Scorio Library: Een volledig open-source implementatie van 72 verschillende rangschikkingmethoden, inclusief Bayesiaanse opties en prior-integratie.
Uitgebreide Empirische Analyse: Een vergelijking van methoden over een breed scala aan benchmarks, waarbij de stabiliteit bij lage budgetten en de convergentie bij hoge budgetten wordt geanalyseerd.
Analyse van Priors en Onzekerheid: Onderzoek naar het gebruik van empirische priors (bijv. een enkele greedy decoding) om de variansie bij lage $N$ te reduceren, en de bijbehorende bias-variance trade-off.
Categorische Rangschikking: Uitbreiding van het Bayesiaanse kader naar niet-binair (categorisch) succes, waarbij signalen zoals antwoordformaat, vertrouwen en externe verificatie worden meegenomen.

4. Resultaten

Hoog Budget ( $N=80$ ): Bij een groot aantal trials zijn de meeste redelijke rangschikkingstechnieken (BayesU, Bradley-Terry, IRT, HodgeRank, etc.) sterk met elkaar in overeenstemming. De gemiddelde Kendall's $\tau_b$ (rangcorrelatie) met de gouden standaard ligt tussen 0.93 en 0.95. Veel methoden leveren exact dezelfde ranglijst op.
Laag Budget ( $N=1$ ): Hier ontstaan grote verschillen.
- De beste methoden bereiken een overeenstemming met de gouden standaard van ongeveer $\tau_b \approx 0.86$ .
- BayesR0@N (Bayesiaanse schatting met een empirische prior gebaseerd op greedy decoding) presteert het beste op de makkelijkere benchmarks (AIME, BrUMO) met $\tau_b \approx 0.78 - 0.86$ .
- Op de moeilijkste benchmark (HMMT'25) helpt de greedy prior niet meer en presteren veel methoden gelijkwaardig ( $\tau_b \approx 0.79$ ).
Effect van Empirische Priors:
- Het gebruik van een greedy prior (BayesR0@N) vermindert de variansie bij $N=1$ met 16–52%.
- Echter, dit introduceert een bias als greedy decoding en stochastische sampling niet overeenkomen (lage "greedy-sampling alignment"). Op moeilijke taken kan greedy decoding falen waar stochastische sampling wel slaagt, waardoor de prior de rangschikking verdraait.
Zelfconsistentie vs. Gouden Standaard: Er is een negatieve correlatie tussen hoe stabiel een methode is voor zichzelf (zelfconsistentie) en hoe goed het overeenkomt met de gouden standaard. Methoden die zeer stabiel zijn (zoals Nanson's rule) kunnen systematisch afwijken van de nauwkeurigheidsgebaseerde ranglijst.
Categorische Rangschikking: Methoden die rijke signalen gebruiken (zoals externe verificatie) zijn zeer zelfconsistent, maar wijken vaak af van de ranglijst gebaseerd op pure correctheid, vooral op moeilijke benchmarks.

5. Betekenis en Conclusie

Dit paper biedt een cruciale bijdrage aan de evaluatie van LLMs in het tijdperk van test-time scaling. De belangrijkste conclusies zijn:

Geen Universele "Beste" Methode: Hoewel veel methoden bij hoge budgetten overeenkomen, zijn er bij lage budgetten significante verschillen. Er is geen enkele methode die overal optimaal presteert.
Aanbeveling voor Praktijk:
- BayesU@N (gemiddelde nauwkeurigheid met Bayesiaanse smoothing) is een sterke, interpreteerbare standaardoptie.
- BayesR0@N (met greedy prior) is nuttig voor zeer lage budgetten, mits eerst wordt gecontroleerd of greedy decoding een betrouwbare proxy is voor de stochastische prestaties op de specifieke taak.
Stabiliteit is Sleutel: Voor praktische toepassingen met beperkte rekenkracht is het belangrijk om methoden te kiezen die snel convergeren en stabiel zijn, in plaats van alleen te kijken naar de asymptotische prestaties.
Open Science: De release van Scorio stelt onderzoekers in staat om rangschikkingen reproduceerbaar te maken en nieuwe methoden te testen in een gestandaardiseerd kader.

Kortom, het paper verlegt de focus van "welk model scoort het hoogst?" naar "hoe kunnen we modellen betrouwbaar rangschikken gezien de stochastische aard van moderne redenerende LLMs en de beperkingen in test-time compute?".