Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote groep chefs hebt die allemaal fantastische gerechten kunnen koken. Om te beslissen wie de beste is, laten we mensen proeven en vragen: "Welk gerecht vind je lekkerder?" Op basis van duizenden van deze proeverijen maken we een ranglijst (een leaderboard).

In de wereld van kunstmatige intelligentie (AI) gebeurt precies hetzelfde. Mensen vergelijken antwoorden van verschillende grote taalmodellen (zoals GPT-4, Claude, of Llama) en kiezen hun favoriet. De huidige ranglijsten zeggen ons dan: "Chef A is nummer 1, Chef B is nummer 2."

Maar hier zit een groot probleem, en dat is waar dit nieuwe onderzoek over gaat.

Het Probleem: De "Vaste" Ranglijst is een Illusie

Stel je voor dat Chef A een meester is in het bakken van taarten, maar Chef B de koning is van het maken van pittige curry's.

Als je ze vraagt om een taart te maken, wint Chef A.
Als je ze vraagt om een curry te maken, wint Chef B.

De huidige ranglijsten doen echter alsof er één vaste "beste chef" is, ongeacht wat je vraagt. Ze geven je één nummer, alsof Chef A altijd beter is dan Chef B. Dat is gevaarlijk, want het is alsof je een dokter kiest op basis van één cijfer, terwijl die dokter misschien alleen goed is in het behandelen van koude, maar slecht in het behandelen van brandwonden.

Bovendien zijn de proeverijen niet perfect. Soms kiezen mensen willekeurig, of is het verschil zo klein dat het toeval bepaalt wie er wint. De huidige lijsten negeren deze onzekerheid. Ze doen alsof het verschil tussen nummer 1 en nummer 2 heel groot en zeker is, terwijl het misschien gewoon geluk was.

De Oplossing: Een "Wolk" van Mogelijkheden

De auteurs van dit paper (Angel, Yufeng en Xiaowu) zeggen: "Laten we stoppen met het geven van één vast getal. Laten we in plaats daarvan zeggen: 'Bij dit specifieke verzoek is Chef A waarschijnlijk beter, maar we zijn niet 100% zeker. Het kan ook zijn dat ze gelijk zijn.'"

Ze gebruiken een slimme wiskundige methode om onzekerheidsmarges te berekenen.

De Analogie van de Weerkaart:

Huidige methode: De weersvoorspelling zegt: "Morgen is het 20 graden." (Alsof het zeker is).
Nieuwe methode: De weersvoorspelling zegt: "Morgen is het waarschijnlijk 20 graden, maar het kan ook 18 of 22 zijn. En als het regent, is de kans op 20 graden heel klein."

In hun onderzoek kijken ze naar twee dingen:

De Context (De Prompt): Wat is de vraag? Is het een korte vraag? Een heel lange vraag? Is het over wiskunde of over het schrijven van een gedicht?
De Onzekerheid: Hoe zeker zijn we dat de ene AI echt beter is dan de andere voor die specifieke vraag?

Wat Vonden Ze? (De Verbluffende Resultaten)

Toen ze dit toepasten op echte data van duizenden mensen die AI-modellen beoordeelden, zagen ze drie belangrijke dingen:

De winnaar hangt af van de vraag:
Een model dat goed is in wiskunde, kan slecht zijn in het schrijven van een creatief verhaal. De ranglijst verandert dus continu, afhankelijk van wat je vraagt. Er is geen "algemene winnaar" voor alles.
Veel verschillen zijn "onzichtbaar":
Vaak zeggen de oude lijsten: "Model X is nummer 1 en Model Y is nummer 5!" Maar als je naar de onzekerheid kijkt, zie je dat ze eigenlijk even goed zijn. Het verschil is zo klein dat het toeval kan zijn. De nieuwe methode zegt dan: "We kunnen ze niet van elkaar onderscheiden." In plaats van een valse ranglijst te maken, geven ze een gedeeltelijke ranglijst: "Deze twee zijn gelijk, en die twee zijn ook gelijk, maar we weten niet welke groep beter is."
Lange vragen maken alles onzeker:
Als je een AI een heel lange en complexe vraag stelt (bijvoorbeeld 1000 woorden lang), wordt het heel moeilijk om te zeggen welke beter is. De "wolk" van onzekerheid wordt zo groot dat de ranglijst volledig verdwijnt. In dat geval is het slimmer om te zeggen: "We weten het niet, kies maar een goedkope of snelle optie."

Waarom is dit belangrijk voor jou?

Stel je voor dat je een bedrijf runt en je moet kiezen welke AI je gebruikt om je klanten te helpen.

Met de oude methode: Je kiest "Model A" omdat het nummer 1 is op de lijst. Je denkt dat het altijd het beste is.
Met de nieuwe methode: Je ziet dat "Model A" alleen beter is voor korte vragen, maar "Model B" wint bij lange, complexe vragen. En voor sommige vragen zijn ze gewoon gelijk.

Dit voorkomt dat je geld verspilt aan het verkeerde model of dat je klanten een slechte ervaring geeft omdat je een model hebt gekozen dat niet goed is voor hun specifieke vraag.

Samenvatting in één zin

In plaats van te zeggen "Dit is de beste AI", zegt dit onderzoek: "Voor deze specifieke vraag is deze AI waarschijnlijk het beste, maar we zijn het niet helemaal zeker, en voor een andere vraag is het misschien een ander model."

Het is een overstap van zekerheid in een leugen (een vaste ranglijst) naar eerlijke onzekerheid (een slimme, contextuele ranglijst), zodat we betere beslissingen kunnen nemen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige rangschikkingen van Large Language Models (LLMs), zoals die op leaderboards worden gepresenteerd, zijn doorgaans gebaseerd op punt-schattingen (point estimates) van latent modelkwaliteit, afgeleid uit menselijke voorkeursdata (paarwise comparisons). Dit artikel identificeert twee fundamentele tekortkomingen in deze aanpak:

Statistische onzekerheid: Rangschikkingen worden vaak behandeld als vaste objecten, terwijl ze eigenlijk afgeleid zijn van ruisachtige menselijke oordelen en eindige steekproeven. Acteren op rangschikkingen zonder rekening te houden met onzekerheid kan leiden tot misallocatie en welvaartverlies, omdat schijnbare verschillen statistisch niet significant kunnen zijn.
Context-afhankelijkheid: De prestaties van LLMs zijn inherent afhankelijk van de input-prompt. Bestaande systemen attribueren vaak een enkele "globale" nuttigheid (utility) aan een model, wat variatie over verschillende prompt-typen (bijv. lengte, semantische categorie) verbergt. Dit kan leiden tot suboptimale beslissingen bij prompt-specifieke taken zoals routing of selectie.

Het doel van het artikel is een raamwerk te ontwikkelen voor prompt-afhankelijke rangschikkingsinferentie dat geldige statistische onzekerheidsgaranties biedt, zodat rangschikkingen veilig kunnen worden gebruikt als input voor downstream beslissingsmechanismen.

Methodologie

De auteurs ontwikkelen een statistisch raamwerk dat de volgende componenten omvat:

1. Contextuele Bradley-Terry-Luce (BTL) Model
In plaats van een vaste nuttigheid per model, wordt een contextuele BTL-maatstaf gebruikt. De latent nuttigheid $\theta_m(x)$ van model $m$ hangt af van een covariatenvector $x$ (de prompt-kenmerken, zoals lengte of categorie):
$\theta_m(x) = \beta_{0m} + x^\top \beta_m$
De kans dat model $j$ wordt verkozen boven model $i$ bij prompt $x$ is:
$P(y=1|x, (i,j)) = \frac{e^{\theta_j(x)}}{e^{\theta_j(x)} + e^{\theta_i(x)}}$

2. Schatting en Identificatie
De parameters worden geschat via constrained Maximum Likelihood Estimation (MLE) op basis van menselijke paarwise vergelijkingen. Omdat alleen nuttigheidsverschillen identificeerbaar zijn, worden normalisatievoorwaarden opgelegd (som van intercepts en coëfficiënten is nul) om een referentieniveau vast te stellen.

3. Inferentie op Rangschikkingen (Niet op Nuttigheid)
Een cruciale innovatie is dat de inferentie niet gericht is op de nuttigheidswaarden zelf, maar direct op de induceerde rangschikking. Omdat rangschikkingen niet-gladde functionals zijn van de nuttigheid (kleine veranderingen kunnen de volgorde drastisch wijzigen), zijn standaard methoden (zoals het combineren van marginale betrouwbaarheidsintervallen voor individuele nuttigheden) ongeldig of misleidend.

De auteurs construeren simultane betrouwbaarheidsintervallen voor de verschillen in nuttigheid ( $\theta_j(x) - \theta_i(x)$ ) voor alle paren.
Op basis van deze intervallen worden betrouwbaarheidsverzamelingen (confidence sets) voor de rangschikking afgeleid. Als het interval voor een verschil nul bevat, is de relatieve rangschikking statistisch "onopgelost" (unresolved), wat leidt tot een partieel geordende rangschikking in plaats van een geforceerde totale ordening.

4. Theoretische Garanties
Het artikel bewijst asymptotische normaliteit van de geschatte parameters en toont aan dat de geconstrueerde betrouwbaarheidsverzamelingen voor rangschikkingen de nominale dekking (coverage) garanderen ( $\geq 1-\alpha$ ), zowel marginaal (voor één model) als simultaan (voor alle modellen).

Belangrijkste Resultaten

De methode wordt getest op grote datasets met menselijke voorkeuren (o.a. Arena Human Preference dataset, ~140.000 vergelijkingen). De resultaten tonen aan dat:

Rangschikkingen variëren sterk per prompt: De prestatievolgorde van modellen verandert aanzienlijk afhankelijk van prompt-kenmerken zoals lengte en semantische categorie (bijv. "Code" vs. "Creatief Schrijven"). Een model dat goed scoort op korte prompts, kan slecht presteren op lange prompts.
Veel verschillen zijn statistisch niet significant: Veel rangverschillen die in traditionele leaderboards worden weergegeven, blijken niet statistisch onderscheidbaar te zijn wanneer onzekerheid wordt meegenomen. De betrouwbaarheidsintervallen voor de rang zijn vaak breed of dekken het volledige bereik van mogelijke rangen.
Identificatie van specialisatie: Het raamwerk kan modellen identificeren die statistisch significant domineren in specifieke contexten. Bijvoorbeeld:
- Grok-4 toont duidelijke dominantie bij prompts met een focus op "Specificity" en "Creativity".
- Qwen-Max excelleert bij "Code" en "Math" maar presteert slecht bij creatieve taken.
- Amazon Nova-pro en Llama-4 Maverick worden consequent slecht beoordeeld over alle categorieën heen.
Effect van promptlengte: Bij zeer lange prompts (boven ~1127 tokens) worden alle modellen statistisch ononderscheidbaar; de betrouwbaarheidsverzameling voor de rangschikking degradeert naar de volledige, oninformatieve reeks $[1, M]$ . Dit suggereert dat bij extreme promptlengtes de data geen onderbouwing biedt voor een specifieke volgorde.

Bijdragen

Formalisatie: Het formaliseren van prompt-afhankelijke rangschikking als een probleem van statistische inferentie, waarbij rangschikkingen worden behandeld als stochastische objecten in plaats van vaste samenvattingen.
Methodologische Innovatie: Het ontwikkelen van procedures voor het construeren van geldige marginale en simultane betrouwbaarheidsverzamelingen voor prompt-specifieke rangschikkingen, direct gebaseerd op intervallen voor nuttigheidsverschillen.
Empirisch Bewijs: Het aantonen dat onzekerheidsbewuste rangschikkingen de conclusies van bestaande leaderboards fundamenteel veranderen, waardoor beslissingen robuuster worden en overconfidentie wordt vermeden.

Significantie

Dit onderzoek heeft grote implicaties voor de economische en computationele besluitvorming rondom LLMs:

Betere Besluitvorming: Het biedt een principieel fundament voor het maken van beslissingen (zoals modelrouting of aankoop) die rekening houden met de onzekerheid in de data. In plaats van een arbitraire keuze te maken tussen modellen met ononderscheidbare prestaties, kan het systeem een "partieel geordende" keuze maken of besluiten om op basis van andere criteria (zoals kosten of latentie) te kiezen.
Realistisch Beeld: Het weerlegt het idee van een universele, vaste "beste" LLM. Het benadrukt dat prestaties context-afhankelijk zijn en dat leaderboards die dit negeren, misleidend kunnen zijn.
Toekomstige Richtingen: Het opent de deur voor adaptieve evaluatiemechanismen en routing-systemen die onzekerheid expliciet integreren, wat essentieel is voor het schalen van betrouwbare AI-systemen in heterogene omgevingen.

Kortom, het artikel pleit ervoor om onzekerheid niet als een bijproduct, maar als een centraal element te behandelen bij het evalueren en inzetten van Large Language Models.

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Het Probleem: De "Vaste" Ranglijst is een Illusie

De Oplossing: Een "Wolk" van Mogelijkheden

Wat Vonden Ze? (De Verbluffende Resultaten)

Waarom is dit belangrijk voor jou?

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Significantie

Meer zoals dit

Smart Learning to Find Dumb Contracts (Extended Version)

QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources

Optimization over Trained (and Sparse) Neural Networks: A Surrogate within a Surrogate

Optimizing Binary and Ternary Neural Network Inference on RRAM Crossbars using CIM-Explorer

Code Roulette: How Prompt Variability Affects LLM Code Generation