Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Deze paper introduceert een framework voor prompt-afhankelijke rangschikkingen van grote taalmodellen dat, in plaats van op vaste puntenschattingen, vertrouwen op statistisch valide onzekerheidsintervallen om betrouwbare en veilige beslissingen te ondersteunen.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote groep chefs hebt die allemaal fantastische gerechten kunnen koken. Om te beslissen wie de beste is, laten we mensen proeven en vragen: "Welk gerecht vind je lekkerder?" Op basis van duizenden van deze proeverijen maken we een ranglijst (een leaderboard).

In de wereld van kunstmatige intelligentie (AI) gebeurt precies hetzelfde. Mensen vergelijken antwoorden van verschillende grote taalmodellen (zoals GPT-4, Claude, of Llama) en kiezen hun favoriet. De huidige ranglijsten zeggen ons dan: "Chef A is nummer 1, Chef B is nummer 2."

Maar hier zit een groot probleem, en dat is waar dit nieuwe onderzoek over gaat.

Het Probleem: De "Vaste" Ranglijst is een Illusie

Stel je voor dat Chef A een meester is in het bakken van taarten, maar Chef B de koning is van het maken van pittige curry's.

  • Als je ze vraagt om een taart te maken, wint Chef A.
  • Als je ze vraagt om een curry te maken, wint Chef B.

De huidige ranglijsten doen echter alsof er één vaste "beste chef" is, ongeacht wat je vraagt. Ze geven je één nummer, alsof Chef A altijd beter is dan Chef B. Dat is gevaarlijk, want het is alsof je een dokter kiest op basis van één cijfer, terwijl die dokter misschien alleen goed is in het behandelen van koude, maar slecht in het behandelen van brandwonden.

Bovendien zijn de proeverijen niet perfect. Soms kiezen mensen willekeurig, of is het verschil zo klein dat het toeval bepaalt wie er wint. De huidige lijsten negeren deze onzekerheid. Ze doen alsof het verschil tussen nummer 1 en nummer 2 heel groot en zeker is, terwijl het misschien gewoon geluk was.

De Oplossing: Een "Wolk" van Mogelijkheden

De auteurs van dit paper (Angel, Yufeng en Xiaowu) zeggen: "Laten we stoppen met het geven van één vast getal. Laten we in plaats daarvan zeggen: 'Bij dit specifieke verzoek is Chef A waarschijnlijk beter, maar we zijn niet 100% zeker. Het kan ook zijn dat ze gelijk zijn.'"

Ze gebruiken een slimme wiskundige methode om onzekerheidsmarges te berekenen.

De Analogie van de Weerkaart:

  • Huidige methode: De weersvoorspelling zegt: "Morgen is het 20 graden." (Alsof het zeker is).
  • Nieuwe methode: De weersvoorspelling zegt: "Morgen is het waarschijnlijk 20 graden, maar het kan ook 18 of 22 zijn. En als het regent, is de kans op 20 graden heel klein."

In hun onderzoek kijken ze naar twee dingen:

  1. De Context (De Prompt): Wat is de vraag? Is het een korte vraag? Een heel lange vraag? Is het over wiskunde of over het schrijven van een gedicht?
  2. De Onzekerheid: Hoe zeker zijn we dat de ene AI echt beter is dan de andere voor die specifieke vraag?

Wat Vonden Ze? (De Verbluffende Resultaten)

Toen ze dit toepasten op echte data van duizenden mensen die AI-modellen beoordeelden, zagen ze drie belangrijke dingen:

  1. De winnaar hangt af van de vraag:
    Een model dat goed is in wiskunde, kan slecht zijn in het schrijven van een creatief verhaal. De ranglijst verandert dus continu, afhankelijk van wat je vraagt. Er is geen "algemene winnaar" voor alles.

  2. Veel verschillen zijn "onzichtbaar":
    Vaak zeggen de oude lijsten: "Model X is nummer 1 en Model Y is nummer 5!" Maar als je naar de onzekerheid kijkt, zie je dat ze eigenlijk even goed zijn. Het verschil is zo klein dat het toeval kan zijn. De nieuwe methode zegt dan: "We kunnen ze niet van elkaar onderscheiden." In plaats van een valse ranglijst te maken, geven ze een gedeeltelijke ranglijst: "Deze twee zijn gelijk, en die twee zijn ook gelijk, maar we weten niet welke groep beter is."

  3. Lange vragen maken alles onzeker:
    Als je een AI een heel lange en complexe vraag stelt (bijvoorbeeld 1000 woorden lang), wordt het heel moeilijk om te zeggen welke beter is. De "wolk" van onzekerheid wordt zo groot dat de ranglijst volledig verdwijnt. In dat geval is het slimmer om te zeggen: "We weten het niet, kies maar een goedkope of snelle optie."

Waarom is dit belangrijk voor jou?

Stel je voor dat je een bedrijf runt en je moet kiezen welke AI je gebruikt om je klanten te helpen.

  • Met de oude methode: Je kiest "Model A" omdat het nummer 1 is op de lijst. Je denkt dat het altijd het beste is.
  • Met de nieuwe methode: Je ziet dat "Model A" alleen beter is voor korte vragen, maar "Model B" wint bij lange, complexe vragen. En voor sommige vragen zijn ze gewoon gelijk.

Dit voorkomt dat je geld verspilt aan het verkeerde model of dat je klanten een slechte ervaring geeft omdat je een model hebt gekozen dat niet goed is voor hun specifieke vraag.

Samenvatting in één zin

In plaats van te zeggen "Dit is de beste AI", zegt dit onderzoek: "Voor deze specifieke vraag is deze AI waarschijnlijk het beste, maar we zijn het niet helemaal zeker, en voor een andere vraag is het misschien een ander model."

Het is een overstap van zekerheid in een leugen (een vaste ranglijst) naar eerlijke onzekerheid (een slimme, contextuele ranglijst), zodat we betere beslissingen kunnen nemen.