Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom LLM's niet goed kunnen tellen (en waarom dat uitmaakt)

Stel je voor dat je een robot vraagt: "Hoe zeker ben je van je antwoord?" De robot zegt dan vaak: "Ik ben 95% zeker." Of misschien "100%".

Deze nieuwe studie laat zien dat er iets vreemds aan de hand is met die cijfers. Het is alsof de robot niet echt nadenkt over zijn zekerheid, maar gewoon een getal kiest dat hij leuk vindt om te zeggen.

Hier is de uitleg in simpele taal, met een paar handige vergelijkingen.

1. Het probleem: De "Ronde Getallen"-verslaving

Wanneer we een AI vragen om een zekerheidsscore te geven tussen 0 en 100, denken we dat het een fijne lijn is. Je kunt 42% zeggen, of 73%, of 88%.

Maar de studie ontdekt dat de AI's dit niet doen. Ze gedragen zich alsof ze een muntkast hebben met alleen ronde munten.

In plaats van een heel scala aan getallen te gebruiken, kiezen ze bijna altijd voor 90, 95 of 100.
Het is alsof je iemand vraagt om een temperatuur te schatten, maar die persoon zegt alleen maar "30 graden", "35 graden" of "40 graden", nooit "32 graden".

De metafoor:
Stel je voor dat je een schilderij moet maken met 100 verschillende tinten blauw. De AI's gebruiken echter maar 3 of 4 specifieke tinten en proberen die over het hele canvas te verspreiden. Het resultaat ziet er niet uit als een zachte overgang, maar als een paar vlekken. Dit heet in de studie "discretisatie" (het opdelen in hokjes), maar in het Nederlands kunnen we het "de ronde-getallen-trap" noemen.

2. De oplossing: Geef ze een kleinere schaal

De onderzoekers dachten: "Misschien is het probleem dat de schaal van 0 tot 100 te groot is. Het is te veel keuze voor de AI."

Dus deden ze een experiment. Ze gaven de AI's een schaal van 0 tot 20 in plaats van 0 tot 100.

Het resultaat: De AI's werden plotseling veel beter in het inschatten van hun eigen fouten. Ze gaven eerlijker antwoorden.
Waarom? Met een schaal van 0-20 zijn er minder "verleidelijke" ronde getallen om naar te grijpen. De AI moet zich meer concentreren op de vraag zelf, in plaats van op het kiezen van een mooi getal.

De metafoor:
Stel je voor dat je een kind vraagt om de lengte van een boom te raden.

Schaal 0-100: Het kind denkt: "Ik weet het niet, maar 95 klinkt als een goed, groot getal." (Het raden van een getal).
Schaal 0-20: Het kind moet nadenken: "Is de boom 15 meter of 18 meter?" Hierdoor wordt het antwoord nauwkeuriger.

3. De valkuil: De "Plafond"-val

De onderzoekers probeerden ook de schaal te veranderen. Wat als we zeggen: "Geef een score tussen 60 en 100"? (Dus 0 is niet meer mogelijk, het minimum is 60).

Je zou denken dat de AI dan zijn antwoorden zou spreiden tussen 60 en 100. Maar nee!

De AI's bleven zich ophopen tegen het plafond (de 100).
Het was alsof je iemand vraagt om te rennen in een kamer van 10 meter, maar ze blijven tegen de muur staan omdat ze gewend zijn om daar te staan.

De metafoor:
Het is alsof je een thermometer hebt die alleen van 60 tot 100 graden gaat. Als het 65 graden is, zegt de thermometer misschien nog steeds "100", omdat de AI gewend is dat "100" het woord is voor "ik ben heel zeker". Ze begrijpen niet dat het gebied is veranderd.

4. Waarom is dit belangrijk?

Voor nu denken veel mensen dat als een AI zegt "Ik ben 95% zeker", dat een betrouwbare maatstaf is. Deze studie zegt: Nee, dat is niet waar.

De manier waarop we de AI vragen om te tellen, bepaalt het antwoord meer dan de AI's eigen kennis.

Als je de AI vraagt op een schaal van 0-100 te antwoorden, krijg je een verkeerd beeld van hoe slim of onzeker ze echt zijn.
Als je ze vraagt op een schaal van 0-20 te antwoorden, krijg je een eerlijker beeld.

De conclusie voor de gewone mens

De onderzoekers zeggen: "Stop met het standaard vragen van 'Hoe zeker ben je (0-100)?'."

In plaats daarvan zouden ontwikkelaars van AI-systemen moeten zeggen: "Geef een score van 0 tot 20."

0 = Ik gok maar wat.
20 = Ik ben 100% zeker.

Door de schaal kleiner te maken, dwingen we de AI om minder te "gokken" met mooie ronde getallen en meer na te denken over wat ze echt weten. Het is een simpele truc die de betrouwbaarheid van onze digitale helpers enorm kan verbeteren.

Kort samengevat:
AI's zijn niet goed in het kiezen van een willekeurig getal tussen 0 en 100. Ze houden van ronde getallen. Als je ze een kleinere, strakkere schaal geeft (zoals 0-20), worden ze eerlijker en betrouwbaarder. Het is alsof je een kind een kleinere doos met kleurtjes geeft; dan maakt het minder gekke keuzes en tekent het een beter plaatje.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Rescaling Confidence: What Scale Design Reveals About LLM Metacognition" in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker geïntegreerd in besluitvormingsprocessen, waarbij het betrouwbaar inschatten van hun onzekerheid cruciaal is. In "black-box" scenario's is verbaliseerde confidentie (waarbij een model een numerieke zekerheidsscore rapporteert via prompting) de dominante methode. Echter, de huidige standaardpraktijk gaat er ten onrechte van uit dat de confidentieschaal (typisch 0–100) een neutraal instrument is.

Het paper identificeert een fundamenteel probleem: Confidentie-discretisatie. LLMs gebruiken de 0–100 schaal niet als een continu spectrum, maar clusteren hun antwoorden sterk rond een klein aantal "ronde" getallen (zoals 90, 95, 100).

Meer dan 78% van alle antwoorden valt samen op slechts drie ronde waarden.
Deze discretisatie vervormt standaard kalibratiemetrics zoals de Expected Calibration Error (ECE), omdat de meeste bins in de verdeling leeg of zeer schaars zijn.
De vraag is of het ontwerp van de schaal zelf (granulariteit, grenzen, bereik) de kwaliteit van het metacognitieve signaal beïnvloedt.

Methodologie

De auteurs voeren de eerste systematische empirische studie uit naar het ontwerp van confidentieschalen voor LLM-metacognitie. Ze manipuleren de schaal $S = [l, u]$ langs drie orthogonale dimensies:

Granulariteit (G): Variatie in het aantal beschikbare discrete responscategorieën: $[0, 5], [0, 10], [0, 20], [0, 50], [0, 100]$ .
Grenswaarde-verschuiving (B): De bovenste grens wordt vastgehouden op 100, terwijl de onderste grens wordt verhoogd: $[0, 100], [20, 100], [40, 100], [60, 100]$ . Dit test het "anker-effect".
Niet-standaard bereiken (N): Schalen met onregelmatige grenzen om te testen of modellen semantisch begrip hebben van het bereik of alleen reageren op token-frequenties. Voorbeelden: $[0, 73], [14, 86], [3, 38]$ .

Experimentele Opzet:

Modellen: 6 LLMs (GPT-5.2, Gemini 3.1 Pro, LLaMA-4-familie, Qwen3-familie).
Datasets: MMLU (kennis), GSM8K (wiskunde), TruthfulQA (misvattingen).
Prompting: Standaard zero-shot prompts met semantische ankers ("geen vertrouwen" vs. "absolute zekerheid") die constant worden gehouden.
Evaluatiemetrics:
- Meta-d' (meta-d prime): Een metric uit de Signaaldetectietheorie (SDT) die de metacognitieve gevoeligheid meet (hoe goed het model correcte van incorrecte antwoorden onderscheidt op basis van eigen confidentie), onafhankelijk van responsbias.
- $M_{ratio}$ : De verhouding $meta-d' / d'$ , die de efficiëntie van het metacognitieve systeem normaliseert voor taakmoeilijkheid.
- ECE en AUROC: Voor kalibratie en rangschikking, hoewel ECE kwetsbaar is voor discretisatie.
- Diagnostische metrics: "Round" (aandeel ronde getallen) en "Viol." (aandeel antwoorden buiten het geldige bereik).

Belangrijkste Resultaten

Confidentie-discretisatie is wijdverbreid:
Onder de standaard $[0, 100]$ schaal concentreren alle modellen hun antwoorden op een paar waarden. Bijvoorbeeld, Gemini 3.1 Pro geeft in 68,4% van de gevallen een score van 100. De entropie van de verdeling is extreem laag (0,95 tot 1,88 bits tegenover 6,66 bits voor een uniforme verdeling).
De "Sweet Spot" van Granulariteit ( $[0, 20]$ ):
Er is een consistente niet-monotone relatie tussen schaalgranulariteit en metacognitieve prestaties.
- De $[0, 20]$ schaal presteert consistent beter dan de standaard $[0, 100]$ schaal in termen van $meta-d'$ en $M_{ratio}$ voor alle geteste modellen.
- Fijnere schalen ( $[0, 100]$ ) leiden tot meer ruis en token-bias, terwijl grovere schalen ( $[0, 5]$ ) niet genoeg resolutie bieden.
- De $[0, 20]$ schaal verhoogt de metacognitieve efficiëntie met significante marges (bijv. GPT-5.2: 0,92 $\to$ 0,95).
Grenswaarde-verschuiving degradeert prestaties:
Wanneer het bereik wordt samengedrukt (bijv. $[60, 100]$ ), falen modellen om hun vertrouwen over het nieuwe bereik te herverdelen. In plaats daarvan clusteren ze nog sterker rond de bovenste grens (het plafond). Dit resulteert in een drastische daling van $M_{ratio}$ (bijv. Qwen3-235B daalt van 0,78 naar 0,55).
Beperkt semantisch begrip van bereiken:
Zelfs bij niet-standaard schalen (zoals $[0, 73]$ of $[3, 38]$ ) blijven modellen de voorkeur geven aan ronde getallen (veelvouden van 5).
- Bij de zeer smalle schaal $[3, 38]$ (weinig ronde ankers) stijgt het percentage antwoorden buiten het geldige bereik aanzienlijk (tot 21,2% bij Qwen3-30B), wat aantoont dat modellen de instructie over het bereik negeren ten gunste van hun interne token-preferenties.
- De waarde "100" fungeert als een extreem sterk anker; zelfs een kleine verschuiving naar $[0, 97]$ leidt tot een daling in prestaties.

Bijdragen en Significatie

Ontdekking van Discretisatie: Het paper vestigt vast dat verbaliseerde confidentie in LLMs grotendeels wordt bepaald door token-niveau bias (de statistische prevalentie van bepaalde getallen in de trainingsdata) in plaats van een continu intern schatting van onzekerheid.
Optimalisatie van Schaalontwerp: Het identificeert de $[0, 20]$ schaal als een robuust alternatief voor de standaard $[0, 100]$ schaal, wat leidt tot betere metacognitieve signalen en betrouwbaardere kalibratie.
Methodologische Vooruitgang: Het introduceert het gebruik van meta-d' als een essentiële metric voor LLM-evaluatie, omdat deze minder gevoelig is voor discretisatie-artefacten dan ECE.
Praktische Richtlijnen: De auteurs adviseren:
1. Gebruik een $[0, 20]$ schaal in plaats van $[0, 100]$ voor betere metacognitie.
2. Rapporteer altijd $meta-d'$ naast ECE.
3. Inspecteer empirische confidentieverdelingen voordat kalibratiemetrics worden geïnterpreteerd.

Conclusie:
Het ontwerp van de confidentieschaal is geen neutrale keuze, maar een kritische experimentele variabele. Huidige standaarden (0–100) introduceren systematische bias die de kwaliteit van onzekerheidsschattingen vermindert. Door de schaal te herontwerpen (bijv. naar 0–20), kunnen ontwikkelaars de metacognitieve capaciteiten van LLMs aanzienlijk verbeteren en het risico op misplaatst vertrouwen in AI-systemen verminderen.

Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

1. Het probleem: De "Ronde Getallen"-verslaving

2. De oplossing: Geef ze een kleinere schaal

3. De valkuil: De "Plafond"-val

4. Waarom is dit belangrijk?

De conclusie voor de gewone mens

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem