Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een AI kunt "lezen" zonder hem te laten praten: Een reis door de verrassingscurve

Stel je voor dat je een grote, slimme robot hebt die alles over de wereld lijkt te weten. Je wilt weten of hij echt begrijpt wat hij zegt, of dat hij gewoon plagerig is en zomaar wat uit zijn duim zuigt.

De oude manier om dit te testen was als een schoolexamen: je gaf de robot een vraag en vroeg hem om een antwoord te schrijven.
"Wat is de hoofdstad van Frankrijk?"
De robot schreef: "Parijs."
Klaar. Maar hier zit een addertje onder het gras: de robot kan een heel mooi verhaal bedenken om zijn antwoord te verdedigen, zelfs als hij het eigenlijk niet weet. Het is alsof hij een betoog schrijft om te bewijzen dat hij slim is, terwijl hij misschien gewoon giswerk doet.

De nieuwe methode: Luisteren naar de "prikkel" in de robot

Andrew Katz, de auteur van dit paper, heeft een slimme, nieuwe manier bedacht. In plaats van de robot te laten praten, kijkt hij naar hoe de robot voelt bij verschillende woorden.

Hij gebruikt een concept uit de wiskunde dat "surprisal" (verassing) heet.

Als je iets verwacht, is de verrassing nul. (Je verwacht dat een appel rood is).
Als je iets onverwachts hoort, is de verrassing hoog. (Je hoort dat een appel blauw is).

De robot heeft een intern "geheugen" waarin hij weet wat waarschijnlijk is. De auteur meet niet wat de robot zegt, maar hoe verrast de robot is als hij een bepaald woord ziet komen.

De Analogie: De Scherpe Bergtop

Stel je voor dat je een berg beklimt. De hoogte van de berg is de "verassing".

Een duidelijk antwoord: Als je vraagt of "regens" water zijn, is de berg voor het woord "Ja" heel laag (geen verrassing). De berg voor "Nee" is heel hoog (grote verrassing). De robot weet het zeker.
Een twijfelachtig antwoord: Als je vraagt of "studeren" altijd leidt tot "goede cijfers", is de berg voor "Ja" niet heel laag, en de berg voor "Nee" ook niet heel hoog. De robot staat op een vlakke heuveltop. Hij twijfelt.

De "Verrassingscurve" (Surprisal Curve)

De auteur laat de robot niet kiezen tussen "Ja" of "Nee". Hij vraagt de robot om een cijfer te geven op een schaal van 1 tot 9 (zoals een enquête).
Vervolgens meet hij de verrassing voor elk cijfer op die schaal.

Een scherpe piek: Als de curve eruitziet als een scherpe bergtop (bijvoorbeeld heel laag bij cijfer 5, en heel hoog bij de rest), weet de robot precies wat hij denkt. Hij is zeker.
Een vlakke kom: Als de curve eruitziet als een vlakke kom of een brede heuvel, weet de robot het niet precies. Hij is onzeker.

Dit is de magische kracht: je krijgt niet alleen het antwoord, maar ook een meting van hoe zeker de robot is, zonder dat hij ooit een zin hoeft te schrijven.

Wat hebben ze getest?

De auteur heeft deze methode getest op vier verschillende gebieden, alsof hij de robot op vier verschillende sportvelden heeft laten spelen:

De "Drie-Werelden" Test (SETS):
- De taak: Is een "spring" (veer) een sociaal, ecologisch of technisch ding?
- Het resultaat: Als je zegt "de veer in de auto", denkt de robot: "Technisch!" (Lage verrassing bij technisch). Als je zegt "de lente in de tuin", denkt hij: "Ecologisch!" (Lage verrassing bij ecologisch). De robot kan de betekenis van woorden in context onderscheiden.
De "Oorzaak en Gevolg" Test:
- De taak: Is er een echt oorzaak-gevolg verband? "Regen veroorzaakt overstromingen" (Ja) vs. "IJsjes worden verkocht als het warm is" (Misschien, dat is alleen een verband).
- Het resultaat: Bij duidelijke oorzaak-gevolg verbanden is de curve scherp. Bij verbanden die niet zeker zijn, wordt de curve vlakker. De robot weet wanneer hij moet twijfelen.
De "Metafoor" Test:
- De taak: Is dit letterlijk of figuurlijk? "De woorden hingen in de lucht" (Figuurlijk) vs. "De vlag hing in de lucht" (Letterlijk).
- Het resultaat: De robot merkt het verschil op, zelfs als de woorden bijna hetzelfde zijn. Hij voelt de "verrassing" van de betekenis, niet alleen van de letters.
De "Codeer" Test:
- De taak: Een onderzoeker moet teksten van mensen in categorieën plaatsen (bijv. "Frustratie" of "Veiligheid").
- Het resultaat: De robot kan helpen bepalen of een tekst past bij een categorie, en laat zien hoe zeker hij is. Als de tekst vaag is, wordt de onzekerheid (de vlakke kom) zichtbaar.

Waarom is dit geweldig?

Snelheid: Je hoeft geen lange antwoorden te laten genereren. Je kijkt alleen naar de cijfertjes in de computer. Dit is veel sneller en goedkoper.
Eerlijkheid: Je ziet de twijfel van de robot. Als hij een fout maakt maar denkt dat hij zeker is (een scherpe piek op het verkeerde antwoord), kun je dat zien. Als hij twijfelt (een vlakke kom), weet je dat hij hulp nodig heeft.
Geen "oplichterij": De robot kan geen mooi verhaal bedenken om zijn fout te verstoppen. Je ziet direct wat er in zijn "hoofd" gebeurt.

De Grootte van de Robot telt
De studie toonde ook aan dat grotere robots (meer "hersencellen") over het algemeen beter zijn. Maar soms is een kleinere robot, als hij goed getraind is, juist slimmer dan een grote die niet goed is getraind. En soms helpt het om de robot meer context te geven, en soms juist niet!

Conclusie

Deze paper zegt eigenlijk: "Stop met de robot te laten praten om te testen of hij slim is. Kijk in plaats daarvan naar hoe hij reageert op de woorden die jij kiest."

Het is alsof je niet vraagt of iemand een appel kan herkennen, maar je kijkt naar hoe snel zijn ogen oplichten als hij de appel ziet. Dat geeft je een veel eerlijker en sneller beeld van wat hij echt weet.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor het evalueren van Large Language Models (LLM's) hebben aanzienlijke beperkingen:

Prompting-gebaseerde evaluatie: Het vragen aan een model om antwoorden te genereren (vaak met redeneringsketens) is rekenkundig duur, kan leiden tot post-hoc rationalisaties (waarbij het model een plausibel verhaal bedenkt dat niet overeenkomt met de interne beslissingsprocessen) en verworpt informatie over modelonzekerheid.
Beperking van Minimal Pairs: De bestaande "minimal pairs"-paradigma (het vergelijken van de waarschijnlijkheid van twee tegenstrijdige zinnen) is voornamelijk beperkt tot binaire grammaticale oordelen (grammaticaal vs. ongrammaticaal) binnen taalkundige fenomenen.
Gebrek aan onzekerheidskwantificering: Standaard evaluaties leveren vaak alleen een binair ja/nee of een enkel getal op, zonder inzicht in hoe zeker het model is van zijn antwoord. Dit is problematisch voor toepassingen met hoge risico's.

Het artikel stelt dat er een behoefte is aan een methode die de interne representaties van modellen efficiënt kan aflezen zonder tekstgeneratie, en die inzicht biedt in zowel de voorkeur als de onzekerheid van het model.

Methodologie: Surprisal-gebaseerde Evaluatie

De auteur introduceert een raamwerk dat de "minimal pairs"-methode uitbreidt naar ordinaire schalen en toegepaste classificatietaken.

Surprisal (Verrassing):
- Gedefinieerd als de negatieve log-probabiliteit van een token gegeven een context: $S(x) = -\log P(x)$ .
- In plaats van het model te vragen een antwoord te genereren, meet de auteur de surprisal van het model voor specifieke tokens die een antwoord vertegenwoordigen (bijv. de cijfers 1 t/m 5 of 1 t/m 9).
- De token met de laagste surprisal wordt beschouwd als de meest "natuurlijke" of verwachte respons van het model.
Van Binair naar Ordinaal:
- Traditionele minimal pairs vergelijken twee opties (A vs. B).
- Deze studie meet surprisal voor elk punt op een ordinaire schaal (bijv. 1-5 of 1-9).
- Dit resulteert in een surprisal-curve over de hele schaal. De vorm van deze curve geeft meer informatie dan een enkel punt:
  - Een steile curve duidt op hoge zekerheid.
  - Een vlakke curve duidt op onzekerheid.
  - Meerdere minima kunnen wijzen op echte ambiguïteit.
Kwantificering van Onzekerheid via Entropie:
- Door de surprisal-waarden over de geselecteerde tokens te renormaliseren tot een geldige kansverdeling, kan de entropie ( $H$ ) worden berekend.
- $H = -\sum P(x) \log P(x)$ .
- Hoge entropie duidt op echte ambiguïteit in de taak (het model is verdeeld), terwijl lage entropie duidt op een sterke voorkeur (hoge zekerheid), ongeacht of het antwoord correct is.
Experimenteel Ontwerp:
- De methode wordt getest op vier domeinen: SETS-classificatie, causale redenering, figuurlijke taalherkenning en deductieve kwalitatieve codering.
- Er wordt gevarieerd met contextniveaus (geen context, minimale definitie, volledige achtergrond) en modelgroottes (Qwen2.5 familie: 3B, 7B, 14B).

Belangrijkste Bijdragen

Uitbreiding van Minimal Pairs: Het paradigma wordt uitgebreid van binaire grammaticale oordelen naar ordinaire schalen (1-5, 1-9) die gradaties van vertrouwen en nuance kunnen vastleggen.
Toepassing op Toegepaste Domeinen: De methode wordt succesvol toegepast op niet-taalkundige taken zoals het classificeren van systemen (sociaal-ecologisch-technisch), het identificeren van causale relaties en het coderen van kwalitatieve data.
Efficiëntie: De methode vereist slechts één forward pass om de log-probabiliteiten (logits) van een klein aantal tokens te lezen, wat veel efficiënter is dan het genereren van volledige tekstreacties.
Onafhankelijkheid van Generatie: Het omzeilt het probleem van "post-hoc rationalisatie" door direct naar de onderliggende waarschijnlijkheidsverdeling te kijken in plaats van naar het gegenereerde verbaal antwoord.

Resultaten

De experimenten met Qwen2.5-modellen leverden de volgende inzichten op:

Interpreteerbare Signalen: De surprisal-curves vertoonden duidelijke minima op de verwachte schaalposities. Bij heldere gevallen (bijv. "zware regen veroorzaakt overstroming") was de curve monotoon dalend naar de juiste score, wat interne consistentie aangeeft.
Onzekerheid vs. Fouten:
- Bij genuinely ambiguïteit (bijv. correlaties die niet per se causaal zijn) vertoonden de modellen vlakke curves met hoge entropie.
- Bij fouten (bijv. een klein model dat een software-bug als biologisch interpreteert) vertoonden de modellen vaak lage entropie (hoge zekerheid) maar een verkeerd antwoord. Dit suggereert dat entropie nuttig is om echte twijfel te onderscheiden van zelfverzekerde fouten.
Invloed van Modelgrootte: Grotere modellen (14B) presteerden over het algemeen beter en waren beter in staat om contextuele nuances te onderscheiden (bijv. het onderscheid tussen "virus" als computerprogramma en biologisch virus).
Invloed van Context:
- Voor kleinere modellen (3B) verbeterde het toevoegen van context de prestaties aanzienlijk.
- Voor grotere modellen (14B) had extra context soms weinig effect of zelfs een negatief effect op de discriminatie, wat suggereert dat ze al voldoende interne kennis hebben en dat extra instructies de verdeling kunnen verstoren.
Figuurlijke Taal: Het model kon figuurlijke taal (metaforen) onderscheiden van letterlijke taal op basis van surprisal-curves, waarbij de 14B base-modellen de beste prestaties leverden (95% discriminatie).

Betekenis en Toekomstperspectief

Dit onderzoek biedt een principieel alternatief voor traditionele prompting-evaluaties:

Efficiëntie: Het is veel sneller en goedkoper dan het genereren van tekst.
Onzekerheidsbewustzijn: Het biedt een directe maatstaf voor onzekerheid (via entropie) zonder dat het model zelf moet rapporteren over zijn vertrouwen (wat vaak slecht gekalibreerd is).
Toepassingsbereik: Het is bruikbaar voor kwalitatieve data-analyse, bias-detectie en het evalueren van feitelijke kennis zonder de beperkingen van tekstgeneratie.

Beperkingen en Toekomstig Werk:

De methode is afhankelijk van toegang tot token-level log-probabiliteiten, wat niet altijd beschikbaar is bij gesloten API-modellen.
Er is nog geen directe vergelijking gemaakt met standaard prompting-methoden op dezelfde taken.
De interpretatie van "surprisal als geloof" is filosofisch complex; het meet statistische associaties, niet noodzakelijk bewustzijn.
Toekomstig werk moet zich richten op systematische kalibratiestudies en het onderzoeken van de relatie tussen entropie en menselijke beoordeling van moeilijkheid.

Kortom, het paper pleit voor een verschuiving van "vragen en genereren" naar "meten van verrassing" als een robuuste, efficiënte en onzekerheidsbewuste manier om de interne kennis van LLM's te evalueren.

Extending Minimal Pairs with Ordinal Surprisal Curves and Entropy Across Applied Domains

Probleemstelling

Methodologie: Surprisal-gebaseerde Evaluatie

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration