Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een schoolmeester bent die een klas van slimme, maar soms verwarde leerlingen (AI-modellen) controleert. Tot nu toe keek je alleen naar het eindcijfer: "Hoeveel vragen heeft de leerling goed?" Als een leerling 83% goed had, was dat een goed cijfer. Maar deze nieuwe paper, geschreven door Datorien L. Anderson, zegt: "Wacht even, dat cijfer vertelt ons niet het hele verhaal."

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Zekerheidsval"

Stel je voor dat je een leerling hebt die een moeilijke quiz maakt.

Leerling A weet het antwoord niet zeker, zegt: "Ik weet het niet," en raadt dan. Hij heeft het fout, maar hij was eerlijk over zijn twijfel.
Leerling B weet het ook niet zeker, maar schreeuwt: "Het is ZEKER antwoord X!" terwijl het antwoord Y is. Hij heeft het ook fout, maar hij was zeker van zijn fout.

In de oude manier van testen (standaard AI-metingen) worden beide leerlingen even slecht beoordeeld. Ze hebben allebei een fout gemaakt.
Maar in de echte wereld is Leerling B veel gevaarlijker. Als een zelfrijdende auto "zeker" denkt dat er geen auto aan komt, terwijl er wel een is, is dat een ramp. Als hij twijfelt en remt, is dat veilig.

De auteurs zeggen: voor slimme systemen die keuzes moeten maken (discrete commitment systemen), is zekerheid belangrijker dan alleen maar het juiste antwoord.

2. De Oplossing: De "Zekerheid-Validiteit" (CVS)

De auteurs hebben een nieuwe meetlat bedacht, de Certainty-Validity Score (CVS). Ze kijken niet alleen naar het eindcijfer, maar naar een matrix met vier vakjes:

Zeker & Goed: De leerling weet het en heeft gelijk. (Perfect!)
Twijfelend & Goed: De leerling twijfelt, maar heeft toch gelijk. (Oké, maar niet optimaal).
Twijfelend & Fout: De leerling zegt "Ik weet het niet" en raadt het verkeerd. (Dit is geen fout! Dit is slim gedrag. De leerling is eerlijk.)
Zeker & Fout: De leerling schreeuwt "IK WEET HET!" terwijl hij het verkeerd heeft. (Dit is gevaarlijk. Dit noemen ze "hallucineren".)

De paper zegt: Leerling 3 is een succes, Leerling 4 is een mislukking.

3. Het mysterie van het "83%-plafond"

De onderzoekers merkten iets raars op hun modellen. Of ze nu foto's van kleding (Fashion-MNIST) of filmrecensies (IMDB) bekeken, de modellen stopten altijd rond de 83%. Ze konden niet hoger komen, hoe hard ze ook oefenden.

De oude theorie was: "Het model is niet slim genoeg."
De nieuwe theorie (met de nieuwe meetlat) is: Het model is te slim voor zijn eigen bestwil.

De Analoge: Stel je voor dat je een kledingwinkel hebt. 83% van de kledingstukken is heel duidelijk: een broek, een jurk, een tas. Die zijn makkelijk te herkennen.
Maar 17% van de kleding is heel verwarrend: een trui, een overhemd en een jas lijken precies hetzelfde (allemaal een rechthoek met mouwen).
Het slimme model zegt: "Ik zie geen duidelijk verschil tussen deze trui en deze jas. Ik ga geen gok wagen." Het houdt zijn mond.
De oude meetlat zegt: "Oh, hij heeft het fout, want de label zegt 'jas'."
De nieuwe meetlat zegt: "Hij heeft gelijk! Er is geen bewijs genoeg om zeker te zijn."

Het model weigert dus om te liegen over de verwarrende stukjes. Het stopt precies waar het bewijs ophoudt. Dat is waarom het cijfer stopt bij 83%. Het is geen fout van het model, het is een kwaliteit.

4. Het Gevaar: "Goed Oefenen" (Benign Overfitting)

Hier wordt het spannend. Als je het model te lang laat oefenen op die verwarrende vragen, gebeurt er iets raars.

Het model begint te paniek. Het denkt: "Ik moet toch een antwoord geven!" Dus het stopt met twijfelen en begint te gissen, maar dan zeker te gissen.

Eerst was het: "Ik weet het niet (en heb het fout)."
Na te veel oefenen wordt het: "IK WEET HET (en heb het fout)."

De onderzoekers noemen dit Benign Overfitting (Goed Oefenen). Het klinkt goed omdat het eindcijfer (de nauwkeurigheid) misschien zelfs iets stijgt, maar het model is nu gevaarlijk zeker van zijn fouten. Het is alsof een leerling die eerst eerlijk zei "Ik weet het niet", nu gaat liegen en zeker beweert dat 2+2=5.

5. Wat moeten we doen?

De paper geeft drie belangrijke adviezen:

Stop met alleen naar het eindcijfer te kijken. Kijk ook naar hoe zeker het model is. Een model dat twijfelt waar het moet twijfelen, is beter dan een model dat zeker is van alles.
Stop op het juiste moment. Als je ziet dat het model begint te twijfelen en dat twijfelen verdwijnt (terwijl het cijfer gelijk blijft), moet je stoppen met oefenen. Anders wordt het model arrogant en onbetrouwbaar.
Reinig je data. Als je modellen wilt testen, haal dan de verwarrende voorbeelden eruit. Als je alleen duidelijke broeken en jurken gebruikt, kan het model 99% halen. De "83%" was niet het probleem van het model, maar van de verwarrende test.

Samenvatting in één zin

Een slimme AI moet niet alleen weten wat het antwoord is, maar ook weten wanneer het antwoord niet bekend is; en het grootste gevaar is niet dat het fout is, maar dat het zeker is terwijl het fout is.

De auteurs zeggen eigenlijk: "Laten we AI's niet belonen voor het raden van het onmogelijke, maar voor het durven zeggen: 'Ik weet het niet'."

Each language version is independently generated for its own context, not a direct translation.

Titel: Certainty-Validity: Een Diagnostisch Kader voor Discrete Commitment Systemen

Auteur: Datorien L. Anderson (Occybyte)
Datum: 28 januari 2026

1. Het Probleem: De Tekortkoming van Standaard Metrieken

Traditionele machine learning-metrieken (zoals nauwkeurigheid/accuracy, precisie, recall en AUROC) gaan uit van de aanname dat alle fouten gelijkwaardig zijn. Een model dat met zekerheid een verkeerd antwoord geeft (hallucinatie), wordt even zwaar bestraft als een model dat onzeker is over een fout antwoord.

Voor discrete commitment systemen (architecturen die ternaire toestanden $\{-W, 0, +W\}$ selecteren om logische of structurele toezeggingen te maken) is deze aanname epistemologisch gebrekkig:

Een model dat 0 (neutraal/onzeker) output bij ambigu data, gedraagt zich correct, zelfs als de "ground truth" een binair label eist.
Een model dat een sterk signaal ( $-W$ of $+W$ ) geeft bij ambigu data, hallucineert structuur.
Standaard nauwkeurigheid verward deze twee gedragingen: het behandelt passende onzekerheid (Uncertain-Incorrect) en gevaarlijke hallucinatie (Confident-Incorrect) als identieke fouten.

Dit leidt tot een misleidende evaluatie van modellen die op standaard benchmarks (zoals Fashion-MNIST, IMDB) vaak vastlopen op een "83% Ambiguity Ceiling" (een plafond van 83% nauwkeurigheid).

2. Methodologie: Het Certainty-Validity (CVS) Kader

De auteurs introduceren het Certainty-Validity (CVS)-kader, een diagnostische methode die modelprestaties ontbindt in een $2 \times 2$ matrix. Deze matrix onderscheidt voorspellingen op basis van twee dimensies: Zekerheid (Hoog/Laag) en Validiteit (Geldig/Ongevalideerd).

De vier kwadranten zijn:

Confident-Correct (CC): Hoge zekerheid, correct antwoord.
Confident-Incorrect (CI): Hoge zekerheid, fout antwoord (Hallucinatie). Dit is de ware faalmodus.
Uncertain-Correct (UC): Lage zekerheid, correct antwoord.
Uncertain-Incorrect (UI): Lage zekerheid, fout antwoord. Dit is een geldige epistemische staat (passende twijfel).

Belangrijke afgeleide metrieken:

CommitAcc: Nauwkeurigheid wanneer het model zich commit (hoge zekerheid).
AppropUncert: Het percentage fouten dat correct als onzeker is gemarkeerd.
CVS (Certainty-Validity Score): Een samengestelde score die de balans tussen betrouwbare commitment en passende onzekerheid meet.

Experimentele Opzet:
De auteurs voerden ablatie-experimenten uit op drie benchmarks om structurele ambiguïteit te isoleren:

Fashion-MNIST: Verwijdering van topologisch identieke kledingstukken (shirt, pullover, jas) die alleen op textuur verschillen.
EMNIST: Gebruik van alleen cijfers (topologisch uniek) in plaats van letters/cijfers-mix (waarbij O/0 en I/1 verwarrend zijn).
IMDB: Filteren op sterk gepolariseerde sentimenten (rating $\geq 8$ of $\leq 3$ ) om ambigu gemengde reviews te verwijderen.

Het model maakt gebruik van de ProbableCollapseLayer en de FractalOptimizer voor multi-schaal leersnelheden.

3. Kernresultaten

A. De 83% Ambiguity Ceiling is een Dataset-Phenomeen

De resultaten tonen aan dat het 83% plafond niet door de architectuur wordt veroorzaakt, maar door de inherent ambiguïteit van de datasets:

Fashion-MNIST: Na verwijdering van de 3 ambiguïe klassen steeg de nauwkeurigheid van 83% naar 97%.
EMNIST: Op alleen cijfers werd 99,59% bereikt.
IMDB: Na filtering op sterk sentiment steeg de pieknauwkeurigheid van 83% naar 87%.

In alle gevallen verscheen er een "Platonic Spike" bij Epoch 1: de testnauwkeurigheid was aanzienlijk hoger dan de trainnauwkeurigheid, wat wijst op het ontdekken van onderliggende structurele patronen in plaats van memorisatie.

B. Het Mechanisme van "Benign Overfitting"

Het paper onthult dat wat traditioneel wordt gezien als "benigne overfitting" (trainnauwkeurigheid stijgt naar 100% terwijl testnauwkeurigheid stabiel blijft) in feite een pathologische migratie is:

UI $\to$ CI Migratie: Tijdens langere training verandert het model van "onzeker en fout" (UI) naar "zeker en fout" (CI).
Het model leert niet om de ambiguïe samples correct te classificeren; het leert om overmoedig te zijn over zijn fouten.
Hoewel de ruwe nauwkeurigheid stabiel blijft of zelfs licht stijgt, daalt de CVS-score drastisch. Het model verliest zijn vermogen om te weten wat het niet weet.

C. De Excitability Phase Diagram

Door de relatie tussen train-test divergentie en CVS te visualiseren, worden drie fasen zichtbaar:

Structurele Ontdekking: Hoog CVS, positieve generalisatiekloof.
Optimale Staat: Maximale CVS (voordat de nauwkeurigheid piekt).
Benigne Overfitting: Nauwkeurigheid blijft hoog, maar CVS stort in terwijl het model steeds zekerder wordt over fouten (hallucinatie).

4. Belangrijkste Bijdragen

Het Certainty-Validity Matrix: Een diagnostisch hulpmiddel dat betrouwbaarheid (Commitment Accuracy) scheidt van zelfbewustzijn (Appropriate Uncertainty).
Herdefinitie van Falen: Het paper stelt dat Uncertain-Incorrect (UI) geen faalmodus is, maar een gewenste staat voor ambigu data. De ware faalmodus is Confident-Incorrect (CI).
Uitleg van het 83% Plafond: Het plafond is geen architecturale beperking, maar een weerspiegeling van de dataset. Het model weigert correct om zich te committeren aan data zonder voldoende structureel bewijs.
Trainingsoptimalisatie: De auteurs bevelen aan om training te stoppen wanneer de AppropUncert begint te dalen (of CVS daalt), zelfs als de nauwkeurigheid nog niet is gepiekt. Dit voorkomt de migratie naar CI.
Toepassing op Gumbel-Softmax: Er wordt aangetoond dat het temperatuurparameter $\tau$ niet tot zeer lage waarden moet worden afgekoeld (annealing). Een moderate $\tau$ (0.7–0.9) behoudt het vermogen tot expressie van onzekerheid en maximaliseert de CVS.

5. Betekenis en Conclusie

Dit paper biedt een methodologische doorbraak voor het evalueren van de volgende generatie discrete, redenerende architecturen.

Voor de praktijk: Standaard metrieken zijn onvoldoende voor systemen die moeten redeneren. Een model met 83% nauwkeurigheid en een hoge CVS (dat weet waar het stopt) is superieur aan een model met 83% nauwkeurigheid en een lage CVS (dat hallucineert).
Voor de veiligheid: In veiligheidskritieke toepassingen is een model dat fouten maakt met een signaal van onzekerheid (UI) veel waardevoller dan een model dat fouten maakt met overtuiging (CI).
Voor benchmarking: Benchmarks moeten niet alleen aggregate nauwkeurigheid rapporteren, maar ook de prestaties op structureel onduidelijke subsets en de aanwezigheid van de "Platonic Spike".

De conclusie is dat vertrouwen (Trustworthiness), gemeten via CVS, de echte limiet van modelvaliditeit is, niet de ruwe nauwkeurigheid. Het "83% plafond" is geen teken van falen, maar van een architectuur die correct functioneert door zich te onthouden van commitment waar het bewijs ontbreekt.