Oorspronkelijke auteurs: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Gepubliceerd 2026-05-12

📖 7 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Manuel Haußmann, Ramon Winterhalder, Maria Ubiali

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Het Grote Plaatje: Waarom Gissen Niet Genoeg Is

Stel je voor dat je een natuurkundige bent die probeert een nieuw deeltje te ontdekken, of een arts die AI gebruikt om een ziekte te diagnosticeren. In beide gevallen is het belangrijk om het juiste antwoord te krijgen, maar het is nog kritischer om te weten hoe zeker je bent van dat antwoord.

Als een AI zegt: "Er is een 99% kans dat dit een tumor is", maar het is eigenlijk slechts een schaduw, dan is dat gevaarlijk. Als een natuurkundige zegt: "We hebben een nieuw deeltje gevonden", maar hun wiskunde houdt geen rekening met de "onscherpte" van hun data, dan kunnen ze ongelijk hebben.

Dit artikel is een handleiding voor wetenschappers en AI-onderzoekers. Het betoogt dat we een gemeenschappelijke taal nodig hebben om te praten over onzekerheid (de "onscherpte" of "twijfel" in voorspellingen) en strikte regels om te controleren of die onzekerheid eerlijk wordt gerapporteerd.

1. Het Woordenboek van Twijfel (Taxonomie)

Het artikel begint met de vaststelling dat natuurkundigen en AI-experts vaak verschillende woorden gebruiken voor dezelfde dingen, wat verwarring veroorzaakt. Zij stellen een duidelijk "woordenboek" voor met twee hoofdasen om onzekerheid te ordenen:

As A: Waar komt de twijfel vandaan? (Bron)

Statistische Onzekerheid (Het "Ruis"): Stel je voor dat je de gemiddelde lengte van mensen in een kamer probeert te raden door slechts drie mensen te meten. Je schatting kan verkeerd zijn, gewoon omdat je niet genoeg mensen hebt gemeten. Dit is Statistisch. Als je 1.000 mensen meet, verdwijnt deze twijfel.
Systematische Onzekerheid (De "Gebroken Liniaal"): Stel je voor dat je 1.000 mensen meet, maar je liniaal is eigenlijk 2,5 cm te kort. Hoeveel mensen je ook meet, je antwoord zal altijd verkeerd zijn. Dit is Systematisch. Het komt voort uit slechte instrumenten of verkeerde aannames, niet uit een gebrek aan data.

As B: Kunnen we het oplossen? (Natuur)

Aleatorische Onzekerheid (De "Worp van het dobbelsteen"): Dit is willekeur die ingebouwd is in de natuur. Denk aan het gooien van een munt. Zelfs als je alles weet over de munt en de gooi, kun je de volgende worp niet voorspellen. Dit is niet-reduceerbaar. Je kunt dit niet oplossen door meer data te verzamelen; het is gewoon hoe de wereld werkt.
Epistemische Onzekerheid (Het "Ontbrekende Puzzelstuk"): Dit is twijfel veroorzaakt door gebrek aan kennis. Stel je voor dat je een puzzel probeert op te lossen, maar je mist de helft van de stukjes. Als je meer stukjes krijgt (meer data) of een beter beeld van hoe de puzzel eruitziet (een betere theorie), verdwijnt deze twijfel. Dit is reduceerbaar.

De Kerninzicht van het Artikel: Deze categorieën overlappen elkaar. Een "gebroken liniaal" (Systematisch) kan bijvoorbeeld een "ontbrekend puzzelstuk" (Epistemisch) zijn als we nog niet weten dat de liniaal kapot is. Het artikel biedt een diagram om deze te sorteren, zodat wetenschappers ze niet door elkaar halen.

2. Twee Denkwijzen (Frequentistisch vs. Bayesiaans)

Het artikel legt uit dat er twee hoofdstromingen zijn in het denken over hoe we met deze twijfels omgaan:

De Frequentist (De "Lange-termijn Speler"): Deze benadering vraagt: "Als ik dit experiment 1.000 keer zou herhalen, hoe vaak zou mijn antwoord dan juist zijn?" Zij focussen op Dekking. Als ze zeggen "Ik ben 95% zeker", bedoelen ze dat in 95 van de 100 herhaalde experimenten het ware antwoord binnen hun bereik zal vallen.
De Bayesiaan (De "Geloofs-updater"): Deze benadering vraagt: "Gegeven wat ik eerder wist en wat ik zojuist heb gezien, hoe waarschijnlijk is mijn antwoord?" Zij beginnen met een "voorafgaande overtuiging" (een gok gebaseerd op eerdere ervaring) en updaten deze met nieuwe data om een "posterieure" (de nieuwe, bijgewerkte overtuiging) te creëren.

Het artikel merkt op dat de Deeltjesfysica meestal de Frequentistische benadering prefereert, terwijl Kosmologie vaak de Bayesiaanse voorkeur geeft. Beide zijn geldig, maar ze spreken verschillende talen.

3. De Stress-test (Validatie)

Het belangrijkste deel van het artikel gaat over validatie. Het feit dat een AI zegt dat ze 95% zeker is, betekent niet dat ze echt 95% zeker is. Het artikel stelt drie manieren voor om deze AI-voorspellingen te "stress-testen":

Dekkingstests (Het "Veiligheidsnet"): Als een AI een veiligheidsnet tekent (een voorspellingsinterval) waarin staat dat het het ware antwoord 95% van de tijd zal vangen, dan controleer je het net. Als je 100 ballen laat vallen en het net vangt er slechts 80, dan liegt de AI (het is te zelfverzekerd). Als het er 99 vangt, is het te voorzichtig.
Bias-tests (Het "Zwaartepunt"): Is de beste gok van de AI consequent verschoven naar links of rechts? Stel je een dartbord voor. Als de darts van de AI allemaal strak gegroepeerd zijn, maar 5 cm links van het midden, dan heeft het bias. Het is precies, maar niet accuraat.
Score-regels (Het "Rapport"): In plaats van alleen te controleren of de AI gelijk had of niet, geeft dit de AI een score op basis van hoe goed haar hele waarschijnlijkheidskaart overeenkomt met de werkelijkheid. Het beloont de AI voor eerlijkheid over haar onzekerheid. Als de AI zegt "Ik ben 50/50" en het is echt 50/50, krijgt ze een goede score. Als ze zegt "Ik ben 100% zeker" en het is fout, krijgt ze een slechte score.

4. De "Speelgoed"-voorbeelden (Wat gebeurt er in de echte wereld?)

De auteurs hebben deze ideeën getest op eenvoudige wiskundige problemen (regressie en classificatie) om te zien hoe verschillende AI-methoden zich gedragen.

De "Veilige Zone" (Interpolatie): Wanneer de AI wordt gevraagd iets te voorspellen dat lijkt op wat ze eerder heeft gezien (zoals het weer in juli voorspellen op basis van juli-data), werken bijna alle methoden goed. Ze geven allemaal vergelijkbare antwoorden en vergelijkbare zekerheidsniveaus.
De "Gevarenzone" (Extrapolatie): Wanneer de AI wordt gevraagd iets te voorspellen dat ze nooit heeft gezien (zoals het weer in juli voorspellen op basis van alleen januari-data), wordt het chaotisch.
- De Les: In de gevarenzone is het vertrouwen van de AI niet meer gebaseerd op data; het is gebaseerd op aannames.
- De Analogie: Stel je een kaart van een stad voor. Als je de AI vraagt de straatnaam te vertellen van een huis dat je nog nooit hebt gezien, maar dat op een weg ligt die je kent, kan het raden. Maar als je vraagt om de straatnaam van een huis in een volledig ander land te vertellen, moet het raden op basis van wat het denkt dat steden eruitzien.
- Het Resultaat: Het artikel vond dat in deze "onbekende" zones verschillende AI-methoden wijd uiteenlopende antwoorden en zekerheidsniveaus geven. Geen van hen was perfect betrouwbaar. De onzekerheid die ze rapporteerden, was voornamelijk een reflectie van hun interne "persoonlijkheid" (hun wiskundige aannames) in plaats van daadwerkelijke kennis.

Samenvatting

Dit artikel is een oproep tot helderheid en eerlijkheid in de wetenschap.

Stop met woorden door elkaar te halen: Wees duidelijk of je twijfel voortkomt uit ruis (willekeur) of onwetendheid (gebrek aan data).
Controleer je werk: Vertrouw niet zomaar op het getal van de AI. Gebruik "dekkingstests" en "bias-tests" om te zien of de AI echt de waarheid spreekt over haar vertrouwen.
Pas op voor het onbekende: Wanneer AI wordt gevraagd te gokken over dingen die ze niet heeft gezien, is haar vertrouwen een gok, geen feit. Wetenschappers moeten deze "extrapolatie"-resultaten met extreme voorzichtigheid behandelen.

Het ultieme doel is ervoor te zorgen dat wanneer AI helpt bij wetenschappelijke ontdekkingen, we precies weten hoeveel we het resultaat kunnen vertrouwen.

Technische Samenvatting: Onzekerheid in de Fysica en AI: Taxonomie, Kwantificering en Validatie

Probleemstelling

De integratie van machine learning (ML) in de fysica vereist betrouwbare kwantificering van onzekerheid (UQ) om ervoor te zorgen dat wetenschappelijke conclusies statistisch valide zijn. Hoewel onzekerheidsschattingen onmisbaar zijn in de fysica voor het bepalen van de geloofwaardigheid van metingen, het combineren van resultaten en het vaststellen van drempels voor ontdekking, ontbreekt hun toepassing in ML vaak een verenigde statistische interpretatie. De terminologie is inconsistent tussen gemeenschappen: fysici onderscheiden traditioneel tussen statistische en systematische onzekerheden, terwijl de literatuur over statistiek en ML vaak onderscheid maakt tussen aleatorische (data) en epistemische (model) onzekerheden. Deze vocabulaires overlappen maar zijn niet synoniem, wat leidt tot potentiële verwarring met betrekking tot de reduceerbaarheid en de bron van onzekerheid. Bovendien variëren moderne ML-methoden voor UQ sterk in hun theoretische onderbouwing, van methoden met garanties voor eindige steekproeven (bijv. conformale voorspelling) tot methoden die vertrouwen op empirische validatie (bijv. diepe ensembles). Er is een kritieke behoefte aan een gestructureerd kader om deze concepten te verduidelijken, onderscheid te maken tussen inferentie- en voorspellende onzekerheid, en principiële hulpmiddelen voor validatie te bieden.

Methodologie

Het artikel stelt een gestructureerd overzicht van UQ voor via drie hoofdmethode-pijlers:

Taxonomisch Kader: De auteurs stellen een verenigde taxonomie voor op basis van drie dimensies:
- Bron: Statistisch (fluctuaties in eindige data) versus Systematisch (onvolmaakte modellering/aannames).
- Natuur: Aleatorisch (onreduceerbare willekeur in datageneratie) versus Epistemisch (onzekerheid door gebrek aan kennis, reduceerbaar door meer data of betere modellen).
- Object: Inferentieonzekerheid (over parameters $\theta$ ) versus Voorspellende onzekerheid (over toekomstige observabelen $y^*$ ).
  Het artikel verduidelijkt dat statistisch/systematisch bronnen classificeren, terwijl aleatorisch/epistemisch de natuur classificeren. Het decomposeert epistemische onzekerheid expliciet in trainingsvariabiliteit, datavariabiliteit, modelbias en domeinverschuiving.
Statistische Perspectieven: Het artikel contrasteert Frequentistische en Bayesiaanse kaders.
- Frequentistisch: Richt zich op langetermijngaranties (bijv. betrouwbaarheidsintervallen, conformale voorspelling) waarbij data willekeurig is en parameters vaststaan.
- Bayesiaans: Richt zich op probabilistische modellering van parameters (posteriorverdelingen) en voorspellende verdelingen via marginalisatie.
- De tekst bespreekt bruggen tussen deze, zoals de Bernstein–von Mises-stelling en Generalized/Post-Bayesiaanse benaderingen (bijv. Generalized Variational Inference) die inferentiedoelstellingen ontkoppelen van strikte aannames over waarschijnlijkheid.
Validatie en Diagnostiek: De auteurs beschrijven specifieke statistische hulpmiddelen om UQ te valideren:
- Coverage-tests: Beoordelen of voorspellende regio's de ware uitkomsten bevatten met de geadverteerde frequentie (marginaal versus conditioneel).
- Calibratie: Meten van de uitlijning tussen voorspelde kansen en waargenomen frequenties (bijv. Expected Calibration Error, betrouwbaarheidsdiagrammen).
- Bias-tests: Diagnostiseren van systematische verschuivingen in centrale schattingen met behulp van pull-verdelingen en genormaliseerde residuen.
- Behoorlijke Score-regels: Evalueren van de algehele betrouwbaarheid van voorspellende verdelingen (bijv. Brier-score, negatieve log-waarschijnlijkheid) om eerlijke probabilistische voorspellingen te stimuleren.
Empirische Illustraties: Het artikel implementeert en vergelijkt vijf UQ-methoden op gecontroleerde regressie- en classificatietaken:
- Methoden: Gaussian Processes (GP), Conformal Prediction (CP), Bayesian Neural Networks (BNN) via Variational Inference (VI) en Hamiltonian Monte Carlo (HMC), Repulsive Ensembles (RE) en Evidential Deep Learning (EDL).
- Taken: Een 1D-regressieprobleem (testen van interpolatie versus extrapolatie) en een binaire classificatietak (twee-maanden dataset met een verwijderd centraal vierkant).

Belangrijkste Bijdragen

Verenigde Taxonomie: Het artikel biedt een duidelijke, multidimensionale classificatie van onzekerheid die de taal van "statistisch/systematisch" uit de fysica verzoent met de taal van "aleatorisch/epistemisch" uit ML, door expliciet de snijpunten in kaart te brengen (bijv. Tabel 1).
Onderscheid van Objecten: Het scheidt strikt inferentieonzekerheid (parameters) van voorspellende onzekerheid (observabelen), en verduidelijkt dat validatiecriteria (zoals coverage) aanzienlijk verschillen tussen de twee.
Validatie-toolkit: Het consolideert een set principiële diagnostische hulpmiddelen (coverage, calibratie, bias, score-regels) die noodzakelijk zijn om te beoordelen of op ML gebaseerde onzekerheidsuitspraken betrouwbaar zijn in wetenschappelijke workflows.
Methodologische Vergelijking: Door middel van uitgewerkte voorbeelden toont het artikel aan hoe verschillende modelaannames (inductieve biases) leiden tot afwijkende onzekerheidsschattingen, met name in extrapolatieregimes waar data schaars is.

Resultaten

De empirische voorbeelden leveren enkele kritieke bevindingen op:

Interpolatie versus Extrapolatie: In data-rijke interpolatieregio's produceren verschillende UQ-methoden (GP, BNN, Ensembles, CP) vergelijkbare nauwkeurigheid en onzekerheidsbanden. In extrapolatieregio's (buiten het trainingsdomein) divergeren de methoden echter aanzienlijk. Hun gedrag wordt bepaald door inductieve biases (bijv. kernelkeuze in GPs, architectuur in NN's) en niet door data-beperkingen.
Falen van Calibratie bij Extrapolatie: Validatiediagnostiek (calibratiecurven en pull-verdelingen) onthult dat hoewel methoden binnen het trainingsdomein goed gekalibreerd kunnen zijn, geen enkele methode nominale coverage of pull-verdelingen met een eenheidsbreedte behoudt wanneer ze gedwongen worden te extrapoleren. Onzekerheidsschattingen in deze regio's weerspiegelen eerder aannames dan statistische beperkingen.
Classificatieprestaties: Bij de binaire classificatietak presteren methoden die posterior-inferentie uitvoeren (HMC, VI, Ensembles) over het algemeen beter dan deterministische basismethoden in calibratie (lagere Brier-score en ECE). Repulsive ensembles toonden een verbeterde calibratie ten opzichte van naïeve ensembles door de posterior beter te dekken.
Beperkingen van Benaderingen: Hoewel HMC dient als "gouden standaard", kunnen mean-field VI en andere benaderingen vergelijkbaar presteren in eenvoudige, unimodale scenario's. Het artikel merkt echter op dat voor complexe posteriors (multimodaal, zwaarstaartig) de keuze van de benadering kritiek wordt.

Betekenis en Aanspraken

Het artikel positioneert zichzelf als een fundamentele bijdrage aan het VERaiPHY-initiatief, met als doel verificatie- en validatiestandaarden voor ML in de fysica te vestigen. De betekenis ligt in:

Conceptuele Duidelijkheid: Het overbrugt terminologische kloven tussen de fysica, statistiek en ML-gemeenschappen, en biedt een gemeenschappelijke taal voor het bespreken van onzekerheid.
Praktische Richtlijnen: Het benadrukt dat de validiteit van UQ niet gegarandeerd wordt door de formele afleiding van een methode, maar empirisch moet worden gevalideerd met specifieke diagnostiek.
Realistische Verwachtingen: De auteurs maken bescheiden de aanspraak dat hoewel schaalbare UQ-methoden bestaan, de meest kritieke open kwestie hun robuustheid is onder niet-ideale aannames (modelmisspecificatie, distributieverschuiving). Zij betogen dat in extrapolatieregimes onzekerheid fundamenteel afhankelijk is van modelaannames, wat een zorgvuldige interpretatie vereist in plaats van blind vertrouwen op algoritmische output.
Pipeline-integratie: Het artikel stelt dat robuuste UQ geen optionele toevoeging is, maar een structureel onderdeel van de volledige wetenschappelijke inferentie-pipeline, essentieel voor downstream taken zoals ontvouwen, parameterschatting en globale fits.

Het werk concludeert dat een betrouwbaar wetenschappelijk gebruik van ML vereist dat modelaannames, inferentieprocedures en validatiediagnostiek expliciet en testbaar worden gemaakt op elk stadium van de pipeline.

Uncertainty in Physics and AI: Taxonomy, Quantification, and Validation