Either a Confidence Interval Covers, or It Doesn't (Or Does It?): A Model-Based View of Ex-Post Coverage Probability

Each language version is independently generated for its own context, not a direct translation.

Titel: Het is of het niet? Waarom een "vertrouwensinterval" meer kan betekenen dan alleen "ja of nee"

Stel je voor dat je een magische doos hebt die elke keer een geschenkje uitpakt. Soms zit er een echte diamant in (de waarheid), en soms zit er een nepje in. De maker van de doos zegt: "Ik heb deze doos zo ontworpen dat 95% van de tijd dat je een geschenkje uitpakt, het een diamant is."

Dit is precies hoe statistici werken met vertrouwensintervallen (confidence intervals). Het is een methode om een schatting te maken van iets onbekends (zoals de gemiddelde lengte van mensen of de kans op een ziekte).

De traditionele regel, bedacht door de wiskundige Neyman, luidt als volgt:

"Zodra je het geschenkje uit de doos hebt gehaald en het op de tafel hebt gelegd, is het ofwel een diamant, ofwel een nepje. Er is geen 'misschien' meer. Je kunt niet zeggen dat er 95% kans op is dat dit specifieke geschenkje een diamant is. Of het is het, of het is het niet."

De auteur van dit artikel, Scott Lee, zegt echter: "Wacht even, dat klinkt alsof we onze eigen regels vergeten." Hij vindt dat die "ja-of-nee"-regel te streng is en dat we in de praktijk best wel kunnen praten over de kans dat een specifiek resultaat klopt, zelfs nadat het al is gebeurd.

Hier is de uitleg in drie simpele stappen, met behulp van een paar verhaaltjes:

1. Het probleem met "Ja of Nee" (De Dokter en de Kat)

Stel je voor dat je dokter bent. Een patiënt komt binnen met koorts. Je doet een snelle test. De test is positief.

De strenge regel: De patiënt heeft ofwel griep, ofwel niet. De test is al gedaan. Er is geen "kans" meer. Je kunt dus niet zeggen: "Er is 80% kans dat ze griep heeft." Je moet wachten tot je 100% zeker weet of ze het heeft (wat vaak onmogelijk is).
Het probleem: Als je dit echt zou doen, zou je nooit een medicijn voorschrijven. Je zou zeggen: "Ik weet het niet, dus ik doe niets." Dat is belachelijk in de echte wereld. We gebruiken die 80% kans juist om beslissingen te nemen!

De analogie van de kat:
Stel, je hebt een doos met snoepjes. 75% is vis, 25% is kip. Je kat, Sophie, eet er één en slaapt daarna.

De strenge regel zegt: "De snoep is óf vis óf kip. Er is geen kans meer."
Maar jij, als eigenaar, weet niet welke het was. Je wilt weten: "Is het waarschijnlijk dat ze een vis-snoepje heeft gegeten?"
Als je de strenge regel volgt, kun je die vraag niet beantwoorden. Maar je weet wel dat het vis-snoepje 75% van de tijd in de doos zat. Je kunt dus best zeggen: "Op basis van wat ik weet, is de kans groot dat het vis was."

Lee zegt: Waarom zouden we bij statistiek (vertrouwensintervallen) anders doen dan bij een dokter of een kat? Als we de "ja-of-nee"-regel te streng nemen, maken we onze eigen modellen nutteloos.

2. De oneindige trein (De wiskundige achtergrond)

Stel je een trein voor die oneindig lang is. Elke wagon is een experiment.

Voor het experiment: De machinist zegt: "In 95% van de wagons zit een diamant." Dit is de ontwerpkans. Dit is de regel die we volgen.
Na het experiment: Je loopt door de trein en kijkt in wagon #42. Je ziet: "Ah, hier zit een diamant!"
- De strenge regel zegt: "Kijk, wagon #42 heeft een diamant. De kans is nu 100% (of 0% als er geen diamant was). Stop met praten over kansen."
- Lee zegt: "Nee, wacht. Je kijkt naar wagon #42, maar je bent nog steeds in dezelfde trein. De regel van de machinist (95%) geldt nog steeds voor de trein als geheel. Je kunt best zeggen: 'Op basis van hoe deze trein werkt, was de kans dat wagon #42 een diamant zou zijn, 95%.'"

Het punt is: De kans verdwijnt niet omdat je gekeken hebt. De kans was een eigenschap van het proces (de trein), niet van het object (de wagon). Zolang je het proces begrijpt, kun je over kansen praten, zelfs als je al weet wat er in de wagon zit (maar je weet het misschien nog niet!).

3. De oplossing: Drie lagen van vertrouwen

Lee stelt voor dat we drie verschillende manieren van kijken moeten onderscheiden, in plaats van maar één strenge regel:

De Ontwerplagen (De Trein): "Deze methode werkt 95% van de tijd." Dit is wat statistici altijd zeggen. Dit is de lange termijn.
De "Gods-oog" laag (De Wagon): "Deze specifieke wagon heeft een diamant." Dit is 100% waar of 100% onwaar. Dit is wat de strenge regel zegt.
De Voorspellingslaag (Jouw Oog): "Ik heb net een wagon gezien, maar ik weet niet of het een diamant is. Op basis van hoe de trein werkt, is de kans dat deze wagon een diamant is, 95%."

De conclusie:
De strenge regel (alleen "ja of nee") is te beperkt. Het is alsof je zegt: "Omdat ik weet dat de trein bestaat, mag ik niet meer praten over de kans dat een wagon vol zit."

Lee zegt dat we die "voorspellingslaag" (nummer 3) weer mogen gebruiken. Als een arts een diagnose stelt, of als een wetenschapper een interval berekent, mogen ze zeggen: "Op basis van mijn model, is de kans groot dat dit klopt." Ze hoeven niet te wachten tot ze "God" zijn en alles 100% zeker weten.

Samengevat in één zin:
Vertrouwensintervallen zijn niet alleen een statische "ja-of-nee" stempel die je na het experiment mag vergeten; ze zijn een levendige voorspelling die ons helpt beslissingen te nemen, zelfs als we nog niet alles zeker weten. De "kans" is niet verdwenen, hij zit gewoon in de manier waarop we naar de data kijken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Either a Confidence Interval Covers, or It Doesn't (Or Does It?): A Model-Based View of Ex-Post Coverage Probability" van Scott Lee, geschreven in het Nederlands.

Titel: Of een betrouwbaarheidsinterval de parameter dekt, of niet (Of toch wel?): Een modelgebaseerd perspectief op ex-post dekkingskansen

1. Het Probleem

Het artikel adresseert een fundamentele interpretatiekwestie binnen de frequentistische statistiek, specifiek gerelateerd aan betrouwbaarheidsintervallen (CI's) zoals geformuleerd door Jerzy Neyman in 1937.

De traditionele "Of-Of" interpretatie: Volgens de standaardinterpretatie is een betrouwbaarheidsinterval een procedure die op de lange termijn een parameter $\theta$ in een fractie $1-\alpha $van de gevallen dekt. Zodra echter een specifieke steekproef is getrokken en een interval is berekend, wordt de parameter$ \theta $beschouwd als een vast, maar onbekend, getal. De dekking is dan een binair feit: het interval dekt$ \theta$ of het doet het niet.
De consequentie: Hieruit volgt dat er geen zinvolle ex-post (na-data) waarschijnlijkheidsuitspraken mogelijk zijn over het specifieke berekende interval. De kans is ofwel 0 ofwel 1, maar omdat we de waarheid niet kennen, is elke uitspraak over de "kans" dat dit specifieke interval dekt, conceptueel ongeldig binnen de strikte frequentistische logica.
De spanning: Dit creëert een spanning met de intuïtie en de praktijk. In scenario's zoals medische diagnose (waarbij een patiënt al getest is) of voorspellingen, maken statistici en epidemiologen wel degelijk gebruik van waarschijnlijkheidsuitspraken over gebeurtenissen die al hebben plaatsgevonden maar waarvan de uitkomst nog niet volledig bekend is (bijv. de positief voorspellende waarde, PPV). De strikte "of-of" lezing zou deze nuttige inferentie verbieden.

2. Methodologie

De auteur gebruikt een tweeledige aanpak om de strikte "of-of" interpretatie te bekritiseren en een alternatief te bieden:

A. Informele Argumentatie via Gedachte-experimenten

Lee presenteert drie gedachte-experimenten om de absurditeiten aan te tonen die ontstaan als men de "of-of" regel strikt toepast:

Dr. I-Don't-No (Medische diagnose): Een patiënt heeft een positieve testuitslag. Hoewel de ziektestatus feitelijk vaststaat (0 of 1), is de Positive Predictive Value (PPV) van de test (81%) de enige zinvolle grootheid voor de arts om te beslissen over behandeling. Het negeren van deze kans omdat de uitkomst "feitelijk" vaststaat, maakt de test klinisch nutteloos.
De Kat die Traktaties Proeft: Een kat eet een traktatie van een onbekende smaak. De eigenaar kan de kans berekenen dat de kat gaat slapen (80%) gebaseerd op de verdeling van smaken. Als men echter eist dat de smaak "feitelijk" vaststaat (maar onbekend is), splijt de kans in twee degeneratieve waarden (afhankelijk van de ware smaak). Het weigeren om de onvoorwaardelijke kans (80%) te gebruiken, omdat de uitkomst al bepaald is, leidt tot een gebrek aan voorspellend vermogen.
We're in Deep Truffle Now (Chocoladefabriek): Een complex proces waarbij truffels worden gevuld en gewogen. Als men conditioneert op de ware status van de huidige truffel (gevuld of hol), verliest men het vermogen om de ontwerpniveau-kans te berekenen dat de volgende truffel correct gevuld zal zijn. Dit toont aan dat het conditioneren op de "ware" (maar onbekende) uitkomst de modelgebaseerde voorspellingen voor toekomstige gebeurtenissen kan ondermijnen.

B. Formele Argumentatie via Kolmogorov's Kansrekening

De auteur recast de constructie van betrouwbaarheidsintervallen in termen van oneindige sequenties van experimenten en microtoestanden:

Microtoestanden: Een volledige realiteit wordt gezien als een oneindige sequentie van steekproeven $(X_1, X_2, \dots)$ en bijbehorende dekking-indicatoren $(Z_1, Z_2, \dots)$ , waarbij $Z_i = 1$ als het interval dekt en $0$ anders.
Conditioneringsniveaus: De auteur toont aan dat het verschil tussen de "ontwerpniveau"-kans ($1-\alpha $) en de "degeneratieve" ex-post kans (0 of 1) puur een kwestie is van het **conditioneringsniveau** (de$ $) e n d e " d e g e n er a t i e v e " e x - p os t k an s (0 o f 1) p uu r ee nk w es t i e i s v anh e t * * co n d i t i o n er in g s ni v e a u * * (d e$ \sigma$-algebra) binnen hetzelfde kansmodel.
- Ex-ante: $P_\theta(Z_i = 1) = 1-\alpha$ (onvoorwaardelijk, gebaseerd op het ontwerp).
- Ex-post (volledig): $P_\theta(Z_i = 1 | X_i = x_i) = \mathbb{1}_{\{\theta \in I(x_i)\}} \in \{0, 1\}$ (voorwaardelijk op de volledige data).
Kerninzicht: De auteur betoogt dat er wiskundig geen diepe asymmetrie is tussen deze twee. Het kiezen voor alleen de degeneratieve kans is een keuze om het fijnste conditioneringsniveau te gebruiken, wat andere geldige conditioneringsniveaus (zoals die gebaseerd op de ontwerpprocedure) uitsluit.

3. Belangrijkste Bijdragen

Critiek op de "Of-Of" Dogma: Het artikel demonstreert dat het strikt toepassen van Neyman's "of-of" slogan als een normatieve regel leidt tot onaanvaardbare beperkingen in frequentistische inferentie, vooral bij het maken van voorspellingen over gebeurtenissen die al hebben plaatsgevonden maar waarvan de uitkomst onbekend is.
Modelgebaseerde Herinterpretatie: De auteur stelt dat frequentistische kansen niet inherent "verdwijnen" na het trekken van een steekproef. In plaats daarvan zijn ze eigenschappen van het kansmodel op verschillende conditioneringsniveaus. Het is wiskundig consistent om ex-post waarschijnlijkheidsuitspraken te doen die niet degenereren tot 0 of 1, zolang deze gebaseerd zijn op de informatie die beschikbaar is binnen het model.
Concept van "Vertrouwen" als Voorspellende Kans: Lee suggereert dat het concept van "vertrouwen" (confidence) eigenlijk neerkomt op voorspellende waarschijnlijkheid (predictive probability). Het is de beste schatting van een niet-orakel-observer over hoe vaak intervallen zoals het huidige de parameter zullen deken, gegeven de beschikbare informatie.
Soft Normative Rule: De auteur introduceert een richtlijn voor ex-post uitspraken: "Conditioneer alleen op post-trial informatie als deze de onzekerheid over de uitkomst daadwerkelijk vermindert." Als de waarneming van de steekproef geen extra informatie geeft over de dekking (zoals bij een standaard CI), moet men teruggrijpen naar de onvoorwaardelijke ontwerpkans ($1-\alpha$) in plaats van te conditioneren op de verborgen waarheid.

4. Resultaten en Conclusies

Wiskundige consistentie: De strikte "of-of" interpretatie staat in spanning met de wiskundige machinery die Neyman zelf gebruikte om lange-termijn foutpercentages te definiëren (die immers verwachtingen zijn van niet-degenererende indicatoren).
Breder spectrum aan uitspraken: Frequentistische theorie staat een bredere klasse van ex-post waarschijnlijkheidsuitspraken toe dan algemeen wordt erkend. Men kan zinvolle, niet-degenererende kansen toekennen aan specifieke intervallen, mits deze worden geïnterpreteerd als voorspellende kansen binnen het model.
Oplossing voor de spanning: Door drie lagen van waarschijnlijkheid te onderscheiden, kan de spanning worden opgelost:
1. Ontwerpniveau (onvoorwaardelijke dekking $1-\alpha$).
2. Degeneratieve conditionele kans (gegeven de volledige data, 0 of 1).
3. Informatie-geïndexeerde voorspellende kans (de "vertrouwen" die een onderzoeker heeft, gebaseerd op de waargenomen data en het model, maar zonder de ware parameter te kennen).

5. Significantie

Dit artikel is significant omdat het de filosofische en praktische grenzen van de frequentistische inferentie opnieuw afbakenen.

Het biedt een theoretisch fundament voor statistici om in de praktijk (bijvoorbeeld in de medische wetenschap of kwaliteitscontrole) toch zinvolle waarschijnlijkheidsuitspraken te doen over specifieke gevallen, zonder de frequentistische principes te verlaten.
Het verlegt de focus van een strikte "ontologische" visie (waar kansen verdwijnen zodra de werkelijkheid vaststaat) naar een "epistemische" of modelgebaseerde visie, waarbij kansen de onzekerheid van de waarnemer binnen het model weerspiegelen.
Het suggereert dat het begrip "vertrouwen" (confidence) beter kan worden begrepen als een vorm van probabilistische voorspelling, wat de brug slaat tussen strikte frequentistische theorie en de praktische behoeften van data-analisten.

Samenvattend stelt Scott Lee dat de slogan "of het dekt, of het dekt niet" te restrictief is en dat frequentistische theorie ruimte biedt voor een meer nuanceerde, modelgebaseerde interpretatie van ex-post dekking.

Either a Confidence Interval Covers, or It Doesn't (Or Does It?): A Model-Based View of Ex-Post Coverage Probability

1. Het probleem met "Ja of Nee" (De Dokter en de Kat)

2. De oneindige trein (De wiskundige achtergrond)

3. De oplossing: Drie lagen van vertrouwen

Titel: Of een betrouwbaarheidsinterval de parameter dekt, of niet (Of toch wel?): Een modelgebaseerd perspectief op ex-post dekkingskansen

1. Het Probleem

2. Methodologie

A. Informele Argumentatie via Gedachte-experimenten

B. Formele Argumentatie via Kolmogorov's Kansrekening

3. Belangrijkste Bijdragen

4. Resultaten en Conclusies

5. Significantie

Meer zoals dit

Normal Approximation in Large Network Models

Robust Estimation of Polychoric Correlation

Bayesian Evidence Synthesis for Modeling SARS-CoV-2 Transmission

Convergence and complexity of block majorization-minimization for constrained block-Riemannian optimization

Bias- and Variance-Aware Probabilistic Rounding Error Analysis for Floating-Point Arithmetic