Post-Hoc Large-Sample Statistical Inference

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Na de Feiten" Statistiek: Hoe je je niet meer hoeft te haasten om een antwoord te krijgen

Stel je voor dat je een detective bent die een moord oplost. Je hebt een verdachte en een hoop bewijsmateriaal. In de traditionele wereld van de statistiek (de "oude school") moet je, voordat je ook maar één stukje bewijs bekijkt, een strikte regel opstellen: "Ik zal pas zeggen dat de verdachte schuldig is als de kans op een fout minder dan 5% is."

Het probleem? Als je het bewijs bekijkt en je ziet dat de kans op schuld precies 6% is, ben je vastgelopen. Je mag niet zeggen: "Oké, ik verander mijn regel naar 10% en kijk nog eens!" Dat zou je als detective diskwalificeren. Je moet je houden aan de regel die je vooraf had vastgesteld. Dit is wat statistici "Type-I fout" noemen, en het zorgt ervoor dat je soms met een onduidelijk antwoord (een te breed interval) blijft zitten, zonder dat je iets kunt doen.

De Oplossing: De "E-Waarde" (De Gokker)

De auteurs van dit paper (Chugg, Gauthier, Jordan, et al.) hebben een nieuwe manier bedacht om dit probleem op te lossen. Ze gebruiken iets dat ze een e-waarde (e-value) noemen.

Laten we een analogie gebruiken: Het Casino.

Stel je voor dat je een gokker bent die probeert te bewijzen dat een munt niet eerlijk is.

De oude manier (p-waarde): Je moet van tevoren zeggen: "Ik stop met gokken zodra ik 5 keer op rij kop heb gezien." Als je 4 keer kop hebt, mag je niet stoppen en zeggen: "Oké, ik stop nu bij 4 keer." Je moet wachten tot je 5 keer hebt, of je hebt verloren.
De nieuwe manier (e-waarde): Je bent een slimme gokker die een strategie heeft. Je zegt: "Ik ga geld inzetten op elke mogelijke uitkomst. Als de munt eerlijk is, zal mijn totale vermogen op de lange termijn niet groeien."

Het mooie van deze strategie is dat je op elk moment kunt stoppen en kunt zeggen: "Kijk, ik heb mijn vermogen verdubbeld! De munt is dus niet eerlijk." Het maakt niet uit of je stopt na 3 keer, 10 keer of 100 keer. Omdat je strategie zo is opgebouwd, blijft je bewijs geldig, zelfs als je stopt op het moment dat het jou uitkomt.

Wat doet dit paper nu precies?

Tot nu toe werkte deze "slimme gokker"-strategie alleen voor kleine datasets of onder zeer strenge voorwaarden. Dit paper zegt: "Laten we dit toepassen op grote datasets, waar we normaal gesproken naar oneindig kijken."

Ze hebben een nieuwe wiskundige theorie ontwikkeld die het mogelijk maakt om:

Post-hoc beslissingen te nemen: Je mag je significantieniveau (je "drempel") kiezen nadat je de data hebt gezien.
Breedtes aanpassen: Als je eerste berekening een te breed interval geeft (bijvoorbeeld: "De temperatuur ligt tussen 10 en 30 graden"), mag je zeggen: "Oké, ik wil liever een smaller interval, zelfs als dat betekent dat ik een iets grotere kans op fout accepteer." En dat mag, zonder dat je je statistische "reputatie" verliest.

De Drie Methoden in het Paper

De auteurs presenteren drie manieren om deze nieuwe "slimme gokker" te bouwen voor grote datasets:

De "Vaste Anker" Methode (Ex ante anchoring):
- Analogie: Je kiest een "gok" vooraf. "Ik denk dat de munt 50/50 is, dus ik zet mijn strategie daarop."
- Voordeel: Als je gok goed is, werkt het fantastisch en krijg je heel smalle intervallen.
- Nadeel: Als je gok verkeerd is, werkt het minder goed, maar het blijft veilig.
De "Mix" Methode (Method of mixtures):
- Analogie: In plaats van één gok te doen, doe je duizenden kleine gokken tegelijk met verschillende strategieën en mix je ze allemaal.
- Voordeel: Je bent niet afhankelijk van één goede gok. Het werkt goed in bijna alle situaties, maar de intervallen zijn soms iets breder dan bij de eerste methode.
De "Afsnijden" Methode (R-WS e-variable):
- Analogie: Dit is de meest voorzichtige gokker. Hij zegt: "Ik ga gokken, maar als de situatie te gek wordt (te veel uitzonderingen), stop ik en zeg ik: 'Ik weet het niet'."
- Voordeel: Dit is de veiligste methode. Het werkt zelfs als de data heel raar is (bijvoorbeeld met extreme uitschieters). Het geeft je zelfs de mogelijkheid om te stoppen op elk moment in de tijd (sequentiële analyse).
- Nadeel: De intervallen zijn iets breder (minder precies) dan de andere twee.

Waarom is dit belangrijk voor de gemiddelde mens?

Stel je voor dat je een arts bent die een nieuw medicijn test.

Vroeger: Je moest van tevoren zeggen: "Ik test op een significantieniveau van 0,05." Als de resultaten net niet significant waren, maar wel interessant, kon je niets doen. Je moest wachten tot je meer patiënten had, of je resultaat verwerpen.
Nu (met dit paper): Je kunt de data bekijken en zeggen: "Huh, het ziet er veelbelovend uit, maar niet perfect. Laat me kijken wat er gebeurt als ik mijn drempel iets aanpas." Je krijgt een antwoord dat nog steeds wetenschappelijk betrouwbaar is, maar dat veel flexibeler is.

Conclusie

Dit paper is als het geven van een flexibele kompas aan statistici. Vroeger moest je een vast pad volgen en kon je niet afwijken zonder je verdwaald te verklaren. Nu hebben ze een kompas dat je in staat stelt om onderweg je route aan te passen op basis van wat je ziet, zonder dat je de richting kwijtraakt.

Het maakt statistiek minder star, meer adaptief en vooral: eerlijker, omdat het toestaat dat we onze vragen aanpassen aan de realiteit van de data, in plaats van de data te forceren in een strakke koker.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Post-Hoc Large-Sample Statistical Inference" in het Nederlands.

Titel: Post-Hoc Groot-Staal Statistische Inferentie

Auteurs: Ben Chugg, Etienne Gauthier, Michael I. Jordan, Aaditya Ramdas, en Ian Waudby-Smith.
Datum: Maart 2026 (voorgesteld)

1. Het Probleem: De Beperking van Klassieke Inferentie

De meeste toegepaste statistische methoden zijn asymptotisch, wat betekent dat hun geldigheid geldt wanneer het aantal steekproeven ( $n$ ) naar oneindig gaat. Een fundamentele beperking van klassieke inferentie is dat het significantieniveau ( $\alpha$ , de "type-I fout") vooraf moet worden vastgesteld, voordat er data worden bekeken of geanalyseerd.

Dit leidt tot praktische problemen:

Inconclusieve resultaten: Als een analist een betrouwbaarheidsinterval (CI) berekent met een streng $\alpha$ (bijv. 0,01) en het interval is te breed om nuttige conclusies te trekken, is het niet toegestaan om het proces te herhalen met een losser $\alpha$ (bijv. 0,05) op dezelfde data. Dit zou de statistische garanties schenden.
Het probleem van "roving alphas": Het aanpassen van $\alpha$ op basis van de data (data-dependent significance levels) is een bekende bron van p-hacking en leidt tot valse ontdekkingen.
Bestaande oplossingen: Methodes zoals "alpha-spending" (bijv. bij klinische trials) vereisen dat het totale $\alpha-budget$ wordt verdeeld over vooraf geplande analyses, wat de statistische power per analyse verlaagt en flexibiliteit beperkt.

De auteurs stellen dat e-waarden (e-values) de oplossing bieden voor post-hoc inferentie, maar dat bestaande theorieën voornamelijk niet-asymptotisch zijn. Niet-asymptotische methoden vereisen vaak sterke momenta-aannames (bijv. begrenste momenten) en zijn conservatief. Er was een theoretische lacune voor post-hoc inferentie in het asymptotische regime.

2. Methodologie: Asymptotische e-waarden en Risicobeheersing

Het paper introduceert een raamwerk voor post-hoc geldige inferentie in het asymptotische regime, gebaseerd op asymptotische e-waarden.

Post-hoc Risicobeheersing: In plaats van de kans op een type-I fout te begrenzen voor een vast $\alpha$ $α$ , begrenst deze methode het risico (verwachte waarde van de verhouding tussen indicator van miscoverage en $\alpha$ $α$ ) over alle mogelijke $\alpha$ $α$ -waarden die data-afhankelijk kunnen worden gekozen.
- Een post-hoc betrouwbaarheidsinterval $H(\alpha)$ is geldig als: $\sup_P \limsup_{n \to \infty} E_P [\sup_{\alpha > 0} \frac{1\{\theta \notin H(\alpha)\}}{\alpha}] \leq 1$ .
Asymptotische e-waarden: Een rij van niet-negatieve stochastische variabelen $(E_n)$ is een asymptotische e-waarde als $\limsup_{n \to \infty} E_P[E_n] \leq 1$ .
Fundamentele Resultaat (Propositie 2.6): Er is een noodzakelijke en voldoende relatie: elke post-hoc geldige betrouwbaarheidsinterval (die monotoon en linkscontinu is) kan worden afgeleid van een asymptotische e-waarde door drempelwaarde-toepassing: $H_n(\alpha) = \{ \theta : E_n(\theta) < 1/\alpha \}$ .

De auteurs onderscheiden twee soorten garanties:

Pointwise: Geldig voor elke individuele verdeling $P$ .
Distribution-uniform: Geldig uniform over een klasse van verdelingen $\mathcal{P}$ . Dit is strikter en vereist uniforme momenta-aannames (bijv. uniforme begrenzing van de derde moment/scheefheid).

3. Belangrijkste Bijdragen

De paper ontwikkelt drie specifieke methoden om asymptotische post-hoc betrouwbaarheidsintervallen (APH-CIs) te construeren:

A. De IWR Asymptotische e-variabele (Ignatiadis, Wang, Ramdas)

Constructie: Gebaseerd op de variabele $E^{iwr}_n(\theta; \lambda) = \exp(\lambda S_n(\theta)/V_n(\theta) - \lambda^2/2)$ , waarbij $S_n$ de som van afwijkingen is en $V_n$ de genormaliseerde som van kwadraten.
Resultaat: De auteurs bewijzen dat dit een asymptotische e-waarde is onder zwakkere aannames dan eerder bekend (domein van aantrekkingskracht van een Gaussische verdeling). Voor uniforme geldigheid wordt een uniform begrensd derde moment vereist.
Parameterkeuze ( $\lambda$ ):
1. Ex ante anchoring: Kies een vast $\alpha_0$ (een "gissing" voor het uiteindelijke $\alpha$ ) en stel $\lambda = \sqrt{2\log(2/\alpha_0)}$ . Simulaties tonen aan dat dit verrassend goed presteert, zelfs als het werkelijke $\alpha$ sterk afwijkt van $\alpha_0$ .
2. Mixture methode: Integreer over een verdeling van $\lambda$ (bijv. een afgeknotte Gaussische verdeling) om een e-variabele te krijgen die onafhankelijk is van $\lambda$ . Dit resulteert in een interval dat in het ergste geval breder is, maar robuuster.

B. De R-WS Asymptotische e-variabele (Ruf, Waudby-Smith)

Constructie: Gebruikt een truncatie-methode gecombineerd met een niet-asymptotische Sterke Wet van Grote Aantallen (SLLN). De e-variabele wordt begrensd door een sequentie $T_n$ om uniforme integreerbaarheid te garanderen.
Voordeel: Geldig onder een $2+\delta$ momenta-aanname (zwakker dan de derde moment voor IWR in uniforme setting).
Sterkste Garantie: Deze methode levert niet alleen een post-hoc CI, maar een post-hoc asymptotische confidence sequence (APH-CS). Dit betekent dat het interval geldig blijft voor elke stoptijd (optionele stopping), niet alleen voor een vast $n$ . De breedte schaalt als $\sqrt{\log(n)/n}$ in plaats van $1/\sqrt{n}$, wat typisch is voor time-uniform sequences.

C. Theoretische Uitbreidingen

Definities van asymptotische e-processen en post-hoc confidence sequences.
Bewijs dat deze objecten noodzakelijk en voldoende zijn voor post-hoc sequentiële inferentie.
Analyse van de exacte asymptotische type-I fout van de voorgestelde methoden, wat aantoont dat ze conservatiever zijn dan klassieke Wald-intervallen (wat de prijs is voor post-hoc geldigheid).

4. Resultaten en Simulaties

Breedte van Intervallen:
- De IWR met ex ante anchoring is vaak het smalste interval voor redelijke waarden van $\alpha$ en $\alpha_0$ , en presteert vergelijkbaar met klassieke Wald-intervallen (die niet post-hoc geldig zijn).
- De R-WS methode levert iets bredere intervallen op, maar biedt de sterkste garantie (geldigheid voor optionele stopping).
- De Mixture IWR methode biedt een goede tussenoplossing met betere worst-case prestaties dan ex ante anchoring.
Risicobeheersing: Simulaties tonen aan dat de voorgestelde methoden het post-hoc risico (verwachte waarde van $1/\alpha $bij miscoverage) onder controle houden (dicht bij of onder 1), terwijl klassieke Wald-intervallen bij data-afhankelijke$ \alpha$-keuze het risico exponentieel laten oplopen (tot > 7 in de simulaties).
Vergelijking met Niet-Asymptotische Methoden: De asymptotische methoden zijn vergelijkbaar in breedte met geavanceerde niet-asymptotische methoden (zoals "betting" CIs), maar zijn geldig voor een bredere klasse van verdelingen (alleen eindige tweede momenten vereist, geen begrenzing van de data nodig).

5. Betekenis en Conclusie

Dit paper vult een cruciale theoretische lacune op door post-hoc geldigheid te combineren met asymptotische inferentie.

Praktische Impact: Het stelt statistici in staat om significante niveaus ( $\alpha$ ) data-afhankelijk te kiezen zonder de geldigheid van de conclusies te schenden. Dit is essentieel voor exploratieve data-analyse, A/B-testing en wetenschappelijk onderzoek waar rigide vooraf vastgestelde plannen onpraktisch zijn.
Flexibiliteit: Het biedt een alternatief voor "alpha-spending" dat geen budgettering vereist en een onbeperkt aantal analyses toestaat.
Theoretische Strenheid: Door te werken in het asymptotische regime, worden de strenge momenta-aannames van niet-asymptotische e-waarden-methoden verlicht, waardoor de methoden toepasbaar zijn op zwaardere staartverdelingen.
Aanbeveling: De auteurs adviseren het gebruik van IWR met ex ante anchoring voor de smalste intervallen in de praktijk, en R-WS (confidence sequences) wanneer optionele stopping (stoppen wanneer het resultaat significant is) een rol speelt, vanwege de sterkere garanties.

Kortom, dit werk transformeert post-hoc inferentie van een "verboden" praktijk naar een wiskundig onderbouwde, rigoureuze en flexibele tool voor moderne datawetenschap.

Post-Hoc Large-Sample Statistical Inference

Titel: Post-Hoc Groot-Staal Statistische Inferentie

1. Het Probleem: De Beperking van Klassieke Inferentie

2. Methodologie: Asymptotische e-waarden en Risicobeheersing

3. Belangrijkste Bijdragen

A. De IWR Asymptotische e-variabele (Ignatiadis, Wang, Ramdas)

B. De R-WS Asymptotische e-variabele (Ruf, Waudby-Smith)

C. Theoretische Uitbreidingen

4. Resultaten en Simulaties

5. Betekenis en Conclusie

Meer zoals dit

Mathematical Proof

On the intrinsic geometry of polyhedra: Convex polygon coordinates

A finite element continuous data assimilation framework for a Navier--Stokes--Cahn--Hilliard system

An efficient predictor-corrector approach with orthogonal spline collocation finite element technique for FitzHugh-Nagumo problem

The structure of group-labeled graphs forbidding an immersion