Post-Hoc Large-Sample Statistical Inference

Dit artikel ontwikkelt een asymptotische theorie voor post-hoc statistische inferentie die, in tegenstelling tot eerdere niet-asymptotische methoden, zwakkere aannames vereist en scherpere resultaten oplevert voor betrouwbaarheidsintervallen en p-waarden die ook na het zien van de data geldig blijven.

Ben Chugg, Etienne Gauthier, Michael I. Jordan, Aaditya Ramdas, Ian Waudby-Smith

Gepubliceerd Tue, 10 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: De "Na de Feiten" Statistiek: Hoe je je niet meer hoeft te haasten om een antwoord te krijgen

Stel je voor dat je een detective bent die een moord oplost. Je hebt een verdachte en een hoop bewijsmateriaal. In de traditionele wereld van de statistiek (de "oude school") moet je, voordat je ook maar één stukje bewijs bekijkt, een strikte regel opstellen: "Ik zal pas zeggen dat de verdachte schuldig is als de kans op een fout minder dan 5% is."

Het probleem? Als je het bewijs bekijkt en je ziet dat de kans op schuld precies 6% is, ben je vastgelopen. Je mag niet zeggen: "Oké, ik verander mijn regel naar 10% en kijk nog eens!" Dat zou je als detective diskwalificeren. Je moet je houden aan de regel die je vooraf had vastgesteld. Dit is wat statistici "Type-I fout" noemen, en het zorgt ervoor dat je soms met een onduidelijk antwoord (een te breed interval) blijft zitten, zonder dat je iets kunt doen.

De Oplossing: De "E-Waarde" (De Gokker)

De auteurs van dit paper (Chugg, Gauthier, Jordan, et al.) hebben een nieuwe manier bedacht om dit probleem op te lossen. Ze gebruiken iets dat ze een e-waarde (e-value) noemen.

Laten we een analogie gebruiken: Het Casino.

Stel je voor dat je een gokker bent die probeert te bewijzen dat een munt niet eerlijk is.

  • De oude manier (p-waarde): Je moet van tevoren zeggen: "Ik stop met gokken zodra ik 5 keer op rij kop heb gezien." Als je 4 keer kop hebt, mag je niet stoppen en zeggen: "Oké, ik stop nu bij 4 keer." Je moet wachten tot je 5 keer hebt, of je hebt verloren.
  • De nieuwe manier (e-waarde): Je bent een slimme gokker die een strategie heeft. Je zegt: "Ik ga geld inzetten op elke mogelijke uitkomst. Als de munt eerlijk is, zal mijn totale vermogen op de lange termijn niet groeien."

Het mooie van deze strategie is dat je op elk moment kunt stoppen en kunt zeggen: "Kijk, ik heb mijn vermogen verdubbeld! De munt is dus niet eerlijk." Het maakt niet uit of je stopt na 3 keer, 10 keer of 100 keer. Omdat je strategie zo is opgebouwd, blijft je bewijs geldig, zelfs als je stopt op het moment dat het jou uitkomt.

Wat doet dit paper nu precies?

Tot nu toe werkte deze "slimme gokker"-strategie alleen voor kleine datasets of onder zeer strenge voorwaarden. Dit paper zegt: "Laten we dit toepassen op grote datasets, waar we normaal gesproken naar oneindig kijken."

Ze hebben een nieuwe wiskundige theorie ontwikkeld die het mogelijk maakt om:

  1. Post-hoc beslissingen te nemen: Je mag je significantieniveau (je "drempel") kiezen nadat je de data hebt gezien.
  2. Breedtes aanpassen: Als je eerste berekening een te breed interval geeft (bijvoorbeeld: "De temperatuur ligt tussen 10 en 30 graden"), mag je zeggen: "Oké, ik wil liever een smaller interval, zelfs als dat betekent dat ik een iets grotere kans op fout accepteer." En dat mag, zonder dat je je statistische "reputatie" verliest.

De Drie Methoden in het Paper

De auteurs presenteren drie manieren om deze nieuwe "slimme gokker" te bouwen voor grote datasets:

  1. De "Vaste Anker" Methode (Ex ante anchoring):

    • Analogie: Je kiest een "gok" vooraf. "Ik denk dat de munt 50/50 is, dus ik zet mijn strategie daarop."
    • Voordeel: Als je gok goed is, werkt het fantastisch en krijg je heel smalle intervallen.
    • Nadeel: Als je gok verkeerd is, werkt het minder goed, maar het blijft veilig.
  2. De "Mix" Methode (Method of mixtures):

    • Analogie: In plaats van één gok te doen, doe je duizenden kleine gokken tegelijk met verschillende strategieën en mix je ze allemaal.
    • Voordeel: Je bent niet afhankelijk van één goede gok. Het werkt goed in bijna alle situaties, maar de intervallen zijn soms iets breder dan bij de eerste methode.
  3. De "Afsnijden" Methode (R-WS e-variable):

    • Analogie: Dit is de meest voorzichtige gokker. Hij zegt: "Ik ga gokken, maar als de situatie te gek wordt (te veel uitzonderingen), stop ik en zeg ik: 'Ik weet het niet'."
    • Voordeel: Dit is de veiligste methode. Het werkt zelfs als de data heel raar is (bijvoorbeeld met extreme uitschieters). Het geeft je zelfs de mogelijkheid om te stoppen op elk moment in de tijd (sequentiële analyse).
    • Nadeel: De intervallen zijn iets breder (minder precies) dan de andere twee.

Waarom is dit belangrijk voor de gemiddelde mens?

Stel je voor dat je een arts bent die een nieuw medicijn test.

  • Vroeger: Je moest van tevoren zeggen: "Ik test op een significantieniveau van 0,05." Als de resultaten net niet significant waren, maar wel interessant, kon je niets doen. Je moest wachten tot je meer patiënten had, of je resultaat verwerpen.
  • Nu (met dit paper): Je kunt de data bekijken en zeggen: "Huh, het ziet er veelbelovend uit, maar niet perfect. Laat me kijken wat er gebeurt als ik mijn drempel iets aanpas." Je krijgt een antwoord dat nog steeds wetenschappelijk betrouwbaar is, maar dat veel flexibeler is.

Conclusie

Dit paper is als het geven van een flexibele kompas aan statistici. Vroeger moest je een vast pad volgen en kon je niet afwijken zonder je verdwaald te verklaren. Nu hebben ze een kompas dat je in staat stelt om onderweg je route aan te passen op basis van wat je ziet, zonder dat je de richting kwijtraakt.

Het maakt statistiek minder star, meer adaptief en vooral: eerlijker, omdat het toestaat dat we onze vragen aanpassen aan de realiteit van de data, in plaats van de data te forceren in een strakke koker.