Statistical significance in choice modelling: computation, usage and reporting

Dit artikel biedt een commentaar op het gebruik van statistische significantie in keuzemodelleer, waarbij het de oorzaken van onzekerheid bespreekt, kritiek levert op de overmatige afhankelijkheid van 95%-betrouwbaarheidsintervallen en p-waarden, en benadrukt dat naast statistische ook gedrags- en beleidsrelevantie moeten worden overwogen, met name bij afgeleide maatstaven zoals betalingsbereidheid.

Stephane Hess, Andrew Daly, Michiel Bliemer, Angelo Guevara, Ricardo Daziano, Thijs Dekker

Gepubliceerd 2026-03-10
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Sterren op je Schoolrapport: Waarom "Statistische Significantie" in Keuzemodels vaak misleidend is

Stel je voor dat je een kok bent die een nieuw recept test. Je wilt weten of de nieuwe kruidenmix (je model) echt lekkerder is dan het oude, of dat het verschil alleen maar toeval is. In de wereld van de keuzemodels (waarbij we proberen te voorspellen of mensen met de auto, trein of fiets gaan), doen onderzoekers precies hetzelfde. Ze kijken naar cijfers en zeggen: "Kijk, dit resultaat is statistisch significant!"

Maar volgens deze auteurs is de manier waarop we hiermee omgaan vaak net als een schoolrapport vol met sterretjes (*, **, ***) die niet vertellen hoe goed een kind écht is, maar alleen of het cijfer net boven de 50% ligt.

Hier is wat ze te zeggen hebben, vertaald naar begrijpelijke concepten:

1. De "Toevals-Regel" (Onzekerheid)

Wanneer onderzoekers een model maken, werken ze met een steekproef (een klein stukje van de werkelijkheid), niet met de hele wereld. Het is alsof je proeft van één lepel soep om te zeggen hoe de hele pan smaakt.

  • Het probleem: Omdat je niet de hele pan proeft, is er altijd een beetje twijfel. De auteurs zeggen: "Stop met doen alsof je zeker weet dat iets klopt."
  • De analogie: Als je een munt opgooit en 5 keer achter elkaar kop krijgt, denk je misschien dat de munt vals is. Maar misschien was het gewoon toeval. In de statistiek noemen we dit de p-waarde. Als deze heel laag is, zeggen we: "Het is waarschijnlijk niet toeval." Maar de auteurs waarschuwen: zelfs als het niet toeval is, betekent het niet dat het belangrijk is.

2. De "95%-Rijst" (Het gevaar van de 95% drempel)

In de wetenschap is er een heilige graal: de 95% zekerheid. Als iets onder die lijn valt, krijgen het een sterretje en wordt het "waar". Alles erboven is "niet significant" en wordt vaak genegeerd.

  • De analogie: Stel je voor dat je een hek hebt met een gat van 95 cm. Alles wat erdoor past, is "goed". Alles wat er net niet door past (94,9 cm), wordt weggegooid.
  • Het punt: De auteurs zeggen: "Dit is belachelijk!" Als je een heel groot dataset hebt (zoals een hele stad aan data), kun je zelfs heel kleine, onbelangrijke verschillen "significant" maken. Omgekeerd, bij een klein dataset, kan een heel belangrijk effect (zoals dat geld mensen beïnvloedt) net de 95% drempel missen.
  • De les: Kijk niet alleen naar of het door het gat past (significantie), maar kijk naar hoe groot het gat is (de effectgrootte). Is het verschil tussen auto en trein groot genoeg om beleid te veranderen? Of is het maar een druppel?

3. De "Sterren-Code" (Rapportage)

Veel tabellen in wetenschappelijke artikelen zijn volgepropt met sterretjes (*, **, ***).

  • Het probleem: Dit is als een schoolrapport waar alleen de cijfers met een sterretje worden getoond. Je ziet niet hoe ver het cijfer van de 5 afstaat.
  • De analogie: Als je zegt "Dit resultaat is ***, dat is super!", weet je niet of het 99% of 99,9% is. En als je alleen een ster ziet, kun je niet berekenen hoe groot de foutmarge is.
  • De raad: Stop met alleen sterretjes te gebruiken. Laat de echte cijfers zien (zoals de standaardfouten). Laat de lezer zelf zien hoe breed de onzekerheidsboog is.

4. De "Kruimels vs. De Taart" (Betekenis vs. Statistiek)

Dit is misschien wel het belangrijkste punt.

  • De analogie: Stel je voor dat je een taart bakt. Je hebt een meetlat (statistiek) en een smaaktest (gedragsbelang).
    • Je meetlat zegt: "De suiker is 0,001 gram meer dan gisteren. Dat is statistisch significant!" (Je kunt het meten).
    • Maar je smaaktest zegt: "Ik proef geen verschil. Het smaakt hetzelfde."
  • De les: In keuzemodels (bijvoorbeeld voor vervoersbeleid) is het niet belangrijk of een getal statistisch van nul verschilt. Het is belangrijk of het gedrag verandert. Als een parameter (bijvoorbeeld de prijs van een treinbiljet) statistisch net niet "significant" is, maar als je hem uit het model haalt, verandert je voorspelling van hoeveel mensen gaan fietsen drastisch, dan moet je die parameter wel houden!
  • De boodschap: Kijk naar de praktische betekenis (beleid), niet alleen naar de wiskundige zekerheid.

5. De "Dubbele Meetlat" (Eenzijdig vs. Tweezijdig)

Soms gebruiken onderzoekers de verkeerde meetlat.

  • De analogie: Stel je voor dat je weet dat een auto nooit sneller is dan 300 km/u (dat is onmogelijk). Als je een test doet om te kijken of een nieuwe auto sneller is, zou je alleen moeten kijken naar de bovenkant. Maar veel onderzoekers kijken naar beide kanten (sneller én langzamer).
  • Het gevolg: Door naar beide kanten te kijken, wordt het moeilijker om iets "significant" te noemen. Je mist misschien een waarheid omdat je te streng meet. De auteurs zeggen: Gebruik de juiste test voor je vraag. Als je weet dat iets negatief moet zijn (zoals kosten), test dan alleen in die richting.

6. De "Bootcamp" (Bootstrapping)

Hoe weten we of onze metingen betrouwbaar zijn? Vaak gebruiken onderzoekers een wiskundige formule die uitgaat van een perfecte "normale verdeling" (een klokvorm).

  • Het probleem: De echte wereld is vaak niet perfect. De data kan scheef zijn.
  • De oplossing: De auteurs raden aan om te "bootstrappen".
  • De analogie: In plaats van te gokken op de vorm van de klokkromme, neem je je dataset, en trek je er 1000 keer willekeurig een stukje uit (alsof je een bootcamp doet met je eigen data). Je kijkt dan 1000 keer wat het resultaat is. Zo zie je de echte spreiding. Dit is vaak betrouwbaarder dan de standaardformules, vooral bij complexe modellen.

Conclusie: Wat moeten we doen?

De auteurs zeggen niet dat we statistiek moeten afschaffen. Ze zeggen alleen dat we het slimmer moeten gebruiken.

  1. Stop met obsessie voor de 95%: Een p-waarde van 0,06 is niet "niets". Het kan nog steeds een belangrijk effect zijn.
  2. Kijk naar de grootte, niet alleen naar het ja/nee: Is het effect groot genoeg om beleid te veranderen?
  3. Wees eerlijk in rapportage: Laat de cijfers zien, niet alleen sterretjes. Vertel of je een eenzijdige of tweezijdige test hebt gedaan.
  4. Onthoud: Statistiek zegt of een effect bestaat, maar het zegt niets over of het effect belangrijk is.

Kortom: Wees niet blind voor de sterren op je schoolrapport. Kijk naar of het kind (het beleid) eigenlijk wel iets kan leren van de les.