Statistical significance in choice modelling: computation, usage and reporting

Each language version is independently generated for its own context, not a direct translation.

De Sterren op je Schoolrapport: Waarom "Statistische Significantie" in Keuzemodels vaak misleidend is

Stel je voor dat je een kok bent die een nieuw recept test. Je wilt weten of de nieuwe kruidenmix (je model) echt lekkerder is dan het oude, of dat het verschil alleen maar toeval is. In de wereld van de keuzemodels (waarbij we proberen te voorspellen of mensen met de auto, trein of fiets gaan), doen onderzoekers precies hetzelfde. Ze kijken naar cijfers en zeggen: "Kijk, dit resultaat is statistisch significant!"

Maar volgens deze auteurs is de manier waarop we hiermee omgaan vaak net als een schoolrapport vol met sterretjes (*, **, ***) die niet vertellen hoe goed een kind écht is, maar alleen of het cijfer net boven de 50% ligt.

Hier is wat ze te zeggen hebben, vertaald naar begrijpelijke concepten:

1. De "Toevals-Regel" (Onzekerheid)

Wanneer onderzoekers een model maken, werken ze met een steekproef (een klein stukje van de werkelijkheid), niet met de hele wereld. Het is alsof je proeft van één lepel soep om te zeggen hoe de hele pan smaakt.

Het probleem: Omdat je niet de hele pan proeft, is er altijd een beetje twijfel. De auteurs zeggen: "Stop met doen alsof je zeker weet dat iets klopt."
De analogie: Als je een munt opgooit en 5 keer achter elkaar kop krijgt, denk je misschien dat de munt vals is. Maar misschien was het gewoon toeval. In de statistiek noemen we dit de p-waarde. Als deze heel laag is, zeggen we: "Het is waarschijnlijk niet toeval." Maar de auteurs waarschuwen: zelfs als het niet toeval is, betekent het niet dat het belangrijk is.

2. De "95%-Rijst" (Het gevaar van de 95% drempel)

In de wetenschap is er een heilige graal: de 95% zekerheid. Als iets onder die lijn valt, krijgen het een sterretje en wordt het "waar". Alles erboven is "niet significant" en wordt vaak genegeerd.

De analogie: Stel je voor dat je een hek hebt met een gat van 95 cm. Alles wat erdoor past, is "goed". Alles wat er net niet door past (94,9 cm), wordt weggegooid.
Het punt: De auteurs zeggen: "Dit is belachelijk!" Als je een heel groot dataset hebt (zoals een hele stad aan data), kun je zelfs heel kleine, onbelangrijke verschillen "significant" maken. Omgekeerd, bij een klein dataset, kan een heel belangrijk effect (zoals dat geld mensen beïnvloedt) net de 95% drempel missen.
De les: Kijk niet alleen naar of het door het gat past (significantie), maar kijk naar hoe groot het gat is (de effectgrootte). Is het verschil tussen auto en trein groot genoeg om beleid te veranderen? Of is het maar een druppel?

3. De "Sterren-Code" (Rapportage)

Veel tabellen in wetenschappelijke artikelen zijn volgepropt met sterretjes (*, **, ***).

Het probleem: Dit is als een schoolrapport waar alleen de cijfers met een sterretje worden getoond. Je ziet niet hoe ver het cijfer van de 5 afstaat.
De analogie: Als je zegt "Dit resultaat is ***, dat is super!", weet je niet of het 99% of 99,9% is. En als je alleen een ster ziet, kun je niet berekenen hoe groot de foutmarge is.
De raad: Stop met alleen sterretjes te gebruiken. Laat de echte cijfers zien (zoals de standaardfouten). Laat de lezer zelf zien hoe breed de onzekerheidsboog is.

4. De "Kruimels vs. De Taart" (Betekenis vs. Statistiek)

Dit is misschien wel het belangrijkste punt.

De analogie: Stel je voor dat je een taart bakt. Je hebt een meetlat (statistiek) en een smaaktest (gedragsbelang).
- Je meetlat zegt: "De suiker is 0,001 gram meer dan gisteren. Dat is statistisch significant!" (Je kunt het meten).
- Maar je smaaktest zegt: "Ik proef geen verschil. Het smaakt hetzelfde."
De les: In keuzemodels (bijvoorbeeld voor vervoersbeleid) is het niet belangrijk of een getal statistisch van nul verschilt. Het is belangrijk of het gedrag verandert. Als een parameter (bijvoorbeeld de prijs van een treinbiljet) statistisch net niet "significant" is, maar als je hem uit het model haalt, verandert je voorspelling van hoeveel mensen gaan fietsen drastisch, dan moet je die parameter wel houden!
De boodschap: Kijk naar de praktische betekenis (beleid), niet alleen naar de wiskundige zekerheid.

5. De "Dubbele Meetlat" (Eenzijdig vs. Tweezijdig)

Soms gebruiken onderzoekers de verkeerde meetlat.

De analogie: Stel je voor dat je weet dat een auto nooit sneller is dan 300 km/u (dat is onmogelijk). Als je een test doet om te kijken of een nieuwe auto sneller is, zou je alleen moeten kijken naar de bovenkant. Maar veel onderzoekers kijken naar beide kanten (sneller én langzamer).
Het gevolg: Door naar beide kanten te kijken, wordt het moeilijker om iets "significant" te noemen. Je mist misschien een waarheid omdat je te streng meet. De auteurs zeggen: Gebruik de juiste test voor je vraag. Als je weet dat iets negatief moet zijn (zoals kosten), test dan alleen in die richting.

6. De "Bootcamp" (Bootstrapping)

Hoe weten we of onze metingen betrouwbaar zijn? Vaak gebruiken onderzoekers een wiskundige formule die uitgaat van een perfecte "normale verdeling" (een klokvorm).

Het probleem: De echte wereld is vaak niet perfect. De data kan scheef zijn.
De oplossing: De auteurs raden aan om te "bootstrappen".
De analogie: In plaats van te gokken op de vorm van de klokkromme, neem je je dataset, en trek je er 1000 keer willekeurig een stukje uit (alsof je een bootcamp doet met je eigen data). Je kijkt dan 1000 keer wat het resultaat is. Zo zie je de echte spreiding. Dit is vaak betrouwbaarder dan de standaardformules, vooral bij complexe modellen.

Conclusie: Wat moeten we doen?

De auteurs zeggen niet dat we statistiek moeten afschaffen. Ze zeggen alleen dat we het slimmer moeten gebruiken.

Stop met obsessie voor de 95%: Een p-waarde van 0,06 is niet "niets". Het kan nog steeds een belangrijk effect zijn.
Kijk naar de grootte, niet alleen naar het ja/nee: Is het effect groot genoeg om beleid te veranderen?
Wees eerlijk in rapportage: Laat de cijfers zien, niet alleen sterretjes. Vertel of je een eenzijdige of tweezijdige test hebt gedaan.
Onthoud: Statistiek zegt of een effect bestaat, maar het zegt niets over of het effect belangrijk is.

Kortom: Wees niet blind voor de sterren op je schoolrapport. Kijk naar of het kind (het beleid) eigenlijk wel iets kan leren van de les.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Statistical significance in choice modelling: computation, usage and reporting" van Hess et al., geschreven in het Nederlands.

Titel: Statistische significantie in keuzemodellering: berekening, gebruik en rapportage

Auteurs: Stephane Hess, Andrew Daly, Michiel Bliemer, Angelo Guevara, Ricardo Daziano, Thijs Dekker
Datum: 10 maart 2026

1. Het Probleem

Hoewel statistische significantie een hoeksteen is van empirisch onderzoek in de keuzemodellering (choice modelling), is er een groeiende kritiek op de overmatige en vaak misleidende toepassing ervan in de wetenschap. Het artikel identificeert specifieke problemen binnen het veld van de keuzemodellering:

Over-reliance op 95%: Er is een starre vasthoudendheid aan het 95% betrouwbaarheidsniveau ( $p < 0.05$ ), vaak zonder inzicht in de onderliggende aannames.
Misverstanden: Er bestaat verwarring tussen de waarschijnlijkheid van de data gegeven een hypothese (de $p$ -waarde) en de waarschijnlijkheid van de hypothese gegeven de data. Ook wordt vaak verward of een effect "bestaat" (verschilt van nul) versus of het effect "relevant" is (groot genoeg voor beleid).
Onnauwkeurige rapportage: Veel studies rapporteren onvoldoende precisie, vooral bij het gebruik van $p$ -waarden en sterretjes ( $*, **, ***$ ), wat verdere analyse of het berekenen van betrouwbaarheidsintervallen door lezers onmogelijk maakt.
Veldspecifieke complexiteit: Keuzemodellen hebben unieke uitdagingen, zoals de afgeleide maatstaven (bijv. betalingsbereidheid/WTP), de behandeling van toevallige heterogeniteit (random heterogeneity), en het gebruik van paneldata (herhaalde keuzes), die standaard statistische theorieën kunnen ondermijnen.
Gebrek aan econometrische kennis: De snelle groei van het veld heeft geleid tot deelname van onderzoekers met beperkte econometrische achtergrond, wat leidt tot onjuist gebruik van toetsen.

2. Methodologie en Theoretische Kader

Het artikel biedt een grondige technische review van de berekening en interpretatie van onzekerheidsmaten in de context van Maximum Likelihood Estimation (MLE) en Bayesiaanse analyse.

Berekening van Onzekerheid:
- Asymptotische Covariantiematrix: De standaardfouten worden traditioneel afgeleid uit de Hessian (tweede afgeleiden van de log-likelihood) en de Fisher-informatiematrix.
- Robuuste Schatters: Het artikel benadrukt het gebruik van "sandwich"-schatters (robuste standaardfouten) om correctie toe te passen voor modelmisspecificaties en correlaties in paneldata (herhaalde keuzes per persoon).
- Bootstrapping: Als alternatief voor asymptotische aannames wordt bootstrapping voorgesteld om empirische verdelingen van parameters en afgeleide maten (zoals WTP) te genereren, wat minder afhankelijk is van normaliteitsaannames.
- Delta-methode: Voor transformaties van parameters (zoals marginale substitutieratio's) wordt de Delta-methode gebruikt om fouten te propagëren.
Hypothetetoetsing:
- Type I en II Fouten: Er wordt gedetailleerd ingegaan op de risico's van Type I (nullhypothese onterecht verwerpen) en Type II (alternatieve hypothese onterecht verwerpen) fouten.
- Een- vs. Tweezijdige Toetsen: Het artikel pleit sterk voor het gebruik van eenzijdige toetsen (one-sided tests) wanneer er een sterke a priori tekenaanspraak is (bijv. kostencoëfficiënten moeten negatief zijn). Het gebruik van tweezijdige toetsen in deze gevallen verdubbelt de $p$ -waarde en verhoogt het risico op Type II fouten.
- De "Triniteit" van Toetsen: Likelihood Ratio (LR), Wald (t-ratio) en Lagrange Multiplier (LM) toetsen worden vergeleken. De LR-toets wordt vaak geprefereerd omdat deze minder afhankelijk is van de vorm van de likelihood-functie rond het optimum.
- Modelvergelijking: Voor niet-geneste modellen (non-nested) worden alternatieven zoals AIC, BIC en de Ben-Akiva & Swait test besproken.

3. Belangrijkste Bijdragen en Resultaten

Kritiek op het 95% Nivo: De auteurs betogen dat het 95% niveau geen universele regel mag zijn. Bij grote datasets kunnen zeer kleine effecten statistisch significant worden zonder beleidsrelevantie. Omgekeerd kan een parameter met een $p$ -waarde van 0.06 (net boven 0.05) cruciaal zijn voor het model (bijv. kosten) en mag niet worden verwijderd puur op basis van statistische significantie.
Significantie vs. Precisie: Er wordt een scherp onderscheid gemaakt tussen statistische significantie (verwerpen van $H_0: \beta = 0$ ) en de precisie van de schatting (de breedte van het betrouwbaarheidsinterval). Twee parameters kunnen beide significant zijn, maar zeer verschillende betrouwbaarheidsintervallen hebben, wat grote implicaties heeft voor beleidsvoering.
Rapportagestandaarden:
- Rapporteer altijd standaardfouten of t-ratio's naast $p$ -waarden.
- Vermijd het gebruik van alleen sterretjes ( $*, **, ***$ ) omdat dit geen informatie geeft over de grootte van de onzekerheid of de richting van het interval.
- Geef altijd aan of een- of tweezijdige toetsen zijn gebruikt.
- Rapporteer met voldoende decimalen (minimaal twee significante cijfers) om informatieverlies te voorkomen.
Empirisch Voorbeeld: Aan de hand van een dataset van het DECISIONS-project (3.438 reizen, 358 individuen) wordt aangetoond dat:
- Robuuste en bootstrap standaardfouten aanzienlijk groter zijn dan klassieke standaardfouten (door correlatie in paneldata).
- Verschillende toetsen (klassiek vs. robust vs. bootstrap) soms tot verschillende conclusies leiden over significantie.
- Asymptotische betrouwbaarheidsintervallen (op basis van normaliteit) niet altijd symmetrisch zijn rond de schatting, terwijl bootstrap-intervallen dit wel kunnen zijn.
- Parameters die statistisch niet significant zijn (zoals taxi-tijd), toch behouden moeten worden vanwege hun beleidsrelevantie.

4. Betekenis en Conclusies

Het artikel concludeert dat statistische significantie niet het enige criterium mag zijn voor het behouden van variabelen in een model. De auteurs stellen de volgende richtlijnen voor:

Taalgebruik: Vermijd de term "statistisch significant" als eigenschap van een parameter. Gebruik in plaats daarvan: "we kunnen de nullhypothese verwerpen op een X% betrouwbaarheidsniveau."
Beleids- en Gedragsrelevantie: Focus op de "behavioral importance" (impact op voorspellingen) en "policy importance" (impact op beleidsuitkomsten) in plaats van alleen op de $p$ -waarde.
Flexibiliteit in Significatieniveaus: Pas het significantieniveau aan op basis van de datasetgrootte en de kosten van Type I vs. Type II fouten. In specificatietesten is het vaak beter om een parameter te behouden en de onzekerheid te rapporteren dan deze te verwijderen.
Verbeterde Rapportage: Gebruik geen sterretjes als vervanging voor numerieke waarden. Rapporteer betrouwbaarheidsintervallen en gebruik bij voorkeur bootstrap-methode voor afgeleide maten (zoals WTP) om de asymmetrie van de verdeling te vangen.
Bayesiaanse Alternatieven: Het artikel sluit af met een verwijzing naar Bayesiaanse methoden, die een meer intuïtieve benadering bieden voor onzekerheid en hypothetetoetsing, hoewel dit buiten de scope van de frequentistische discussie valt.

Samenvattend: Dit artikel fungeert als een noodzakelijke correctie op de huidige praktijk in de keuzemodellering. Het dringt aan op meer nuance, technische precisie en een verschuiving van puur statistische "jacht op significantie" naar een holistische benadering die modelkwaliteit, gedragsinzicht en beleidsimpact centraal stelt.