Statistical significance in choice modelling: computation, usage and reporting

Dieser Kommentar hinterfragt die übermäßige Abhängigkeit von statistischen Signifikanzniveaus in der Wahlmodellierung, fordert präzisere Berichterstattung über Unsicherheitsmaße und betont die Notwendigkeit, neben der statistischen auch die verhaltenswissenschaftliche oder politische Relevanz sowie modellspezifische Besonderheiten wie Willingness-to-Pay und wiederholte Entscheidungen zu berücksichtigen.

Stephane Hess, Andrew Daly, Michiel Bliemer, Angelo Guevara, Ricardo Daziano, Thijs Dekker

Veröffentlicht 2026-03-10
📖 6 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🚦 Statistische Signifikanz in der Wahlmodellierung: Ein Leitfaden für den Alltag

Stellen Sie sich vor, Sie sind ein Koch, der ein neues Rezept (ein Modell) entwickelt hat, um zu verstehen, warum Menschen bestimmte Dinge tun – zum Beispiel, warum sie mit dem Bus statt mit dem Auto fahren. Sie haben Zutaten (Daten) gesammelt und das Gericht gekocht. Aber wie können Sie sicher sein, dass Ihr Gericht wirklich gut schmeckt und nicht nur ein Zufall ist?

Dieses Papier von Stephane Hess und Kollegen ist wie ein Lehrbuch für Köche, das erklärt, wie man die Qualität seines Gerichts wirklich misst, ohne sich von falschen Messinstrumenten täuschen zu lassen.

Hier sind die wichtigsten Punkte, übersetzt in einfache Sprache:

1. Das Problem: Der Unterschied zwischen „Es gibt einen Effekt" und „Der Effekt ist wichtig"

Stellen Sie sich vor, Sie werfen eine Münze. Wenn Sie 100 Mal werfen und 51 Mal Kopf sehen, ist das statistisch vielleicht ein „Zufall". Aber wenn Sie 10.000 Mal werfen und 5.100 Mal Kopf sehen, ist das immer noch ein winziger Unterschied, aber statistisch „signifikant".

  • Die Falle: Viele Forscher schauen nur darauf, ob ein Effekt existiert (ob er von Null verschieden ist). Sie fragen: „Ist der Unterschied groß genug, um ihn zu sehen?"
  • Die Realität: Oft ist es wichtiger zu fragen: „Ist der Unterschied bedeutsam?" Ein winziger Unterschied kann statistisch signifikant sein (weil man so viele Daten hat), aber für die Politik oder das Verhalten der Menschen völlig irrelevant.
  • Die Analogie: Wenn Sie einen Riesen-Salat für 10.000 Leute machen, macht ein einziger extra Pfefferkorn einen Unterschied im Geschmack? Statistisch ja (es ist nicht null), aber geschmacklich nein. Wir müssen auf die Größe des Effekts achten, nicht nur auf sein Vorhandensein.

2. Der „95%-König" und seine Krone

In der Wissenschaft ist es eine feste Regel: Alles, was zu 95 % sicher ist, gilt als „wahr". Man nennt das das Signifikanzniveau.

  • Das Papier sagt: Wir sollten diesen König nicht mehr blind anbeten. 95 % sind oft zu streng für kleine Datenmengen und zu locker für riesige Datenmengen.
  • Die Metapher: Stellen Sie sich vor, Sie suchen nach einem Nadel im Heuhaufen. Wenn der Heuhaufen riesig ist (viele Daten), finden Sie die Nadel fast immer. Wenn der Heuhaufen klein ist, brauchen Sie vielleicht eine weniger strenge Lupe, um überhaupt etwas zu sehen. Ein starrer „95%-Regel" führt dazu, dass wir wichtige Dinge übersehen oder unwichtige Dinge für wichtig halten.

3. Die Unsicherheit messen: Der „Schutzanzug"

Wenn Sie einen Parameter schätzen (z. B. wie teuer Zeit für jemanden ist), ist das nie eine exakte Zahl. Es ist eher wie ein Zielkreis.

  • Konfidenzintervalle: Statt zu sagen „Der Preis ist genau 10 Euro", sagen wir: „Der Preis liegt wahrscheinlich zwischen 8 und 12 Euro".
  • Das Problem: Viele Forscher nutzen nur eine einfache Formel, die davon ausgeht, dass die Daten perfekt normal verteilt sind (wie eine Glocke). Aber echte Daten sind oft krumm und schief.
  • Die Lösung (Bootstrapping): Statt eine Formel zu benutzen, nehmen Sie Ihre Daten, mischen sie wie ein Kartenspiel, ziehen Sie eine Hand, berechnen Sie das Ergebnis, legen Sie die Karten zurück und machen Sie das 1.000 Mal. So sehen Sie, wie sich das Ergebnis wirklich verteilt. Das ist wie ein Probelauf, bevor Sie das echte Rennen starten.

4. Die drei Test-Methoden (Die „Dreieinigkeit")

Um zu prüfen, ob Ihr Modell gut ist, gibt es drei Hauptwerkzeuge. Sie sind wie drei verschiedene Wettervorhersagen:

  1. Likelihood-Ratio-Test (LR): Vergleicht zwei Modelle direkt (das alte vs. das neue). Das ist wie ein direkter Vergleich zweier Autos auf einer Rennstrecke.
  2. Wald-Test (t-Verhältnis): Schaut nur auf das neue Modell und fragt: „Ist dieser Wert weit genug von Null entfernt?" Das ist wie ein Blick auf den Tacho.
  3. Lagrange-Multiplikator-Test (LM): Schaut nur auf das alte Modell und fragt: „Würde sich etwas verbessern, wenn wir einen neuen Parameter hinzufügen?" Das ist wie ein Blick auf den Motor des alten Autos.
  • Wichtig: Bei kleinen Datenmengen können diese drei Tests zu unterschiedlichen Ergebnissen kommen. Der LR-Test ist oft der zuverlässigste, weil er beide Seiten betrachtet.

5. Der Fehler mit den Sternen (⭐⭐⭐)

Viele wissenschaftliche Artikel nutzen Sterne, um Wichtigkeit anzuzeigen:

    • = 90 % sicher
  • ** = 95 % sicher
  • *** = 99 % sicher

Das Papier warnt: Diese Sterne sind irreführend!

  • Sie sagen nicht, wie groß der Effekt ist.
  • Sie verbergen, ob ein einseitiger oder zweiseitiger Test benutzt wurde (wie ein Würfel, bei dem man nur die Oberseite sieht, aber nicht, ob er schief liegt).
  • Rat: Zeigen Sie immer die genauen Zahlen (Standardfehler oder t-Werte) an. Sterne sind wie eine Verpackung ohne Inhaltsangabe – sie sehen hübsch aus, sagen aber wenig über den Inhalt aus.

6. Besondere Herausforderungen bei Wahlmodellen

In der Wahlmodellierung (z. B. Verkehrswahl) gibt es spezielle Fallen:

  • Wiederholte Entscheidungen: Wenn dieselbe Person 10 Mal eine Entscheidung trifft, sind diese Daten nicht unabhängig. Es ist wie wenn Sie einen Freund 10 Mal fragen, ob er Pizza mag. Er wird wahrscheinlich immer „Ja" sagen. Das verzerrt die Unsicherheit. Man muss das korrigieren, sonst denkt man, man sei sicherer, als man ist.
  • Willensbereitschaft (WTP): Oft wollen wir wissen, wie viel Geld jemand für Zeit sparen würde. Das berechnet man aus zwei unsicheren Zahlen (Zeit und Geld). Die Unsicherheit dieser neuen Zahl ist viel komplexer als bei den einzelnen Zahlen. Hier braucht man spezielle Werkzeuge (wie den Delta-Method oder Simulationen).

7. Fazit: Was sollten Forscher tun?

Das Papier gibt folgende Ratschläge für die Praxis:

  1. Hören Sie auf, nur auf Sterne zu starren. Schauen Sie auf die Größe des Effekts und ob er für die Politik oder das Verhalten wichtig ist.
  2. Seien Sie ehrlich mit der Unsicherheit. Berichten Sie Konfidenzintervalle, nicht nur p-Werte.
  3. Nutzen Sie die richtigen Werkzeuge. Wenn die Daten krumm sind, nutzen Sie Bootstrapping statt einfacher Formeln.
  4. Denken Sie an die Realität. Ein Parameter kann statistisch „nicht signifikant" sein (wegen zu wenig Daten), aber trotzdem für die Theorie wichtig sein. Entfernen Sie ihn nicht einfach nur wegen einer Zahl.

Zusammenfassend:
Statistische Signifikanz ist wie ein Warnlicht im Auto. Es sagt Ihnen, dass etwas passiert ist. Aber es sagt Ihnen nicht, ob Sie bremsen müssen oder ob es nur ein kleiner Stein auf der Straße ist. Forscher müssen lernen, nicht nur auf das Licht zu schauen, sondern auch auf die Straße (die Realität und die Größe des Effekts) zu achten.