Inference conditional on selection: a review

Dieser Artikel bietet einen Überblick über die selektive Inferenz, ein Methodenpaket für statistische Schlussfolgerungen, wenn die Forschungsfrage datenabhängig ist, und erläutert deren Anwendung sowie verschiedene Lösungsansätze anhand von Beispielen und einer Analyse von Einzelzell-RNA-Sequenzierungsdaten.

Anna Neufeld, Ronan Perry, Daniela Witten

Veröffentlicht 2026-04-14
📖 6 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Zweite Blick" (Double Dipping)

Stellen Sie sich vor, Sie sind ein Detektiv. Sie kommen in einen Raum voller verdächtiger Personen (die Daten).

  1. Der klassische Fehler: Sie schauen sich die Personen an, wählen diejenige aus, die am verdächtigsten aussieht (z. B. weil sie am nervösesten wirkt), und sagen dann: „Ich habe eine 95-prozentige Sicherheit, dass diese Person der Täter ist."

    • Das Problem: Sie haben die Person ausgewählt, weil sie nervös war, und nutzen dann dieselbe Nervosität als Beweis. Das ist wie ein Richter, der sich selbst die Beweise sucht und dann selbst urteilt. In der Statistik nennt man das „Double Dipping" (Doppelnutzung). Das Ergebnis ist oft eine falsche Sicherheit. Man glaubt, einen Beweis zu haben, aber eigentlich hat man nur einen Zufallstreffer bestätigt.
  2. Die Lösung des Papers: Die Autoren (Anna Neufeld und Kollegen) sagen: „Halt! Wenn Sie die Person erst nachdem Sie sie angesehen haben ausgewählt, müssen Sie Ihre Beweiskette anpassen." Sie nennen das Selektive Inferenz.

Die drei Beispiele aus dem Papier

Die Autoren zeigen drei Situationen, in denen dieses Problem auftritt:

  1. Der Gewinner-Fluch (Winner's Curse):

    • Szenario: Sie testen 100 neue Medikamente. Dasjenige, das am besten wirkt, gewinnt.
    • Fehler: Wenn Sie jetzt sagen: „Medizin Nr. 42 ist super, weil es am besten getestet wurde!", unterschätzen Sie, wie viel Glück dabei eine Rolle spielte. Es könnte sein, dass Medizin Nr. 42 gar nicht so gut ist, sondern nur zufällig am besten getestet wurde.
    • Metapher: Ein Marathonläufer, der zufällig auf einem Hindernis stolpert und als Erster durchs Ziel läuft. Wenn Sie ihn als „schnellsten Läufer" feiern, täuschen Sie sich.
  2. Der Entscheidungsbaum (Regression Tree):

    • Szenario: Ein Algorithmus schaut sich Patienten an und teilt sie in Gruppen ein (z. B. „Junge mit hohem Blutdruck" vs. „Alte mit niedrigem").
    • Fehler: Wenn Sie dann für die Gruppe „Junge mit hohem Blutdruck" einen Durchschnittswert berechnen und behaupten, das sei ein gesichertes Fakt, ignorieren Sie, dass der Algorithmus erst diese Gruppe gebildet hat, um genau diesen Wert zu finden.
  3. Das Clustering (Gruppierung von Zellen):

    • Szenario: In der Biologie werden Zellen nach ihrem Aussehen in Gruppen (Cluster) sortiert, um neue Zelltypen zu finden.
    • Fehler: Danach testet man, ob ein bestimmtes Gen in Gruppe A anders ist als in Gruppe B. Aber da man die Gruppen nach dem Ansehen der Zellen gebildet hat, ist der Test verzerrt. Es ist, als würde man eine Klasse nach dem Zufallsprinzip in „Schlaue" und „Dumme" einteilen und dann behaupten, die „Schlaue"-Gruppe habe nachweislich höhere IQ-Werte.

Die Lösung: Wie man fair bleibt

Die Autoren vergleichen verschiedene Methoden, um diesen Fehler zu korrigieren. Man kann sich das wie verschiedene Strategien vorstellen, um den Detektiv ehrlich zu machen:

1. Die „Alles-oder-Nichts"-Methode (Full Conditional Inference)

  • Die Idee: Man nutzt alle Daten, um den Verdächtigen zu finden, und nutzt dann alle Daten erneut, um den Beweis zu prüfen – aber man rechnet dabei mathematisch so, als wäre der erste Schritt ein fester Teil der Weltordnung.
  • Der Nachteil: Es ist extrem rechenintensiv und führt oft zu sehr breiten, ungenauen Ergebnissen.
  • Metapher: Der Detektiv schaut sich den Raum an, wählt den Verdächtigen aus, und dann muss er sich jeden einzelnen Schritt des Auswahlprozesses genau merken, um zu beweisen, dass er nicht voreingenommen war. Das Ergebnis ist oft: „Wir sind uns zu 95% sicher, dass er der Täter ist... aber die Unsicherheit ist so groß, dass er auch ein völlig anderer sein könnte."

2. Die „Teile-und-Herrsche"-Methode (Sample Splitting)

  • Die Idee: Man teilt die Daten in zwei Hälften.
    • Hälfte A: Dient nur dazu, den Verdächtigen zu finden (Auswahl).
    • Hälfte B: Dient nur dazu, den Verdächtigen zu überprüfen (Beweis).
  • Vorteil: Sehr einfach und fair. Da die Hälfte B den Verdächtigen noch nie gesehen hat, ist der Test sauber.
  • Nachteil: Man wirft die Hälfte A weg, sobald die Auswahl getroffen ist. Das ist wie ein Detektiv, der die Hälfte der Beweise im Müll entsorgt, nur um sicherzugehen, dass er nicht voreingenommen ist.
  • Metapher: Sie lassen einen Freund die Personen im Raum ansehen und einen Namen nennen. Sie schauen sich dann nur die zweite Hälfte der Personen an, um zu prüfen, ob dieser Name passt.

3. Die „Zerlegung"-Methode (Data Thinning & Fission)

  • Die Idee: Eine moderne, clevere Variante des Teilens. Man nimmt die Daten und „schneidet" sie mathematisch so in zwei Teile, dass beide Teile noch Informationen enthalten, aber unabhängig voneinander sind.
  • Vorteil: Man wirft nichts weg! Beide Teile werden genutzt.
  • Nachteil: Es funktioniert nur bei bestimmten Arten von Daten (wie bei bestimmten mathematischen Gesetzen).
  • Metapher: Statt einen Kuchen zu halbieren und eine Hälfte wegzuwerfen, backt man einen Kuchen, der sich in zwei unabhängige Kuchenhälften verwandeln lässt, die beide noch süß sind.

Was haben die Autoren herausgefunden? (Die Simulation)

Die Autoren haben diese Methoden in einem Computer-Experiment getestet (am Beispiel von Bäumen, die Patienten gruppieren):

  • Der Klassiker (ohne Korrektur) versagt oft: Er sagt „Ich bin sicher!", wenn er es gar nicht ist.
  • Die „Teile-und-Herrsche"-Methode ist fair, aber manchmal ungenau, weil sie zu wenig Daten nutzt.
  • Die „Zerlegungs"-Methode (Data Thinning) ist oft der beste Kompromiss: Sie nutzt fast alle Daten, ist fair und liefert präzise Ergebnisse.
  • Die „Alles-oder-Nichts"-Methode ist sehr streng, aber manchmal so vorsichtig, dass die Ergebnisse nutzlos breit sind (wie ein Sicherheitsgurt, der so dick ist, dass man sich kaum bewegen kann).

Das Fazit für die Wissenschaft

Das Papier sagt uns: Es ist in Ordnung, mit Daten zu experimentieren und neue Fragen zu stellen. Das ist wie wissenschaftliche Entdeckung. Aber wenn man die Antwort auf diese neuen Fragen geben will, muss man die Regeln ändern. Man darf nicht denselben Datensatz zum Fragenstellen und zum Antworten benutzen, ohne die Mathematik anzupassen.

Die Autoren warnen davor, dass viele Wissenschaftler (besonders in der Biologie und Genetik) immer noch den alten, fehlerhaften Weg gehen. Sie rufen dazu auf, diese neuen, fairen Methoden zu nutzen, damit die wissenschaftlichen Entdeckungen wirklich wahr sind und nicht nur Glückstreffer.

Kurz gesagt: Wenn Sie einen Gewinner wählen, müssen Sie sich bewusst sein, dass Sie Glück hatten. Um zu beweisen, dass er wirklich der Beste ist, müssen Sie einen fairen, neuen Test machen, der diesen Glücksfaktor berücksichtigt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →