Widespread use of invalid statistical tests in… — Allgemeinverständliche Erklärung

Ursprüngliche Autoren: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

Veröffentlicht 2026-05-22

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf bioRxiv ↗PDF ↗

CC BY 4.0

Ursprüngliche Autoren: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Originalarbeit lizenziert unter CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie sind ein Richter, der entscheiden soll, welches von zwei neuen Rezepten den besten Kuchen backt. Um fair zu sein, backen Sie nicht einfach einen Kuchen mit jedem Rezept und probieren sie einmal. Stattdessen backen Sie zehn Kuchen mit Rezept A und zehn mit Rezept B und bitten dann zehn verschiedene Freunde, sie zu probieren.

Das Problem: Der „Gruppenumarmungs"-Irrtum

In der Welt des biomedizinischen maschinellen Lernens (bei dem Computer genutzt werden, um Muster in medizinischen Daten zu finden), machen Wissenschaftler etwas Ähnliches, das als „Kreuzvalidierung" bezeichnet wird. Sie teilen ihre Daten in zehn Blöcke auf, trainieren ihre Computermodelle auf neun Blöcken und testen sie auf dem zehnten, wobei sie dies zehnmal wiederholen.

Die Studie argumentiert, dass die meisten Wissenschaftler hier einen kritischen Fehler machen. Wenn sie die Ergebnisse dieser zehn Tests vergleichen, verwenden sie Standard-Mathematikwerkzeuge (wie einen gepaarten t-Test), die davon ausgehen, dass jedes Testergebnis völlig unabhängig ist – so als würde man zehn Fremde bitten, die sich noch nie getroffen haben, die Kuchen zu probieren.

In Wirklichkeit sind diese zehn Tests jedoch nicht unabhängig. Sie betrachten alle dieselben zugrunde liegenden Daten, lediglich anders aufgeteilt. Es ist eher so, als würde man dieselben zehn Freunde bitten, die Kuchen zehn Mal hintereinander zu probieren. Da sich die Freunde kennen und ähnliche Vorlieben haben, sind ihre Meinungen „korreliert".

Die Studie behauptet, dass Wissenschaftler, indem sie diese Verbindung ignorieren, ein leicht verbogenes Lineal verwenden. Sie glauben, sehr präzise zu sein, sehen aber tatsächlich „statistische Geister". Sie finden Unterschiede zwischen Modellen, die nicht wirklich existieren, was zu einer massiven Anzahl von falschen Alarmen (falsch-positive Ergebnissen) führt.

Die Untersuchung: Eine globale Prüfung

Die Autoren haben nicht nur geraten; sie gingen auf Spurensuche. Sie rezensierten 210 hochrangige Studien aus führenden medizinischen Fachzeitschriften (mit hohen „Impact Factors", was bedeutet, dass sie sehr bekannt und einflussreich sind).

Das Ergebnis: Ein erschreckender 97 % dieser Studien machten den „Gruppenumarmungs"-Irrtum. Sie behandelten ihre abhängigen Testergebnisse so, als wären sie unabhängig.
Der Umfang: Dies war kein Problem nur weniger „schlechter" Studien. Es trat unabhängig davon auf, wie bekannt die Zeitschrift war, wie streng die Regeln waren oder ob die Wissenschaftler ihre Daten offen teilten. Es ist eine weit verbreitete Gewohnheit im gesamten Bereich.

Die Simulation: Wie schlimm ist es?

Um zu beweisen, wie gefährlich dies ist, führten die Autoren 420 verschiedene Computersimulationen durch. Sie stellten fest, dass, wenn man ignoriert, dass Ihre Testergebnisse verknüpft sind:

Ihre Rate an „falschen Alarmen" in die Höhe schießt.
Wenn Sie den Test viele Male wiederholen (eine gängige Praxis namens „wiederholte Kreuzvalidierung"), die Wahrscheinlichkeit eines falschen Alarms auf nahezu 100 % steigen kann. Es ist, als würde man eine Münze werfen und jedes Mal gesagt bekommen, man habe im Lotto gewonnen, obwohl man es nicht getan hat.

Die Lösung: Der „SHARP"-Test

Die Studie erklärt, dass die Behebung dieses Problems schwierig ist, da man mit Standardmethoden nicht unterscheiden kann, ob die Ergebnisse ähnlich sind, weil die Modelle tatsächlich gut sind, oder einfach nur, weil die Datenblöcke einander zu ähnlich sind. Es ist, als würde man versuchen herauszufinden, ob eine Gruppe von Freunden übereinstimmt, weil sie klug sind, oder einfach nur, weil sie sich alle gegenseitig abschreiben.

Um dies zu lösen, schlagen die Autoren eine neue Methode namens SHARP (Split-HAlf RePeated) vor.

Wie es funktioniert: Stellen Sie sich vor, anstatt Ihre zehn Freunde zehn Mal die Kuchen probieren zu lassen, teilen Sie sie in zwei separate Gruppen auf. Gruppe 1 probiert die Kuchen in der ersten Hälfte des Experiments, und Gruppe 2 probiert sie in der zweiten Hälfte. Da diese Gruppen getrennt und voneinander unterschiedlich sind, können Sie endlich messen, wie sehr sie von sich aus übereinstimmen, ohne den „Echokammer"-Effekt.
Das Ergebnis: Als die Autoren SHARP gegen 12 andere Methoden testeten, war es der klare Gewinner. Es war die einzige Methode, die falsche Alarme niedrig hielt und gleichzeitig in der Lage war, echte Unterschiede zwischen Modellen zu erkennen.

Das Fazit

Die Studie endet mit der Aussage, dass die derzeitige Art und Weise, medizinische KI-Modelle zu vergleichen, defekt ist. Es ist, als würde man eine kaputte Waage verwenden, um Zutaten für ein lebensrettendes Medikament abzuwiegen. Die Autoren bieten einen neuen, einfachen Regelkatalog (Best Practices) an, um Wissenschaftlern zu helfen, ihre Mathematik zu korrigieren und sicherzustellen, dass, wenn sie behaupten, ein Modell sei besser als ein anderes, sie tatsächlich die Wahrheit sagen.

Widespread use of invalid statistical tests in biomedical machine learning

Technisches Fazit: Weit verbreiteter Einsatz ungültiger statistischer Tests im biomedizinischen maschinellen Lernen

Widespread use of invalid statistical tests in biomedical machine learning

Technisches Fazit: Weit verbreiteter Einsatz ungültiger statistischer Tests im biomedizinischen maschinellen Lernen

Mehr davon