Widespread use of invalid statistical tests in biomedical… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.

Gepubliceerd 2026-05-22

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op bioRxiv ↗PDF ↗

CC BY 4.0

Oorspronkelijke auteurs: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een rechter bent die moet beslissen welke van twee nieuwe recepten de beste taart maakt. Om eerlijk te zijn, bakt je niet gewoon één taart met elk recept en proeft je ze één keer. In plaats daarvan bak je tien taarten met Recept A en tien met Recept B, en vraag je vervolgens tien verschillende vrienden om ze te proeven.

Het Probleem: De "Groepsomhelzing"-Fout

In de wereld van biomedisch machine learning (het gebruik van computers om patronen in medische data te vinden) doen wetenschappers iets vergelijkbaars dat "cross-validatie" wordt genoemd. Ze splitsen hun data in tien stukken, trainen hun computermodellen op negen stukken en testen ze op het tiende, en herhalen dit tien keer.

Het artikel stelt dat de meeste wetenschappers hier een kritieke fout maken. Wanneer ze de resultaten van deze tien tests vergelijken, gebruiken ze standaard wiskundige hulpmiddelen (zoals een gepaarde t-toets) die ervan uitgaan dat elke testresultaat volledig onafhankelijk is – alsof je tien vreemden vraagt die elkaar nooit hebben ontmoet om de taarten te proeven.

Maar in werkelijkheid zijn deze tien tests niet onafhankelijk. Ze kijken allemaal naar dezelfde onderliggende data, slechts anders opgedeeld. Het is meer alsof je dezelfde tien vrienden vraagt om de taarten tien keer achter elkaar te proeven. Omdat de vrienden elkaar kennen en vergelijkbare smaak hebben, zijn hun meningen "gecorreleerd".

Het artikel beweert dat wetenschappers, door deze connectie te negeren, een liniaal gebruiken die licht gebogen is. Ze denken dat ze zeer precies zijn, maar zien eigenlijk "statistische geesten". Ze vinden verschillen tussen modellen die er niet echt zijn, wat leidt tot een enorm aantal valse alarmen (false positives).

Het Onderzoek: Een Wereldwijde Audit

De auteurs hebben niet zomaar geraden; ze zijn op detectivejacht gegaan. Ze hebben 210 hoog aangeschreven studies uit toonaangevende medische tijdschriften (met hoge "impact factors", wat betekent dat ze zeer beroemd en invloedrijk zijn) doorgelicht.

De Bevinding: Een verbijsterende 97% van deze studies maakte de "Groepsomhelzing"-fout. Ze behandelden hun afhankelijke testresultaten alsof ze onafhankelijk waren.
De Omvang: Dit was geen probleem voor slechts een paar "slechte" studies. Het gebeurde ongeacht hoe beroemd het tijdschrift was, hoe streng de regels waren, of de wetenschappers hun data openbaar deelden of niet. Het is een wijdverbreide gewoonte in het hele vakgebied.

De Simulatie: Hoe Erg Is Het?

Om te bewijzen hoe gevaarlijk dit is, draaiden de auteurs 420 verschillende computersimulaties. Ze ontdekten dat wanneer je het feit negeert dat je testresultaten met elkaar verbonden zijn:

Je "valse alarm"-rate de pan uit rijst.
Als je de test vele malen herhaalt (een veelvoorkomende praktijk die "herhaalde cross-validatie" wordt genoemd), kan de kans op een valse alarm stijgen tot bijna 100%. Het is alsof je een munt opgooit en je wordt verteld dat je elke keer de loterij hebt gewonnen, ook al heb je dat niet.

De Oplossing: De "SHARP"-Test

Het artikel legt uit dat het oplossen hiervan moeilijk is, omdat je met standaardmethoden niet kunt zeggen of de resultaten vergelijkbaar zijn omdat de modellen werkelijk goed zijn, of gewoon omdat de data-stukken te veel op elkaar lijken. Het is alsof je probeert uit te zoeken of een groep vrienden het met elkaar eens is omdat ze slim zijn, of gewoon omdat ze allemaal van elkaar kopiëren.

Om dit op te lossen, stellen de auteurs een nieuwe methode voor die SHARP heet (Split-HAlf RePeated).

Hoe het werkt: Stel je voor dat je in plaats van je tien vrienden de taarten tien keer te laten proeven, ze splitst in twee aparte groepen. Groep 1 proeft de taarten in de eerste helft van het experiment, en Groep 2 proeft ze in de tweede helft. Omdat deze groepen distinct en gescheiden zijn, kun je eindelijk meten hoeveel ze het onderling eens zijn, zonder het "echo-kamer"-effect.
Het Resultaat: Toen de auteurs SHARP testten tegen 12 andere methoden, was het de duidelijke winnaar. Het was de enige die valse alarmen laag hield terwijl het nog steeds in staat was om echte verschillen tussen modellen te detecteren.

De Conclusie

Het artikel eindigt met de stelling dat de huidige manier waarop medische AI-modellen worden vergeleken, kapot is. Het is alsof je een gebroken weegschaal gebruikt om ingrediënten af te wegen voor een levensreddend medicijn. De auteurs bieden een nieuwe, eenvoudige regelgeving (best practices) om wetenschappers te helpen hun wiskunde te repareren, zodat wanneer ze beweren dat één model beter is dan een ander, ze eigenlijk de waarheid spreken.

Technische Samenvatting: Wijdverbreid Gebruik van Ongeldige Statistische Tests in Biomedisch Machine Learning

Het Probleem
Machine learning is een hoeksteen geworden van biomedisch onderzoek, vaak ingezet om algoritmen te benchmarken en wetenschappelijke inzichten te identificeren, zoals het rangschikken van biomerkers. De standaardbenadering voor het evalueren van voorspellende prestaties is cross-validatie (CV). Een kritieke statistische fout ondermijnt echter deze praktijk: schattingen van voorspellende prestaties die zijn afgeleid uit verschillende CV-folds, zijn niet onafhankelijk. Standaard statistische tests die worden gebruikt om deze prestaties te vergelijken, zoals de gepaarde t-toets, rusten op de aanname van onafhankelijkheid. Wanneer deze aanname wordt geschonden, falen de tests om de rates van vals-positieven te beheersen, wat leidt tot ongeldige inferenties. Ondanks de alomtegenwoordigheid van dit probleem, blijft het grotendeels onopgelost in wetenschappelijke literatuur met hoge impact.

Methodologie
De auteurs hanteerden een veelzijdige methodologische aanpak om dit probleem te diagnosticeren en op te lossen:

Meta-analyse: Een PRISMA-gestuurde review van 210 studies die tussen 1 juni 2020 en 1 juni 2025 zijn gepubliceerd in tijdschriften met een impactfactor $\ge$ 15. De review onderzocht specifiek hoe studies voorspellende prestaties vergeleken en of ze rekening hielden met fold-afhankelijkheid.
Simulatiestudies: Uitgebreide simulaties werden uitgevoerd over 420 scenario's met gebruikmaking van vier diverse datasets. Deze simulaties testten de prestaties van standaardtests onder variërende omstandigheden, waaronder het gebruik van herhaalde cross-validatie.
Statistische Analyse: De auteurs analyseerden de theoretische beperkingen van bestaande "fold-afhankelijkheidsbewuste" tests, waarbij zij opmerkten dat bij standaard cross-validatie de variantie van fold-niveau statistieken en de correlatie tussen folds niet uit elkaar kunnen worden gehaald, waardoor bestaande methoden gedwongen worden om te vertrouwen op sterke, vaak ongeverifieerde aannames.
Voorstel voor een Nieuwe Test: Om deze beperkingen te overwinnen, stelden de auteurs de SHARP (Split-HAlf RePeated) test voor. Deze methode wijzigt de standaard cross-validatieprocedure om directe schatting mogelijk te maken van zowel variantie als correlatie, waardoor hiermee wordt voldaan aan de vereisten voor geldige statistische inferentie zonder te vertrouwen op niet-testbare aannames.

Belangrijkste Resultaten

Prevalentie van de Fout: De meta-analyse onthulde dat 97% van de onderzochte studies geen rekening hield met fold-afhankelijkheid bij het vergelijken van voorspellende prestaties. Deze nalatigheid bleek alomtegenwoordig te zijn in wetenschappelijke velden en werd niet gemitigeerd door hoge impactfactoren, beleid dat strenge methoden bevordert, of open science-praktijken.
Impact op Vals-positieven: Simulaties toonden aan dat het negeren van fold-afhankelijkheid leidt tot ongeldige controle van vals-positieven in de meerderheid van de situaties. Het probleem wordt verergerd door herhaalde cross-validatie; naarmate het aantal herhalingen toeneemt, kunnen de rates van vals-positieven oplopen tot 100%.
Prestaties van SHARP: Wanneer vergeleken met 12 andere statistische tests, toonde de SHARP-test de beste algehele balans over drie kritieke metrieken: controle van vals-positieven, statistische power en kalibratie van betrouwbaarheidsintervallen. Deze prestatie werd consistent behaald over de diverse simulatieschema's.

Betekenis en Beweringen
Het artikel stelt dat de huidige afhankelijkheid van standaardtests voor het vergelijken van machine learning-modellen in biomedisch onderzoek fundamenteel gebrekkig is, wat leidt tot een hoog risico op schijnbare wetenschappelijke conclusies. Door te identificeren dat dit probleem aanhoudt ondanks hoge redactionele standaarden, benadrukken de auteurs een systemisch gat in statistische strengheid.

De primaire bijdrage van dit werk is de introductie van de SHARP-test, die een praktische oplossing biedt voor het probleem van fold-afhankelijkheid door directe schatting mogelijk te maken van de benodigde statistische parameters. Bovendien sluiten de auteurs af met het verstrekken van specifieke best practices en rapportagerichtlijnen die bedoeld zijn om de geldigheid van inferentie bij modelvergelijking te herstellen in biomedisch machine learning en aanverwante velden. Het werk dient als een oproep tot actie voor de gemeenschap om deze gecorrigeerde methodologieën te adopteren om ervoor te zorgen dat wetenschappelijke toepassingen, zoals het rangschikken van biomerkers, gebaseerd zijn op statistisch onderbouwde bewijzen.

Widespread use of invalid statistical tests in biomedical machine learning

Technische Samenvatting: Wijdverbreid Gebruik van Ongeldige Statistische Tests in Biomedisch Machine Learning

Meer zoals dit