Widespread use of invalid statistical tests in biomedical machine learning

Dit artikel onthult dat het wijdverbreide gebruik van ongeldige statistische toetsen die de afhankelijkheid tussen cross-validatie-folden negeren in biomedisch machine learning leidt tot opgeblazen rates van vals-positieve resultaten, wat de auteurs ertoe aanzet het SHARP-test voor te stellen als een robuuste oplossing en nieuwe rapportagerichtlijnen te bieden voor een geldige modelvergelijking.

Oorspronkelijke auteurs: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X.
Gepubliceerd 2026-05-22
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Zeng, T., Li, H., Zhang, S., Tan, Y. Q., Tian, F., Orban, C., An, L., Che, W., Cheng, J., Chong, J. S. X., Dehestani, N., Dong, Z., Li, X., Li, Z., Lim, M. J. R., Lin, Y., Ling, Q., Ling, Z., Low, X. Z., Mansour L., S., Ng, K. K., Nguyen, T. T., Ooi, L. Q. R., Pande, S., Qian, X., Ruan, J., Wang, Z., Xie, Y., Zhang, C., Zhang, Y., Patil, K., Parkes, L., Dhamala, E., Chopra, S., Zalesky, A., Holmes, A., Eickhoff, S., Zhou, J. H., Renaud, O., Dosenbach, N., Kording, K. P., Bzdok, D., Nichols, T., Yeo, B. T. T.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Stel je voor dat je een rechter bent die moet beslissen welke van twee nieuwe recepten de beste taart maakt. Om eerlijk te zijn, bakt je niet gewoon één taart met elk recept en proeft je ze één keer. In plaats daarvan bak je tien taarten met Recept A en tien met Recept B, en vraag je vervolgens tien verschillende vrienden om ze te proeven.

Het Probleem: De "Groepsomhelzing"-Fout

In de wereld van biomedisch machine learning (het gebruik van computers om patronen in medische data te vinden) doen wetenschappers iets vergelijkbaars dat "cross-validatie" wordt genoemd. Ze splitsen hun data in tien stukken, trainen hun computermodellen op negen stukken en testen ze op het tiende, en herhalen dit tien keer.

Het artikel stelt dat de meeste wetenschappers hier een kritieke fout maken. Wanneer ze de resultaten van deze tien tests vergelijken, gebruiken ze standaard wiskundige hulpmiddelen (zoals een gepaarde t-toets) die ervan uitgaan dat elke testresultaat volledig onafhankelijk is – alsof je tien vreemden vraagt die elkaar nooit hebben ontmoet om de taarten te proeven.

Maar in werkelijkheid zijn deze tien tests niet onafhankelijk. Ze kijken allemaal naar dezelfde onderliggende data, slechts anders opgedeeld. Het is meer alsof je dezelfde tien vrienden vraagt om de taarten tien keer achter elkaar te proeven. Omdat de vrienden elkaar kennen en vergelijkbare smaak hebben, zijn hun meningen "gecorreleerd".

Het artikel beweert dat wetenschappers, door deze connectie te negeren, een liniaal gebruiken die licht gebogen is. Ze denken dat ze zeer precies zijn, maar zien eigenlijk "statistische geesten". Ze vinden verschillen tussen modellen die er niet echt zijn, wat leidt tot een enorm aantal valse alarmen (false positives).

Het Onderzoek: Een Wereldwijde Audit

De auteurs hebben niet zomaar geraden; ze zijn op detectivejacht gegaan. Ze hebben 210 hoog aangeschreven studies uit toonaangevende medische tijdschriften (met hoge "impact factors", wat betekent dat ze zeer beroemd en invloedrijk zijn) doorgelicht.

  • De Bevinding: Een verbijsterende 97% van deze studies maakte de "Groepsomhelzing"-fout. Ze behandelden hun afhankelijke testresultaten alsof ze onafhankelijk waren.
  • De Omvang: Dit was geen probleem voor slechts een paar "slechte" studies. Het gebeurde ongeacht hoe beroemd het tijdschrift was, hoe streng de regels waren, of de wetenschappers hun data openbaar deelden of niet. Het is een wijdverbreide gewoonte in het hele vakgebied.

De Simulatie: Hoe Erg Is Het?

Om te bewijzen hoe gevaarlijk dit is, draaiden de auteurs 420 verschillende computersimulaties. Ze ontdekten dat wanneer je het feit negeert dat je testresultaten met elkaar verbonden zijn:

  • Je "valse alarm"-rate de pan uit rijst.
  • Als je de test vele malen herhaalt (een veelvoorkomende praktijk die "herhaalde cross-validatie" wordt genoemd), kan de kans op een valse alarm stijgen tot bijna 100%. Het is alsof je een munt opgooit en je wordt verteld dat je elke keer de loterij hebt gewonnen, ook al heb je dat niet.

De Oplossing: De "SHARP"-Test

Het artikel legt uit dat het oplossen hiervan moeilijk is, omdat je met standaardmethoden niet kunt zeggen of de resultaten vergelijkbaar zijn omdat de modellen werkelijk goed zijn, of gewoon omdat de data-stukken te veel op elkaar lijken. Het is alsof je probeert uit te zoeken of een groep vrienden het met elkaar eens is omdat ze slim zijn, of gewoon omdat ze allemaal van elkaar kopiëren.

Om dit op te lossen, stellen de auteurs een nieuwe methode voor die SHARP heet (Split-HAlf RePeated).

  • Hoe het werkt: Stel je voor dat je in plaats van je tien vrienden de taarten tien keer te laten proeven, ze splitst in twee aparte groepen. Groep 1 proeft de taarten in de eerste helft van het experiment, en Groep 2 proeft ze in de tweede helft. Omdat deze groepen distinct en gescheiden zijn, kun je eindelijk meten hoeveel ze het onderling eens zijn, zonder het "echo-kamer"-effect.
  • Het Resultaat: Toen de auteurs SHARP testten tegen 12 andere methoden, was het de duidelijke winnaar. Het was de enige die valse alarmen laag hield terwijl het nog steeds in staat was om echte verschillen tussen modellen te detecteren.

De Conclusie

Het artikel eindigt met de stelling dat de huidige manier waarop medische AI-modellen worden vergeleken, kapot is. Het is alsof je een gebroken weegschaal gebruikt om ingrediënten af te wegen voor een levensreddend medicijn. De auteurs bieden een nieuwe, eenvoudige regelgeving (best practices) om wetenschappers te helpen hun wiskunde te repareren, zodat wanneer ze beweren dat één model beter is dan een ander, ze eigenlijk de waarheid spreken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →