Evidence of Unreliable Data and Poor Data Provenance in Clinical Prediction Model Research and Clinical Practice

Deze studie waarschuwt dat klinische voorspellingsmodellen die zijn gebaseerd op twee wijdverspreide, maar onbetrouwbare en mogelijk gefabriceerde Kaggle-datasets, ernstige tekortkomingen in data-provenance vertonen en daarom niet mogen worden gebruikt voor patiëntenzorg, terwijl er een dringende noodzaak is voor journals en dataopslag om transparante rapportage van dataherkomst te verplichten.

Gibson, A. D., White, N. M., Collins, G. S., Barnett, A.

Gepubliceerd 2026-02-26
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

De "Valse Rekeningen" in de Medische Wereld: Waarom We Niet Zomaar Elke Voorspelling moeten Geloven

Stel je voor dat je een kok bent die een nieuw, revolutionair recept voor een gezondheidsdiner wilt bedenken. Je hebt een enorme kookboek nodig met de beste ingrediënten. Maar wat als iemand je een kookboek geeft dat vol staat met foto's van groenten, in plaats van de echte groenten zelf? En wat als je dat boek gebruikt om een maaltijd te bereiden voor honderden mensen, terwijl je niet weet of de ingrediënten echt bestaan?

Dat is precies wat er volgens dit nieuwe onderzoek gebeurt in de wereld van de medische voorspellingen.

Het Probleem: De "Kookboeken" van Kaggle

De onderzoekers keken naar twee zeer populaire "kookboeken" (datasets) die te vinden zijn op een website genaamd Kaggle. Dit is een soort olympiade voor computerprogramma's (AI), waar mensen oefenen met data. De twee specifieke boeken die ze onderzochten, gingen over beroertes en diabetes.

Het probleem? Niemand weet waar deze data vandaan komen.

  • De uploader van het beroerte-boekje zei: "Gebruik dit alleen voor oefening, niet voor echt onderzoek."
  • De uploader van het diabetes-boekje zei: "Ik kan niet zeggen waar de data vandaan komt, dat is geheim."

Het is alsof iemand je een doos met "willekeurige cijfers" geeft en zegt: "Dit zijn de resultaten van 100.000 patiënten." Maar als je de doos openmaakt, zie je dat de cijfers te perfect zijn, of dat ze precies hetzelfde patroon volgen als een computer die ze heeft verzonnen.

De Detective-werk: De "Valse Rekeningen"

De onderzoekers keken naar deze data en zagen dingen die een echte dokter of data-expert direct als verdacht zou herkennen:

  1. Te weinig foutjes: In echte ziekenhuisdata zijn er altijd foutjes (missende gegevens, rare waarden). Deze datasets waren "te schoon", alsof ze met een digitale veeg zijn gemaakt.
  2. Onmogelijke patronen: Bij het diabetes-datasetje waren er precies 18 verschillende glucose-waarden voor 100.000 mensen. In het echte leven is dat onmogelijk; mensen hebben allemaal net iets andere waarden. Het leek alsof de computer een paar getallen had gekopieerd en geplakt om de lijst vol te maken.
  3. De "ID" mysterie: Bij het beroerte-datasetje veranderde de gemiddelde suikerwaarde plotseling halverwege de lijst van patiënten. Alsof de helft van de patiënten uit een andere wereld kwam.

Conclusie: De data is waarschijnlijk verzonnen (gesimuleerd) of nep. Het zijn geen echte mensen, maar digitale fantasieën.

Het Grote Gevaar: De "Gevarenborden" die Ignoreren

Hier wordt het echt gevaarlijk. Ondanks dat deze data waarschijnlijk nep is, hebben 124 wetenschappelijke artikelen deze gebruikt om nieuwe "voorspellingstools" te maken.

  • Ze zeggen: "Onze computer kan nu voorspellen of iemand een beroerte krijgt!"
  • Maar ze bouwen hun huis op een fundering van zand.

En het ergste is:

  • Sommige van deze tools worden al gebruikt in de praktijk.
  • Ze worden gebruikt in octrooien (voor medische apparatuur).
  • Ze worden geciteerd in 86 andere artikelen, waardoor de "nep" informatie zich verspreidt als een virus.

Stel je voor dat een dokter een patiënt vertelt: "U heeft een hoog risico op een beroerte, dus we geven u deze zware medicijnen." Maar de voorspelling was gebaseerd op een nep-dataset. De patiënt krijgt onnodig zware medicijnen, of krijgt juist geen medicijnen terwijl hij ze wel nodig heeft. Dat is het risico.

Waarom gebeurt dit?

Veel onderzoekers willen graag snel een artikel publiceren. Het is makkelijker om een dataset van Kaggle te downloaden en er een mooi plaatje van te maken, dan om jarenlang echte data van ziekenhuizen te verzamelen. Ze kijken niet naar de "bron" van de data, maar alleen naar de "receptuur" (de wiskunde).

De Oplossing: Een Nieuwe "Keuringsdienst"

De onderzoekers geven een paar duidelijke adviezen om dit te stoppen:

  1. Voor tijdschriften (de "Keurmeesters"): Geen artikel meer publiceren zonder een provenance-verklaring. Dat is een soort "etiket" op de data. Je moet kunnen zeggen: Wie heeft de data verzameld? Waar? Wanneer? En wat was het doel? Zonder dit etiket: geen publicatie.
  2. Voor websites zoals Kaggle: Ze moeten verplicht maken dat elke uploader aangeeft of de data echt is of nep. Als het nep is, moet dat duidelijk staan in grote letters: "Dit is een oefendataset, niet voor medisch gebruik!"
  3. Voor onderzoekers en artsen: Wees kritisch. Kijk niet alleen naar het mooie plaatje, maar vraag: "Waar komt dit vandaan?" Als je het antwoord niet weet, gebruik het dan niet voor echte patiënten.

Samenvattend

Dit onderzoek is een waarschuwing. Het laat zien dat we in een tijdperk zitten waarin we zo snel willen innoveren met AI, dat we de basisregels van betrouwbaarheid vergeten. Het is alsof we auto's bouwen met onderdelen uit een speelgoeddoos en ze dan op de snelweg zetten.

De boodschap is simpel: Geen echte data, geen echte medische beslissingen. Voordat we vertrouwen op een computer die ziektes voorspelt, moeten we eerst zeker weten dat de cijfers waar die computer mee werkt, echt bestaan.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →