Tipping the Balance: Impact of Class Imbalance Correction on the Performance of Clinical Risk Prediction Models

Deze studie concludeert dat veelgebruikte technieken voor het corrigeren van klasonevenwicht in klinische risicopredictiemodellen geen algemeen verbetering van de discriminatie opleveren en juist leiden tot een verslechtering van de probabilistische kalibratie.

Amalie Koch Andersen, Hadi Mehdizavareh, Arijit Khan, Tobias Becher, Simone Britsch, Markward Britsch, Morten Bøttcher, Simon Winther, Palle Duun Rohde, Morten Hasselstrøm Jensen, Simon Lebech Cichosz

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom het "evenwicht maken" van medische voorspellingen vaak mislukt

Stel je voor dat je een supersterke voorspeller bent die moet zeggen of een patiënt ziek wordt of niet. In de echte wereld zijn er echter veel meer gezonde mensen dan zieke mensen. Dit noemen we een ongelijk gewicht (in het Engels: class imbalance).

Om deze voorspeller te helpen, proberen onderzoekers vaak het trainingsmateriaal "in evenwicht" te brengen. Ze doen alsof er evenveel zieke als gezonde mensen zijn, door extra zieke gevallen te kopiëren of gezonde gevallen te verwijderen. Het idee is: "Als de computer meer zieke mensen ziet, wordt hij beter in het herkennen van ziekte."

Deze studie, uitgevoerd door een team van experts, heeft gekeken of dit slimme trucje inderdaad werkt. Ze hebben tien verschillende medische situaties onderzocht, van diabetes tot hartziektes, met in totaal meer dan 600.000 patiënten.

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De "Spiegel" en de "Verkeerde Kaart"

Stel je voor dat je een spiegel maakt die precies weergeeft hoe groot het risico is dat iemand ziek wordt.

  • De originele data: De spiegel kijkt naar de echte wereld. Hij ziet dat ziekte zeldzaam is. Hij zegt: "Je hebt een 2% kans." Dit is een kalibratie (een juiste schatting).
  • De "evenwichtige" data: De onderzoekers hebben de spiegel getraind met een nepwereld waarin ziekte 50% van de tijd voorkomt. De spiegel leert in die nepwereld.

Het probleem: Als je deze getrainde spiegel weer terugbrengt naar de echte wereld (waar ziekte maar 2% voorkomt), is hij in de war. Hij blijft denken dat ziekte veel vaker voorkomt. Hij gaat zeggen: "Je hebt 50% kans!" terwijl het maar 2% is.
De voorspeller is nog steeds goed in het onderscheiden van wie ziek is en wie niet (hij kan nog steeds zeggen wie "meer risico" heeft dan wie), maar hij is niet meer goed in het zeggen van de juiste kans. Hij geeft een verkeerd getal.

2. De "Kwaliteitscontrole" (Discriminatie vs. Kalibratie)

De studie keek naar twee dingen:

  1. Discriminatie: Kan de computer het verschil zien tussen een zieke en een gezonde? (Zoals een goede wijnproever die onderscheid maakt tussen goede en slechte wijn).
  2. Kalibratie: Geeft de computer de juiste kans? (Zoals een weerman die zegt: "Er is 80% kans op regen" en het regent ook echt 80% van die dagen).

De verrassende conclusie:

  • Het "in evenwicht brengen" van de data maakte de voorspeller niet beter in het onderscheid maken. Soms werd hij zelfs iets slechter.
  • Het maakte de voorspeller wel veel slechter in het geven van de juiste kansen. De getallen werden onbetrouwbaar.

3. De "Kopieer- en Plak-Strategie" (SMOTE, ROS, RUS)

De onderzoekers testten drie populaire methoden om het evenwicht te herstellen:

  • ROS (Random Oversampling): Je kopieert de zeldzame zieke gevallen totdat er evenveel zijn als de gezonde. Gevolg: De computer ziet dezelfde zieke patiënt steeds weer en raakt in de war of leert de verkeerde patronen.
  • RUS (Random Undersampling): Je gooit gezonde gevallen weg totdat er evenveel over zijn. Gevolg: Je gooit waardevolle informatie weg.
  • SMOTE: Je maakt "kunstmatige" zieke patiënten door twee bestaande zieke patiënten te mixen (zoals een smoothie van twee vruchten). Gevolg: Soms ontstaan er "onzin-patiënten" die in de echte wereld niet bestaan (bijvoorbeeld een patiënt met een combinatie van eigenschappen die medisch onmogelijk is).

In alle drie de gevallen bleek dat de computer zijn "gevoel" voor de echte kansen verloor.

4. Wat moeten artsen doen?

De boodschap van deze studie is duidelijk: Stop met het forceren van evenwicht.

Als je een arts een voorspelling geeft, wil hij weten: "Heeft deze patiënt een 5% of een 50% kans?"
Als je het model "in evenwicht" traint, krijgt de arts een getal dat niet klopt met de realiteit. Dat kan leiden tot onnodige paniek of juist onnodige geruststelling.

De beste aanpak is:

  1. Laat de computer leren op de echte, ongebalanceerde data.
  2. Als de computer te vaak zegt "nee" terwijl het "ja" is, pas dan de drempel aan.
    • Analogie: Stel je hebt een metaaldetector die te gevoelig is en elke steen als metaal ziet. Je hoeft de detector niet te herschrijven om meer metaal te zien; je draait gewoon de knop iets minder gevoelig. Zo kun je de "gevoeligheid" van het model aanpassen zonder de onderliggende kansen te verstoren.

Samenvattend

Het is alsof je een weerman traint in een land waar het elke dag regent, zodat hij beter in staat is om regen te voorspellen. Maar als je hem terugstuurdt naar Nederland, waar het maar 10% van de dagen regent, blijft hij zeggen: "Morgen regent het zeker!" terwijl het misschien zonnig is.

De studie zegt: Laat de weerman in Nederland werken. Hij ziet dan precies hoe vaak het regent en geeft je de juiste waarschuwing. Het "evenwicht maken" van de data helpt niet bij het voorspellen van kansen in de echte wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →