CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression

Dit paper introduceert CARTGen-IR, een interpreteerbare methode voor het genereren van synthetische tabulaire data die het probleem van onevenwichtige regressie oplost door relevantie- en dichtheidsgeleide steekproefneming te combineren zonder willekeurige drempels, waardoor modellen beter presteren in gebieden met zeldzame doelwaarden.

António Pedro Pinheiro, Rita P. Ribeiro

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chef-kok bent die een perfecte soep moet maken. Maar er is een probleem: in je keuken heb je duizenden gewone aardappels, maar slechts een handjevol van die speciale, zeldzame truffels die de soep echt lekker maken.

Als je een machine (een computerprogramma) leert om de soep te maken, zal die machine waarschijnlijk zeggen: "Oh, aardappels zijn het belangrijkst, ik ga daar mijn hele tijd aan besteden." Het resultaat? Een soep die prima smaakt voor de gewone mensen, maar die de truffel-liefhebbers teleurstelt. De machine heeft de "rare" maar belangrijke smaken over het hoofd gezien.

In de wereld van data noemen we dit ongelijkmatige regressie. Het gaat over het voorspellen van getallen (zoals temperaturen, prijzen of ziekteverloop), waarbij de extreme of zeldzame waarden vaak het belangrijkst zijn, maar juist het minst voorkomen in de data.

Hier komt CARTGen-IR in beeld, de nieuwe methode uit dit artikel. Laten we uitleggen hoe het werkt, zonder ingewikkelde wiskunde.

Het oude probleem: De "Scheermes"-methode

Vroeger probeerden wetenschappers dit probleem op te lossen door een scheermes door de data te halen. Ze zeiden bijvoorbeeld: "Alles boven de 10 graden is 'extreem' en belangrijk, alles eronder is 'gewoon'."

  • Het nadeel: Dit is onlogisch. Is 10,1 graden plotseling heel belangrijk, terwijl 9,9 graden niets voorstelt? Dat voelt niet goed. Het maakt een kunstmatige grens in een wereld die eigenlijk vloeiend is. Alsof je zegt dat een ei net gekookt is als het 1 minuut langer in het water zit, maar niet als het 59 seconden is.

De nieuwe oplossing: CARTGen-IR

De auteurs van dit paper, António en Rita, hebben een slimme nieuwe manier bedacht. In plaats van een scheermes te gebruiken, bouwen ze een slimme boom (een 'CART' of beslisboom).

Hier is hoe het werkt, stap voor stap, met een analogie:

1. De Boom die de wereld begrijpt

Stel je een grote boom voor. De takken van deze boom vertegenwoordigen verschillende eigenschappen van je data (bijvoorbeeld: leeftijd, inkomen, weer). De bladeren aan het einde van de takken bevatten de uitkomsten.
In plaats van te zeggen "alles boven X is belangrijk", kijkt de boom naar de dichtheid van de data. Waar zitten de zeldzame gevallen? De boom leert de structuur van de data precies zoals die is, inclusief de rare uitschieters.

2. Het "Versterken" van de zeldzame gevallen

Nu de boom de structuur kent, gaat de methode aan de slag met het maken van nieuwe, synthetische data.

  • Oude methode: Je pakt een zeldzame truffel en kopieert hem 100 keer. Of je doet er wat zout bij (ruis) en hoopt dat het goed blijft.
  • CARTGen-IR methode: De boom kijkt naar de tak waar de zeldzame truffels zitten. Hij zegt: "Oké, hier in deze tak zijn de omstandigheden zo en zo. Laten we een nieuw, geloofwaardig voorbeeld maken dat past bij deze tak."
    Het creëert dus geen kopieën, maar nieuwe, realistische scenarios die logisch passen bij de zeldzame situatie. Het is alsof je een nieuwe truffel kweekt die perfect past in de bodem van die specifieke tak, in plaats van een nep-truffel te plakken.

3. Waarom is dit zo goed?

  • Geen rare grenzen: Je hoeft niet zelf te zeggen waar de "gevaarlijke zone" begint. De boom ziet het zelf.
  • Transparantie: Omdat het een boom is, kun je precies zien waarom de machine een bepaald nieuw voorbeeld heeft gemaakt. Het is geen "zwarte doos" (zoals bij veel moderne AI), maar een witte doos waar je doorheen kunt kijken.
  • Snelheid: De diepe neurale netwerken (die andere AI-methoden gebruiken) zijn als een gigantische fabriek die uren nodig heeft om één nieuwe data-punt te maken. CARTGen-IR is als een snelle, slimme ambachtsman die dit in een flits doet.

Wat zeggen de resultaten?

De auteurs hebben deze methode getest op 15 verschillende datasets (zoals het voorspellen van bosbranden, energieverbruik of huisprijzen).

  • Resultaat: CARTGen-IR deed het net zo goed, en soms zelfs beter, dan de beste bestaande methoden.
  • Snelheid: Het was veel sneller dan de zware AI-methoden.
  • Betrouwbaarheid: Het bleek heel stabiel te werken, ongeacht of je de data met een andere machine (zoals een Random Forest of XGBoost) verwerkte.

Samenvatting in één zin

CARTGen-IR is een slimme, snelle en transparante manier om computers te leren om te kijken naar de "zeldzame truffels" in een berg aardappels, zonder dat je zelf rare grenzen hoeft te trekken, zodat ze betere voorspellingen kunnen doen voor de echte, kritieke situaties.

Het is een bewijs dat je niet altijd de zwaarste, duwste technologie nodig hebt; soms werkt een slimme, goed gestructureerde boom (een beslisboom) het beste van allemaal.