CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een chef-kok bent die een perfecte soep moet maken. Maar er is een probleem: in je keuken heb je duizenden gewone aardappels, maar slechts een handjevol van die speciale, zeldzame truffels die de soep echt lekker maken.

Als je een machine (een computerprogramma) leert om de soep te maken, zal die machine waarschijnlijk zeggen: "Oh, aardappels zijn het belangrijkst, ik ga daar mijn hele tijd aan besteden." Het resultaat? Een soep die prima smaakt voor de gewone mensen, maar die de truffel-liefhebbers teleurstelt. De machine heeft de "rare" maar belangrijke smaken over het hoofd gezien.

In de wereld van data noemen we dit ongelijkmatige regressie. Het gaat over het voorspellen van getallen (zoals temperaturen, prijzen of ziekteverloop), waarbij de extreme of zeldzame waarden vaak het belangrijkst zijn, maar juist het minst voorkomen in de data.

Hier komt CARTGen-IR in beeld, de nieuwe methode uit dit artikel. Laten we uitleggen hoe het werkt, zonder ingewikkelde wiskunde.

Het oude probleem: De "Scheermes"-methode

Vroeger probeerden wetenschappers dit probleem op te lossen door een scheermes door de data te halen. Ze zeiden bijvoorbeeld: "Alles boven de 10 graden is 'extreem' en belangrijk, alles eronder is 'gewoon'."

Het nadeel: Dit is onlogisch. Is 10,1 graden plotseling heel belangrijk, terwijl 9,9 graden niets voorstelt? Dat voelt niet goed. Het maakt een kunstmatige grens in een wereld die eigenlijk vloeiend is. Alsof je zegt dat een ei net gekookt is als het 1 minuut langer in het water zit, maar niet als het 59 seconden is.

De nieuwe oplossing: CARTGen-IR

De auteurs van dit paper, António en Rita, hebben een slimme nieuwe manier bedacht. In plaats van een scheermes te gebruiken, bouwen ze een slimme boom (een 'CART' of beslisboom).

Hier is hoe het werkt, stap voor stap, met een analogie:

1. De Boom die de wereld begrijpt

Stel je een grote boom voor. De takken van deze boom vertegenwoordigen verschillende eigenschappen van je data (bijvoorbeeld: leeftijd, inkomen, weer). De bladeren aan het einde van de takken bevatten de uitkomsten.
In plaats van te zeggen "alles boven X is belangrijk", kijkt de boom naar de dichtheid van de data. Waar zitten de zeldzame gevallen? De boom leert de structuur van de data precies zoals die is, inclusief de rare uitschieters.

2. Het "Versterken" van de zeldzame gevallen

Nu de boom de structuur kent, gaat de methode aan de slag met het maken van nieuwe, synthetische data.

Oude methode: Je pakt een zeldzame truffel en kopieert hem 100 keer. Of je doet er wat zout bij (ruis) en hoopt dat het goed blijft.
CARTGen-IR methode: De boom kijkt naar de tak waar de zeldzame truffels zitten. Hij zegt: "Oké, hier in deze tak zijn de omstandigheden zo en zo. Laten we een nieuw, geloofwaardig voorbeeld maken dat past bij deze tak."
Het creëert dus geen kopieën, maar nieuwe, realistische scenarios die logisch passen bij de zeldzame situatie. Het is alsof je een nieuwe truffel kweekt die perfect past in de bodem van die specifieke tak, in plaats van een nep-truffel te plakken.

3. Waarom is dit zo goed?

Geen rare grenzen: Je hoeft niet zelf te zeggen waar de "gevaarlijke zone" begint. De boom ziet het zelf.
Transparantie: Omdat het een boom is, kun je precies zien waarom de machine een bepaald nieuw voorbeeld heeft gemaakt. Het is geen "zwarte doos" (zoals bij veel moderne AI), maar een witte doos waar je doorheen kunt kijken.
Snelheid: De diepe neurale netwerken (die andere AI-methoden gebruiken) zijn als een gigantische fabriek die uren nodig heeft om één nieuwe data-punt te maken. CARTGen-IR is als een snelle, slimme ambachtsman die dit in een flits doet.

Wat zeggen de resultaten?

De auteurs hebben deze methode getest op 15 verschillende datasets (zoals het voorspellen van bosbranden, energieverbruik of huisprijzen).

Resultaat: CARTGen-IR deed het net zo goed, en soms zelfs beter, dan de beste bestaande methoden.
Snelheid: Het was veel sneller dan de zware AI-methoden.
Betrouwbaarheid: Het bleek heel stabiel te werken, ongeacht of je de data met een andere machine (zoals een Random Forest of XGBoost) verwerkte.

Samenvatting in één zin

CARTGen-IR is een slimme, snelle en transparante manier om computers te leren om te kijken naar de "zeldzame truffels" in een berg aardappels, zonder dat je zelf rare grenzen hoeft te trekken, zodat ze betere voorspellingen kunnen doen voor de echte, kritieke situaties.

Het is een bewijs dat je niet altijd de zwaarste, duwste technologie nodig hebt; soms werkt een slimme, goed gestructureerde boom (een beslisboom) het beste van allemaal.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression", vertaald en samengevat in het Nederlands.

Probleemstelling

Het artikel adresseert het probleem van ongelijkgewogen regressie (imbalanced regression) in tabulaire data. In tegenstelling tot classificatie, waar onbalans verwijst naar onevenwichtige klassenverdelingen, gaat het bij regressie om het voorspellen van zeldzame of extreme waarden van een continue doelvariabele (bijv. extreme weersomstandigheden, zeldzame medicijneffecten, financiële fraude).

De bestaande oplossingen op data-niveau hebben twee belangrijke beperkingen:

Arbitraire drempels: Veel methoden (zoals SMOTER of SMOGN) discretiseren de continue doelvariabele door kunstmatige drempels te stellen om "minderheid" en "meerderheid" te definiëren. Dit is problematisch omdat het de continue aard van de data verstoort (bijv. een waarde van 5,1 wordt als belangrijk beschouwd, terwijl 4,9 als onbelangrijk wordt gezien, wat intuïtief onlogisch is).
Complexiteit en interpretatie: Diepe generatieve modellen (zoals GANs, VAEs, Diffusion-modellen) bieden flexibiliteit maar zijn rekenintensief, moeilijk te interpreteren (black-box) en vaak traag.

Methodologie: CARTGen-IR

De auteurs stellen CARTGen-IR voor, een methode voor het genereren van synthetische tabulaire data specifiek voor ongelijkgewogen regressie. De kern van de methode is gebaseerd op Classification and Regression Trees (CART) en vermijdt het gebruik van drempels voor de doelvariabele.

Het proces verloopt in de volgende stappen (zoals beschreven in Algorithm 1):

Gewichtsbepaling op basis van zeldzaamheid:
- De methode weegt de bestaande data op basis van de zeldzaamheid of relevantie van de doelwaarden.
- Er kan worden gekozen tussen twee strategieën:
  - DenseWeight: Gebruikt Kernel Density Estimation (KDE) om waarden met lage dichtheid zwaarder te wegen.
  - Relevance Function: Gebruikt een functie die gebaseerd is op domeinkennis of statistische uitschieters (zoals aangepaste boxplots) om relevante gebieden te identificeren.
- Een exponent ( $\alpha$ ) wordt gebruikt om de intensiteit van deze weging te regelen.
Resampling:
- Het dataset wordt opnieuw gesampled (met teruglegging) op basis van deze gewichten, zodat zeldzame gevallen vaker voorkomen in de trainingset.
- Een parameter ( $\eta$ ) bepaalt het percentage synthetische samples dat gegenereerd moet worden.
- Om overfitting te voorkomen, kan optioneel ruis (Gaussische ruis, parameter $\delta$ ) worden toegevoegd aan numerieke attributen van gedupliceerde instances.
Generatie van Synthetische Data (CART-gebaseerd):
- In plaats van lineaire interpolatie (zoals bij SMOTE), wordt een sequentiële, attribuut-voor-attribuut generatie gebruikt.
- Voor elk attribuut wordt een CART-model getraind waarbij het huidige attribuut de doelvariabele is en de reeds gegenereerde attributen de voorspellers zijn.
- Voor een nieuwe synthetische instance wordt door de bomen gelopen om een eindknooppunt (leaf) te vinden.
- Voor continue variabelen: In plaats van een waarde direct uit de trainingdata te halen, past de methode een Gaussische Kernel Density Estimator toe op de waarden in dat eindknooppunt. Hierdoor worden nieuwe, plausible waarden gegenereerd die de statistische verdeling (inclusief de staarten) respecteren, zonder beperkt te zijn tot exacte bestaande punten.

Belangrijkste Bijdragen

Drempelvrije aanpak: De methode elimineert de noodzaak voor door de gebruiker gedefinieerde drempels voor continue doelvariabelen, waardoor de continuïteit van de regressieproblematiek behouden blijft.
Interpreteerbaarheid: Omdat de methode gebaseerd is op beslissingsbomen, blijft het proces transparant en "white-box". Men kan precies zien hoe de synthetische data wordt gegenereerd op basis van de verdelingen in de bomen.
Veelzijdigheid: De methode ondersteunt natuurlijk numerieke en categorische variabelen, evenals ontbrekende waarden (missing values), zonder expliciete imputatie nodig te hebben.
Efficiëntie: Het is aanzienlijk sneller dan diepe generatieve modellen.

Resultaten

De auteurs hebben een uitgebreide experimentele evaluatie uitgevoerd op 15 benchmark datasets (zoals Forest Fires, Airfoil, Housing) met verschillende soorten extreme waarden (hoog, laag, beide).

Prestatie: CARTGen-IR presteert zeer competitief ten opzichte van state-of-the-art methoden zoals WSMOTER, KNNOR-REG en G-SMOTER.
- Het scoort hoog op specifieke metrics voor ongelijkgewogen regressie zoals SERA (Squared Error–Relevance Area) en RW-RMSE (Relevance Weighted RMSE).
- In een Bayesiaanse vergelijking bleek CARTGen-IR consistent superieur te zijn aan WSMOTER, met name bij gebruik van Random Forests en XGBoost.
Robuustheid: De methode toont een betere winst-verliesverhouding dan andere methoden, wat aangeeft dat de verbeteringen statistisch significant en betekenisvol zijn.
Snelheid: CARTGen-IR is een van de snelste methoden voor het genereren van synthetische data. Deep learning-methoden zijn gemiddeld 131 keer trager dan CARTGen-IR. Alleen KNNOR-REG is sneller, maar presteert slechter op zeldzame doelwaarden.
Hyperparameters: De analyse toont aan dat het gebruik van de "relevance" wegingsschema en een exponent ( $\alpha$ ) tussen 1,5 en 2,0 vaak de beste resultaten oplevert.

Betekenis en Conclusie

CARTGen-IR biedt een schaalbare, interpreteerbare en efficiënte oplossing voor het probleem van ongelijkgewogen regressie. Het overbrugt de kloof tussen eenvoudige resampling-methode en complexe generatieve modellen.

De studie concludeert dat data-level strategieën gebaseerd op beslissingsbomen (CART) een haalbaar en krachtig alternatief zijn voor bestaande technieken. Ze bieden een goede balans tussen voorspellende prestaties, snelheid en transparantie, zonder de nadelen van kunstmatige discretisatie van continue variabelen. Dit opent de deur voor toekomstig werk gericht op het uitbreiden van de experimenten naar niet-extreme zeldzame intervallen en het integreren van kostengevoelig leren.

CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression

Het oude probleem: De "Scheermes"-methode

De nieuwe oplossing: CARTGen-IR

1. De Boom die de wereld begrijpt

2. Het "Versterken" van de zeldzame gevallen

3. Waarom is dit zo goed?

Wat zeggen de resultaten?

Samenvatting in één zin

Probleemstelling

Methodologie: CARTGen-IR

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers