Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom we soms beter niets doen dan proberen een onevenwichtige klas te "rebalanceren"

Stel je voor dat je een leraar bent in een klas met 100 leerlingen. Maar er is een probleem: 99 leerlingen zijn "rood" en slechts 1 leerling is "blauw". Als je de klas vraagt om een voorspelling te doen over wie er morgen ziek zal zijn, zullen de 99 rode leerlingen waarschijnlijk zeggen: "Niemand wordt ziek, want wij zijn allemaal gezond!" De ene blauwe leerling wordt genegeerd. In de wereld van computers (machine learning) noemen we dit een onevenwichtige dataset.

Deze paper van Abdoulaye Sakho en zijn collega's onderzoekt hoe we dit probleem oplossen en of we überhaupt iets moeten doen.

1. De Populaire Oplossing: SMOTE (De "Kopieer-En-Mix" Techniek)

Om het probleem op te lossen, gebruiken mensen vaak een trucje genaamd SMOTE.

Hoe het werkt: Stel je voor dat je de ene blauwe leerling hebt. SMOTE kijkt naar de dichtstbijzijnde rode leerling (die eigenlijk ook blauw is in dit voorbeeld, maar laten we zeggen dat we een andere blauwe leerling hebben) en zegt: "Laten we een nieuwe, fictieve blauwe leerling maken die ergens halverwege tussen deze twee zit."
Het doel: Je maakt meer "blauwe" leerlingen aan, zodat de computer denkt dat de blauwe groep groter is dan hij echt is.

2. Het Grote Geheim: SMOTE is vaak een leugen

De auteurs van deze paper hebben wiskunde gebruikt om te bewijzen dat SMOTE een groot probleem heeft, vooral als je de standaardinstellingen gebruikt (wat de meeste mensen doen).

De "Kopieer-En-Plak" Probleem: De paper bewijst dat SMOTE, als je het laat draaien met de standaardinstellingen, in feite geen nieuwe leerlingen creëert. Het maakt alleen maar perfecte kopieën van de bestaande blauwe leerlingen. Het is alsof je een fotokopieerapparaat gebruikt in plaats van een kunstenaar. Je hebt meer foto's, maar je hebt geen nieuwe informatie.
De Rand-Effecten: SMOTE faalt ook aan de randen. Stel je voor dat de blauwe leerlingen in een hoek van de klas zitten. SMOTE maakt nieuwe leerlingen in het midden van de groep, maar durft ze niet te plaatsen vlakbij de muur (de rand van de groep). Hierdoor mist de computer belangrijke informatie over hoe de blauwe groep eruitziet aan de buitenkant.

3. De Nieuwe Uitvindingen: Twee Verbeteringen

Omdat ze wisten wat er mis was, bedachten ze twee nieuwe manieren om het te doen:

De "Slimme Kiezer" (K-tuned SMOTE): In plaats van altijd naar 5 buren te kijken, kiezen ze het perfecte aantal buren voor elke situatie. Dit helpt om meer variatie te creëren, maar werkt niet altijd perfect.
De "Wolk-Maker" (MGS - Multivariate Gaussian SMOTE): Dit is de echte ster van de show. In plaats van alleen lijnen te trekken tussen twee punten, kijkt MGS naar de hele groep blauwe leerlingen en maakt een "wolk" van nieuwe leerlingen.
- Het voordeel: Deze nieuwe leerlingen kunnen ook buiten de bestaande groep vallen (net buiten de muur). Dit lost het "rand-probleem" op en zorgt voor veel meer diversiteit. Het is alsof je niet alleen kopieert, maar echt nieuwe, creatieve leerlingen bedenkt die logisch passen bij de groep.

4. De Grote Verrassing: Soms is "Niets Doen" het Best!

Dit is het belangrijkste advies uit de paper. Ze hebben 13 verschillende datasets getest (van creditcardfraude tot medische diagnoses).

Resultaat: Voor de meeste datasets (ongeveer 11 van de 13) was de beste strategie... niets doen.
Waarom? De moderne computers (zoals Random Forests of LightGBM) zijn zo slim dat ze de onevenwichtigheid zelf kunnen aanpakken. Als je probeert het te "fixen" met SMOTE, verstoort je vaak de natuurlijke verdeling en maak je het erger.
De uitzondering: Als de onevenwichtigheid extreem groot is (bijvoorbeeld 1 blauwe leerling tegenover 1000 rode), dan helpt een rebalanceringsstrategie. En hier wint MGS (de "Wolk-Maker") het van alle andere methoden, zelfs van dure en complexe AI-modellen.

Samenvatting in één zin

De paper zegt: "Probeer niet om je dataset te 'rebalanceren' met standaardmethodes zoals SMOTE, want dat maakt vaak alleen maar kopieën. Laat je slimme computer gewoon zijn werk doen, tenzij het onevenwichtigheid extreem groot is; dan gebruik je onze nieuwe, slimme 'Wolk-Maker' (MGS) in plaats van de oude kopieer-truc."

De les voor de praktijk:

Normaal geval: Gebruik geen rebalancing. Laat het model gewoon leren.
Extreem geval: Gebruik MGS (de nieuwe methode), niet de standaard SMOTE.
Vermijd: Dure, complexe modellen (zoals Deep Learning) voor tabulaire data; simpele bomen (Random Forests) werken vaak beter en sneller.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het artikel adresseert het probleem van onbalans in datasets voor binaire classificatie op tabulaire data (bijv. fraudeopsporing, medische diagnose). Bestaande machine learning-algoritmen hebben de neiging om de meerderheidsklasse te voorspellen, wat leidt tot vertekende resultaten. Hoewel rebalanceringsstrategieën zoals SMOTE (Synthetic Minority Oversampling Technique) veel worden gebruikt om synthetische samples van de minderheidsklasse te genereren, ontbreekt er een diepgaand theoretisch inzicht in het gedrag van SMOTE. De auteurs stellen de vraag of rebalanceren wel nodig is en analyseren de theoretische beperkingen van SMOTE, zoals de neiging om originele samples te kopiëren en artefacten aan de randen van de verdeling.

Methodologie

De auteurs combineren theoretische analyse met uitgebreide empirische evaluatie:

Theoretische Analyse:
- Ze leiden niet-asymptotische bovengrenzen af voor de dichtheid van door SMOTE gegenereerde samples.
- Ze analyseren het gedrag van SMOTE wanneer het aantal minderheidsamples ( $n$ ) naar oneindig gaat, met name in relatie tot het hyperparameter $K$ (aantal buren).
- Ze bewijzen dat SMOTE met de standaardinstelling ( $K=5$ ) asymptotisch neigt naar het kopiëren van originele samples en dat de dichtheid verdwijnt aan de randen van het draagvlak van de verdeling (boundary bias).
Nieuwe Varianten:
Gebaseerd op de theoretische bevindingen introduceren ze twee nieuwe varianten:
- SMOTE K-tuned: Een strategie waarbij $K$ niet vast staat op 5, maar wordt geoptimaliseerd via cross-validatie op een grid dat afhankelijk is van $n$ .
- Multivariate Gaussian SMOTE (MGS): Een methode die synthetische samples genereert uit een multivariate Gaussische verdeling ( $N(\hat{\mu}, \hat{\Sigma})$ ) geschat op basis van de $K$ buren en het centrale punt. Dit laat toe om samples buiten het convex hull van de originele data te genereren, wat de randproblemen oplost.
Empirische Evaluatie:
- Datasets: 13 real-world tabulaire datasets (o.a. CreditCard, Abalone, Phoneme) en kunstmatig versterkte onbalansscenario's (tot 1% minderheidsklasse).
- Classifiers: Random Forests (met en zonder tuning van de boomdiepte), LightGBM en Logistische Regressie.
- Vergelijking: De nieuwe methoden worden vergeleken met 10 state-of-the-art rebalanceringsstrategieën, waaronder ROS, RUS, Borderline SMOTE, CTGAN en ForestDiffusion.
- Meting: Gebruik van PR AUC (Precision-Recall Area Under Curve) in plaats van ROC AUC, omdat PR AUC minder vertekend is bij onbalans.

Belangrijkste Bijdragen

Theoretisch Bewijs: Het artikel bewijst wiskundig dat standaard SMOTE ( $K=5$ ) asymptotisch de originele verdeling nabootst door samples te kopiëren in plaats van nieuwe variabiliteit toe te voegen, en dat er een significant "boundary bias" optreedt waar de dichtheid van synthetische data afneemt.
Nieuwe Algoritmen: De introductie van MGS, die de convex hull-beperking van SMOTE doorbreekt door gebruik te maken van multivariate Gaussische verdelingen, en SMOTE K-tuned.
Empirisch Inzicht: De bevinding dat voor de meeste (licht) onbalans datasets het toepassen van geen rebalanceringsstrategie ("None") competitief is, of zelfs beter, dan complexe rebalanceringsmethoden.

Resultaten

Lichte Onbalans: Voor 11 van de 13 initiële datasets presteerde de strategie "geen rebalanceren" (None) het beste of was het even goed als de beste rebalanceringsmethode. Dit suggereert dat rebalanceren vaak overbodig is voor standaard tabulaire data met lichte onbalans.
Extreme Onbalans: Bij kunstmatig versterkte onbalans (bijv. 1% of 0.2% minderheidsklasse) presteerden rebalanceringsstrategieën beter.
- MGS bleek de meest veelbelovende methode, vaak presterend beter dan standaard SMOTE, CTGAN en ForestDiffusion. MGS was vooral effectief omdat het de randproblemen (boundary artifacts) van SMOTE oploste.
- SMOTE K-tuned leverde geen systematisch betere resultaten op dan standaard SMOTE, wat suggereert dat het alleen tunen van $K$ niet voldoende is om de fundamentele beperkingen van lineaire interpolatie op te lossen.
Modelonafhankelijkheid: De bevindingen hielden stand voor Random Forests, LightGBM en Logistische Regressie.
Deep Learning vs. SMOTE: Complexe generatieve modellen zoals CTGAN en ForestDiffusion waren vaak niet significant beter dan SMOTE-varianten en hadden aanzienlijk hogere rekentijden.

Betekenis en Conclusie

Het artikel biedt een kritische herwaardering van rebalanceringsstrategieën in de praktijk:

Geen "One-Size-Fits-All": Rebalanceren is niet altijd nodig; voor veel tabulaire datasets is het beste advies om geen rebalancering toe te passen en te vertrouwen op goed getuned klassieke modellen (zoals Random Forests).
Theorie leidt tot betere praktijk: De theoretische analyse van SMOTE's tekortkomingen (kopiëren en randbias) heeft direct geleid tot een betere, eenvoudigere methode (MGS) die superieur presteert in extreme onbalansscenario's.
Efficiëntie: Simpele, theoretisch onderbouwde methoden zoals MGS kunnen concurreren met of zelfs beter presteren dan zware, compute-intensive deep generative modellen, zonder de complexiteit van hyperparameter-tuning voor boomdiepte.

Kortom, de auteurs concluderen dat rebalanceren alleen noodzakelijk is bij extreme onbalans, en dat in dat geval MGS een superieur alternatief is voor bestaande methoden, terwijl voor de meeste andere gevallen het simpelweg weglaten van rebalancering de beste strategie is.

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

1. De Populaire Oplossing: SMOTE (De "Kopieer-En-Mix" Techniek)

2. Het Grote Geheim: SMOTE is vaak een leugen

3. De Nieuwe Uitvindingen: Twee Verbeteringen

4. De Grote Verrassing: Soms is "Niets Doen" het Best!

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference

Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment