Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Diese Arbeit leitet theoretische Obergrenzen für die SMOTE-Dichte her, zeigt deren asymptotisches Kopierverhalten und Dichteabfall an den Rändern auf, stellt zwei verbesserte SMOTE-Varianten vor und kommt empirisch zu dem Schluss, dass bei natürlichen Imbalancen oft keine Nachjustierung nötig ist, während eine der neuen Varianten bei künstlich verstärkter Imbalance überlegene Ergebnisse liefert.

Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet

Veröffentlicht 2026-03-18
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Die laute Minderheit

Stell dir vor, du bist ein Lehrer in einer Klasse, die aus 99 Schülern und 1 Schüler besteht. Der eine Schüler (die Minderheit) ist sehr wichtig, weil er eine spezielle Krankheit hat, die wir erkennen müssen. Die anderen 99 sind alle gesund.

Wenn du jetzt einen neuen Schüler (einen Algorithmus) in diese Klasse bringst, um zu lernen, wer krank und wer gesund ist, was passiert? Der neue Schüler wird wahrscheinlich einfach alle als gesund abhaken. Warum? Weil es so viel einfacher ist, immer "Gesund" zu sagen und trotzdem 99 % richtig zu liegen. Er ignoriert den einen kranken Schüler komplett. Das ist das Problem mit unausgewogenen Daten.

Der alte Trick: SMOTE (Der Fotokopierer)

Um das zu lösen, haben Wissenschaftler eine Methode namens SMOTE erfunden. Die Idee war genial: "Wir kopieren den kranken Schüler einfach!"

Aber SMOTE macht es nicht ganz so simpel wie ein Kopierer. Es schaut sich den kranken Schüler an, sucht sich einen anderen kranken Schüler (oder den nächsten Nachbarn) und malt einen neuen, künstlichen Schüler genau in die Mitte zwischen die beiden. Es ist, als würdest du zwei Farben mischen, um eine neue Farbe zu erzeugen.

Das Problem, das diese Studie gefunden hat:
Die Forscher haben herausgefunden, dass SMOTE mit den Standard-Einstellungen (die meisten Leute nutzen diese) eigentlich nur Fotokopien macht.

  • Die Analogie: Stell dir vor, du hast eine Vase mit blauen Murmeln (die kranken Schüler). Du willst mehr Murmeln. SMOTE nimmt zwei blaue Murmeln und drückt sie zusammen. Das Ergebnis ist eine neue blaue Murmel, die fast genau wie die alten aussieht.
  • Das Ergebnis: Der Algorithmus lernt nicht wirklich neue Muster. Er sieht nur immer wieder die gleichen alten Gesichter. Er wird starr und kann keine neuen, interessanten Fälle erkennen, die vielleicht etwas weiter weg von den alten liegen.

Außerdem gibt es ein Problem am Rand: Wenn du am Rand der Klasse stehst, passiert etwas Seltsames. SMOTE kann dort keine neuen Schüler mehr "erfinden", weil es keine Nachbarn mehr gibt, zwischen denen es mischen kann. Die neuen Schüler fehlen also genau dort, wo sie vielleicht am wichtigsten wären.

Die Lösung: Zwei neue Tricks

Die Autoren der Studie haben sich gedacht: "Okay, SMOTE ist gut, aber wir müssen es ein bisschen schlauer machen." Sie haben zwei neue Varianten vorgeschlagen:

  1. Der "K-optimierte" Trick:
    SMOTE fragt normalerweise: "Wie viele Nachbarn soll ich mir ansehen?" (Standard: 5). Die Forscher sagen: "Nein, frag nicht nach einer festen Zahl! Schau dir an, wie viele Schüler wir überhaupt haben, und passe die Zahl an."

    • Vergleich: Statt immer nur 5 Freunde zu fragen, fragst du 10, wenn die Klasse groß ist, oder 2, wenn sie klein ist. Das macht die neuen "Kopien" etwas vielfältiger.
  2. Der "MGS"-Trick (Der Kreative):
    Das ist der Gewinner der Studie. Statt nur eine gerade Linie zwischen zwei Schülern zu ziehen, stellt sich MGS vor, dass die kranken Schüler eine Wolke bilden.

    • Die Analogie: Stell dir vor, die kranken Schüler sind wie ein Schwarm Vögel. SMOTE zeichnet nur eine Linie zwischen zwei Vögeln. MGS aber schaut sich den ganzen Schwarm an, berechnet den Durchschnitt und die Streuung, und lässt dann neue Vögel in alle Richtungen aus dieser Wolke fliegen – auch ein bisschen weiter raus, wo es noch keine Vögel gab.
    • Warum das hilft: Es füllt die Lücken am Rand der Klasse auf und sorgt dafür, dass der neue Schüler (der Algorithmus) wirklich lernt, wie die kranken Schüler wirklich aussehen, nicht nur wie ihre Kopien.

Das überraschende Fazit: "Mach gar nichts!"

Das vielleicht coolste Ergebnis der ganzen Studie ist eine Art "Entwarnung".

Die Forscher haben 13 verschiedene Datensätze getestet (von Kreditkartenbetrug bis hin zu medizinischen Diagnosen).

  • Das Ergebnis: In den meisten Fällen (bei den "normal" unausgewogenen Daten) war es am besten, gar nichts zu tun!
  • Die Analogie: Stell dir vor, du hast eine laute Party. Wenn nur ein paar Leute schreien, reicht es oft, einfach normal zu reden. Man muss nicht sofort die Lautstärke drehen oder extra Mikrofone anschließen. Die modernen Computer-Modelle (wie Random Forests oder LightGBM) sind heute so schlau, dass sie die Minderheit oft schon ganz gut erkennen, ohne dass man sie mit künstlichen Daten füttert.

Wann ist es trotzdem nötig?
Nur wenn das Problem extrem ist (z. B. nur 1 kranke Person auf 10.000 gesunde). Dann hilft es, den "MGS"-Trick zu nutzen. Aber für den normalen Alltag? Oft ist "Nichts tun" die beste Strategie.

Zusammenfassung in einem Satz

Die Studie sagt uns: "SMOTE ist ein guter alter Freund, aber er macht zu viele Kopien. Wir haben ihn mit einem neuen, kreativeren Trick (MGS) verbessert, der besser funktioniert, wenn das Problem wirklich groß ist. Aber in den meisten Fällen ist es gar nicht nötig, etwas zu ändern – die Computer können das schon allein."