Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

本論文は、SMOTE の理論的限界を明らかにし、その改善版を提案するとともに、多くの実データセットではリバランスを行わない方が予測性能において競合しうることを示す理論的・実証的研究です。

Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet

公開日 2026-03-18
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍎🍌 物語の舞台:果物屋さんの「不均衡」な棚

まず、AI が学習する状況を想像してください。
果物屋さんに**「リンゴ(多数派)」が 1000 個、「イチゴ(少数派)」**がたった 10 個しか置いていないとします。

AI(店員さん)は、この棚を見て「リンゴ」を推測する練習をします。
「イチゴ」は数が少なすぎるので、AI は**「イチゴなんて存在しない、全部リンゴだ!」**と学習してしまいます。
これが「不均衡データ」の問題です。詐欺検知や病気の診断など、見つけたいもの(少数派)が極端に少ない時に起こります。

🧱 従来の解決策:SMOTE(スモート)とは?

この問題を解決するために、昔から**「SMOTE」という手法が使われてきました。
これは
「イチゴを人工的に増やす」**方法です。

  • SMOTE のやり方:
    1. 実在するイチゴ A を選びます。
    2. 近くにある別のイチゴ B を選びます。
    3. **「A と B のちょうど中間」**に、新しい「人工イチゴ」を置きます。
    4. これを繰り返して、イチゴの数をリンゴに近づけます。

まるで、2 人の人間の間にある「中間地点」に新しい人を立たせて、人数を増やすようなイメージです。

🔍 この論文の発見:SMOTE の「隠れた弱点」

しかし、この論文の著者たちは、SMOTE を数学的に詳しく分析し、**「実は SMOTE には 2 つの大きな欠点がある」**と突き止めました。

1. 「コピー」に過ぎない(多様性の欠如)

SMOTE は「中間地点」を作るだけなので、増えたイチゴは**「本物のイチゴの真ん中に、ただコピーを置いている」**のと同じ状態になります。

  • 例え: 本物のイチゴが「赤くて甘い」だけだとします。SMOTE で増やしたイチゴも「赤くて甘い」だけです。
  • 問題点: AI は「イチゴにはもっと多様な形や味があるはずだ」という**「多様性」**を学べません。結果として、AI は「本物のイチゴ」と「SMOTE のコピー」を区別できず、ただの「コピー」を学習しているだけになってしまいます。

2. 端っこの見落とし(境界の問題)

SMOTE は「2 つのイチゴの中間」しか作らないため、**「イチゴの集まりの端っこの部分」**には新しいイチゴが作られにくくなります。

  • 例え: イチゴの山が三角形の形をしているとします。SMOTE は三角形の「内側」にしか新しいイチゴを作れません。三角形の「角」や「外側」は、新しいイチゴで埋められません。
  • 問題点: 現実の世界では、イチゴが山から少し外れた場所にあることもあります。SMOTE はその「端っこのイチゴ」を見逃してしまい、AI が「端っこのイチゴ」を見分けられなくなります。

💡 著者たちの提案:新しい 2 つの解決策

この弱点を直すために、著者たちは SMOTE を少し改良した 2 つの新しい方法を提案しました。

  1. K-tuned SMOTE(調整版):

    • SMOTE が「どのくらい離れたイチゴ同士を結ぶか」という設定(K)を、データの数に合わせて自動で調整します。
    • 結果: 理論的には良いアイデアですが、実際のデータでは「何もしない」方法とあまり変わらないことが分かりました。
  2. MGS(多変量ガウス SMOTE):

    • これが今回の**「主役」**です。
    • やり方: 「2 点の中間」を作るのではなく、「イチゴの集まりの形(分布)」を分析し、その形に合わせて「ランダムに新しいイチゴ」を撒き散らすようにします。
    • メリット:
      • コピーではない: 本物とは少し違う、新しいイチゴが作られます(多様性が生まれます)。
      • 端っこもカバー: イチゴの山の「外側」や「端っこの部分」にも新しいイチゴが作られるため、AI が「端っこのイチゴ」も見分けられるようになります。

🏆 実験結果:結局、何が一番いいの?

著者たちは、13 種類の実際のデータ(クレジットカードの詐欺検知や病気の診断データなど)を使って、さまざまな方法をテストしました。

1. 多くの場合、「何もしない」のが最強

  • 驚きの事実: 不均衡度が「少し」ひどいデータの場合、**「SMOTE などの工夫を一切せず、元のデータで学習させる(None)」**のが、最も良い結果を出しました。
  • 理由: 現代の AI(ランダムフォレストや LightGBM など)は、不均衡なデータでもそれなりに上手に学習できるからです。無理に人工データを増やすと、逆に AI が混乱してしまうこともあります。

2. 極端に不均衡な場合は「MGS」が活躍

  • 例外: イチゴが 1000 個に対して 1 個しかないような**「極端に不均衡」なデータの場合、「何もしない」では AI がイチゴを見分けられなくなります。**
  • 勝者: そのような場合、新しい手法**「MGS」**が、従来の SMOTE や、最新の AI 生成モデル(GAN や拡散モデル)よりも良い成績を収めました。
  • 特徴: MGS は計算が速く、設定も簡単なのに、高い精度を出します。

📝 まとめ:私たちが学ぶべきこと

この論文が教えてくれることは、以下の 3 点です。

  1. SMOTE は万能ではない: 昔から使われている「SMOTE」という手法は、実は「コピー」を増やすだけで、多様性や端っこの部分を無視している弱点がありました。
  2. 無理に増やす必要はない: 多くのビジネス現場では、**「不均衡だからといって無理にデータを増やす必要はない」**かもしれません。そのままのデータで学習させる方が、結果が良いことが多いです。
  3. 本当に困っている時は新しい方法へ: もしデータが極端に偏っていて困っているなら、従来の SMOTE ではなく、**「MGS」**のような、分布を考慮して新しいデータを作る新しい手法を使うのがおすすめです。

一言で言うと:
「AI にイチゴを教える時、無理にコピーを増やす(SMOTE)よりも、まずはそのまま教えるのが一番。でも、イチゴが本当に極端に少ない時は、新しい方法(MGS)で『本物そっくりだが少し違う』イチゴを撒き散らしてあげるのが正解!」