Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

이 논문은 SMOTE 의 이론적 한계를 분석하고 이를 개선한 두 가지 변형을 제안하며, 대부분의 실제 데이터셋에서는 불균형 조정 없이도 우수한 성능을 얻을 수 있지만 인위적으로 불균형 비율이 극단적으로 높은 경우 제안된 변형 전략이 가장 효과적임을 실증적으로 입증합니다.

Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet

게시일 2026-03-18
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 문제가 생길까요? (치킨과 달걀의 불균형)

상상해 보세요. 치킨집에서 치킨 100 마리를 팔았는데, 그중 99 마리는 일반 치킨이고 **1 마리는 드문 '골드 치킨'**입니다.
이제 손님들이 "어떤 치킨이 골드 치킨인지 알려줘!"라고 요청합니다.

대부분의 인공지능 (AI) 은 "아, 99% 가 일반 치킨이니까 그냥 '일반 치킨'이라고만 말하면 맞을 확률이 99% 가 되겠네!"라고 생각해서, 골드 치킨을 절대 찾아내지 못합니다.

이 문제를 해결하기 위해 과거에는 **'SMOTE'**라는 방법을 썼습니다.

SMOTE 의 방식: "골드 치킨 1 마리가 너무 적으니, 이 골드 치킨 옆에 있는 다른 골드 치킨 (이론상) 과 섞어서 새로운 가짜 골드 치킨을 만들어내자!"
예: 골드 치킨 A 와 B 를 이어 붙여서 C 를 만든다.

하지만 이 논문은 **"잠깐, 우리가 만든 그 가짜 골드 치킨들이 진짜와 똑같은가?"**라고 의문을 제기합니다.


2. 연구의 핵심 발견: "가짜는 진짜를 흉내 내는 데 그쳤다"

저자들은 SMOTE 가 어떻게 작동하는지 수학적으로 분석했습니다. 그 결과는 놀라웠습니다.

  • 비유: 복사기 (Copy Machine) 의 한계
    SMOTE 는 원래 데이터를 선 (선분) 으로 이어 붙여 새로운 데이터를 만듭니다. 하지만 연구 결과에 따르면, 기본 설정 (K=5) 으로 사용할 때 SMOTE 는 새로운 데이터를 '창조'하는 게 아니라, 기존 데이터를 아주 가깝게 '복사'하는 역할만 합니다.
    마치 "새로운 그림을 그리겠다"고 했더니, 기존 그림을 아주 미세하게만 변형해서 복사해낸 것과 같습니다.

  • 비유: 벽장 안의 비밀 (경계 문제)
    SMOTE 가 만든 가짜 데이터들은 원래 데이터가 있는 공간 (벽장) 안쪽에만 존재합니다. 하지만 진짜 데이터는 벽장 벽 (경계) 근처에도 있을 수 있는데, SMOTE 는 그 벽 근처에서는 데이터를 거의 만들어내지 못합니다.
    결과: AI 가 배울 수 있는 정보가 제한되어, 실제 상황 (벽 근처) 에서 실수를 자주 하게 됩니다.


3. 해결책: 두 가지 새로운 전략 제안

이론적 문제를 발견한 저자들은 SMOTE 를 조금만 고쳐서 두 가지 새로운 방법을 제안했습니다.

  1. K-튜닝 SMOTE:

    • 비유: "복사할 때 몇 장을 섞을지 (K 값) 자동으로 조절하자."
    • 기존에는 무조건 5 장을 섞었는데, 데이터 양에 따라 섞는 장수를 최적화하면 조금 더 다양해질 수 있다는 아이디어입니다. 하지만 실험 결과, 이 방법은 생각만큼 큰 효과를 보지 못했습니다.
  2. MGS (다변량 가우시안 SMOTE): ⭐ (이게 대박입니다!)

    • 비유: "복사기가 아니라 '요리사'가 되자."
    • 기존 SMOTE 가 선으로 이어 붙이는 방식이라면, MGS 는 **"이 골드 치킨들의 특징 (맛, 모양, 질감) 을 분석해서, 그 특징을 가진 새로운 골드 치킨을 요리해낸다"**는 방식입니다.
    • 핵심: 기존 데이터가 있는 공간 (벽장) 밖으로도 새로운 데이터를 만들어낼 수 있습니다. 마치 벽장 밖으로 튀어나와서 새로운 공간을 채우는 것처럼요.
    • 결과: 이 방법은 특히 데이터가 극도로 불균형할 때 (골드 치킨이 1% 미만일 때) 기존 방법들보다 훨씬 좋은 성능을 보였습니다.

4. 결론: "아예 안 하는 게 나을 수도 있다?"

이 논문이 던지는 가장 충격적인 메시지는 다음과 같습니다.

"대부분의 경우, 인위적으로 데이터를 늘리는 전략을 쓰지 않는 것 (None) 이 오히려 성능이 비슷하거나 더 나을 수 있다."

  • 비유: "치킨집에 골드 치킨이 10% 정도만 부족하다면, 굳이 가짜 골드 치킨을 만들어서 혼란을 줄 필요 없이, 그냥 AI 가 원래 데이터를 잘 학습하게 두는 게 나을 수도 있다."
  • 대부분의 현실 데이터 (13 개 데이터셋) 에서는 **아무것도 하지 않는 것 (None)**이 가장 경쟁력 있는 결과였습니다.

하지만 예외가 있습니다.

  • 극도로 불균형한 경우 (골드 치킨이 1% 미만): 이때는 MGS라는 새로운 요리법 (전략) 을 쓰면 AI 가 훨씬 잘 작동합니다.

📝 한 줄 요약

"과거에는 불균형한 데이터를 해결하기 위해 무조건 '가짜 데이터'를 만들어냈지만, 연구 결과 대부분의 경우 그냥 두는 게 나으며, 정말로 데이터가 극도로 부족할 때는 기존 방식을 조금 더 똑똑하게 변형한 (MGS) 방법이 가장 효과적이라는 것을 증명했습니다."

이 연구는 AI 개발자들에게 **"무조건 데이터를 늘리는 게 정답은 아니다. 상황에 따라 '아무것도 안 하기'나 '똑똑한 변형'을 선택하라"**는 현실적인 조언을 줍니다.