Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 문제가 생길까요? (치킨과 달걀의 불균형)

상상해 보세요. 치킨집에서 치킨 100 마리를 팔았는데, 그중 99 마리는 일반 치킨이고 **1 마리는 드문 '골드 치킨'**입니다.
이제 손님들이 "어떤 치킨이 골드 치킨인지 알려줘!"라고 요청합니다.

대부분의 인공지능 (AI) 은 "아, 99% 가 일반 치킨이니까 그냥 '일반 치킨'이라고만 말하면 맞을 확률이 99% 가 되겠네!"라고 생각해서, 골드 치킨을 절대 찾아내지 못합니다.

이 문제를 해결하기 위해 과거에는 **'SMOTE'**라는 방법을 썼습니다.

SMOTE 의 방식: "골드 치킨 1 마리가 너무 적으니, 이 골드 치킨 옆에 있는 다른 골드 치킨 (이론상) 과 섞어서 새로운 가짜 골드 치킨을 만들어내자!"
예: 골드 치킨 A 와 B 를 이어 붙여서 C 를 만든다.

하지만 이 논문은 **"잠깐, 우리가 만든 그 가짜 골드 치킨들이 진짜와 똑같은가?"**라고 의문을 제기합니다.

2. 연구의 핵심 발견: "가짜는 진짜를 흉내 내는 데 그쳤다"

저자들은 SMOTE 가 어떻게 작동하는지 수학적으로 분석했습니다. 그 결과는 놀라웠습니다.

비유: 복사기 (Copy Machine) 의 한계
SMOTE 는 원래 데이터를 선 (선분) 으로 이어 붙여 새로운 데이터를 만듭니다. 하지만 연구 결과에 따르면, 기본 설정 (K=5) 으로 사용할 때 SMOTE 는 새로운 데이터를 '창조'하는 게 아니라, 기존 데이터를 아주 가깝게 '복사'하는 역할만 합니다.
마치 "새로운 그림을 그리겠다"고 했더니, 기존 그림을 아주 미세하게만 변형해서 복사해낸 것과 같습니다.
비유: 벽장 안의 비밀 (경계 문제)
SMOTE 가 만든 가짜 데이터들은 원래 데이터가 있는 공간 (벽장) 안쪽에만 존재합니다. 하지만 진짜 데이터는 벽장 벽 (경계) 근처에도 있을 수 있는데, SMOTE 는 그 벽 근처에서는 데이터를 거의 만들어내지 못합니다.
결과: AI 가 배울 수 있는 정보가 제한되어, 실제 상황 (벽 근처) 에서 실수를 자주 하게 됩니다.

3. 해결책: 두 가지 새로운 전략 제안

이론적 문제를 발견한 저자들은 SMOTE 를 조금만 고쳐서 두 가지 새로운 방법을 제안했습니다.

K-튜닝 SMOTE:
- 비유: "복사할 때 몇 장을 섞을지 (K 값) 자동으로 조절하자."
- 기존에는 무조건 5 장을 섞었는데, 데이터 양에 따라 섞는 장수를 최적화하면 조금 더 다양해질 수 있다는 아이디어입니다. 하지만 실험 결과, 이 방법은 생각만큼 큰 효과를 보지 못했습니다.
MGS (다변량 가우시안 SMOTE): ⭐ (이게 대박입니다!)
- 비유: "복사기가 아니라 '요리사'가 되자."
- 기존 SMOTE 가 선으로 이어 붙이는 방식이라면, MGS 는 **"이 골드 치킨들의 특징 (맛, 모양, 질감) 을 분석해서, 그 특징을 가진 새로운 골드 치킨을 요리해낸다"**는 방식입니다.
- 핵심: 기존 데이터가 있는 공간 (벽장) 밖으로도 새로운 데이터를 만들어낼 수 있습니다. 마치 벽장 밖으로 튀어나와서 새로운 공간을 채우는 것처럼요.
- 결과: 이 방법은 특히 데이터가 극도로 불균형할 때 (골드 치킨이 1% 미만일 때) 기존 방법들보다 훨씬 좋은 성능을 보였습니다.

4. 결론: "아예 안 하는 게 나을 수도 있다?"

이 논문이 던지는 가장 충격적인 메시지는 다음과 같습니다.

"대부분의 경우, 인위적으로 데이터를 늘리는 전략을 쓰지 않는 것 (None) 이 오히려 성능이 비슷하거나 더 나을 수 있다."

비유: "치킨집에 골드 치킨이 10% 정도만 부족하다면, 굳이 가짜 골드 치킨을 만들어서 혼란을 줄 필요 없이, 그냥 AI 가 원래 데이터를 잘 학습하게 두는 게 나을 수도 있다."
대부분의 현실 데이터 (13 개 데이터셋) 에서는 **아무것도 하지 않는 것 (None)**이 가장 경쟁력 있는 결과였습니다.

하지만 예외가 있습니다.

극도로 불균형한 경우 (골드 치킨이 1% 미만): 이때는 MGS라는 새로운 요리법 (전략) 을 쓰면 AI 가 훨씬 잘 작동합니다.

📝 한 줄 요약

"과거에는 불균형한 데이터를 해결하기 위해 무조건 '가짜 데이터'를 만들어냈지만, 연구 결과 대부분의 경우 그냥 두는 게 나으며, 정말로 데이터가 극도로 부족할 때는 기존 방식을 조금 더 똑똑하게 변형한 (MGS) 방법이 가장 효과적이라는 것을 증명했습니다."

이 연구는 AI 개발자들에게 **"무조건 데이터를 늘리는 게 정답은 아니다. 상황에 따라 '아무것도 안 하기'나 '똑똑한 변형'을 선택하라"**는 현실적인 조언을 줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 문제 (Problem)

이진 분류 문제에서 불균형 데이터 (소수 클래스가 과소 표현된 경우) 는 모델이 다수 클래스로 편향된 예측을 하도록 유도합니다. 이를 해결하기 위해 SMOTE 와 같은 합성 과소표본 추출 (Synthetic Oversampling) 기법이 널리 사용되지만, 다음과 같은 문제점들이 존재합니다.

이론적 분석의 부재: SMOTE 의 작동 원리에 대한 이론적 분석이 부족하며, 특히 생성된 데이터의 분포 특성에 대한 수학적 이해가 부족합니다.
SMOTE 의 한계: 기본 설정 (K=5) 에서 SMOTE 는 원본 소수 클래스 샘플을 단순히 복사하는 경향이 있으며, 소수 클래스 분포의 경계 (Boundary) 에서 생성된 샘플의 밀도가 급격히 감소하는 (Boundary Bias) 문제가 발생합니다.
재균형 전략의 필요성 불명확: 많은 실증 연구에서 불균형 데이터에 대한 재균형 전략이 예측 성능을 향상시킨다고 주장하지만, 실제 다양한 데이터셋과 모델 (LightGBM, Random Forest 등) 에서는 재균형 없이 학습하는 것이 더 나은 결과를 내거나 차이가 없는 경우가 많습니다.

2. 방법론 (Methodology)

2.1 이론적 분석 (Theoretical Analysis)

저자들은 SMOTE 가 생성하는 합성 샘플의 확률 밀도 함수에 대한 비점근적 (Non-asymptotic) 상한을 유도했습니다.

점근적 복사 현상: 하이퍼파라미터 $K$ (이웃 개수) 를 고정하고 샘플 수 $n$ 이 무한대로 갈 때 ( $K/n \to 0$ ), SMOTE 가 생성하는 분포는 원래 소수 클래스 분포로 수렴함을 증명했습니다. 즉, 기본 설정 ( $K=5$ ) 은 새로운 다양성을 창출하지 못하고 원본 샘플을 "복사"하는 효과를 가집니다.
경계 편향 (Boundary Bias): 소수 클래스 분포의 지지 (Support) 경계 근처에서 SMOTE 의 밀도가 0 에 수렴함을 증명했습니다. 이는 경계 영역에서 합성 샘플이 생성되지 않아 분포를 제대로 재현하지 못함을 의미합니다.
거리 분석: 생성된 샘플과 중심점 사이의 거리가 $O((K/n)^{1/d})$ 의 차수를 가짐을 보였으며, 차원 $d$ 가 증가할수록 이 거리가 커지는 것을 확인했습니다.

2.2 제안된 알고리즘 (Proposed Variants)

이론적 발견을 바탕으로 두 가지 새로운 SMOTE 변형을 제안했습니다.

K-tuned SMOTE: 고정된 $K$ 값 대신 교차 검증을 통해 데이터셋 크기에 따라 최적의 $K$ 값을 탐색하는 방식입니다.
Multivariate Gaussian SMOTE (MGS):
- 기존 SMOTE 는 선형 보간을 사용하여 생성된 샘플이 원본 데이터의 볼록 껍질 (Convex Hull) 안에만 존재하도록 제한합니다.
- MGS 는 중심점과 $K$ 개의 이웃을 기반으로 다변량 가우시안 분포를 추정하고, 이 분포에서 새로운 샘플을 추출합니다.
- 이를 통해 생성된 샘플이 볼록 껍질을 벗어날 수 있게 하여 경계 편향 문제를 해결하고, 더 다양한 방향의 샘플을 생성합니다.

2.3 실험 프로토콜

데이터셋: 13 개의 실제 tabular 데이터셋 (UCI, Grinsztajn et al. 등) 을 사용했습니다.
모델: Random Forest (RF), LightGBM, Logistic Regression 을 분류기로 사용했습니다.
비교 대상: SMOTE, ROS, RUS, NearMiss, Borderline SMOTE, CTGAN, ForestDiffusion, Class-Weight 등 10 가지 최신 재균형 전략.
평가 지표: 불균형 데이터에 적합한 PR AUC(Precision-Recall Area Under Curve) 를 사용했습니다.
실험 조건:
- 초기 데이터셋: 원래 불균형 비율을 가진 데이터.
- 극단적 불균형 데이터셋: 소수 클래스를 인위적으로 줄여 불균형 비율을 20%, 10%, 1% 로 강화한 데이터.

3. 주요 결과 (Key Results)

3.1 재균형 전략의 필요성 (Do we need rebalancing?)

대부분의 데이터셋: 13 개 데이터셋 중 11 개에서 **재균형 전략을 적용하지 않음 (None)**이 가장 좋은 또는 경쟁력 있는 성능을 보였습니다. 이는 불균형 비율이 극단적이지 않거나 학습 과제가 단순한 경우, 재균형이 오히려 노이즈를 추가하거나 불필요할 수 있음을 시사합니다.
모델 의존성: Random Forest, LightGBM, Logistic Regression 모두에서 이 경향이 관찰되었습니다.

3.2 극단적 불균형 상황에서의 성능

불균형 비율이 1% 수준으로 극단적으로 낮아진 데이터셋에서는 재균형 전략이 성능 향상에 기여했습니다.
MGS 의 우수성: 제안된 MGS 전략이 극단적 불균형 데이터셋에서 가장 일관되게 높은 PR AUC 를 기록했습니다. 특히 경계 편향 문제를 해결하여 SMOTE 나 Borderline SMOTE 보다 우수한 성능을 보였습니다.
SMOTE 의 한계: 기본 SMOTE ( $K=5$ ) 는 ROS(원본 복사) 와 유사한 행동을 보이며, $K$ 를 튜닝한 SMOTE(K-tuned) 는 성능 향상을 보장하지 못했습니다.
딥러닝 기반 모델: CTGAN 과 ForestDiffusion 은 계산 비용이 매우 높았으며, 성능 면에서 SMOTE 계열 방법론을 압도하지 못했습니다.

4. 주요 기여 (Key Contributions)

SMOTE 의 이론적 규명: SMOTE 가 기본 설정에서 원본 샘플을 점근적으로 복사하며, 분포 경계에서 밀도가 소실된다는 것을 수학적으로 증명했습니다.
새로운 알고리즘 제안 (MGS): 이론적 한계를 극복하기 위해 다변량 가우시안 분포를 활용한 MGS 를 제안했습니다. 이는 볼록 껍질 제한을 해제하고 경계 문제를 완화합니다.
포괄적인 실증적 평가: 13 개의 데이터셋과 10 가지 이상의 최신 전략을 비교하여, "대부분의 경우 재균형이 필요하지 않다"는 결론을 내리고, 극단적 불균형 상황에서는 MGS 가 최선의 대안임을 입증했습니다.
메트릭 및 평가 기준 정립: 불균형 데이터 평가에 ROC AUC 대신 PR AUC 와 균형 정확도 (Balanced Accuracy) 의 문제점을 지적하고, 적절한 평가 방식을 제시했습니다.

5. 의의 및 시사점 (Significance)

실무적 가이드라인 제공: 많은 연구자가 자동적으로 SMOTE 를 적용하는 관행에 대해 의문을 제기했습니다. 이 논문은 불균형 비율이 심하지 않은 경우 재균형 없이 학습하는 것이 표준 (Default) 전략이 되어야 함을 강력히 주장합니다.
이론과 실전의 연결: 머신러닝 분야에서 자주 사용되는 SMOTE 에 대한 이론적 분석을 통해, 왜 특정 상황에서 성능이 떨어지는지 설명하고 이를 개선하는 구체적인 방법 (MGS) 을 제시했습니다.
효율성: 복잡한 생성 모델 (GAN, Diffusion) 대신 간단한 통계적 수정 (MGS) 이 계산 비용은 낮으면서도 더 나은 성능을 낼 수 있음을 보여주었습니다.

결론적으로, 이 논문은 불균형 데이터 처리에 대한 맹목적인 재균형 적용을 경계하고, 데이터의 특성과 불균형 정도에 따라 전략을 선택해야 함을 강조하며, 특히 극단적 불균형 상황에서는 이론적으로 개선된 MGS를 사용할 것을 권장합니다.