Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

이 논문은 선형 분리 가능한 데이터에서 단일 샘플을 사용하는 증분 Adam 의 암묵적 편향이 전체 배치 방식과 달리 2\ell_2-최대 마진 분류기로 수렴할 수 있음을 증명하고, 편향이 배치 방식과 데이터셋에 따라 달라지는 반면 Signum 은 \ell_\infty-최대 마진 편향을 유지함을 보여줍니다.

Beomhan Baek, Minhak Song, Chulhee Yun

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 등산가들의 목표 (AI 학습이란?)

AI 모델을 학습시킨다는 것은, 험한 산 (데이터) 을 올라가서 가장 낮은 골짜기 (오류가 가장 적은 지점) 를 찾는 것과 같습니다.

  • Adam: 현재 가장 인기 있는 등산 가이드입니다. 과거의 발자국 (기울기) 을 기억하며, 너무 급한 곳은 천천히, 평탄한 곳은 빠르게 걷는 똑똑한 가이드죠.
  • 과거의 통념: 연구자들은 "Adam 이 등산을 끝내면, 산의 모양과 상관없이 항상 **특정 방향 (ℓ∞-최대 마진)**으로 멈춘다"고 믿었습니다. 마치 모든 등산가가 같은 나침반을 보고 같은 길로 간다고 생각한 거죠.

2. 문제 제기: "혼자 걷는 등산가" vs "무리 지어 걷는 등산가"

하지만 이 논문은 **"그게 아니야!"**라고 말합니다.

  • 풀 배치 (Full-batch): 등산가들이 모두 모여서 산 전체를 한 번에 훑어보고 다음 발걸음을 떼는 경우입니다. 이 경우, 과거 연구대로 Adam 은 확실히 특정 방향 (ℓ∞-방향) 으로 가릅니다.
  • 미니 배치 (Mini-batch, 특히 배치 크기 1): 현대 AI 는 데이터를 한 번에 하나씩 (또는 아주 작은 덩어리씩) 보며 걷습니다. 논문의 실험은 **"혼자 걷는 Adam(배치 크기 1)"**은 완전히 다른 행동을 보인다는 것을 발견했습니다.

비유하자면:

  • 풀 배치 Adam: 산 전체 지도를 보고 "북쪽이 가장 안전해!"라고 결론 내리고 북쪽으로 간다.
  • 미니 배치 Adam: 한 번에 한 발자국만 보고 "아, 여기는 북쪽이 아닌 것 같은데?"라고 생각하며, 산의 모양 (데이터) 에 따라 방향을 바꾼다. 때로는 동쪽, 때로는 남쪽으로 가기도 합니다.

3. 핵심 발견 1: 데이터의 모양이 나침반을 바꾼다

논문은 두 가지 종류의 산 (데이터) 을 만들어 실험했습니다.

  1. 균일한 산 (SR 데이터): 모든 방향이 똑같은 산입니다.

    • 결과: 여기서 미니 배치 Adam 은 **가장 안전한 길 (ℓ2-최대 마진)**을 찾습니다. 이는 기존에 '가장 안전한 길'로만 가던 일반 경사하강법 (GD) 과 같은 행동을 합니다.
    • 의미: 데이터가 평평하면 Adam 도 평범해집니다.
  2. 비틀어진 산 (가우시안 데이터): 실제 AI 가 마주하는 복잡한 산입니다.

    • 결과: 여기서 미니 배치 Adam 은 전혀 새로운 방향으로 갑니다. 기존에 알려진 '북쪽 (ℓ∞)'도 아니고, '동쪽 (ℓ2)'도 아닌, 산의 모양에 맞춰 계산된 새로운 나침반 방향으로 향합니다.
    • 의미: Adam 의 최종 결정은 데이터가 어떤 모양인지에 따라 달라진다는 것입니다.

4. 핵심 발견 2: 'Signum'이라는 친구는 변하지 않는다

논문은 Adam 과 비교할 또 다른 알고리즘인 **'Signum'**을 소개합니다.

  • Signum: 등산할 때 "위쪽인가, 아래쪽인가?"만 보고 방향을 정하는 아주 단순한 가이드입니다.
  • 결과: Signum 은 어떤 산 (데이터) 이든, 혼자 걷든 무리 지어 걷든 항상 '북쪽 (ℓ∞)'으로만 갑니다.
  • 교훈: Adam 은 상황에 따라 유연하게 (혹은 불안정하게) 변하지만, Signum 은 원칙을 지키는 단호한 가이드입니다.

5. 요약: 왜 이 연구가 중요한가?

이 논문은 **"Adam 이 왜 그렇게 잘 작동하는지"**에 대한 새로운 해석을 제시합니다.

  • 과거의 오해: "Adam 이 좋은 이유는 항상 '북쪽'으로 가기 때문이야."
  • 새로운 진실: "아니야. Adam 은 데이터의 모양을 보고 그 상황에 맞춰 최적의 길을 찾아내는 능력이 있어서 좋은 거야. 특히 데이터를 하나씩 보면서 학습할 때 (미니 배치), 그 유연함이 빛을 발하는 거지."

마지막 비유:
과거에는 Adam 을 "항상 같은 길을 가는 맹신적인 등산가"로 생각했습니다. 하지만 이 논문은 Adam 을 **"데이터라는 지형에 맞춰 나침반을 스스로 조정하는 지혜로운 등산가"**로 재정의했습니다.

이 발견은 AI 연구자들이 더 나은 모델을 설계할 때, 단순히 "Adam 을 쓰자"가 아니라 **"어떤 데이터를 어떻게 학습시킬지"**를 더 깊이 고민해야 함을 알려줍니다.