Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

이 논문은 이차 모멘트 정규화와 정지 시간/마팅겔 분석을 통해, 고확률 수렴에서 Adam 이 신뢰도 파라미터에 대해 δ1/2\delta^{-1/2} 의존성을 보이는 반면 SGD 는 적어도 δ1\delta^{-1} 의존성을 갖는다는 이론적 차이를 최초로 증명하여 Adam 의 SGD 대비 우월한 성능을 설명합니다.

Ruinan Jin, Yingbin Liang, Shaofeng Zou

게시일 2026-03-10
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 머신러닝을 공부하는 사람들이 가장 많이 사용하는 두 가지 방법, **SGD(확률적 경사 하강법)**와 Adam(적응형 모멘트 추정법) 중 왜 Adam이 실제로 더 빠르고 잘 작동하는지에 대한 수학적 이유를 처음으로 명확하게 증명했습니다.

기존 이론들은 "두 방법의 성능은 비슷하다"라고 말했지만, 실제 실험에서는 Adam 이 압도적으로 빨랐죠. 이 논문은 그 차이를 **"꼬리가 날카로운 분포 (Sharper Tails)"**라는 개념으로 설명합니다.

이해하기 쉽게 비유를 들어 설명해 드릴게요.


🏃‍♂️ 비유: 산을 내려가는 두 명의 등산가

우리가 목표하는 것은 산꼭대기 (최소값) 에서 가장 낮은 지점 (최소 오차) 으로 내려가는 것입니다. 하지만 우리는 지도가 불완전하고, 눈보라 (노이즈) 가 불어와서 방향을 잘못 잡을 수 있습니다.

1. SGD: "고집 센 등산가"

  • 방식: SGD 는 매번 "지금 보이는 경사도"만 보고 한 걸음씩 나아갑니다.
  • 문제점: 만약 갑자기 거대한 눈덩이 (큰 오차/노이즈) 가 굴러와서 발을 미끄러뜨리면, SGD 는 그걸 그대로 받아쳐서 아주 멀리 튕겨 나갑니다.
  • 결과: 대부분의 때는 잘 가지만, **드물게 아주 큰 실수 (Outlier)**를 할 확률이 있습니다. 이 "큰 실수"가 발생할 확률 (신뢰도 δ\delta) 을 낮추려면, 등산가는 아주 조심스럽게 움직여야 하므로 속도가 느려집니다.
  • 수학적 의미: 신뢰도 δ\delta가 작아질수록 (더 확신하고 싶을수록) 성능이 급격히 떨어집니다 (1/δ1/\delta 비례).

2. Adam: "똑똑한 등산가"

  • 방식: Adam 은 과거의 발자국을 기억합니다. 특히 **"두 번째 모멘트 (Second-moment)"**라고 하는, "과거에 얼마나 크게 미끄러졌는지"를 평균내어 기억합니다.
  • 핵심 메커니즘 (이 논문이 발견한 것): Adam 은 과거에 큰 눈덩이가 굴러온 적이 있다면, 그 방향으로는 걸음걸이를 아주 작게 조정합니다. 반대로 평온했던 곳에서는 크게 걸어가죠.
  • 효과: 큰 눈덩이 (노이즈) 가 와도 Adam 은 "아, 여기서 크게 미끄러진 적 있었지"라고 미리 알고 걸음을 줄입니다. 그래서 거대한 실수가 날아갈 확률이 SGD 보다 훨씬 낮아집니다.
  • 결과: Adam 의 경로 (Performance) 는 더 좁고 뾰족하게 모여 있습니다. 즉, "나쁜 경우"가 발생할 확률이 훨씬 적습니다.

🔍 이 논문의 핵심 발견: "꼬리가 날카롭다 (Sharper Tails)"

통계학에서 '꼬리 (Tail)'는 드물게 발생하는 극단적인 사건을 의미합니다.

  • SGD: 꼬리가 길고 뻗어 있습니다. (드물지만 아주 큰 실수가 발생할 수 있음)
  • Adam: 꼬리가 짧고 날카롭습니다. (큰 실수가 거의 발생하지 않음)

이 논문은 Adam 의 '이차 모멘트 정규화 (Second-moment Normalization)' 기능이 바로 이 꼬리를 잘라내는 (날카롭게 만드는) 역할을 한다고 증명했습니다.

📊 신뢰도 (δ\delta) 에 따른 차이

우리가 "99% 확률로 잘 작동하게 해줘"라고 요청할 때 (δ\delta가 작을 때):

  • SGD: "그럼 속도를 100 배 줄여야 해" (1/δ1/\delta 의존성).
  • Adam: "속도를 10 배만 줄이면 돼" (1/δ1/\sqrt{\delta} 의존성).

즉, Adam 은 SGD 보다 신뢰도를 높일 때 훨씬 덜 비싼 대가를 치릅니다. 이것이 Adam 이 실험에서 더 빠르고 안정적인 이유입니다.


💡 요약: 왜 이 논문이 중요한가요?

  1. 오래된 의문 해결: "왜 Adam 이 SGD 보다 빠른가?"라는 질문에 대해, "노이즈가 클 때 Adam 이 스스로 걸음을 조절하기 때문"이라고 수학적으로 증명했습니다.
  2. 새로운 기준 제시: 기존 이론들은 두 방법의 성능을 비슷하다고 보았지만, 이 논문은 Adam 이 확실히 우월하다는 것을 '높은 확률 (High-probability)' 관점에서 처음 증명했습니다.
  3. 실용적 통찰: 머신러닝 모델을 훈련할 때, 노이즈가 심한 환경 (데이터가 불완전한 경우) 에서는 Adam 과 같은 적응형 알고리즘이 SGD 보다 훨씬 더 안정적으로 작동한다는 이론적 근거를 마련했습니다.

한 줄 요약:

SGD 는 거친 폭풍우에 넘어질 수 있지만, Adam 은 과거의 경험을 바탕으로 걸음을 조절해 넘어지지 않으므로, "큰 실수"를 할 확률이 훨씬 낮아 더 빠르고 안정적으로 목적지에 도착합니다.