Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 등산가들의 목표 (AI 학습이란?)

AI 모델을 학습시킨다는 것은, 험한 산 (데이터) 을 올라가서 가장 낮은 골짜기 (오류가 가장 적은 지점) 를 찾는 것과 같습니다.

Adam: 현재 가장 인기 있는 등산 가이드입니다. 과거의 발자국 (기울기) 을 기억하며, 너무 급한 곳은 천천히, 평탄한 곳은 빠르게 걷는 똑똑한 가이드죠.
과거의 통념: 연구자들은 "Adam 이 등산을 끝내면, 산의 모양과 상관없이 항상 **특정 방향 (ℓ∞-최대 마진)**으로 멈춘다"고 믿었습니다. 마치 모든 등산가가 같은 나침반을 보고 같은 길로 간다고 생각한 거죠.

2. 문제 제기: "혼자 걷는 등산가" vs "무리 지어 걷는 등산가"

하지만 이 논문은 **"그게 아니야!"**라고 말합니다.

풀 배치 (Full-batch): 등산가들이 모두 모여서 산 전체를 한 번에 훑어보고 다음 발걸음을 떼는 경우입니다. 이 경우, 과거 연구대로 Adam 은 확실히 특정 방향 (ℓ∞-방향) 으로 가릅니다.
미니 배치 (Mini-batch, 특히 배치 크기 1): 현대 AI 는 데이터를 한 번에 하나씩 (또는 아주 작은 덩어리씩) 보며 걷습니다. 논문의 실험은 **"혼자 걷는 Adam(배치 크기 1)"**은 완전히 다른 행동을 보인다는 것을 발견했습니다.

비유하자면:

풀 배치 Adam: 산 전체 지도를 보고 "북쪽이 가장 안전해!"라고 결론 내리고 북쪽으로 간다.
미니 배치 Adam: 한 번에 한 발자국만 보고 "아, 여기는 북쪽이 아닌 것 같은데?"라고 생각하며, 산의 모양 (데이터) 에 따라 방향을 바꾼다. 때로는 동쪽, 때로는 남쪽으로 가기도 합니다.

3. 핵심 발견 1: 데이터의 모양이 나침반을 바꾼다

논문은 두 가지 종류의 산 (데이터) 을 만들어 실험했습니다.

균일한 산 (SR 데이터): 모든 방향이 똑같은 산입니다.
- 결과: 여기서 미니 배치 Adam 은 **가장 안전한 길 (ℓ2-최대 마진)**을 찾습니다. 이는 기존에 '가장 안전한 길'로만 가던 일반 경사하강법 (GD) 과 같은 행동을 합니다.
- 의미: 데이터가 평평하면 Adam 도 평범해집니다.
비틀어진 산 (가우시안 데이터): 실제 AI 가 마주하는 복잡한 산입니다.
- 결과: 여기서 미니 배치 Adam 은 전혀 새로운 방향으로 갑니다. 기존에 알려진 '북쪽 (ℓ∞)'도 아니고, '동쪽 (ℓ2)'도 아닌, 산의 모양에 맞춰 계산된 새로운 나침반 방향으로 향합니다.
- 의미: Adam 의 최종 결정은 데이터가 어떤 모양인지에 따라 달라진다는 것입니다.

4. 핵심 발견 2: 'Signum'이라는 친구는 변하지 않는다

논문은 Adam 과 비교할 또 다른 알고리즘인 **'Signum'**을 소개합니다.

Signum: 등산할 때 "위쪽인가, 아래쪽인가?"만 보고 방향을 정하는 아주 단순한 가이드입니다.
결과: Signum 은 어떤 산 (데이터) 이든, 혼자 걷든 무리 지어 걷든 항상 '북쪽 (ℓ∞)'으로만 갑니다.
교훈: Adam 은 상황에 따라 유연하게 (혹은 불안정하게) 변하지만, Signum 은 원칙을 지키는 단호한 가이드입니다.

5. 요약: 왜 이 연구가 중요한가?

이 논문은 **"Adam 이 왜 그렇게 잘 작동하는지"**에 대한 새로운 해석을 제시합니다.

과거의 오해: "Adam 이 좋은 이유는 항상 '북쪽'으로 가기 때문이야."
새로운 진실: "아니야. Adam 은 데이터의 모양을 보고 그 상황에 맞춰 최적의 길을 찾아내는 능력이 있어서 좋은 거야. 특히 데이터를 하나씩 보면서 학습할 때 (미니 배치), 그 유연함이 빛을 발하는 거지."

마지막 비유:
과거에는 Adam 을 "항상 같은 길을 가는 맹신적인 등산가"로 생각했습니다. 하지만 이 논문은 Adam 을 **"데이터라는 지형에 맞춰 나침반을 스스로 조정하는 지혜로운 등산가"**로 재정의했습니다.

이 발견은 AI 연구자들이 더 나은 모델을 설계할 때, 단순히 "Adam 을 쓰자"가 아니라 **"어떤 데이터를 어떻게 학습시킬지"**를 더 깊이 고민해야 함을 알려줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 심층 학습에서 사실상의 표준 옵티마이저인 Adam의 **암시적 편향 (Implicit Bias)**에 대한 이론적 분석을 다룹니다. 특히, **선형 분리 가능한 데이터 (Linearly Separable Data)**에 대한 로지스틱 회귀 (Logistic Regression) 설정에서, 전체 배치 (Full-batch) 방식과 증분 (Incremental, 배치 크기 1) 방식의 Adam 이 어떻게 다른 수렴 방향을 보이는지 규명하는 것이 핵심 주제입니다.

다음은 이 논문의 상세한 기술적 요약입니다.

1. 연구 배경 및 문제 제기 (Problem)

배경: Adam 은 현대 딥러닝에서 가장 널리 사용되는 옵티마이저이지만, 그 이론적 이해는 여전히 제한적입니다. 기존 연구 (Zhang et al., 2024a 등) 에 따르면, 전체 배치 (Full-batch) Adam 은 선형 분리 가능한 데이터에서 $\ell_\infty$ -최대 마진 ( $\ell_\infty$ -max-margin) 해로 수렴하는 편향을 가집니다. 이는 Adam 이 $\ell_\infty$ -기하학에 기반한 Sign Gradient Descent (SignGD) 와 유사한 동작을 하기 때문입니다.
문제: 현대의 실제 학습 환경은 미니배치 (Mini-batch) 또는 배치 크기 1 (Stochastic/Incremental) 을 사용합니다. 그러나 기존 이론은 대부분 전체 배치에 국한되어 있습니다.
- 핵심 질문: "미니배치 설정에서도 Adam 은 여전히 $\ell_\infty$ -편향을 유지할까, 아니면 다른 편향으로 변할까?"
관찰: 저자의 실험 (Figure 1) 에 따르면, 가우시안 데이터에서 전체 배치 Adam 은 $\ell_\infty$ -해로 수렴하는 반면, 배치 크기 1 인 Adam 변형들은 $\ell_\infty$ -해와 거리가 멀고 오히려 $\ell_2$ -최대 마진 해에 더 가까운 방향으로 수렴합니다. 이는 배치 크기가 Adam 의 암시적 편향에 결정적인 영향을 미친다는 것을 시사합니다.

2. 방법론 (Methodology)

저자는 Incremental Adam (Inc-Adam, 한 에포크마다 데이터를 순차적으로 1 개씩 처리) 을 분석 대상으로 삼아 이론적 프레임워크를 구축했습니다.

A. 점근적 근사 (Asymptotic Approximation)

Proposition 2.4 & 2.5: Adam 의 업데이트 규칙을 분석하여, 시간이 지남에 따라 (asymptotically) 업데이트가 현재 반복점 (iterate) 의 함수로 근사될 수 있음을 보였습니다.
- Full-batch Adam: SignGD 로 근사되며, 이는 $\ell_\infty$ -편향을 설명합니다.
- Incremental Adam: 가중치가 부여된 전처리된 경사 하강법 (Weighted Preconditioned GD) 으로 근사됩니다. 여기서 가중치는 모멘텀 파라미터 ( $\beta_1, \beta_2$ ) 와 데이터에 의존하며, 전체 배치와 달리 미니배치 기울기의 제곱합을 추적하기 때문에 복잡한 동역학을 보입니다.

B. 구조화된 데이터에 대한 분석 (Scaled Rademacher Data)

SR 데이터: 각 데이터 포인트의 모든 좌표의 절대값이 동일한 특수한 데이터 집합을 정의했습니다.
결과 (Theorem 3.3): SR 데이터에서 Inc-Adam 은 좌표 적응성 (Coordinate-adaptivity) 이 제거되어, $\ell_2$ -최대 마진 해로 수렴함을 증명했습니다. 이는 전체 배치 Adam 의 $\ell_\infty$ -편향과 대조적인 결과입니다.

C. 일반 데이터에 대한 분석 (AdamProxy 및 고정점 이론)

$\beta_2 \to 1$ 극한: 실제 Adam 에서 $\beta_2$ 는 1 에 가깝게 설정되므로, $\beta_2 \to 1$ 극한을 가정하고 분석을 단순화했습니다.
AdamProxy: Inc-Adam 의 동작을 근사하는 단순화된 알고리즘 (Uniform-averaging proxy) 을 도입했습니다.
고정점 프레임워크 (Fixed-point Formulation):
- 일반 데이터에서 Inc-Adam 의 수렴 방향은 표준 $\ell_2$ 또는 $\ell_\infty$ 마진이 아닌, 데이터에 적응적인 Mahalanobis 노름을 최대화하는 해로 수렴합니다.
- 이 Mahalanobis 노름의 공분산 행렬은 데이터 의존적 쌍대 고정점 (Data-dependent Dual Fixed-point) 방정식에 의해 결정됩니다.
- Theorem 4.8: 수렴 방향은 특정 최적화 문제 $P_{Adam}(c)$ 의 해와 쌍대 변수 $c$ 가 일치하는 고정점 (Fixed Point) 에서 결정됨을 증명했습니다. 이를 계산하기 위해 **Algorithm 3 (고정점 반복)**을 제안했습니다.

D. Signum 알고리즘 비교

Signum (SignSGD with momentum): Adam 과 달리, 모멘텀 파라미터가 1 에 충분히 가까울 때 어떤 배치 크기에서도 $\ell_\infty$ -최대 마진 편향을 유지함을 증명했습니다 (Theorem 5.1). 이는 Adam 의 편향 변화가 모멘텀의 특정 구조 (분산 추적) 에서 비롯됨을 시사합니다.

3. 주요 결과 (Key Results)

배치 크기에 따른 편향의 분기:
- Full-batch Adam: $\ell_\infty$ -최대 마진 해로 수렴 (기존 연구와 일치).
- Incremental Adam (Batch size 1): 데이터 구조에 따라 $\ell_2$ -해, $\ell_\infty$ -해, 또는 그 사이의 데이터 의존적 해로 수렴.
SR 데이터에서의 $\ell_2$ 수렴: 구조화된 데이터 (SR) 에서 Inc-Adam 은 모멘텀 파라미터와 무관하게 명확하게 $\ell_2$ -최대 마진 해로 수렴함 (Theorem 3.3).
일반 데이터의 고정점 특성: 일반 데이터에서는 수렴 방향이 고정점 방정식 $T(c)=c$ 의 해로 결정되며, 이는 데이터의 기하학적 구조에 따라 $\ell_2$ 나 $\ell_\infty$ 중 하나로 축소될 수도, 혹은 새로운 방향으로 수렴할 수도 있음 (Theorem 4.8, Example 4.10).
Signum 의 불변성: Adam 과 달리 Signum 은 배치 크기에 관계없이 $\ell_\infty$ -편향을 유지함 (Theorem 5.1). 이는 Adam 의 편향 변화가 '분산 추정 (Variance estimation)' 메커니즘에 기인함을 강력히 시사합니다.

4. 의의 및 기여 (Significance & Contributions)

이론적 발견: Adam 의 암시적 편향이 **배치 크기 (Batching Scheme)**와 데이터 분포에 크게 의존한다는 것을 최초로 이론적으로 증명했습니다. 이는 "Adam 은 항상 $\ell_\infty$ -편향을 가진다"는 기존의 통념을 반박하고, 미니배치 학습에서의 Adam 동작을 더 정교하게 이해하는 계기를 마련했습니다.
새로운 분석 도구: $\beta_2 \to 1$ 극한에서의 고정점 프레임워크를 제안하여, 복잡한 미니배치 Adam 의 수렴 방향을 데이터 의존적 최적화 문제로 매핑하는 방법을 제시했습니다.
실용적 시사점:
- 대규모 언어 모델 (LLM) 등 Adam 이 주로 사용되는 환경에서 배치 크기가 모델의 일반화 성능 (Implicit Bias) 에 영향을 줄 수 있음을 시사합니다.
- $\ell_\infty$ -기하학을 의도적으로 활용하려는 경우 (예: 특정 구조의 일반화), Adam 대신 Signum 을 사용하거나 배치 크기를 신중하게 선택해야 할 수 있음을 보여줍니다.
미래 연구 방향: $\beta_2 < 1$ 인 일반적인 경우와 더 큰 배치 크기에 대한 이론적 확장의 필요성을 제기했습니다.

5. 결론

이 논문은 Adam 옵티마이저가 미니배치 설정에서 어떻게 작동하는지에 대한 중요한 통찰을 제공합니다. 전체 배치에서는 $\ell_\infty$ -편향을 보이지만, 배치 크기가 작아질수록 데이터의 특성에 따라 $\ell_2$ 나 다른 방향으로 편향이 변할 수 있음을 증명했습니다. 이는 Adam 의 성공 요인이 단순히 $\ell_\infty$ -기하학에 있는 것이 아니라, 배치 크기와 데이터 구조에 따라 역동적으로 변화하는 적응적 메커니즘에 있음을 시사하며, 옵티마이저 선택과 하이퍼파라미터 튜닝에 있어 새로운 고려 사항을 제시합니다.