Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent

Each language version is independently generated for its own context, not a direct translation.

이 논문은 딥러닝을 공부하는 사람들이 가장 궁금해하는 질문 중 하나를 다룹니다. "왜 컴퓨터가 수많은 데이터를 학습할 때, 단순히 정답을 외우는 게 아니라 새로운 상황에도 잘 적용되는 (일반화되는) 능력을 갖게 되는 걸까?"

저자들은 이 비밀을 풀기 위해 **'확률적 경사 하강법 (SGD)'**이라는 학습 알고리즘이 어떻게 작동하는지, 마치 ' porous media(다공성 매체, 즉 스펀지나 흙 같은 것)' 위를 이동하는 입자의 움직임처럼 설명합니다.

이 복잡한 수학적 이론을 일상적인 비유로 쉽게 풀어보겠습니다.

1. 핵심 비유: "미로 속의 눈먼 탐험가"

딥러닝 모델을 훈련시키는 과정은 **눈을 가린 탐험가 (SGD)**가 거대한 **미로 (손실 함수, Loss Landscape)**를 헤매며 가장 낮은 곳 (최소 오차) 을 찾는 과정과 같습니다.

기존의 생각: 예전에는 이 탐험가가 마치 물방울이 미끄러지듯 (브라운 운동) 부드럽게 움직인다고 생각했습니다. 하지만 실제로는 탐험가가 스펀지나 거친 흙 위를 걷는 것과 비슷했습니다.
이 논문의 발견: 탐험가는 단순히 미끄러지는 게 아니라, 미로의 **구멍 (Pores)**과 통로에 따라 속도가 달라집니다. 어떤 곳은 넓고 평평해서 빠르게 이동하지만, 어떤 곳은 좁고 복잡해서 매우 느리게 움직입니다.

2. "학습 계수 (Learning Coefficient)"란 무엇인가?

이 논문에서 가장 중요한 개념은 **'학습 계수 (Learning Coefficient)'**입니다. 이를 **'미로의 넓이'**라고 생각하면 됩니다.

넓은 미로 (낮은 학습 계수): 탐험가가 자유롭게 돌아다닐 수 있는 넓은 공간입니다. 여기는 오차가 낮고, 다양한 방향으로 움직여도 실수가 크게 나지 않습니다. (이곳이 바로 좋은 일반화 능력을 가진 영역입니다.)
좁은 미로 (높은 학습 계수): 탐험가가 갇힌 좁은 골목입니다. 조금만 움직여도 오차가 급격히 커집니다.

저자들은 SGD 가 학습할 때, 이 탐험가가 자연스럽게 '넓은 미로 (낮은 학습 계수)' 쪽으로 몰려가게 된다고 주장합니다. 마치 물이 낮은 곳으로 흐르듯, 탐험가는 넓은 통로를 따라 이동하다 보면 결국 좋은 해답에 도달하게 된다는 것입니다.

3. "베이즈의 유령"과 "SGD 의 현실"

기존 통계학 (베이즈 통계) 은 "모든 가능한 답을 확률적으로 고려하자"고 말합니다. 하지만 실제 SGD 는 계산 능력이 제한되어 있어 모든 답을 다 볼 수 없습니다.

비유: 베이즈 통계는 "우주에 있는 모든 별을 다 찍은 지도"를 그리려 하지만, SGD 는 "우리가 실제로 걸어다닐 수 있는 길만 표시한 지도"를 그립니다.
논문의 결론: SGD 가 찾은 해답은 베이즈 통계가 예측한 '이상적인 해답'과 거의 같습니다. 다만, **SGD 가 실제로 도달할 수 있는 곳 (접근성)**에 따라 약간의 조정이 가해집니다. 즉, SGD 는 **"내가 갈 수 있는 길 중에서 가장 좋은 곳"**을 선택하는 것입니다.

4. 실험 결과: "스펀지 속의 물방울"

저자들은 다양한 AI 모델 (언어 모델, 이미지 인식 모델 등) 을 훈련시키며 이 이론을 검증했습니다.

관찰: AI 가 학습을 거듭할수록, 모델의 가중치 (매개변수) 들이 움직이는 패턴은 **브라운 운동 (무작위 운동) 이 아니라, 스펀지 속을 스며드는 물방울처럼 '비정상 확산 (Anomalous Diffusion)'**을 보였습니다.
결과: 이 '스펀지 속의 움직임'을 수학적으로 분석한 결과, AI 가 최종적으로 도달한 위치는 이론적으로 예측한 '넓은 미로 (낮은 학습 계수)' 영역과 정확히 일치했습니다.

5. 왜 이것이 중요한가?

이 연구는 딥러닝이 왜 그렇게 잘 작동하는지에 대한 이론적 근거를 제공합니다.

과거: "왜 SGD 가 좋은 결과를 내는지? 그냥 운이 좋거나, 경험적으로 잘 맞는 것 뿐이다."
이제: "SGD 는 **기하학적인 구조 (미로의 넓이)**를 따라 자연스럽게 움직이기 때문에, 좋은 일반화 능력을 갖게 된다."

요약: 한 문장으로 정리하면?

"딥러닝 학습 (SGD) 은 복잡한 미로 속에서, AI 가 실제로 걸어다닐 수 있는 '넓고 평평한 통로'를 찾아 자연스럽게 이동하는 과정이며, 이 움직임은 마치 스펀지 속을 스며드는 물방울처럼 수학적으로 예측 가능하다."

이 논문은 AI 의 학습 과정을 단순한 '코드 실행'이 아니라, 물리학과 기하학이 만나는 아름다운 자연 현상으로 해석하게 해줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

핵심 질문: 신경망 훈련에서 **확률적 경사 하강법 (SGD)**의 동역학과 베이지안 샘플링 (Bayesian Sampling) 사이의 관계는 무엇인가? 이는 딥러닝 이론의 오랜 미해결 과제 중 하나입니다.
기존 접근법의 한계:
- 기존 연구들은 SGD 를 단순한 라주노브 방정식 (Langevin equation) 기반의 브라운 운동으로 모델링하거나, 손실 함수의 최소점이 2 차 (quadratic) 라고 가정하여 베이지안 사후 확률과 연결하려 했습니다.
- 그러나 실제 신경망의 손실 표면 (Loss Surface) 은 **퇴화 (degeneracy)**되어 있어 2 차 근사가 불가능하며, SGD 의 동역학은 훈련 초기에는 초확산 (super-diffusion), 후기에는 아확산 (sub-diffusion) 을 보이는 등 비정상 확산 (anomalous diffusion) 특성을 가집니다.
- 기존의 비퇴화 (non-degeneracy) 가정은 신경망의 실제 구조를 정확히 반영하지 못합니다.

2. 방법론 (Methodology)

이 논문은 **특이 학습 이론 (Singular Learning Theory, SLT)**과 **분수 역학 (Fractional Dynamics)**을 결합하여 SGD 의 장기 실행 동역학을 모델링합니다.

가. 분수 Fokker-Planck 방정식 (Fractional Fokker-Planck Equation, FFPE)

SGD 의 가중치 업데이트를 단순한 브라운 운동이 아닌, **다공성 매질 (porous media)**에서의 확산으로 간주합니다.
시간 의존적 아확산을 설명하기 위해 **Caputo 분수 미분 연산자 ( $D^\alpha_t$ )**를 도입한 분수 Fokker-Planck 방정식을 사용합니다.
$D^\alpha_t p(w, t) = \nabla \cdot (D(w, t)\nabla p(w, t) - \gamma p(w, t)\nabla L_m[w])$
이는 SGD 가 초기에는 빠르게 이동하다가 (초확산), 시간이 지남에 따라 손실 표면의 기하학적 구조에 의해 이동이 둔화되는 (아확산) 현상을 수학적으로 포착합니다.

나. 특이 학습 이론 (SLT) 과 프랙탈 차원

국소 학습 계수 (Local Learning Coefficient, LLC, $\lambda(w)$ ): 손실 표면의 국소적 기하학적 구조 (특히 퇴화된 최소점 주변의 부피) 를 나타내는 척도입니다. 이는 다공성 매질에서의 **질량 차원 (Mass Dimension)**으로 해석됩니다.
스펙트럼 차원 (Spectral Dimension, $d_s$ ): 확산 과정이 매질을 얼마나 빠르게 탐색하는지를 나타내는 차원입니다.
Alexander-Orbach (AO) 관계식: 이 논문은 국소 학습 계수 ( $\lambda$ $λ$ ) 와 스펙트럼 차원 ( $d_s$ $d_{s}$ ) 이 걷기 차원 (Walk dimension, $d_{walk}$ $d_{w a l k}$ ) 을 통해 연결됨을 증명합니다.
$d_{walk}(t) = \frac{2\lambda(w_t)}{d_s}$
- 이 관계식은 SGD 가 손실 표면의 퇴화된 영역 (critical points) 근처에서 어떻게 움직이는지를 설명합니다.

다. 확산 계수의 스칼라 근사

훈련 후기 (late-stage) 에는 확산 텐서가 단일 스칼라 함수로 근사될 수 있음을 보였습니다.
유효 확산 계수 $D_\xi$ 는 특성 길이 척도 $\xi$ 와 걷기 차원을 통해 다음과 같이 정의됩니다:
$D_\xi(w) = \xi^{2 - \frac{2\lambda(w)}{d_s}}$

3. 주요 기여 및 이론적 결과 (Key Contributions)

가. SGD 의 정상 상태 분포와 베이지안 사후 확률의 연결

이 논문은 SGD 의 장기 정상 상태 (steady-state) 분포가 온도 조절 (tempering) 된 베이지안 사후 확률임을 증명합니다.
핵심 공식:
$p(w|X_m) \propto \rho(w) \cdot p_s(w)^{m D_\xi}$
여기서 $p_s(w)$ 는 SGD 에 의해 발견된 분포, $D_\xi$ 는 접근성 제약 (accessibility constraints) 을 반영하는 확산 계수입니다.
의미: SGD 는 순수한 베이지안 샘플링과 유사하지만, **접근 가능성 (accessibility)**에 따라 확률을 조절합니다. 즉, SGD 가 도달하기 어려운 영역 (낮은 LLC 를 가진 넓은 평탄한 영역 등) 은 상대적으로 덜 탐색되며, 이는 학습 계수 $\lambda$ 에 의해 결정됩니다.

나. 실험적 검증

다양한 모델 및 데이터셋: TinyStories (언어 모델), Tiny ImageNet (시각 모델), MNIST (완전 연결 네트워크) 등 다양한 아키텍처에서 이론을 검증했습니다.
관측 결과:
1. 아확산 행동: 훈련 후기 SGD 의 가중치 이동 거리는 $R(t) \propto t^{1/d_{walk}}$ 의 멱법칙을 따르며, 이는 이론적 예측과 높은 일치도 ( $R^2 \approx 0.98$ ) 를 보입니다.
2. LLC 와 스펙트럼 차원의 상관관계: Lemma 3.4 와 Corollary 3.3 에 따라, 스펙트럼 차원 $d_s$ 는 국소 학습 계수 $\lambda$ 보다 작거나 같아야 함 ( $d_s \le \lambda$ ) 이 실험적으로 확인되었습니다.
3. 사후 확률 집중 (Posterior Concentration): SGD 가 찾은 해는 낮은 LLC 영역 (일반화 성능이 좋은 평탄한 최소점) 에 집중되는 경향이 있으며, 이를 온도 조절 (tempering) 한 후 베이지안 사후 확률 (SGLD 로 근사) 과 비교했을 때 매우 높은 일치도를 보였습니다.

4. 실험 결과 요약 (Results)

모델별 데이터:
- TinyStories-1M/33M, TinyLlama: 언어 모델에서도 아확산 동역학이 명확히 관찰되었으며, $R^2$ 값이 0.97 이상으로 매우 높았습니다.
- ResNet/VGG: 이미지 분류 모델에서도 유사한 결과가 나왔습니다.
- MNIST: 다양한 아키텍처와 하이퍼파라미터 (배치 크기, 학습률) 변경 실험을 통해 이론의 견고성을 입증했습니다.
적응형 옵티마이저 (Adam) 에 대한 통찰:
- SGD 에 비해 Adam 은 더 복잡한 동역학을 보이지만, 훈련 후기 SGD 로 전환하거나 특정 조건에서는 이론이 여전히 유효함을 확인했습니다. 다만, Adam 은 메트릭 구조를 변경하므로 LLC 와의 상관관계가 SGD 보다 덜 명확할 수 있음을 지적했습니다.
온도 조절 효과: SGD 분포를 $D_\xi$ 에 따라 온도를 조절하면, SGLD 로 추정된 베이지안 사후 확률과 KL 발산 (KL-divergence) 이 거의 0 에 수렴하여 "거의 베이지안 (Almost Bayesian)"임을 입증했습니다.

5. 의의 및 결론 (Significance)

이론적 통합: SGD 의 동역학을 **특이 학습 이론 (SLT)**과 프랙탈 확산 이론을 통해 통합적으로 설명했습니다. 이는 딥러닝의 일반화 능력을 이해하는 데 새로운 프레임을 제공합니다.
실용적 함의:
- 모델 선택 및 튜닝: 낮은 LLC 와 높은 스펙트럼 차원을 가진 모델이 더 넓은 평탄한 최소점에 위치하여 더 강력한 일반화 능력을 가질 수 있음을 시사합니다.
- 전이 학습 (Transfer Learning): 사전 훈련된 모델의 LLC 와 스펙트럼 차원을 분석하여 파인튜닝 시 학습률과 배치 크기를 최적화하는 전략을 제시할 수 있습니다.
- 불확실성 추정: SGD 를 통한 근사 베이지안 추론 시, 손실 표면의 퇴화성을 고려한 보정이 가능해집니다.
미래 작업: 적응형 옵티마이저 (Adam 등) 에 대한 이론의 확장, 비평형 상태 (non-equilibrium) 동역학의 정량화, 그리고 학습 과정 중 발생하는 위상 전이 (phase transitions) 연구의 기초를 마련했습니다.

결론적으로, 이 논문은 SGD 가 단순한 최적화 알고리즘을 넘어, 손실 표면의 기하학적 구조 (특이점) 에 의해 제약받는 "다공성 매질 내의 확산 과정"으로 볼 수 있으며, 이를 통해 SGD 가 거의 베이지안 샘플러와 유사한 행동을 보임을 수학적으로 증명하고 실험적으로 입증했습니다.