Quantitative convergence of trained single layer neural networks to Gaussian processes

이 논문은 무한 폭 극한에서 경사 하강법으로 학습된 단일 층 신경망이 가우시안 프로세스로 수렴하는 정량적 거동을 분석하여, 학습 시간 t0t \ge 0에서 네트워크 출력과 가우시안 근사치 사이의 2 차 워asserstein 거리에 대한 명시적 상한을 제시하고 네트워크 폭에 따른 다항식 감쇠를 증명합니다.

Eloy Mosig, Andrea Agazzi, Dario Trevisan

게시일 2026-03-06
📖 3 분 읽기🧠 심층 분석

Each language version is independently generated for its own context, not a direct translation.

1. 핵심 주제: "거대한 요리사 vs 정해진 레시피"

**신경망 (Neural Network)**은 데이터를 학습하는 거대한 요리사라고 생각해보세요.

  • 초기 상태: 요리사가 처음 재료를 섞을 때 (랜덤하게), 그 맛은 예측하기 어렵습니다. 하지만 요리사의 수가 (네트워크의 너비) 무한히 많아지면, 그 맛은 **'가우시안 프로세스 (Gaussian Process)'**라는 완벽하게 정해진 레시피와 똑같은 맛을 낸다는 것이 이미 알려져 있었습니다.
  • 학습 과정 (Training): 문제는 "요리사가 요리를 배우는 과정 (학습 중)"에서도 이 정해진 레시피를 따를까? 하는 점입니다.

이 논문은 **"학습이 진행되는 동안에도, 요리사가 얼마나 빨리 그 정해진 레시피 (가우시안 프로세스) 에 가까워지는가?"**를 수학적으로 증명했습니다.

2. 주요 발견: "거울에 비친 모습"

연구자들은 신경망이 학습하는 모습을 거울에 비유합니다.

  • 실제 신경망: 거울에 비친 실제 요리사의 모습 (약간 흔들리고 불규칙함).
  • 가우시안 프로세스: 거울에 비친 이상적인, 완벽한 레시피의 모습 (매끄럽고 예측 가능함).

이 논문은 **"거울 속의 실제 모습과 이상적인 모습이 얼마나 차이가 나는지"**를 **워터스틴 거리 (Wasserstein distance)**라는 자로 재서 측정했습니다.

결과는 놀랍습니다:

  • 요리사 (신경망) 의 수 (n1) 가 늘어날수록, 실제 모습과 이상적인 모습 사이의 차이는 매우 빠르게 줄어듭니다.
  • 구체적으로, 요리사 수가 2 배가 되면 오차는 약 2 배가 아니라, 훨씬 더 빠르게 줄어듭니다. (수학적으로는 log(n1)/n1 비율로 감소).
  • 즉, 네트워크가 충분히 크다면, 학습 중에도 우리는 '정해진 레시피 (가우시안 프로세스)'만 보고도 실제 신경망이 무엇을 할지 아주 정확하게 예측할 수 있다는 뜻입니다.

3. 왜 이 연구가 중요한가요?

**"이론과 현실의 다리"**를 놓아주기 때문입니다.

  • 이론 (NTK): 수학자들은 "네트워크가 무한히 크다면 이렇게 행동한다"는 이론 (NTK) 을 가지고 있습니다. 하지만 현실의 컴퓨터는 무한하지 않습니다.
  • 현실: 실제 AI 는 유한한 크기로 만들어집니다.
  • 이 논문의 기여: "네트워크 크기가 1,000 이라면 오차는 얼마, 10,000 이라면 오차는 얼마"라고 **구체적인 숫자 (상한선)**를 제시했습니다.

이는 AI 개발자에게 다음과 같은 도움을 줍니다:

  1. 불확실성 측정: "이 AI 가 예측한 결과가 얼마나 신뢰할 만한가?"를 수학적으로 계산할 수 있습니다.
  2. 설계 가이드: "얼마나 큰 네트워크를 만들어야 이론이 현실과 잘 맞을까?"를 미리 알 수 있어 시간과 비용을 아낄 수 있습니다.

4. 실험 결과: "수학이 현실을 따라잡다"

저자들은 컴퓨터 시뮬레이션으로 이 이론을 검증했습니다.

  • 다양한 크기의 신경망을 훈련시켰습니다.
  • 그 결과, 네트워크가 커질수록 실제 신경망의 예측 곡선과 가우시안 프로세스의 곡선이 거의 완벽하게 겹치는 것을 확인했습니다.
  • 마치 작은 물결이 거대한 바다의 파도와 점점 비슷해지는 것처럼 말이죠.

5. 한 줄 요약

"거대한 신경망이 학습할 때, 그 행동은 마치 미리 정해진 완벽한 수학적 레시피 (가우시안 프로세스) 를 따르는 것처럼 변합니다. 그리고 네트워크가 충분히 크다면, 그 오차는 매우 빠르게 사라져 우리가 이론으로 예측한 대로 현실을 완벽하게 이해할 수 있습니다."

이 연구는 AI 의 블랙박스처럼 보이던 내부 작동 원리를, "수학적으로 예측 가능한 레시피"로 해석해 주는 중요한 이정표가 됩니다.