원저자: Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

게시일 2026-06-01

📖 4 분 읽기☕ 가벼운 읽기

원저자: Konstantin Nikolaou, Jonas Scheunemann, Sven Krippendorf, Samuel Tovey, Christian Holm

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

개요: 왜 더 큰 모델이 더 잘 배우는가

새로운 언어를 배우려고 노력하고 있다고 상상해 보세요.

작은 모델은 가장 명백하고 흔한 단어들(예: "안녕", "고양이", "달리다")만 배우는 학생과 같습니다. 이 단어들을 다 배우고 나면, 복잡한 문법이나 희귀한 관용구를 이해하지 못하기 때문에 성장이 멈춰버립니다.
큰 모델은 흔한 단어뿐만 아니라, 계속해서 더 깊이 파고들어 생소한 어휘, 복잡한 문장 구조, 그리고 미묘한 뉘앙스까지 배워 나가는 학생과 같습니다.

이 논문은 질문합니다: 왜 큰 모델은 계속 학습하는 반면 작은 모델은 멈추는가?

저자들은 더 큰 모델이 **"스펙트럼 도달 범위(Spectral Reach)"**라고 부르는 특별한 능력을 가지고 있다는 것을 발견했습니다. 이것은 마치 더 긴 사다리를 가진 것과 같습니다. 작은 모델은 높은 곳(쉽고 명백한 패턴)까지만 닿을 수 있지만, 큰 모델은 아주 낮은 곳(작고 숨겨진 어려운 패턴)까지 끝까지 타고 내려가 계속해서 발전할 수 있습니다.

핵심 개념: "스펙트럼 꼬리(Spectral Tail)"

이를 이해하기 위해, 학습 과정을 다양한 책들이 있는 거대한 도서관이라고 상상해 보세요. 여기서 각 책은 데이터 속의 서로 다른 패턴을 나타냅니다.

베스트셀러 (헤드/Head): 인기 있고 배우기 쉬운 패턴들입니다. 소리가 크고 명확하며 듣기 쉽습니다. 크든 작든 모든 모델이 이것들을 가장 먼저 배웁니다.
희귀 기록 보관소 (테일/Tail): 조용하고 희미하며 배우기 어려운 패턴들입니다. 도서관 깊숙한 곳에 묻혀 있습니다.

문제점: 모델이 학습을 진행함에 따라, 모델은 먼저 "베스트셀러"를 다 읽게 됩니다. 이를 마친 후에는 계속 발전하기 위해 "기록 보관소"로 이동해야 합니다.

작은 모델은 벽에 부딪힙니다. 기록 보관소에 있는 희미한 책들을 읽을 "두뇌 능력"이 바닥나기 때문입니다. 결국 정체됩니다.
큰 모델은 "슈퍼 귀"를 가지고 있습니다. 그들은 기록 보관소의 희미한 속삭임까지 들을 수 있습니다. 그들은 계속해서 읽으며, 다른 이들이 놓치는 미묘한 세부 사항들을 배워 나갑니다. 이 "스펙트럼 꼬리" 깊숙이 도달하는 능력이 바로 **스펙트럼 도달 범위(Spectral Reach)**입니다.

새로운 도구: "스펙트럼 위치(Spectral Position)" 측정기

저자들은 스펙트럼 위치(또는 $\chi_{pos}$ )라는 새로운 도구를 발명했습니다. 이것을 모델의 학습 여정을 추적하는 GPS 트래커라고 생각하세요.

높은 GPS 값 (1에 가까움): 모델이 현재 "베스트셀러"를 읽고 있습니다. 크고 쉬운 패턴들을 배우고 있는 단계입니다.
낮은 GPS 값 (0에 가까움): 모델이 "기록 보관소" 깊숙이 들어왔습니다. 이제 작고 어려운 패턴들을 배우고 있습니다.

연구 결과:

시간 여행: 학습이 진행됨에 따라 GPS 값은 떨어집니다. 모델은 자연스럽게 쉬운 패턴에서 어려운 패턴으로 이동합니다.
크기의 차이: 큰 모델은 작은 모델보다 GPS 값을 훨씬 더 낮게 떨어뜨립니다. 즉, 더 깊은 기록 보관소까지 들어갑니다. 이것이 왜 큰 모델이 더 낮은 오차(더 나은 성능)를 보이는지를 설명해 줍니다. 그들은 단순히 숨겨진 세부 사항을 더 많이 배웠기 때문입니다.

비밀 재료: 특징 학습 (Feature Learning)

"왜 큰 모델은 희미한 속삭임을 들을 수 있는가?"라는 의문이 생길 수 있습니다.

논문은 모델의 "두뇌"(내부 특징)를 고정시키고(변하지 않게 하고) 마지막 층만 학습하게 하여 이를 테스트했습니다.

고정된 모델: 이 모델들은 일찍 학습을 멈췄습니다. 깊은 기록 보관소에 도달하지 못했습니다.
활성 모델: 이 모델들은 내부적인 "특징"(세상을 보는 방식)을 계속 변화시켰습니다.

비유: 희미한 라디오 방송을 들으려고 노력한다고 상상해 보세요.

고정된 모델은 안테나가 고장 난 라디오와 같습니다. 볼륨을 아무리 높여도 희미한 방송을 들을 수 없습니다.
학습하는 모델은 듣는 동안 더 나은 안테나를 직접 만드는 라디오와 같습니다. 학습하면서 모델은 신호를 증폭하기 위해 내부 구조를 재형성합니다. 이 "안테나 만들기"(특 특징 학습)가 모델이 신호가 매우 약해질 때도 발전을 지속할 수 있게 해줍니다.

"LNP" 분해: 수학적 구조의 해체

저자들은 불가능한 계산을 수행하지 않고도 이를 측정할 수 있는 공식을 만들었습니다. 그들은 학습 과정을 마치 레시피처럼 세 부분으로 나누었습니다:

손실 스케일 ( $\chi_{loss}$ ): 현재 실수가 얼마나 "시끄러운지" (모델이 틀렸다면 이 값은 높습니다).
네트워크 스케일 ( $\chi_{net}$ ): 모델이 변화에 얼마나 민감한지 (큰 모델은 여기서 더 강력한 "안테나"를 구축할 수 있습니다).
스펙트럼 위치 ( $\chi_{pos}$ ): GPS 값. 모델이 도서관 어디를 읽고 있는가?

마법 같은 사실: 모델이 "기록 보관소"(스펙트럼 위치) 깊숙이 들어갈수록, 큰 모델에서는 "네트워크 스케일"(안테나 강도)이 실제로 증가한다는 것을 발견했습니다. 이 추가적인 힘이 신호의 희미함을 보완하여 모델이 계속 학습할 수 있게 해줍니다. 작은 모델은 이러한 보충을 받지 못하므로 포기하게 됩니다.

요약된 발견 사항

학습은 여정입니다: 모델은 쉬운 패턴에서 시작하여 천천히 어렵고 미세한 세부 사항으로 이동합니다.
크기가 중요합니다: 큰 모델은 작은 모델보다 더 먼 곳(어려운 세부 사항인 스펙트럼 꼬리)까지 도달할 수 있습니다.
적응력이 핵심입니다: 이 능력은 단순히 더 많은 메모리를 갖는 것이 아니라, 모델이 약한 신호를 증폭하기 위해 스스로를 능동적으로 재형성하는 것에 관한 것입니다.
측정 지표: 새로운 "스펙트럼 위치" 도구를 통해 과학자들은 엄청난 규모의 모델에 대해서도 불가능한 수학 계산을 위해 슈퍼컴퓨터를 사용할 필요 없이, 실시간으로 이 여정을 관찰할 수 있습니다.

요약하자면, 큰 모델이 승리하는 이유는 쉬운 일이 끝나도 학습을 멈추지 않기 때문입니다. 그들은 작은 모델이 찾을 수 없는 숨겨진 보석들을 계속 파고들 수 있는 "도달 범위"를 가지고 있습니다.

기술 요약: 스펙트럼 도달 범위(Spectral Reach): 스펙트럼 꼬리(Spectral Tail)로의 진전으로서의 신경망 스케일링 이해

문제 정의

신경망 스케일링 법칙(Neural scaling laws)은 모델 크기, 데이터셋 크기, 연산량, 그리고 성능 사이의 예측 가능한 멱법칙(power-law) 관계를 설명하며, 현대 파운데이션 모델 개발의 초석 역할을 합니다. 그러나 이러한 법칙을 뒷받는 메커니즘은 여전히 명확히 이해되지 않고 있습니다. 기존의 이론적 설명들은 대개 이상적인 가정(예: 고정된 표현을 가진 랜덤 피처 모델)에 의존하거나, 스케일링 법칙이 관찰되는 규모에서는 실행 불가능한 커널 계산을 요구합니다. 결과적으로, 대규모 학습의 기저에 깔린 스펙트럼 역학을 밝혀낼 수 있는 확장 가능한 분석 도구가 부족하며, 이는 실제 딥러닝 시나리오에서 스케일링 법칙이 어떻게 발현되는지에 대한 의문을 남겨두고 있습니다.

방법론

측정의 병목 현상을 해결하기 위해, 저자들은 손실-네트워크-위치(Loss-Network-Position, LNP) 분해를 도입합니다. 이 프레임워크는 순시적(선형화된) 손실 변화량을 세 가지 해석 가능한 구성 요소로 분해합니다:

네트워크 스케일 ( $\chi_{net}$ ): 네트워크 출력에 대한 파라미터의 자코비안 프로베니우스 노름( $\|\nabla_\theta f\|_F^2$ )으로, 경험적 신경 탄젠트 커널(eNTK)의 트레이스(trace)와 같습니다. 이는 파라미터 업데이트에 대한 네트워크의 민감도를 포착합니다.
손실 스케일 ( $\chi_{loss}$ ): 네트워크 출력에 대한 손실 그래디언트의 유클리드 노름 제곱( $\|\nabla_f L\|_2^2$ )으로, 예측 오차의 크기를 반영합니다.
스펙트럼 위치 ( $\chi_{pos}$ ): 현재 어떤 eNTK 고윳값(eigenvalues)이 손실 감소를 주도하고 있는지를 나타내는 $[0, 1]$ 범위의 스케일 불변(scale-free) 양입니다. 이는 손실 그래디언트가 eNTK 고유 모드(eigenmodes)에 투영되는 정도에 의해 결정되는 정규화된 고윳값들의 가중 평균으로 정의됩니다.

핵심 혁신: $\chi_{pos}$ 를 계산하는 것은 전통적으로 비용이 많이 드는 전체 eNTK 구축을 필요로 하지만, LNP 분해를 통해 $\chi_{pos} = \delta L / (\chi_{net} \cdot \chi_{loss})$ 라는 비율을 이용하여 간접적으로 계산할 수 있습니다 (여기서 $\delta L$ 은 선형화된 손실 변화량). 이를 통해 샘플별 그래디언트 크기를 사용하여 커널을 명시적으로 구축하지 않고도, 최소한의 계산 오버헤드(2배 미만)로 학습과 동시에 측정이 가능합니다.

저자들은 멱법칙 데이터 스펙트럼을 가진 제어된 랜덤 피처 모델(RFM)을 통해 이 프레임워크를 검증하였으며, 여기서 이론적 예측이 경험적 측정치와 일치함을 확인했습니다. 그 후, 이 진단 도구를 SimpleStories 및 CIFAR-5M에 대한 Llama 2 언어 모델과 CIFAR-5M에 대한 Vision Transformer의 스케일링 실험에 적용하였습니다.

주요 기여 및 결과

1. 학습이 진행됨에 따라 스펙트럼 위치가 감소함

저자들은 학습이 진행됨에 따라 스펙트럼 위치 $\chi_{pos}$ 가 수 차례의 차수(orders of magnitude)만큼 감소하는 것을 관찰했습니다. 이는 학습 역학의 체계적인 변화를 나타냅니다: 모델은 초기에 지배적인 고고윳값 모드(거친 패턴)로부터 학습을 시작하여, 지배적인 모드들이 수렴하고 손실 그래디언트에 기여를 멈춤에 따라 점진적으로 스펙트럼 꼬리(미세한 디테일)로 초점을 이동합니다.

2. "스펙트럼 도달 범위(Spectral Reach)"의 정의

본 논문은 모델이 eNTK 스펙트럼의 점점 더 작은 고윳값 모드로부터 학습할 수 있는 능력을 스펙트럼 도달 범위로 정의합니다.

관찰: 더 큰 모델은 더 작은 모델보다 최종적으로 더 낮은 $\chi_{pos}$ 값을 달성합니다.
해석: 작은 모델은 더 이상 미세한 스펙트럼 모드에 접근할 수 없는 용량 한계에 도달하여 평탄해집니다(flatten out). 반면, 큰 모델은 하향 궤적을 유지하며 작은 모델은 접근할 수 없는 약한 스펙트럼 신호까지 접근합니다. 이는 큰 모델이 작은 모델이 해결할 수 없는 미세한 디테일을 계속해서 정교화할 수 있기 때문에 더 낮은 손실을 달성한다는 것을 시사합니다.

3. 피처 학습(Feature Learning)의 역할

선형 프로빙(linear probing) 실험(사전 훈련된 백본과 무작위로 고정된 백본 비교)을 통해, 저자들은 피처 학습이 스펙트럼 도달 범위를 가능하게 하는 핵심 요소임을 확인했습니다.

메커니즘: 고정된 표현을 가진 모델(랜덤 백본)의 경우, $\chi_{net}$ 은 일정하게 유지되며 스펙트럼 위치가 정체(plateau)됩니다. 반면, 피처 학습 모델은 학습이 진행됨에 따라 $\chi_{net}$ (그래디언트 크기)의 적응적 증가를 보입니다.
보상: 이러한 $\chi_{net}$ 의 증가는 감소하는 $\chi_{pos}$ 에 대한 카운터웨이트(counterweight) 역할을 합니다. $\chi_{pos}$ 가 낮아질 때(약한 신호로부터 학습함을 의미), 성장하는 $\chi_{net}$ 이 그래디언트 크기를 증폭시켜, 고정된 표현에서는 학습이 멈췄을 지점에서도 학습 진전을 지속하게 합니다. 이는 학습된 표현이 eNTK 스펙트럼을 재구성하여 스펙트럼 꼬리로의 지속적인 하강을 지원한다는 것을 보여줍니다.

4. 아키텍처 및 파라미터화에 걸친 검증

이러한 발견은 언어 모델(Llama 2)과 비전 모델(Vision Transformer) 전반에 걸쳐 일반화됩니다. 결정적으로, 저자들은 피처 학습 강도를 너비에 관계없이 일정하게 유지하는 최대 업데이트 파라미터화(muP) 하에서도 실험을 재현했습니다. muP 하에서도 스펙트럼 도달 범위의 순위가 유지된다는 점은, 이 현상이 너비에 따른 피처 학습 강도가 아니라 모델 용량에 의해 주도됨을 확인시켜 줍니다.

의의 및 주장

본 논문은 스케일링 법칙의 이론적 스펙트럼 설명과 실제 딥러닝 사이의 간극을 메우는 확장 가능한 진단 도구를 제공한다고 주장합니다. 더 큰 모델이 피처 학습을 통해 약한 스펙트럼 신호에서도 학습을 지속함으로써 더 낮은 손실을 달성한다는 것을 입증함으로써, 이 연구는 신경망 스케일링에 대한 기계론적 설명을 제공합니다.

저자들은 자신의 연구 결과를 최적화 문제의 재구조화로 포지셔닝합니다: 단순히 "어떻게 손실을 줄일 것인가?"를 묻는 대신, "어떻로 스펙트럼 도달 범위를 향상시킬 것인가?"에 초점을 맞춥니다. 이러한 관점은 다음과 같은 구체적인 개입 경로를 제시합니다:

스펙트럼 하강 가속화: 옵티마이저 설계(예: 타겟팅된 학습률, 그래디언트 스케일링)를 통해.
스펙트럼 재구성: 아키텍처 선택이나 초기화 방식(예: muP, He, Xavier)을 통해 종속적인 모드들을 더 접근 가능하게 만듦으로써.

논문은 결론에서, LNP 분해가 1차 효과와 정확한 순시적 특성을 포착하지만 비선형 보정 항(non-linear correction terms)은 아직 분석되지 않았음을 언급하며 겸허하게 마무리합니다. 또한, 결과가 스펙트럼 위치와 스케일 및 성능을 연결하긴 하지만, 피처 학습이 구체적으로 어떻게 eNTK 스펙트럼을 재구조화하는지에 대한 인과적 메커니즘은 확립을 위해 추가적인 통제된 개입이 필요하다고 명시합니다. 본 연구는 향후 학습의 의미론적 구조와 패러다임 전환에 대한 모드 수준 분석의 토대가 됩니다.

Spectral Reach: Understanding Neural Scaling as Progress into the Spectral Tail