원저자: Oskar Allerbo, Thomas B. Schön

게시일 2026-05-21✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Oskar Allerbo, Thomas B. Schön

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 글은 간단한 언어와 창의적인 비유를 사용하여 해당 논문을 설명합니다.

큰 문제: 당신의 모델은 얼마나 "복잡한"가요?

요리사가 레시피의 복잡도를 판단하려 한다고 상상해 보세요.

옛날 방식: 당신은 단순히 재료 (파라미터) 의 수만 세어볼 수 있습니다. 하지만 50 가지 향신료가 들어간 레시피라도 모든 향신료의 맛이 같다면 실제로는 간단한 요리일 수 있습니다. 반대로, 3 가지 재료만 들어간 레시피라도 요리사가 매우 구체적이고 섬세한 방식으로 재료를 다루어야 한다면 놀라울 정도로 복잡할 수 있습니다.
현재의 혼란: 기계 학습 분야에서 과학자들은 파라미터의 수, "바프니크 - 체르보넨키스 차원"(매우 어려운 수학 개념), 또는 "유효 자유도"와 같은 것들을 사용하여 "복잡도"를 측정해 왔습니다. 문제는 이러한 방법들이 너무 거칠거나 (단순히 재료 수를 세는 것처럼), 실제 활용에는 쓸모 없을 정도로 계산이 어렵다는 점입니다.

이 논문의 저자들인 오스카르 알레르보 (Oskar Allerbo) 와 토마스 B. 쇤 (Thomas B. Schön) 은 이를 해결하고자 합니다. 그들은 그라디언트 정렬 복잡도 (Gradient Alignment Complexity, GAC) 라는 새로운, 계산하기 쉽고 수학적으로 견고한 복잡도 측정 방법을 제안합니다.

새로운 아이디어: "댄스 플로어" 비유

GAC 를 이해하려면 모델이 무용수이고, "그라디언트"가 무용수가 움직일 때 향하는 방향이라고 상상해 보세요.

설정: 모델은 다양한 입력 (댄스 플로어의 다양한 노래) 을 봅니다. 모든 노래에 대해 모델은 데이터를 학습하기 위해 움직이고자 하는 특정 "방향"을 가집니다.
간단한 모델 (낮은 복잡도): 모델이 매우 단순하다면, 모든 노래에 대해 정확히 같은 방식으로 반응합니다. 어떤 음악이 흘러나오든 같은 방향을 향합니다. 모든 "댄스 동작"이 완벽하게 정렬되어 있습니다. 이는 매우 적은 자유도를 가집니다.
- 비유: 오직 하나의 춤 동작만 아는 로봇입니다. 어떤 노래가 흘러나오든 같은 일을 합니다. 이는 간단하지만 매우 유연하지는 않습니다.
복잡한 모델 (높은 복잡도): 모델이 매우 복잡하다면, 모든 노래에 대해 다르게 반응합니다. 한 노래에서는 북쪽을 향하고, 다른 노래에서는 남쪽을 향하며, 세 번째 노래에서는 격렬하게 빙글빙글 도는 식입니다. 그 "댄스 동작"들은 여기저기 흩어져 완전히 다른 방향을 가리킵니다.
- 비유: 모든 음표마다 스타일을 완전히 바꾸는 재즈 즉흥 연주자입니다. 그들은 어디든 움직일 수 있는 완전한 자유를 가집니다.

GAC 측정법: 저자들은 단순히 이러한 "댄스 동작"(그라디언트) 들이 서로 얼마나 정렬되어 있는지를 측정합니다.

모두 같은 방향을 가리킨다면 (높은 정렬) $\rightarrow$ 낮은 복잡도.
무작위이고 독립적인 방향을 가리킨다면 (낮은 정렬) $\rightarrow$ 높은 복잡도.

이것이 중요한 이유

이 논문은 이 새로운 측정법이 다음 세 가지 주요 이유로 특별하다고 주장합니다.

누구에게나 작동합니다: 간단한 다항식 방정식이든, 의사결정나무이든, 랜덤 포레스트이든, 신경망이든 상관없이 이 측정법은 작동합니다. 당신이 사용하는 모델의 "맛"이 무엇이든 상관없습니다.
"결과"가 아닌 "기계"를 측정합니다: 때로는 복잡한 기계 (예: 슈퍼컴퓨터) 가 매우 간단한 작업 (예: 2+2 더하기) 을 수행하기도 합니다. 기존 측정법은 결과가 간단하므로 기계가 간단하다고 말할 수 있습니다. 하지만 GAC 는 기계 자체를 봅니다. GAC 는 "이봐, 지금 당신은 간단한 작업을 하고 있지만, 내부 부품이 매우 유연하기 때문에 매우 복잡한 일을 할 잠재력이 있어"라고 말합니다.
옛 규칙을 일반화합니다: 저자들은 특정 모델에 적용할 때 그들의 새로운 측정법이 자연스럽게 익숙한 옛 규칙으로 변한다는 것을 증명합니다.
- 다항식의 경우, "차수"(지수가 얼마나 높은지) 와 같은 역할을 합니다.
- 의사결정나무의 경우, "분할 수"(가지가 몇 개인지) 와 같은 역할을 합니다.
- 랜덤 포레스트의 경우, "트리의 수"와 같은 역할을 합니다.
- K-최근접 이웃의 경우, "이웃의 수"와 같은 역할을 합니다.

"더블 디센트" 미스터리 해결

인공지능에는 더블 디센트 (Double Descent) 라는 유명한 현상이 있습니다. 일반적으로 모델을 더 복잡하게 만들면 학습 능력이 좋아지다가, 나빠지고 (과적합), 그다음에는 놀랍게도 모델을 더 복잡하게 만들면 다시 좋아집니다.

과학자들은 이것이 왜 발생하는지 논쟁해 왔습니다. 어떤 이는 모델이 너무 커졌기 때문이라고 하고, 다른 이는 복잡도를 측정하는 방식에 기인한 착시라고 주장합니다.

저자들은 새로운 GAC 측정법을 사용하여 이러한 실험들을 재검토했습니다.

"정적" 모델의 경우: (랜덤 포레스트나 랜덤 푸리에 특징과 같이 훈련 중 구조가 변하지 않는 모델) GAC 는 더블 디센트가 실제로 존재함을 확인했습니다. 나무나 특징을 더 추가할수록 복잡도가 증가하며, 복잡도가 특정 지점에 도달했을 때 정확히 "두 번째 하강"(다시 좋아지는 현상) 이 발생합니다.
"동적" 모델의 경우: (학습함에 따라 특징이 변하는 신경망과 같은 모델) 저자들은 GAC 로 측정할 때 더블 디센트가 종종 사라진다는 것을 발견했습니다. 그 이유는 무엇일까요? 이러한 모델이 커질수록 실제로 그라디언트 정렬 측면에서는 덜 복잡해지기 때문입니다. 그들은 매우 잘 적응하도록 학습하여 자신의 전체 "복잡도 잠재력"을 사용하는 것을 멈춥니다.

결론

저자들은 기계 학습 모델을 측정하는 새로운 "자"를 만들었습니다.

옛 자들: 너무 둔하거나 (부품 수 세기), 사용하기 너무 어려웠습니다 (불가능한 수학 요구).
새로운 GAC 자: 모델의 내부 "근육"(그라디언트) 이 어떻게 함께 움직이는지 봅니다. 만약 그들이 동기화되어 움직인다면 모델은 간단합니다. 만약 그들이 독립적으로 움직인다면 모델은 복잡합니다.

이 도구는 "복잡도"가 실제로 다양한 유형의 AI 에서 무엇을 의미하는지에 대한 명확하고 일관된 정의를 제공함으로써, 특히 혼란스러운 "더블 디센트" 곡선을 포함하여 모델이 왜 그렇게 행동하는지 과학자들이 이해하는 데 도움을 줍니다.

기술적 요약: 엄밀하고 계산 가능한 모델 복잡도 측정법

문제 제기

모델 복잡도의 정확한 평가는 해석, 일반화, 모델 선택과 같은 기계 학습 작업의 기초가 됩니다. 그러나 기존 측정법들은 다음과 같은 중대한 한계를 겪고 있습니다:

휴리스틱 접근법: 파라미터 수나 크기 같은 단순한 지표들은 모델의 실제 용량을 포착하지 못하는 거친 추정치를 제공합니다.
모델별 하이퍼파라미터: 다항식 차수나 커널 길이 척도 같은 측정법들은 서로 다른 모델 클래스 간에 일반화되지 않습니다.
계산적 비실용성: Vapnik-Chervonenkis 차수 (VCD) 와 Rademacher 복잡도 (RMC) 와 같은 엄밀한 이론적 측정법들은 실제 적용에서 계산이 불가능한 경우가 많습니다.
함수 대 모델 복잡도: 특정 학습된 함수 (예: 유효 파라미터 수, ENP) 의 복잡도와 모델 클래스 자체의 복잡도 사이에는 종종 간과되는 중요한 구분이 존재합니다. 복잡한 모델이 파라미터를 0 으로 설정하는 등의 방식으로 단순한 함수를 생성할 수 있음에도 불구하고, 표준 지표들은 종종 이 두 가지를 혼동합니다.

더 나아가, 보편적으로 수용되고 계산 가능한 복잡도 측정법의 부재는 모델 복잡도가 보간 임계값을 넘어 증가함에 따라 일반화 오차가 감소하는 "이중 하강 (double descent)" 현상의 해석을 복잡하게 만듭니다.

방법론

저자들은 서로 다른 입력에 대한 모델 기울기의 정렬에 기반한 모델-중립 (model-agnostic) 측정법인 기울기 정렬 복잡도 (Gradient Alignment Complexity, GAC) 를 제안합니다.

정의

파라미터 $\hat{\theta} \in \mathbb{R}^p$ 를 갖는 매개변수 모델 $\hat{f}(x, \hat{\theta})$ 에 대해, 입력 $x$ 에서의 파라미터에 대한 기울기를 $\phi(x, \hat{\theta}) = \nabla_{\hat{\theta}} \hat{f}(x, \hat{\theta})$ 라 합시다. GAC, 즉 $K(\hat{f})$ 는 다음과 같이 정의됩니다:

$K(\hat{f}) := 1 - \mathbb{E}_{x,x'} \left[ \left( \frac{\phi(x, \hat{\theta})^\top \phi(x', \hat{\theta})}{\|\phi(x, \hat{\theta})\| \cdot \|\phi(x', \hat{\theta})\|} \right)^2 \right]$

이 공식은 두 개의 서로 다른 입력 $x$ 와 $x'$ 에서의 기울기 사이의 제곱 코사인 차이를 활용합니다.

해석: 기대값 내부의 항은 기울기 사이의 각도의 제곱 코사인을 나타냅니다. 기울기가 매우 정렬되어 (평행하여) 있다면, 모델이 다양한 데이터 패턴에 적합할 수 있는 자유도가 적으므로 복잡도가 낮음을 의미합니다. 기울기가 직교 (독립) 한다면, 모델은 매우 유연합니다.
일반화: 다변량 출력 (예: 분류) 의 경우, 내적은 야코비안 (Jacobian) 의 프로베니우스 내적으로 대체됩니다.
실증적 계산: 데이터셋 $\{x_i\}_{i=1}^n$ 에 대해, 기대값은 $i \neq j$ 인 쌍들에 대한 표본 평균으로 대체됩니다.

이론적 연결

저자들은 GAC 가 수학적으로 다음 두 가지와 동등함을 입증했습니다:

정규화된 선형 엔트로피: GAC 는 정규화된 신경 탄성 커널 (NTK) 행렬의 정규화된 선형 엔트로피와 같습니다.
NTK 유사도: 이는 모델의 커널이 도입한 유사도를 측정합니다. 유사도가 높을수록 모델은 더 단순합니다.

중요하게도, 상수-특성 모델 (여기서 $\hat{f}(x, \hat{\theta}) = \hat{\theta}^\top \phi(x)$ 이고 $\phi(x)$ 는 $\hat{\theta}$ 에 의존하지 않음) 의 경우, GAC 는 학습된 파라미터가 아닌 특성 확장 $\phi(x)$ 에만 의존합니다. 따라서 이는 함수 복잡도가 아닌 모델 복잡도를 측정합니다. 비상수-특성 모델 (예: 심층 신경망) 의 경우, GAC 는 손실 감소로 가중치를 둔 학습 단계 전반에 걸쳐 집계될 수 있습니다.

주요 기여 및 결과

1. 기존 복잡도 지표의 일반화

이 논문은 GAC 가 다양한 모델 클래스에 대한 표준 복잡도 하이퍼파라미터를 자연스럽게 일반화함을 증명합니다:

다항식 회귀: GAC 는 다항식 차수 $p$ 에 따라 엄격하게 증가합니다.
Matérn 커널 (가우스/라플라스): GAC 는 커널 길이 척도 $l$ 에 따라 엄격하게 감소합니다.
k-최근접 이웃 (kNN): GAC 는 이웃의 수 $\kappa$ 에 따라 엄격하게 감소합니다.
의사결정나무: GAC 는 분할 (또는 잎) 의 수에 따라 엄격하게 증가합니다.
랜덤 포레스트: 앙상블의 복잡도는 단일 나무의 복잡도와 나무의 수 및 그 상관관계에 의존하는 항의 합으로 나타남이 보입니다.

2. 데이터 및 하이퍼파라미터에 따른 행동

차원성과 분산: GAC 는 입력 차원성 $d$ 와 입력 분산 $\sigma^2$ 에 따라 증가합니다.
표본 크기 독립성: 상수 특성을 갖는 매개변수 모델의 경우, GAC 는 표본 크기 $n$ 에 독립적입니다. 이는 종종 비단조적 행동을 보이거나 $n$ 에 크게 의존하는 ENP 와 그 일반화 (GENP-V, GENP-RX) 와 대조됩니다.
강건성: ENP 는 정규화 강도에 영향을 받을 수 있습니다 (예: 매우 정규화된 복잡한 모델이 ENP 하에서 단순해 보일 수 있음). 반면, GAC 는 특정 학습된 함수나 정규화와 관계없이 근본적인 모델 복잡도를 올바르게 식별합니다.

3. 이중 하강에 대한 통찰

저자들은 GAC 를 복잡도 지표로 사용하여 이중 하강 현상을 재검토합니다:

상수-특성 모델: 랜덤 푸리에 특징 (Random Fourier Features) 과 랜덤 포레스트의 경우, 복잡도를 GAC 로 측정할 때 이중 하강이 유지됩니다.
비상수-특성 모델: 신경망과 그래디언트 부스팅의 경우, GAC 로 측정할 때 이중 하강 현상이 종종 사라지거나 덜 뚜렷해집니다. 저자들은 이러한 경우 모델 용량이 증가함에 따라 "복잡도" (특성 정렬) 가 실제로 감소할 수 있다고 주장합니다. 왜냐하면 더 큰 모델은 더 복잡한 특성 공간을 요구하지 않고도 데이터에 더 쉽게 적응할 수 있기 때문입니다. 이는 이러한 모델에서 관찰된 이전의 이중 하강이 초기화 방식의 산물이거나 함수 복잡도와 모델 복잡도의 혼동에서 비롯된 것일 수 있음을 시사합니다.

중요성 및 주장

이 논문은 GAC 가 기존 복잡도 측정법에 대한 수학적으로 엄밀하면서도 계산이 용이한 대안을 제공한다고 주장합니다. 그 주요 중요성은 다음과 같습니다:

모델 중립성: 모든 매개변수 모델과 커널 기반 비매개변수 모델에 대해 잘 정의되어 있습니다.
복잡도의 구분: 특히 상수-특성 모델의 경우 모델 복잡도와 함수 복잡도를 성공적으로 분리합니다.
해석 가능성: 의사결정나무와 커널 회귀와 같이 서로 다른 모델 클래스 간 복잡도를 비교할 수 있는 통합된 프레임워크를 제공합니다.
이중 하강의 명확화: 일관된 복잡도 지표를 제공함으로써, 진정한 이중 하강 행동과 복잡도 정의 방식 (예: GENP-V 와 같은 일반화 오차 대리 지표) 에서 비롯된 산물들을 구분하는 데 도움을 줍니다.

저자들은 NTK 계산 비용이 큰 심층 신경망의 경우 GAC 계산이 계산적으로 비용이 많이 들 수 있으며, 학습 역학에 대한 집계 방법 (식 2) 은 개선될 수 있음을 인정합니다. 그러나 그들은 GAC 가 모델 복잡도 문제 이해에 상당한 개선을 제공한다고 주장합니다.

A Rigorous, Tractable Measure of Model Complexity