A Rigorous, Tractable Measure of Model Complexity

본 논문은 입력 기울기 유사성에 기반하여 다양한 기존 지표를 통합하고 다양한 모델 아키텍처 전반에 걸쳐 이중 하강 현상에 대한 새로운 통찰을 제공하는 엄격하고 계산적으로 효율적인 모델 복잡도 측정법을 제시한다.

원저자: Oskar Allerbo, Thomas B. Schön

게시일 2026-05-21✓ Author reviewed
📖 4 분 읽기☕ 가벼운 읽기

원저자: Oskar Allerbo, Thomas B. Schön

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

이 글은 간단한 언어와 창의적인 비유를 사용하여 해당 논문을 설명합니다.

큰 문제: 당신의 모델은 얼마나 "복잡한"가요?

요리사가 레시피의 복잡도를 판단하려 한다고 상상해 보세요.

  • 옛날 방식: 당신은 단순히 재료 (파라미터) 의 수만 세어볼 수 있습니다. 하지만 50 가지 향신료가 들어간 레시피라도 모든 향신료의 맛이 같다면 실제로는 간단한 요리일 수 있습니다. 반대로, 3 가지 재료만 들어간 레시피라도 요리사가 매우 구체적이고 섬세한 방식으로 재료를 다루어야 한다면 놀라울 정도로 복잡할 수 있습니다.
  • 현재의 혼란: 기계 학습 분야에서 과학자들은 파라미터의 수, "바프니크 - 체르보넨키스 차원"(매우 어려운 수학 개념), 또는 "유효 자유도"와 같은 것들을 사용하여 "복잡도"를 측정해 왔습니다. 문제는 이러한 방법들이 너무 거칠거나 (단순히 재료 수를 세는 것처럼), 실제 활용에는 쓸모 없을 정도로 계산이 어렵다는 점입니다.

이 논문의 저자들인 오스카르 알레르보 (Oskar Allerbo) 와 토마스 B. 쇤 (Thomas B. Schön) 은 이를 해결하고자 합니다. 그들은 그라디언트 정렬 복잡도 (Gradient Alignment Complexity, GAC) 라는 새로운, 계산하기 쉽고 수학적으로 견고한 복잡도 측정 방법을 제안합니다.

새로운 아이디어: "댄스 플로어" 비유

GAC 를 이해하려면 모델이 무용수이고, "그라디언트"가 무용수가 움직일 때 향하는 방향이라고 상상해 보세요.

  • 설정: 모델은 다양한 입력 (댄스 플로어의 다양한 노래) 을 봅니다. 모든 노래에 대해 모델은 데이터를 학습하기 위해 움직이고자 하는 특정 "방향"을 가집니다.
  • 간단한 모델 (낮은 복잡도): 모델이 매우 단순하다면, 모든 노래에 대해 정확히 같은 방식으로 반응합니다. 어떤 음악이 흘러나오든 같은 방향을 향합니다. 모든 "댄스 동작"이 완벽하게 정렬되어 있습니다. 이는 매우 적은 자유도를 가집니다.
    • 비유: 오직 하나의 춤 동작만 아는 로봇입니다. 어떤 노래가 흘러나오든 같은 일을 합니다. 이는 간단하지만 매우 유연하지는 않습니다.
  • 복잡한 모델 (높은 복잡도): 모델이 매우 복잡하다면, 모든 노래에 대해 다르게 반응합니다. 한 노래에서는 북쪽을 향하고, 다른 노래에서는 남쪽을 향하며, 세 번째 노래에서는 격렬하게 빙글빙글 도는 식입니다. 그 "댄스 동작"들은 여기저기 흩어져 완전히 다른 방향을 가리킵니다.
    • 비유: 모든 음표마다 스타일을 완전히 바꾸는 재즈 즉흥 연주자입니다. 그들은 어디든 움직일 수 있는 완전한 자유를 가집니다.

GAC 측정법: 저자들은 단순히 이러한 "댄스 동작"(그라디언트) 들이 서로 얼마나 정렬되어 있는지를 측정합니다.

  • 모두 같은 방향을 가리킨다면 (높은 정렬) \rightarrow 낮은 복잡도.
  • 무작위이고 독립적인 방향을 가리킨다면 (낮은 정렬) \rightarrow 높은 복잡도.

이것이 중요한 이유

이 논문은 이 새로운 측정법이 다음 세 가지 주요 이유로 특별하다고 주장합니다.

  1. 누구에게나 작동합니다: 간단한 다항식 방정식이든, 의사결정나무이든, 랜덤 포레스트이든, 신경망이든 상관없이 이 측정법은 작동합니다. 당신이 사용하는 모델의 "맛"이 무엇이든 상관없습니다.
  2. "결과"가 아닌 "기계"를 측정합니다: 때로는 복잡한 기계 (예: 슈퍼컴퓨터) 가 매우 간단한 작업 (예: 2+2 더하기) 을 수행하기도 합니다. 기존 측정법은 결과가 간단하므로 기계가 간단하다고 말할 수 있습니다. 하지만 GAC 는 기계 자체를 봅니다. GAC 는 "이봐, 지금 당신은 간단한 작업을 하고 있지만, 내부 부품이 매우 유연하기 때문에 매우 복잡한 일을 할 잠재력이 있어"라고 말합니다.
  3. 옛 규칙을 일반화합니다: 저자들은 특정 모델에 적용할 때 그들의 새로운 측정법이 자연스럽게 익숙한 옛 규칙으로 변한다는 것을 증명합니다.
    • 다항식의 경우, "차수"(지수가 얼마나 높은지) 와 같은 역할을 합니다.
    • 의사결정나무의 경우, "분할 수"(가지가 몇 개인지) 와 같은 역할을 합니다.
    • 랜덤 포레스트의 경우, "트리의 수"와 같은 역할을 합니다.
    • K-최근접 이웃의 경우, "이웃의 수"와 같은 역할을 합니다.

"더블 디센트" 미스터리 해결

인공지능에는 더블 디센트 (Double Descent) 라는 유명한 현상이 있습니다. 일반적으로 모델을 더 복잡하게 만들면 학습 능력이 좋아지다가, 나빠지고 (과적합), 그다음에는 놀랍게도 모델을 더 복잡하게 만들면 다시 좋아집니다.

과학자들은 이것이 발생하는지 논쟁해 왔습니다. 어떤 이는 모델이 너무 커졌기 때문이라고 하고, 다른 이는 복잡도를 측정하는 방식에 기인한 착시라고 주장합니다.

저자들은 새로운 GAC 측정법을 사용하여 이러한 실험들을 재검토했습니다.

  • "정적" 모델의 경우: (랜덤 포레스트나 랜덤 푸리에 특징과 같이 훈련 중 구조가 변하지 않는 모델) GAC 는 더블 디센트가 실제로 존재함을 확인했습니다. 나무나 특징을 더 추가할수록 복잡도가 증가하며, 복잡도가 특정 지점에 도달했을 때 정확히 "두 번째 하강"(다시 좋아지는 현상) 이 발생합니다.
  • "동적" 모델의 경우: (학습함에 따라 특징이 변하는 신경망과 같은 모델) 저자들은 GAC 로 측정할 때 더블 디센트가 종종 사라진다는 것을 발견했습니다. 그 이유는 무엇일까요? 이러한 모델이 커질수록 실제로 그라디언트 정렬 측면에서는 복잡해지기 때문입니다. 그들은 매우 잘 적응하도록 학습하여 자신의 전체 "복잡도 잠재력"을 사용하는 것을 멈춥니다.

결론

저자들은 기계 학습 모델을 측정하는 새로운 "자"를 만들었습니다.

  • 옛 자들: 너무 둔하거나 (부품 수 세기), 사용하기 너무 어려웠습니다 (불가능한 수학 요구).
  • 새로운 GAC 자: 모델의 내부 "근육"(그라디언트) 이 어떻게 함께 움직이는지 봅니다. 만약 그들이 동기화되어 움직인다면 모델은 간단합니다. 만약 그들이 독립적으로 움직인다면 모델은 복잡합니다.

이 도구는 "복잡도"가 실제로 다양한 유형의 AI 에서 무엇을 의미하는지에 대한 명확하고 일관된 정의를 제공함으로써, 특히 혼란스러운 "더블 디센트" 곡선을 포함하여 모델이 왜 그렇게 행동하는지 과학자들이 이해하는 데 도움을 줍니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →