Polynomial, trigonometric, and tropical activations

이 논문은 직교 기저에 기반한 다항식, 삼각함수, 열대 (tropical) 활성화 함수들이 초기화 기법만으로 심층 신경망의 활성화 및 기울기 폭주/소실 문제를 해결하고 GPT-2 와 ConvNeXt 와 같은 대규모 모델의 학습 효율성을 높이며 기존 모델의 미세 조정에도 효과적임을 입증합니다.

Ismail Khalfaoui-Hassani, Stefan Kesselheim

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "너무 많이 먹어서 배탈 난 AI"

딥러닝 모델은 여러 층 (Layer) 으로 쌓인 거대한 구조물입니다. 정보가 아래층에서 위층으로 올라갈 때, 마치 소리를 증폭하는 마이크를 거치듯 신호가 점점 커지거나 작아질 수 있습니다.

  • 기존의 문제: 과거에는 '다항식 (Polynomial)'이라는 수학적 함수를 활성화 함수로 쓰려고 했으나, 신호가 너무 커져서 폭발하거나 (Exploding), 너무 작아져서 사라지는 (Vanishing) 문제가 발생했습니다. 그래서 사람들은 "다항식은 딥러닝에 안 써도 돼"라고 생각하며 포기했습니다.

2. 해결책: "균형을 잡는 저울" (Variance-Preserving Initialization)

이 연구의 핵심은 **"신호의 크기를 층마다 일정하게 유지하는 방법"**을 찾은 것입니다.

  • 비유: 한 층에서 다음 층으로 넘어갈 때, 물이 넘치지 않고 마르지 않도록 정확한 양의 물을 퍼주는 저울을 개발한 셈입니다.
  • 이 저울을 사용하면, 다항식 함수를 쓰더라도 신호가 폭발하지 않고 안정적으로 전달됩니다. 덕분에 우리는 이제 다항식을 다시 쓸 수 있게 되었습니다.

3. 새로운 '비밀 소스' 세 가지

저자들은 세 가지 새로운 '소스' (활성화 함수) 를 제안했습니다.

① 헤르미트 다항식 (Hermite Polynomial) → "자연스러운 곡선"

  • 비유: 마치 산맥의 부드러운 능선처럼 생겼습니다. 데이터가 정규 분포 (종 모양) 를 따를 때 가장 잘 작동합니다.
  • 특징: 이 소스를 쓰면 AI 가 복잡한 곡선을 아주 정교하게 그릴 수 있습니다. 마치 예술가가 붓으로 부드러운 선을 그리는 것과 같습니다.

② 푸리에 삼각함수 (Fourier Trigonometric) → "리듬과 파도"

  • 비유: 바다의 파도음악의 리듬과 같습니다.
  • 특징: 데이터가 주기적으로 반복되거나 진동하는 패턴을 잡는 데 탁월합니다. 마치 악보에 따라 다양한 음을 섞어 복잡한 멜로디를 만드는 것과 같습니다.

③ 열대 (Tropical) 활성화 → "최고의 선택"

  • 비유: 스마트한 관리자가 여러 가지 옵션 중 "가장 좋은 것 하나만" 골라내는 방식입니다. (수학적으로는 '최댓값'을 선택하는 연산입니다.)
  • 특징: ReLU(기존에 많이 쓰던 함수) 의 업그레이드 버전입니다. 복잡한 계산을 단순화해서 빠르게 처리할 수 있어, 계산 비용이 적게 듭니다.

4. 실험 결과: "실전에서도 대박"

이론만 좋은 게 아니라, 실제 거대한 AI 모델에서도 효과를 입증했습니다.

  • 이미지 인식 (ConvNeXt): ImageNet(수백만 장의 사진) 에서 고양이와 개를 구분하는 작업을 했을 때, 기존에 쓰던 GELU 소스보다 더 높은 정확도를 기록했습니다.
  • 언어 모델 (GPT-2): 다음 단어를 예측하는 작업에서도 기존 모델보다 더 잘 수행했습니다.
  • 핵심: 별도의 복잡한 장치 없이, 이 새로운 '소스'만으로도 AI 가 안정적으로 학습할 수 있었습니다.

5. 재미있는 발견: "AI 는 거대한 다항식이다"

이 논문은 수학적으로 아주 중요한 사실을 증명했습니다.

  • 비유: 우리가 층층이 쌓은 복잡한 AI 모델은, 사실 **하나의 거대한 다항식 (수식)**으로 볼 수 있다는 것입니다.
  • 마치 레고 블록을 수천 개 쌓아 복잡한 성을 만들었지만, 결국 그 성 전체를 설명하는 수식은 하나로 정리될 수 있다는 뜻입니다. 이는 AI 의 구조를 더 깊이 이해하는 데 큰 도움이 됩니다.

6. 마무리: "기존 모델을 업그레이드하는 마법"

기존에 훈련된 AI 모델을 새로운 데이터에 맞춰微调 (Fine-tuning) 할 때, 이 새로운 함수들을 헤르미트 보간법을 이용해 기존 함수와 완벽하게 매칭시킬 수 있습니다.

  • 비유: 이미 완성된 고급 레스토랑의 레시피를, 새로운 재료 (새로운 데이터) 에 맞춰 조금만 수정해서 더 맛있게 만들 수 있는 기술입니다.

요약

이 논문은 "다항식 함수는 딥러닝에 쓸 수 없다"는 고정관념을 깨뜨렸습니다. 올바른 초기화 방법 (균형 잡는 저울) 을 사용하면, 다항식, 삼각함수, 그리고 열대 기하학 기반의 함수들이 기존 방식보다 더 강력하고 효율적인 AI 를 만들 수 있음을 증명했습니다. 이는 AI 가 더 똑똑하고, 빠르며, 이해하기 쉬운 방향으로 발전할 수 있는 새로운 길을 열었습니다.