Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

이 논문은 트랜스포머의 MLP 비선형성이 토큰 정체성이 아닌 문맥에 따라 결정되며, 게이트 메커니즘을 통해 대부분의 계산을 선형으로 대체하거나 특정 계층을 제거함으로써 퍼플렉시티 손실 없이 모델 성능을 오히려 향상시킬 수 있음을 입증합니다.

Peter Balogh

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍔 햄버거 가게의 비유: "과도한 요리사"

생각해 보세요. 거대한 햄버거 가게 (AI 모델) 가 있습니다. 이 가게에는 매번 주문이 들어올 때마다 **매우 정교하고 복잡한 요리를 해내는 요리사 (MLP, 비선형 회로)**가 있습니다.

  • 기존의 생각: "모든 햄버거 (단어) 를 만들 때, 이 요리사의 복잡한 기술이 꼭 필요하다. 만약 요리사를 없애거나 단순하게 만들면 햄버거 맛이 망가질 것이다."
  • 이 논문의 발견: "아니요! 사실 **대부분의 주문은 그냥 빵과 패티를 쌓는 것 (선형 계산)**만으로도 충분합니다. 요리사가 복잡한 소스를 뿌리거나 고기를 다지는 과정은 90% 이상의 경우 불필요한 낭비입니다."

연구진은 이 "낭비되는 요리 시간"을 찾아내고, 어떤 경우에는 복잡한 요리사를 쉴게 하고, 간단한 조리대 (선형 행렬) 만으로 대신하게 하는 시스템을 만들었습니다.


🔍 주요 발견 3 가지

1. "누가 요리사가 필요할까?"를 단어만으로 판단할 수 없다

처음 연구진은 "아마도 '사과', '자동차' 같은 구체적인 단어 (명사) 는 복잡한 요리가 필요하고, '의', '은' 같은 조사 (기능어) 는 간단하게 처리하면 되겠지?"라고 생각했습니다.

하지만 결과는 완전한 실패였습니다.

  • 비유: "사과"라는 단어가 들어와도, 문맥에 따라서는 그냥 껍질만 벗겨주면 될 때도 있고 (간단), 껍질을 벗기고 씨를 빼고 조각내야 할 때도 (복잡) 있습니다.
  • 결론: 단어 자체의 종류로는 누가 복잡한 계산이 필요한지 알 수 없습니다. 오직 그 단어가 어떤 문맥 (상황) 에 놓여 있는지를 봐야만 알 수 있습니다.

2. "스마트한 문지기 (게이트)"를 도입하자

연구진은 아주 간단한 **문지기 (게이트)**를 두었습니다. 이 문지기는 "이 주문이 복잡한 요리가 필요한가, 아니면 간단한 조리로 충분할까?"를 0.1 초 만에 판단합니다.

  • 결과: 이 문지기가 판단해서 약 40~50% 의 계산은 복잡한 요리사 없이 간단한 조리대로 처리했습니다.
  • 효과: 놀랍게도 햄버거의 맛 (모델의 성능) 은 거의 떨어지지 않았습니다. 오히려 일부 층에서는 복잡한 요리사가 오히려 맛을 망쳤기 때문에, 간단한 조리대로 바꾸니 맛이 더 좋아지기도 했습니다.

3. 모델의 '건축 방식'이 중요했다

이 실험을 두 가지 다른 모델 (GPT-2 와 Pythia) 에 해보았는데 결과가 달랐습니다.

  • GPT-2: 대부분의 층에서 복잡한 요리사를 줄여도 문제가 없었습니다.
  • Pythia: 처음과 마지막 층은 요리사가 꼭 필요했지만, 중간 층은 GPT-2 보다는 조금 더 복잡했습니다.
  • 교훈: 모델의 내부 구조 (건축 방식) 에 따라 낭비되는 계산의 양이 다릅니다.

🚀 이 연구가 우리에게 주는 메시지

  1. 낭비는 실존한다: 우리가 AI 에게 "모든 상황에서 최고의 성능을 내라"고 강요하다 보니, 실제로는 필요 없는 복잡한 계산이 대량으로 수행되고 있었습니다.
  2. 상황이 모든 것이다: "이 단어가 중요해"라고 미리 정해둘 수 없습니다. 오직 **지금의 상황 (문맥)**을 보고 판단해야 합니다.
  3. 미래의 AI 설계: 앞으로의 AI 는 모든 층에 똑같은 고성능 엔진을 달지 않아도 됩니다.
    • 입구와 출구 (처음과 마지막): 고성능 엔진 (복잡한 비선형 계산) 을 달아줍니다.
    • 중간 층: 효율적인 소형 엔진 (간단한 선형 계산) 으로 교체합니다.
    • 결과: 더 적은 전력과 비용으로 똑같거나 더 좋은 성능을 낼 수 있습니다.

💡 한 줄 요약

"AI 가 모든 단어를 처리할 때 '최고급 요리사'를 쓸 필요는 없습니다. 대부분의 경우 '간단한 조리대'로 충분하며, 상황에 따라 문지기가 이를 잘 판단하게 하면 AI 는 더 빠르고 똑똑해집니다."