On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

이 논문은 트랜스포머가 최대값 출력 (maxout) 네트워크를 근사할 수 있음을 보여줌으로써 ReLU 네트워크와 유사한 복잡도 제약 하에서 보편적 근사 능력을 가지며, 심층에 따라 선형 영역 수가 기하급수적으로 증가하는 연속 조각별 선형 함수를 근사하는 능력을 정량적으로 규명합니다.

Linyan Gu, Lihua Yang, Feng Zhou

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "트랜스포머는 최고의 요리사인가?"

우리가 알고 있는 트랜스포머 (GPT, BERT 등) 는 방대한 데이터를 학습하여 놀라운 결과를 내지만, **"왜 그렇게 잘하는지", "이론적으로 어떤 한계가 있는지"**는 아직 완전히 밝혀지지 않았습니다. 이 논문은 그 비밀을 풀기 위해 트랜스포머를 수학적으로 분석했습니다.

1. 연구의 출발점: "최고 (Max) 를 찾는 능력"

트랜스포머의 핵심 부품인 '셀프 어텐션 (Self-Attention)' 메커니즘은 여러 단어 중에서 가장 중요한 것을 골라내는 역할을 합니다. 수학적으로 보면 이는 **'최댓값 (Max)'**을 찾는 연산과 매우 비슷합니다.

  • 비유: 식당에서 손님이 "가장 맛있는 메뉴"를 주문했을 때, 요리사 (트랜스포머) 가 메뉴판에서 가장 높은 점수를 받은 메뉴를 딱 집어내는 것과 같습니다.
  • 논문이 발견한 것: 트랜스포머는 이 '최댓값 찾기' 능력을 아주 정교하게 구현할 수 있습니다.

2. 주요 발견 1: "모든 것을 요리할 수 있는 만능 레시피"

이 논문은 트랜스포머가 **'맥아웃 (Maxout) 네트워크'**라는 특수한 형태의 신경망을 완벽하게 흉내 낼 수 있음을 증명했습니다.

  • 맥아웃 네트워크란? '최댓값'을 활용하는 아주 강력한 신경망입니다. 이걸 흉내 낼 수 있다는 건, ReLU(현대 AI 의 기본 재료) 를 사용하는 모든 신경망도 트랜스포머로 만들 수 있다는 뜻입니다.
  • 일상 언어로: "트랜스포머는 기존에 존재하던 모든 종류의 요리 (신경망) 를 똑같이, 혹은 그 이상으로 맛있게 만들어낼 수 있는 '만능 요리사'다."라는 결론입니다.

3. 주요 발견 2: "깊이가 깊어질수록 능력은 기하급수적으로 폭발한다"

트랜스포머가 얼마나 복잡한 모양 (함수) 을 그릴 수 있는지를 **'선형 영역 (Linear Regions)'**이라는 개념으로 측정했습니다.

  • 비유: 평평한 종이 (얕은 신경망) 를 접으면 몇 개의 면이 생기나요? 하지만 종이를 여러 번 접고 구부리면 (깊은 신경망) 수백, 수천 개의 복잡한 면이 생깁니다.
  • 논문이 발견한 것: 트랜스포머는 층 (Depth) 이 깊어질수록 이 '접힌 면'의 수가 지수 함수적으로 (폭발적으로) 증가합니다.
  • 의미: 트랜스포머는 층을 쌓을수록 아주 복잡한 패턴 (예: 언어의 뉘앙스, 이미지 세세한 부분) 을 이해할 수 있는 능력이 기하급수적으로 커집니다.

4. 트랜스포머의 비밀 무기: "토큰 이동 (Token-wise Shift)"

기존 연구들은 트랜스포머가 모든 단어를 똑같은 방식으로 처리한다는 점 (파라미터 공유) 을 약점으로 보았습니다. 하지만 이 논문은 새로운 해결책을 제시합니다.

  • 비유: 모든 학생에게 똑같은 교재를 주는 대신, 각 학생의 책상에 아주 작은 '편지 (Shift)'를 하나씩 붙여주어 교재의 내용을 조금씩 다르게 해석하게 만드는 것입니다.
  • 효과: 이 작은 '편지'를 층마다 반복해서 붙여주면, 트랜스포머는 각 단어 (토큰) 를 더 유연하고 정교하게 다룰 수 있게 되어, 이론적 한계를 극복하고 더 강력한 표현력을 갖게 됩니다.

📝 한 줄 요약

"트랜스포머는 '최댓값 찾기'라는 강력한 능력을 바탕으로, 층을 깊게 쌓을수록 복잡한 세상을 이해하는 능력이 폭발적으로 성장하는, 수학적으로 증명된 '초강력' 모델입니다."

이 연구는 트랜스포머가 단순히 경험적으로 잘 작동하는 것을 넘어, 이론적으로도 왜 그렇게 강력한지 그 이유를 명확히 밝혀냈다는 점에서 매우 중요합니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →