The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

Each language version is independently generated for its own context, not a direct translation.

🏭 1. 핵심 비유: "공장"과 "수리공"

AI 의 내부에는 거대한 **공장 (MLP 레이어)**이 있습니다. 이 공장은 들어오는 모든 단어 (토큰) 를 처리합니다.

기존의 생각 (부드러운 곡선): 공장 안에는 수천 명의 일꾼들이 모여서, 들어온 단어에 따라 아주 미세하게 수치를 조절하며 복잡한 곡선을 그리는 작업을 한다고 믿었습니다. 마치 유리를 연마하듯 부드럽게 다듬는다고요.
이 논문의 발견 (이진 스위치): 실제로는 그렇지 않았습니다. 공장에는 **'자동 모드 (기본)'**와 **'수리 모드 (비상)'**라는 두 가지 스위치가 있었습니다.
- 대부분의 경우 (자동 모드): 들어온 단어가 평범할 때는 (예: "the", "a" 같은 쉬운 단어), 공장은 거의 아무것도 하지 않습니다. 그냥 "그냥 지나가세요"라고 말하며 선형적으로 통과시킵니다.
- 어려운 경우 (수리 모드): 문맥이 복잡하거나 의미가 모호할 때 (예: "그가"라는 단어가 누구를 가리키는지 헷갈릴 때), 공장 안의 **특수한 스위치 (N2123)**가 켜집니다. 이때 비로소 공장 전체가 가동되어 복잡한 수리 작업을 시작합니다.

🎛️ 2. 어떻게 작동할까요? "의사결정 위원회"

이 논문의 가장 재미있는 부분은 이 스위치가 어떻게 작동하는지 설명하는 **'합의 시스템 (Consensus System)'**입니다.

7 명의 평의원 (Default-ON): 공장에는 평소에 켜져 있는 7 명의 '평의원' 같은 뉴런들이 있습니다. 이들은 보통 상황에서는 "문제없음 (OK)"이라고 신호를 보냅니다.
비상 관리자 (Exception Handler): 그리고 N2123이라는 한 명의 '비상 관리자'가 있습니다. 이 사람은 평의원들이 모두 "OK"라고 할 때는 절대 입을 열지 않습니다.
작동 원리:
1. 평화로운 날: 7 명의 평의원이 모두 "OK"라고 동의하면, 비상 관리자는 잠자고 공장도 거의 작동하지 않습니다. (이때는 단순한 선형 처리로 충분합니다.)
2. 혼란스러운 날: 만약 7 명 중 몇 명이 "아니오"라고 하거나 의견이 엇갈리면, 평의원들의 신호가 상쇄됩니다. 이때 **비상 관리자 (N2123)**가 깨어납니다. "여기서 뭔가 잘못됐구나! 복잡한 수리가 필요해!"라고 외치며 공장 전체를 가동시킵니다.

이것은 마치 법정과 같습니다. 배심원 7 명이 모두 유죄/무죄에 동의하면 판사는 바로 판결을 내립니다. 하지만 배심원들이 의견이 나뉘어 혼란스러우면, 판사 (비상 관리자) 가 나서서 복잡한 심리를 시작하는 것과 같습니다.

📊 3. 실험 결과: "수학 공식"은 실패했다

연구진은 "이 복잡한 공정이 수학적인 곡선 (다항식) 으로 설명될 수 있을까?"라고 물었습니다.

결과: 전혀 아니었습니다. 수학적 곡선으로 설명하려니 실패했습니다.
대신: 단어를 '0(간단함)'과 '1(복잡함)'으로만 분류하는 **이진법 (Binary)**으로 설명하면 정확도가 99% 이상으로 떨어지지 않았습니다.
의미: AI 는 복잡한 수식을 계산하는 게 아니라, "이 단어는 단순해서 그냥 지나가도 돼 (0)" 아니면 **"이 단어는 복잡해서 자세히 봐야 해 (1)"**라고 결정하는 스위치를 켜고 끄고 있었습니다.

🚀 4. 왜 이것이 중요할까요?

이 발견은 AI 를 더 효율적으로 만드는 데 큰 도움이 됩니다.

에너지 절약: 대부분의 단어는 '자동 모드'로 처리해도 됩니다. 복잡한 '수리 모드'를 켤 필요가 없는 것들입니다.
속도 향상: AI 가 문장을 읽을 때, 모든 단어를 똑같이 정밀하게 분석할 필요가 없습니다. 스위치가 '자동'으로 켜진 단어는 빠르게 스킵하고, '비상'이 켜진 단어에만 집중하면 됩니다.
이해의 진전: 우리는 AI 가 어떻게 '의미'를 이해하는지 더 잘 알게 되었습니다. AI 는 모든 것을 다 계산하는 게 아니라, 어떤 부분이 중요한지 (비상 상황인지) 판단하는 능력을 먼저 배운 것입니다.

💡 요약: "스마트한 스위치"

이 논문의 결론은 매우 간단합니다.

"인공지능은 부드러운 곡선을 그리는 화가가 아니라, 상황에 따라 '간단한 길'과 '복잡한 길'을 선택하는 현명한 안내자입니다. 그리고 그 선택은 0 과 1 의 명확한 스위치로 이루어집니다."

이처럼 AI 의 내부 작동 원리가 단순한 스위치처럼 명확하게 작동한다는 사실은, 우리가 AI 를 더 잘 이해하고 더 똑똑하게 만들 수 있는 새로운 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 트랜스포머 (Transformer) 모델의 멀티레이어 퍼셉트론 (MLP) 레이어가 연속적인 신호를 처리하는 방식에 대한 기존의 "부드러운 함수 근사 (Smooth Function Approximation)" 관점을 재검토하고, 대신 이진 라우팅 (Binary Routing) 메커니즘이 핵심 역할을 한다는 새로운 해석을 제시합니다. GPT-2 Small 모델을 대상으로 한 실험을 통해, MLP 가 연속적인 입력 신호를 처리할 때, 어떤 토큰이 비선형 처리가 필요한지 여부를 결정하는 과정이 이진 (On/Off) 스위칭 논리에 의해 이루어진다는 것을 증명합니다.

1. 연구 배경 및 문제 제기 (Problem)

기존 관점 (부드러운 함수 프레임): 트랜스포머의 MLP 는 고차원 입력을 고차원 출력으로 매핑하는 "함수 근사기"로 간주됩니다. 바레스티에로 & 바라니크 (Balestriero & Baraniuk, 2018) 의 연구에 따르면, MLP 는 입력 공간을 다면체로 분할하여 각 영역에서 아핀 (Affine) 함수를 근사하는 조각별 아핀 (Piecewise-Affine) 스플라인 함수로 해석됩니다.
문제점: 이 스플라인 관점은 "어떻게 (How)" 계산하는지는 설명하지만, "무엇을 (What)" 계산하는지, 즉 조각별 경계가 매끄러운 변화인지 아니면 이산적인 결정 (Discrete Decision) 인지는 설명하지 못합니다.
연구 질문: MLP 의 비선형 잔차 (Nonlinear Residual) 가 매끄러운 다항식 구조를 따르는가, 아니면 토큰을 서로 다른 처리 경로로 라우팅하는 이진 논리 구조를 따르는가?

2. 방법론 (Methodology)

저자는 GPT-2 Small (124M 파라미터, 12 레이어) 모델을 WikiText-103 데이터셋으로 실험했습니다.

다항식 프로빙 (Polynomial Probing):
- MLP 의 입력과 출력 사이의 비선형 잔차 ( $\delta = y - \hat{y}$ ) 를 추출했습니다.
- 2 차부터 7 차까지의 다양한 차수의 다항식을 피팅하여 잔차를 설명할 수 있는지 확인했습니다 (교차 검증).
- 고비선형 토큰을 클러스터링하여 하위 집합 내에서도 매끄러운 구조가 있는지 탐지했습니다.
이진 특징 추출 (Binary Feature Extraction):
- 토큰을 비선형성 정도 ( $\|\delta\|$ ) 에 따라 선형 (하위 25%), 약한 비선형, 강한 비선형 (상위 5%) 그룹으로 분류했습니다.
- 각 그룹 간 활성화율 (Firing Rate) 이 가장 크게 변하는 뉴런들을 식별하고, 이를 이진화 (0/1) 하여 패턴을 분석했습니다.
인과적 검증 (Causal Validation):
- 합의 (Consensus) 수준에 따라 MLP 출력을 0 으로 설정 (Ablation) 하고, 다음 토큰 예측의 퍼플렉시티 (Perplexity) 변화량을 측정하여 구조의 기능적 중요성을 검증했습니다.

3. 주요 결과 (Key Results)

3.1. 다항식 근사의 실패 (Polynomials Fail)

결과: 2~7 차의 다항식 피팅은 비선형 잔차를 설명하는 데 실패했습니다 ( $R^2 \le 0.06$ ).
의미: MLP 의 비선형성은 매끄러운 함수의 합이나 다항식 근사가 아니라, 이산적인 스위칭에 기반하고 있음을 시사합니다. (단, 문단 구분 기호 \n\n 같은 특정 토큰은 예외적으로 다항식으로 설명 가능했으나, 이는 단일 조건에 의한 것이었습니다.)

3.2. 이진 라우팅 구조의 발견 (Binary Routing Structure)

합의 - 예외 처리기 아키텍처 (Consensus/Exception Architecture):
- Layer 11에서 7 개의 "기본 ON(Default-ON)" 뉴런과 1 개의 "예외 처리기 (Exception Handler, N2123)" 뉴런이 발견되었습니다.
- 상호 배타성: 이 7 개의 기본 뉴런과 예외 처리기 뉴런은 **93~98%**의 확률로 상호 배타적입니다 (동시에 활성화되지 않음).
- 합의 그라디언트: 기본 뉴런 7 개 중 몇 개가 활성화되는지에 따라 예외 처리기 (N2123) 의 활성화율이 단조롭게 증가합니다.
  - 합의 유지 (7/7): 예외 처리기 활성화율 0.5%, MLP 출력 노름 (Norm) 은 낮음 (~70). 선형 경로가 우세함.
  - 합의 붕괴 (0/7): 예외 처리기 활성화율 94.7%, MLP 출력 노름은 2.8 배 증가 (~194). 완전한 비선형 계산이 수행됨.
의미: 이는 소프트웨어의 "Fast Path / Slow Path" 아키텍처가 학습을 통해 자연스럽게 등장한 것입니다.

3.3. 계층적 발달 곡선 (Developmental Arc)

전체 12 레이어를 분석한 결과, 이진 라우팅 구조는 계층을 따라 다음과 같이 진화합니다:

Scaffold (L0-L3): 단일 게이트웨이 뉴런이 예외를 라우팅하지만, 합의 (Quorum) 구조는 부재.
Diffuse (L4-L6): 게이트웨이도 합의도 없는 분산된 처리.
Decision (L7-L11): 완전한 합의/예외 처리기 아키텍처가 결정화됨. 합의 뉴런의 수 (1→3→7) 와 배타성이 깊이에 따라 증가합니다.

3.4. 인과적 검증 (Causal Validation)

MLP 제거 실험:
- 합의 붕괴 (0/7) 시 MLP 제거: 퍼플렉시티가 43.3% 급증 (매우 중요).
- 합의 유지 (7/7) 시 MLP 제거: 퍼플렉시티는 **10.1%**만 증가 (상대적 중요도 낮음).
- 결론: 합의가 깨졌을 때 MLP 의 기여도가 합의가 유지될 때보다 4 배 이상 큽니다. 이는 MLP 가 모든 토큰에 대해 동일한 비선형 계산을 수행하는 것이 아니라, 필요할 때만 선택적으로 활성화된다는 것을 증명합니다.

3.5. 이진화 vs 연속 신호

라우팅 결정: 이진화된 뉴런 활성화 패턴만으로도 "어떤 토큰이 비선형 처리가 필요한가"를 예측하는 정확도가 79.2% 로, 연속 신호를 사용할 때 (78.8%) 와 거의 차이가 없습니다.
신호 크기: 하지만 "얼마나 많은 보정이 필요한가" (출력 노름) 를 예측하는 데는 연속 신호의 크기 정보가 추가적으로 중요합니다 ( $R^2 = 0.36$ vs $0.22$).
결론: MLP 는 연속 신호의 이진 라우팅 (Binary Routing of Continuous Signals) 시스템입니다.

4. 주요 기여 및 의의 (Contributions & Significance)

MLP 해석의 패러다임 전환:
- MLP 를 단순히 "부드러운 함수 근사기"로 보는 관점에서, **"이진 라우팅 스위치"**로 보는 관점으로 전환합니다. 이는 Shannon 의 릴레이 스위치 (연속 전류를 이진 논리로 처리) 와 유사하지만, MLP 에서는 라우팅된 신호 자체가 연속적이라는 점이 다릅니다.
해석 가능한 아키텍처 발견:
- 학습된 가중치 내에서 "합의 (Quorum)"와 "예외 처리 (Exception Handling)"라는 명확한 소프트웨어 패턴이 발견되었습니다. 이는 신경망이 무작위적인 함수 근사가 아니라, 구조화된 논리 회로를 학습했음을 시사합니다.
선형화 (Linearization) 전략의 근거:
- 합의가 유지되는 토큰 (약 90%) 에서는 MLP 의 비선형 계산이 거의 불필요하거나 오히려 노이즈로 작용합니다. 따라서 이러한 토큰에 대해서는 MLP 를 생략하거나 선형 근사하는 것이 효율적일 수 있음을 제안합니다.
중첩 (Superposition) 과 다의어 (Polysemy) 해결:
- 다의어 (Polysemous) 토큰이나 문맥이 모호한 경우 (합의 붕괴) 에 예외 처리기가 활성화되어 비선형 계산을 통해 의미를 명확히 한다는 메커니즘을 제시합니다.

5. 결론

이 논문은 GPT-2 Small 의 MLP 레이어가 연속적인 신호를 처리하되, 어떤 토큰을 비선형 경로로 보낼지 결정하는 과정은 이진적이고 이산적임을 증명했습니다. 이는 신경망의 내부 작동 원리를 이해하는 데 있어 "부드러운 곡선 피팅"보다 "이진 라우팅 논리"가 더 적합한 프레임워크일 수 있음을 보여주며, 향후 더 큰 규모의 모델에서도 유사한 이진 구조가 존재하는지, 혹은 용량 증가에 따라 어떻게 변형되는지에 대한 중요한 연구 방향을 제시합니다.