EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"효율적인 AI 모델이 정말로 복잡한 기억을 필요로 할까, 아니면 단순한 '흐름'만으로도 충분할까?"**라는 아주 흥미로운 질문에서 시작합니다.

저자는 **EMA(지수 이동 평균)**라는 아주 단순한 기억 방식을 실험실처럼 정밀하게 분석하여, AI 가 무엇을 기억할 수 있고 무엇을 잊어버리는지 그 '경계선'을 찾아냈습니다.

이 복잡한 논문을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 핵심 비유: "흐르는 강물" vs "사진첩"

이 논문의 주인공인 **EMA(지수 이동 평균)**는 마치 흐르는 강물과 같습니다.

강물 (EMA): 강에 돌을 던지면 물결이 일고, 시간이 지나면 그 돌의 흔적은 점점 희미해지며 물 전체와 섞여버립니다. 강물은 "어떤 돌이 언제 떨어졌는지"를 정확히 기억하지 못하지만, "돌이 떨어졌다는 사실"과 "물이 흐르는 방향"은 기억합니다.
사진첩 (Attention/Transformer): 우리가 쓰는 최신 AI(예: GPT) 는 마치 사진첩이나 메모장처럼 작동합니다. "3 분 전에 '강아지'라는 단어를 썼다"는 사실을 정확히 찾아내고, 그 단어를 다시 꺼내 쓸 수 있습니다.

이 논문은 **"강물만 가지고도 AI 가 얼마나 잘할 수 있을까?"**를 실험해 본 것입니다.

2. 실험 1: 문법 구조는 '강물'로도 충분하다 (SPCN)

저자는 먼저 아주 작은 AI(SPCN) 를 만들어 문법 역할(누가 무엇을 했는지) 을 파악하는 임무를 시켰습니다.

결과: 놀랍게도, 강물처럼 흐르는 기억만으로도 문법 구조를 96% 이상 정확히 파악했습니다.
이유: 문법 규칙은 "명사 뒤에 동사가 온다" 같은 순서와 패턴을 중요시합니다. 강물은 "어떤 단어인지"는 잊어버려도 "단어들이 어떤 순서로 흘렀는지"는 기억하기 때문에, 문법 분석에는 완벽하게 작동했습니다.
비유: 마치 악보를 읽는 것과 같습니다. "도레미파"라는 순서만 기억하면 멜로디는 알 수 있지만, 그 멜로디가 '피아노'로 연주된 건지 '바이올린'으로 연주된 건지는 기억하지 못합니다.

3. 실험 2: 단어의 정체성은 '강물'로 불가능하다 (SPEN)

다음으로, 저자는 이 방식을 실제 언어 모델 (SPEN) 로 확장해 보았습니다. 이제 AI 는 다음 단어를 예측해야 합니다.

결과: 성능이 처참하게 떨어졌습니다. 기존 AI(GPT-2) 보다 8 배나 더 많은 실수를 했습니다.
이유: 언어 모델은 "어떤 단어가 왔는지"를 정확히 알아야 합니다. "코끼리가"라는 단어가 50 단어 전에 왔는지, "개미가" 왔는지는 문맥에 따라 완전히 다른 미래를 예측하게 만듭니다. 하지만 강물 (EMA) 은 시간이 지나면 "코끼리"와 "개미"의 흔적을 섞어버려 구별할 수 없게 만들어버립니다.
비유: 강물에서 50 분 전에 떨어진 돌이 '금'인지 '철'인지 구분할 수 없다면, 그 강물을 보고 보물을 캐는 일은 불가능합니다.

4. 결정적 실험: "기억"이 문제인가, "해석"이 문제인가?

연구자들은 의문을 가졌습니다. "아마도 강물을 해석하는 AI(예측기) 가 너무 못해서 그런 게 아닐까?"라고요. 그래서 강물 (기억) 은 그대로 둔 채, 해석하는 AI 만을 최강의 모델로 바꿔봤습니다.

결과: 해석하는 AI 를 아무리 똑똑하게 만들어도 (완전 attention 메커니즘 사용), 성능은 변하지 않았습니다.
결론: 문제는 해석하는 AI 가 아니라, 기억 자체 (강물) 에 있었습니다. 강물이 정보를 너무 많이 잃어버렸기 때문에, 아무리 똑똑한 해석자도 잃어버린 정보를 되찾을 수 없었습니다.

5. 요약: 무엇이 중요한가?

이 논문의 핵심 메시지는 다음과 같습니다.

구조 (Structure) 는 단순한 흐름으로 충분하다: 문장의 순서나 패턴을 파악하는 데는 복잡한 기억이 필요 없습니다. 단순한 시간의 흐름만으로도 충분합니다.
내용 (Content) 은 정확한 기억이 필요하다: 구체적인 단어의 의미나 정체성을 기억하려면, 흐르는 물처럼 희석되지 않고 선택적으로 기억할 수 있는 능력이 필요합니다.
정보의 희석은 되돌릴 수 없다: 한 번 흐르는 물에 섞여버린 정보 (단어의 정체성) 는 다시는 분리해 낼 수 없습니다. 이것이 단순한 기억 방식이 가진 한계입니다.

결론: 왜 이 연구가 중요한가요?

이 연구는 AI 개발자들에게 **"무조건 복잡한 모델을 만들지 않아도, 어떤 부분에서는 단순한 방식이 더 나을 수도 있다"**는 것을 알려줍니다. 동시에 **"단순한 방식만으로는 언어를 완벽하게 이해할 수 없다"**는 한계도 명확히 보여줍니다.

마치 **"우리는 문법책을 읽을 때는 흐르는 강물만 봐도 되지만, 보물을 찾으려면 사진첩이 필요하다"**는 교훈을 주는 연구라고 할 수 있습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

효율적인 시퀀스 모델 (State-Space Models, Linear Attention, Gated Recurrences 등) 은 완전한 어텐션 (Full Attention) 을 압축된 재귀 상태 (Recurrent States) 로 대체하여 계산 효율성을 높입니다. 그러나 이러한 메커니즘들이 단순한 지수 이동 평균 (Exponential Moving Average, EMA) 기반의 가장 기본적인 재귀 컨텍스트보다 무엇을 더 얻는지, 그리고 그 한계는 어디인지 명확히 규명된 바가 없었습니다.

핵심 질문: 고정된 계수 (Fixed-coefficient) 를 가진 단순한 누적 (EMA) 은 어떤 정보를 보존하고 어떤 정보를 잃어버리는가?
가설: EMA 는 시간적 구조 (Temporal Structure) 는 잘 보존하지만, 토큰의 정체성 (Token Identity) 은 파괴한다.

2. 방법론 (Methodology)

저자들은 EMA 의 능력을 정밀하게 측정하기 위해 두 가지 규모의 실험을 수행했습니다.

A. 소규모 실험: SPCN (Sparse Predictive Column Networks)

아키텍처: 헤비안 (Hebbian) 학습 규칙과 고정된 무작위 프로젝션을 사용하는 계층적 네트워크입니다.
메커니즘:
- EMA Trace: 고정된 감쇠 계수 ( $\alpha$ ) 를 가진 다중 시간尺度 (Multi-timescale) EMA 를 사용하여 컨텍스트를 인코딩합니다. (게이트, 콘텐츠 기반 검색 없음)
- 예측 코딩: 예측 오차를 기반으로 가중치를 업데이트하는 정밀도 게이트드 헤비안 업데이트 (PGHU) 를 사용합니다.
작업: 147 개의 단어로 구성된 인공 문법 (Formal Grammar) 에서 20 가지 문법적 역할 (Grammatical Roles) 할당 태스크 수행.
비교: EMA Trace 를 직접 프로빙 (Probing) 하는 것과 순간 활성화 (Instantaneous Activation) 를 프로빙하는 것, 그리고 지도 학습 BiGRU 와 비교합니다.

B. 대규모 실험: SPEN (Sparse Predictive Equilibrium Network)

아키텍처: 1.3 억 파라미터의 언어 모델로, 어텐션을 완전히 제거하고 3 개의 EMA Trace 와 희소 피드포워드 네트워크 (Sparse FFN) 만 사용합니다.
작업: C4 데이터셋 (FineWeb-Edu) 을 기반으로 다음 토큰 예측 (Language Modeling) 수행.
Ablation Study (예측기 제거 실험): EMA Trace 가 성능 저하의 원인인지, 아니면 이를 읽는 예측기 (Predictor) 의 한계인지 확인하기 위해 Trace 는 동일하게 유지한 채 예측기를 다음과 같이 변경하여 실험했습니다.
1. 정적 선형 예측기 (Static Linear Predictor)
2. 인과적 선형 어텐션 (Causal Linear Attention)
3. 풀 소프트맥스 어텐션 (Full Causal Softmax Attention)

3. 주요 결과 (Key Results)

SPCN 결과 (구조 vs. 내용)

구조적 역할에서의 성공: EMA Trace 만을 사용하여 문법적 역할 할당 정확도가 **96%**에 달했습니다. 이는 지도 학습 BiGRU 의 성능과 거의 같으며, 구조에 의존하는 역할 (예: 관계절 내의 동사) 에서는 오히려 BiGRU 를 능가했습니다.
- 이유: EMA 는 단어의 구체적인 정체성 (Vocabulary) 을 희석시키지만, 문장 내 단어들의 시간적 순서와 패턴은 고도로 보존합니다.
내용적 역할에서의 실패: 구체적인 명사 (Content Words) 의 역할을 예측하는 데는 실패했습니다. BiGRU 는 단어와 역할 간의 상관관계를 학습하여 새로운 단어에도 일반화할 수 있었으나, EMA Trace 는 단어 정체성을 완전히 잃어버려 이를 복원할 수 없었습니다.

SPEN 결과 (언어 모델링의 한계)

성능 격차: SPEN 은 C4 데이터셋에서 Perplexity 260을 기록했습니다. 이는 GPT-2 Small(Perplexity 33) 보다 8 배나 낮은 성능입니다.
예측기 제거 실험의 결론: Trace 를 읽는 예측기를 가장 강력한 '풀 소프트맥스 어텐션'으로 바꾸더라도 손실 (Loss) 은 변하지 않았습니다.
- 결론: 성능 저하의 병목은 예측기가 아니라 EMA Trace 자체에 있습니다. Trace 가 토큰의 세부 정보를 파괴하기 때문에, 아무리 강력한 예측기를 사용해도 잃어버린 정보를 복구할 수 없습니다.

4. 핵심 기여 (Key Contributions)

구조와 내용의 명확한 분리: EMA Trace 는 **시간적 구조 (순서, 패턴)**는 보존하지만 **토큰 정체성 (구체적인 단어)**은 파괴한다는 경계를 실험적으로 규명했습니다.
비지도 구조 표현: 지도 학습 없이도 EMA Trace 가 문법적 구조를 96% 수준으로 학습할 수 있음을 보였습니다.
데이터 무관성 압축의 비용: 데이터에 무관한 고정 계수 누적 (EMA) 은 정보의 비가역적 희석 (Irreversible Information Dilution) 을 초래하며, 이는 언어 모델링과 같은 콘텐츠 기반 작업에서 치명적인 손실로 이어짐을 1.3 억 파라미터 모델로 입증했습니다.
시간과 깊이의 이중성: 시간 축 (Time) 에서의 EMA 한계와 Kimi Team 의 'Attention Residuals'에서 지적된 깊이 축 (Depth) 에서의 고정 가중치 누적 한계가 동일한 원리 (학습된 입력 의존적 선택의 부재) 에 기반함을 제시했습니다.

5. 의의 및 시사점 (Significance)

효율적 시퀀스 모델의 하한선 설정: EMA 는 재귀 모델의 표현력 계층 구조에서 가장 낮은 하한선 (Lower Bound) 을 제공합니다. Mamba, S4, Linear Attention 등 더 복잡한 메커니즘들이 EMA 대비 무엇을 얻는지 (입력 의존적 게이트, 상태 전이 등) 를 정량화하는 기준이 됩니다.
정보 이론적 통찰: 데이터 처리 부등식 (Data Processing Inequality) 에 따라, EMA 와 같은 손실 있는 압축을 거친 후의 어떤 예측 함수도 원래 입력의 정보를 복구할 수 없음을 이론적으로 증명했습니다.
모델 설계 방향성:
- 구조 인식 작업: EMA 나 단순한 재귀만으로도 높은 성능을 낼 수 있음.
- 언어 모델링/콘텐츠 검색: 고정된 계수 누적만으로는 부족하며, 입력 의존적 (Input-dependent) 선택 메커니즘 (게이트, 어텐션 등) 이 필수적임.

6. 결론

이 논문은 "EMA 가 모든 것을 해결할 수는 없다 (EMA Is Not All You Need)"는 명제를 실험적으로 증명했습니다. EMA 는 시간적 패턴을 보존하는 데 탁월하지만, 구체적인 토큰 정보를 잃어버리기 때문에 언어 모델링에는 적합하지 않습니다. 효율적인 시퀀스 모델을 설계할 때는 **구조 (Structure)**를 보존하는 단순한 메커니즘과 **내용 (Content)**을 선택적으로 검색하는 학습된 메커니즘 사이의 균형을 명확히 이해해야 함을 강조합니다.