Each language version is independently generated for its own context, not a direct translation.

🌱 'Stem(줄기)': 긴 이야기를 읽을 때 잊지 말아야 할 첫 번째 문장

이 논문은 최근 화두가 되고 있는 **거대 언어 모델 **(LLM)이 긴 글을 읽거나 긴 대화를 할 때 겪는 문제를 해결하는 새로운 방법, **'Stem'**이라는 기술을 소개합니다.

기존의 방식은 "모든 단어를 똑같이 중요하게 여기다가, 계산이 너무 많으면 무작위로 몇 개만 버린다"는 식이었습니다. 하지만 Stem 은 "아니요, 이야기의 '줄기'가 되는 첫 번째 단어들은 절대 버리면 안 됩니다!"라고 말합니다.

이 복잡한 개념을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: "모든 책을 한 번에 읽으려다 지친 도서관 사서" 📚💥

거대 언어 모델은 긴 문서를 읽을 때, 모든 단어와 단어 사이의 관계를 한 번에 계산해야 합니다.

비유: 도서관 사서가 10 만 권의 책을 한 번에 펼쳐서, 책 A 의 첫 페이지와 책 B 의 마지막 페이지가 어떤 관계인지 모두 확인해야 한다고 상상해 보세요.
문제: 책이 100 권이면 괜찮지만, 100 만 권이 되면 사서는 계산하는 데만 몇 시간이 걸리고, 책상 (메모리) 이 터져버립니다. 이것이 계산 복잡도 문제입니다.

그래서 사람들은 "가장 중요한 책 100 권만 골라서 읽자"는 **희소 **(Sparse)를 개발했습니다. 하지만 기존 방식은 "어떤 책이 중요한지 점수만 보고" 무작위로 골랐습니다.

2. Stem 의 통찰: "줄기 (Stem) 가 없으면 나무가 자라지 않는다" 🌳

이 논문은 "인간이 이야기를 만들 때, 첫 문장이 얼마나 중요한지"를 주목했습니다.

기존 방식의 실수:
- 이야기의 첫 번째 문장을 "아, 이거 점수가 낮네" 하고 잘라버리면, 그다음 문장들이 그 첫 문장의 내용을 바탕으로 이어져야 하는데, 연결고리가 끊어집니다.
- 비유: 나무의 **뿌리와 줄기 **(Stem)를 잘라내고 잎사귀만 남긴다면, 나무는 어떻게 자랄까요? 결국 죽고 맙니다.
- 논문은 "초기 위치의 토큰 (단어) 들은 모든 후속 단어들의 정보 흐름에 관여하는 줄기 역할을 한다"고 말합니다.
Stem 의 해결책:
1. **위치에 따른 차등 대우 **(Token Position-Decay)
  - 이야기의 시작 부분은 아주 중요하므로, 계산 자원을 많이 할당합니다. (줄기를 튼튼하게)
  - 이야기의 중반이나 끝부분은 상대적으로 덜 중요하므로, 계산 자원을 적게 할당합니다. (잎사귀는 조금만 다듬기)
  - 마치 나무를 가꾸듯, 뿌리 쪽은 정성껏 관리하고 끝쪽은 과감히 정리하는 것입니다.
2. **실제 영향력 측정 **(Output-Aware Metric)
  - 기존 방식은 "이 단어가 다른 단어와 얼마나 잘 어울리는지 (점수)"만 봤습니다.
  - Stem 은 "이 단어가 실제 결과에 얼마나 큰 에너지를 내는지"를 봅니다.
  - 비유: 점수가 낮아도 "실제 내용을 전달하는 핵심 정보 (에너지)"가 담긴 단어는 버리지 않고 챙겨줍니다. 점수는 높지만 내용이 텅 비어있는 단어는 과감히 제외합니다.

3. 결과: 빠르고 똑똑한 읽기 🚀✨

Stem 을 적용한 결과, 다음과 같은 놀라운 변화가 일어났습니다.

속도: 긴 문서를 읽을 때 (예: 128K 토큰), 기존 방식보다 약 3.7 배 더 빨라졌습니다. (1540ms → 420ms)
정확도: 계산량을 줄였음에도 불구하고, 모델이 이해하는 능력은 거의 떨어지지 않았습니다. 오히려 다른 방법들보다 더 정확했습니다.
적용성: 이미 훈련된 모델에 바로 끼워 쓸 수 있는 플러그인 형태라, 별도의 복잡한 재훈련이 필요 없습니다.

4. 한 줄 요약

"긴 이야기를 읽을 때, 모든 단어를 똑같이 대하지 말고, 이야기의 '줄기'가 되는 시작 부분을 가장 중요하게 여기고, 실제 내용을 담고 있는 단어만 골라 읽으면, 훨씬 빠르고 똑똑하게 이해할 수 있다."

이 기술은 앞으로 AI 가 책 한 권을 통째로 읽거나, 수시간짜리 회의록을 분석할 때 필수적인 기술이 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 을 긴 컨텍스트로 확장하는 데 있어 자기 주의 (Self-attention) 의 이차적 (Quadratic) 계산 복잡도는 근본적인 병목 현상입니다. 특히 프리필링 (Pre-filling) 단계에서 전체 입력 시퀀스를 병렬로 처리해야 하므로, 컨텍스트 윈도우가 커질수록 지연 시간 (Latency) 과 메모리 오버헤드가 급격히 증가합니다.

기존의 희소 주의 (Sparse Attention) 방법들은 다음과 같은 두 가지 주요 한계를 가집니다:

균일한 Top-k 선택: 모든 토큰 위치에 대해 동일한 Top-k 예산을 적용합니다. 이는 인과적 (Causal) 구조에서 초기 토큰이 후속 모든 토큰의 집계 (Aggregation) 에 참여한다는 **누적 의존성 (Cumulative Dependency)**을 무시합니다.
점수 기반 선택의 한계: 기존 방법들은 주로 어텐션 점수 (Attention Score) 만을 기준으로 토큰을 선택합니다. 그러나 높은 점수를 가져도 값 (Value) 벡터의 크기가 작으면 실제 정보 기여도가 낮을 수 있으며, 반대로 점수는 중간이라도 값 벡터의 크기가 크면 중요한 정보를 담고 있을 수 있습니다.

이러한 무분별한 가지치기 (Pruning) 는 초기 토큰의 신호 전달을 방해하여 깊은 레이어로 정보가 전파되는 것을 저해하고, 모델의 정확도를 떨어뜨립니다.

2. 제안 방법: Stem (Methodology)

저자들은 정보 흐름 (Information Flow) 관점에서 인과적 어텐션 메커니즘을 재검토하여 Stem이라는 새로운 플러그 앤 플레이 (Plug-and-play) 희소성 모듈을 제안합니다. Stem 은 학습이 필요 없는 (Training-free) 프레임워크로, 두 가지 핵심 전략을 사용합니다.

가. 토큰 위치 감쇠 전략 (Token Position-Decay, TPD)

이론적 배경: Transformer 의 인과적 구조에서 $l$ 번째 레이어의 첫 번째 토큰 ( $V_1$ ) 은 다음 레이어의 모든 출력 ( $O^{l+1}$ ) 에 포함됩니다. 반면, 마지막 토큰은 해당 레이어의 마지막 출력에만 영향을 줍니다. 즉, 초기 토큰을 제거하면 오류가 모든 하위 토큰으로 전파되어 누적됩니다.
전략: 모든 위치에 균일한 예산을 할당하는 대신, 위치에 따라 Top-k 예산을 선형적으로 감쇠시킵니다.
- 초기 위치 (Critical Dependencies): 높은 예산 ( $k_{start}$ ) 할당.
- 후기 위치 (Redundancy): 예산을 점진적으로 줄여 ( $k_{end} = \mu \cdot k_{start}$ ) 희소화.
- 이를 통해 초기 토큰의 재귀적 의존성 사슬을 보존하면서도 전체 계산 비용을 절감합니다.

나. 출력 인지 지표 (Output-Aware Metric, OAM)

문제점: 기존 방법 (Score-Aware Metric) 은 어텐션 점수 (Routing Probability) 만을 고려하여 토큰을 선택합니다.
해결책: 실제 출력에 기여하는 **정보의 크기 (Magnitude)**를 고려합니다.
- 토큰 $j$ 의 기여도는 $P_{i,j} \cdot \|V_j\|^2$ 에 비례합니다.
- 계산 효율성을 위해 로그 변환을 적용하여 새로운 지표 $M_{i,j}$ 를 정의합니다:
  $M_{i,j} = \underbrace{\frac{Q_i K_j^T}{\sqrt{d}}}_{\text{Routing (Score)}} + \beta \cdot \max(0, \log(\|V_j\|^2))_{\text{Magnitude}}$
- 이 지표를 통해 어텐션 점수가 낮더라도 값 벡터의 크기가 큰 (고에너지 신호) 토큰을 보존하여 정보 손실을 최소화합니다.

다. 전체 알고리즘

Stem 은 블록 희소 어텐션 (Block Sparse Attention) 커널을 활용하여 다음과 같이 동작합니다:

다운샘플링: 쿼리 (Q) 와 키 (K) 행렬을 블록 단위로 다운샘플링하여 어텐션 점수와 값의 크기를 근사합니다.
예산 할당: TPD 전략에 따라 각 쿼리 블록에 동적인 Top-k 예산을 할당합니다.
토큰 선택: OAM 지표를 기반으로 중요한 메모리 블록을 선별합니다.
정밀 계산: 선택된 블록에 대해서만 풀 해상도 (Full-resolution) 의 Softmax 및 집계 연산을 수행합니다.

3. 주요 기여 (Key Contributions)

인과적 정보 흐름 관점의 재정의: 정적 선택 방법들이 간과했던 레이어 간 재귀적 의존성 (Inter-layer recursive dependency) 을 희소 주의의 핵심 요소로 규명했습니다.
Stem 프레임워크 제안: 초기 토큰의 의존성을 보존하는 TPD 전략과 값 벡터의 크기를 반영하는 OAM 을 포함한 학습 불필요 (Training-free) 프레임워크를 개발했습니다.
성능 및 효율성 입증: 기존 학습 불필요 방법들보다 높은 정확도와 낮은 지연 시간을 달성했으며, DeepSeek-V3.2 나 MiniCPM-4.1 과 같은 학습 기반 희소 모델에도 플러그인으로 통합되어 추가적인 효율성을 증명했습니다.

4. 실험 결과 (Results)

벤치마크: LongBench, RULER (4K~128K 컨텍스트) 에서 Llama-3.1-8B 와 Qwen3-8B 모델을 사용하여 평가했습니다.
정확도:
- LongBench: Stem 은 가장 낮은 희소성 예산 (25%~31%) 으로 기존 방법들 (MInference, FlexPrefill, XAttention) 보다 높은 평균 정확도를 기록했습니다. 특히 Qwen3-8B 에서 1% 이상 향상되었고, Llama-3.1-8B 에서는 밀집 (Dense) 모델과 거의 유사한 성능을 보였습니다.
- RULER: 128K 컨텍스트에서도 밀집 모델 대비 거의 손실 없는 정확도를 유지하면서 가장 낮은 예산 (25%) 을 사용했습니다.
지연 시간 (Latency):
- H20 GPU 에서 128K 컨텍스트 기준, 밀집 모델 (1540ms) 대비 Stem 은 420ms로 3.7 배 가속을 달성했습니다.
- MInference 는 짧은 컨텍스트에서 패턴 추정에 따른 오버헤드가 크고, Stem 은 일관되게 가장 낮은 지연 시간을 보였습니다.
Ablation Study:
- TPD 전략만 적용해도 균일 예산 대비 정확도가 크게 향상되었습니다.
- OAM (Magnitude 정보) 을 추가하면 추가적인 성능 향상을 거두었습니다.
- 감쇠 비율 ( $\mu$ ) 은 0.7 일 때 효율성과 정확도의 최적 균형 (Pareto point) 을 보였습니다.

5. 의의 및 결론 (Significance)

Stem 은 단순히 계산량을 줄이는 것을 넘어, LLM 의 인과적 정보 흐름 구조에 부합하는 토큰 선택 전략이 긴 컨텍스트 처리의 핵심임을 증명했습니다. 초기 토큰을 '정보의 줄기 (Stem)'로 간주하여 이를 보호하고, 값 벡터의 크기를 고려하여 중요한 정보를 선별함으로써, 학습 비용 없이도 희소 주의의 정확도와 효율성을 동시에 극대화했습니다. 이는 현대 LLM 의 컨텍스트 확장 능력을 스케일링하는 데 있어 중요한 이정표가 될 것으로 기대됩니다.

Stem: Rethinking Causal Information Flow in Sparse Attention

🌱 'Stem(줄기)': 긴 이야기를 읽을 때 잊지 말아야 할 첫 번째 문장

1. 문제: "모든 책을 한 번에 읽으려다 지친 도서관 사서" 📚💥

2. Stem 의 통찰: "줄기 (Stem) 가 없으면 나무가 자라지 않는다" 🌳

3. 결과: 빠르고 똑똑한 읽기 🚀✨

4. 한 줄 요약

1. 문제 정의 (Problem)

2. 제안 방법: Stem (Methodology)

가. 토큰 위치 감쇠 전략 (Token Position-Decay, TPD)

나. 출력 인지 지표 (Output-Aware Metric, OAM)

다. 전체 알고리즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems