How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근의 거대 언어 모델 (LLM, 예: 챗봇) 이 왜 무조건 입력 문장의 '첫 번째 단어'에 너무 집중하는지 그 비밀을 파헤친 연구입니다.

이 현상을 **'어텐션 싱크 (Attention Sink, 주의의 함정)'**라고 부르는데, 마치 블랙홀처럼 첫 단어가 모든 주의를 빨아들여 다른 중요한 단어를 무시하게 만드는 것처럼 보일 수 있습니다. 보통은 나쁜 현상으로 여겨졌지만, 이 논문은 "아니요, 사실은 모델이 스스로 만든 아주 똑똑한 '안전장치'입니다"라고 설명합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.

1. 핵심 발견: "첫 번째 단어는 '보이지 않는 기둥'입니다"

우리가 글을 쓸 때, 문장 맨 앞에 특별한 표시 (예: [BOS] 토큰) 를 붙이는 경우가 많습니다. 예전 연구자들은 "아, 모델이 이 특별한 표시 때문에 첫 번째 단어만 보는구나"라고 생각했습니다.

하지만 이 논문은 **"틀렸습니다. 그 표시를 지워도 모델은 여전히 첫 번째 단어에 집중합니다"**라고 증명했습니다.

비유: 식당에 들어갈 때 문 앞에 '손님 환영' 간판이 있다고 해서 손님이 그 간판만 보는 게 아닙니다. 손님이 문 앞에 모이는 이유는 건물의 구조 때문입니다. 이 모델도 문장 구조상 첫 번째 단어가 가장 안전하고 확실한 '기둥' 역할을 하도록 스스로 학습한 것입니다.

2. 작동 원리: "2 층짜리 작은 공장 (P0-싱크 회로)"

모델이 어떻게 첫 번째 단어를 알아보고 집중하게 만들었을까요? 연구진은 모델 내부에 **2 개의 층 (Layer) 으로 이루어진 아주 간단한 '공장'**이 있다는 것을 발견했습니다.

비유:
- 1 층 (식별 공장): 문장이 들어오자마자 "아! 이거 첫 번째 단어구나!"라고 빠르게 인식합니다.
- 2 층 (증폭 공장): 인식된 첫 번째 단어를 "우리가 가장 중요하게 여겨야 할 사람"이라고 크게 외치며, 그 단어가 가진 정보의 크기 (노름, Norm) 를 부풀려 만듭니다.
- 결과: 이렇게 부풀려진 첫 번째 단어는 모델 전체에서 가장 눈에 띄고, 다른 단어들이 그쪽으로 자연스럽게 끌려가게 됩니다.

이 과정은 단어의 의미 (예: '사과'라는 뜻) 와는 상관없이 오직 '위치 (첫 번째)'만 보고 작동합니다. 마치 "문장 맨 앞에 있는 사람은 무조건 대표로 뽑자"는 규칙처럼요.

3. 왜 필요한가요? "안정적인 닻 (Anchor)"

왜 모델이 이런 짓을 할까요? 바로 혼란을 막기 위해서입니다.

비유: 배가 바다를 항해할 때, 파도 (새로운 정보) 가 계속 밀려오면 배가 흔들립니다. 이때 **닻 (첫 번째 단어)**을 단단히 박아두면 배가 흔들리지 않고 방향을 유지할 수 있습니다.
모델에게 첫 번째 단어는 이동 중인 정보의 기준점 역할을 합니다. 첫 번째 단어가 너무 강하게 고정되어 있어야, 그 뒤에 오는 수많은 정보들을 안정적으로 처리할 수 있습니다. 만약 이 '닻'이 없다면, 모델은 긴 문장을 처리할 때 자꾸 방향을 잃고 엉뚱한 대답을 할 수 있습니다.

4. 학습 과정: "어린 시절의 성장 스토리"

연구진은 모델을 처음부터 가르치는 과정을 지켜보며 흥미로운 사실을 발견했습니다.

초기 (중간 층에서 시작): 학습 초기에는 모델이 중간 층에서 첫 번째 단어를 찾으려다 헷갈립니다.
중기 (일시적 혼란): 잠시 동안 두 번째 단어나 다른 단어에 집중하다가 다시 첫 번째 단어로 돌아옵니다.
최종 (1~2 층으로 정착): 학습이 끝날 무렵, 이 '첫 번째 단어 인식 공장'은 모델의 가장 앞쪽 (1~2 층) 으로 이동하여 완전히 정착합니다.

비유: 어린아이가 처음에는 "누가 내 친구지?"라고 중반부에서 헤매다가, 나이가 들면서 "아, 내가 태어난 순간 (첫 번째) 이 가장 확실한 기준이야"라고 깨닫고 그 자리로 돌아오는 것과 같습니다.

5. 결론: "나쁜 버그가 아니라, 필수적인 기능"

이 논문은 결론적으로 이렇게 말합니다.

"우리가 보기에 모델이 첫 번째 단어만 보는 건 **버그 (오류)**처럼 보일 수 있지만, 사실은 모델이 스스로 만든 가장 효율적인 안전장치입니다. 이 '주의의 함정'이 없으면 모델은 긴 문장을 처리할 때 길을 잃고 망가집니다."

한 줄 요약:
거대 언어 모델은 문장의 첫 번째 단어를 '안정적인 닻'으로 삼아 스스로를 지탱하고 있습니다. 이는 모델의 설계 구조상 필연적으로 발생하는 현상이며, 오히려 모델이 더 똑똑하게 일하기 위해 필요한 필수 기능입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

대규모 언어 모델 (LLM) 은 시퀀스의 초기 토큰, 특히 **첫 번째 토큰 (Position 0, P0)**에 과도하게 집중하는 '어텐션 싱크 (Attention Sink)' 현상을 보입니다.

기존 관점: 일반적으로 어텐션 싱크는 모델의 추론 능력을 저해하고 정확도를 떨어뜨리는 해로운 현상으로 간주되어 왔습니다.
예외: 그러나 입력 시퀀스의 **첫 번째 토큰 (P0)**에 대한 집중은 예외적으로 모델 성능 향상과 연관되어 있으며, 여러 하위 작업에서 중요한 역할을 합니다.
미해결 과제: P0 어텐션 싱크가 왜 발생하는지, 그리고 모델 내부에서 어떤 메커니즘으로 유지되는지에 대한 정확한 원리는 잘 알려져 있지 않았습니다. 기존 연구들은 이를 [BOS](Beginning-Of-Sequence) 토큰의 의미적 특성이나 단순한 편향으로만 해석했으나, 최근 모델들에서는 [BOS] 가 없어도 이 현상이 발생한다는 사실이 확인되었습니다.

2. 연구 방법론 (Methodology)

저자들은 P0 어텐션 싱크의 발생 원인을 규명하기 위해 다음과 같은 접근법을 사용했습니다.

Ablation Study (BOS 제거 실험): [BOS] 토큰을 제거한 모델 (Qwen, OLMo 등) 에서도 P0 싱크가 유지되는지 확인했습니다. 그 결과, [BOS] 의 의미적 특성이 없어도 P0 싱크는 깊은 레이어에서 재발생함을 확인했습니다.
P0-Sink Circuit 제안: 모델이 어떻게 P0 토큰을 식별하고 이를 증폭시키는지 분석하기 위해 P0-Sink Circuit이라는 구조적 메커니즘을 제안했습니다. 이는 인과적 어텐션 마스크 (Causal Attention Mask) 의 비대칭성을 이용하는 2 레이어 회로입니다.
이론적 분석:
- MLP 와 노름 (Norm) 증폭: P0 토큰의 은닉 상태 (Hidden State) 가 MLP 를 통과하며 $\ell_2$ 노름이 증폭되고, 특정 방향으로 고정됨을 수학적으로 증명했습니다.
- 균일 평균화 (Uniform Averaging): 인과적 제약 하에서 P0 토큰은 오직 자기 자신에게만 어텐션하므로, 다른 토큰들보다 더 일관된 방향성을 유지하게 됩니다. 이는 MLP 가 증폭할 수 있는 명확한 신호가 됩니다.
훈련 과정 추적 (Training Traces): 0 에서부터 학습된 30B-A3B MoE 모델의 훈련 과정을 추적하여, P0-Sink Circuit 이 어떻게 형성되고 안정화되는지 관찰했습니다.

3. 주요 기여 (Key Contributions)

BOS 의미론이 아닌 구조적 비대칭성의 발견: P0 싱크가 [BOS] 토큰의 임베딩 특성 때문이 아니라, **인과적 마스크의 비대칭성 (Causal-masking asymmetry)**에서 기인함을 증명했습니다.
P0-Sink Circuit 의 공식화: 인과적 비대칭성을 활용하여 P0 위치에서 고정되고 높은 노름 (High-norm) 을 가진 표현을 생성하는 2 레이어 메커니즘을 정립했습니다. 이는 네트워크 전체의 어텐션 헤드가 일관된 기준점을 가질 수 있게 합니다.
훈련 중 형성 과정의 3 단계 규명: P0-Sink Circuit 이 프리트레이닝 (Pre-training) 동안 다음과 같은 3 단계로 형성됨을 규명했습니다.
- 초기 단계: 깊은 레이어에서 싱크 회로가 발생.
- 전환 단계: 얕은 레이어에서 여러 위치로 퍼지다가 P0 로 수렴.
- 최종 단계: 첫 2 레이어에 집중되어 안정화됨.

4. 주요 결과 (Results)

BOS 제거 시의 재발생: [BOS] 토큰이 없는 모델에서도 2 번째 레이어 이후 P0 싱크가 명확하게 재등장하며, 이는 [BOS] 임베딩이 없어도 모델이 구조적으로 P0 를 식별할 수 있음을 보여줍니다.
고차원 노름 증폭: P0 토큰의 은닉 상태는 MLP 를 거치며 다른 토큰들에 비해 $\ell_2$ 노름이 급격히 증가하고, 벡터 방향이 일관되게 고정됩니다. 이는 P0 토큰이 잔류 스트림 (Residual Stream) 에서 지배적인 역할을 하도록 만듭니다.
훈련 단계별 변화:
- 훈련 초기 (약 15B 토큰): 중간 레이어에서 P0 싱크가 먼저 나타남.
- 중기 (약 230B 토큰): 싱크가 초기 여러 토큰으로 확산됨 (StreamingLLM 과 유사한 패턴).
- 후기 (약 460B 토큰 이후): 다시 P0 로 집중되어 2 레이어 내의 회로로 안정화됨.
모델 크기 및 아키텍처 영향: LLaMA, Mistral, Qwen 등 다양한 모델에서 P0 싱크가 관찰되었으며, 특히 최신 모델들은 [BOS] 유무와 관계없이 초기 레이어에서 강력한 싱크 회로를 형성합니다. 반면, OPT 와 같이 절대 위치 인코딩을 사용하는 모델은 구조적 회로 없이 위치 임베딩 자체에 의존하는 다른 양상을 보입니다.

5. 의의 및 시사점 (Significance)

모델 해석 가능성 (Interpretability): LLM 의 복잡한 내부 동작 중 하나인 '어텐션 싱크'가 단순한 버그가 아니라, 인과적 구조에서 자연스럽게 발생하는 **필연적인 아키텍처 편향 (Architectural Bias)**임을 규명했습니다.
학습 상태 진단 신호: P0-Sink Circuit 이 어느 단계 (초기, 전환, 최종) 에 있는지 관찰함으로써, 모델의 **프리트레이닝 수렴 상태 (Convergence Status)**를 추정할 수 있는 새로운 진단 지표로 활용 가능합니다.
모델 설계 및 최적화:
- P0 싱크가 긴 컨텍스트에서 안정적인 문맥 축적을 돕는 역할을 하므로, 이를 억제하기보다는 이해하고 활용하는 방향으로 모델 설계 (예: StreamingLLM 등) 를 개선할 수 있습니다.
- [BOS] 토큰의 필요성에 대한 재검토를 통해, 더 효율적인 토큰화 및 인코딩 전략을 모색할 수 있는 기초를 제공합니다.

결론

본 논문은 P0 어텐션 싱크가 [BOS] 토큰의 의미적 특성이 아니라, 인과적 어텐션의 구조적 비대칭성과 이를 증폭하는 MLP 회로에 의해 발생함을 증명했습니다. 이는 LLM 이 초기 토큰을 '고정된 참조점'으로 활용하여 긴 시퀀스 처리를 안정화하는 메커니즘을 이해하는 데 중요한 통찰을 제공하며, 향후 더 효율적이고 해석 가능한 LLM 설계의 방향성을 제시합니다.

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

1. 핵심 발견: "첫 번째 단어는 '보이지 않는 기둥'입니다"

2. 작동 원리: "2 층짜리 작은 공장 (P0-싱크 회로)"

3. 왜 필요한가요? "안정적인 닻 (Anchor)"

4. 학습 과정: "어린 시절의 성장 스토리"

5. 결론: "나쁜 버그가 아니라, 필수적인 기능"

1. 연구 배경 및 문제 정의 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 주요 결과 (Results)

5. 의의 및 시사점 (Significance)

결론

유사한 논문

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models