On the Existence and Behavior of Secondary Attention Sinks

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 글을 쓸 때, 왜 특정 단어가 다른 단어보다 훨씬 더 많이 '주목'을 받는지, 그리고 그 현상이 어떻게 변하는지에 대한 흥미로운 발견을 담고 있습니다.

한마디로 요약하면: "AI 는 글을 쓸 때, 문장 맨 앞의 단어 (BOS) 만이 항상 주목받는 게 아니라, 문장 중간중간에 갑자기 '별의별' 단어들이 등장해서 주목을 끌기도 합니다. 이 현상을 '이차적 주류 (Secondary Sinks)'라고 부르며, AI 가 추론 능력을 키우면서 생기는 새로운 특징입니다."

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존에 알려진 이야기: "문장 맨 앞의 '스타' (Primary Sink)"

과거 연구자들은 AI 가 문장을 만들 때, **문장의 맨 첫 번째 단어 (시작 토큰)**가 유독 다른 단어들보다 훨씬 많은 '주목 (Attention)'을 받는다는 것을 발견했습니다.

비유: 마치 회의실 문이 열리고 가장 먼저 들어온 회장님이 있습니다. 회의가 아무리 길어지고 내용이 복잡해져도, 모든 참석자가 계속 회장님을 바라보며 그의 말에 집중합니다. AI 는 문장의 시작을 잊지 않기 위해 이 '회장님'에게 계속 집중하는 것입니다.

2. 이 논문의 새로운 발견: "갑자기 등장하는 '중간 스타' (Secondary Sinks)"

하지만 이 연구팀은 더 큰 모델 (AI) 을 분석하다가 놀라운 사실을 발견했습니다. 문장 중간에 갑자기 다른 단어들이 등장해서 회장님 못지않게 주목을 받는 경우가 있다는 것입니다.

비유: 회의가 한참 진행되는데, 갑자기 회의실 한구석에 있던 보통 직원 A가 갑자기 손을 들고 큰 소리를 칩니다. 그리고 회의가 끝날 때까지 모든 사람이 그 직원 A 를 바라봅니다.
특이점:
- 이 '중간 스타'들은 문장 시작부터 있는 게 아니라, **문장 중간 (중간 레이어)**에 갑자기 나타납니다.
- 문장 끝까지 계속 있는 게 아니라, 몇 단락만 집중하다가 사라지기도 합니다.
- 이 단어들은 보통 의미 없는 단어들 (숫자, 특수문자, 공백 등) 인 경우가 많습니다.

3. 왜 이런 일이 일어날까? (원인과 메커니즘)

연구팀은 이 현상이 AI 가 수학이나 논리 문제를 풀 때 (추론 능력) 더 활발하게 일어난다는 것을 발견했습니다.

비유 (공장 컨베이어 벨트):
- AI 는 문장을 만들 때 여러 단계의 공장 (레이어) 을 거칩니다.
- 처음에는 모든 단어가 평범하게 지나갑니다.
- 하지만 **공장의 중간 단계 (중간 레이어)**에 있는 특수한 기계 (MLP 모듈) 가 작동하면, 평범했던 단어들을 갑자기 '별의별'로 변형시킵니다.
- 이 기계는 특정 방향으로 단어들을 밀어붙여, 마치 회장님처럼 눈에 띄게 만듭니다.
- 핵심: AI 가 복잡한 문제를 풀수록 이 '중간 기계'가 더 강력하게 작동해서, 더 많은 '중간 스타'들을 만들어냅니다.

4. '회장님'과 '중간 스타'의 관계

흥미로운 점은 이 두 현상이 서로 보완한다는 것입니다.

비유: 회의가 길어질수록 회장님 (첫 번째 단어) 의 목소리는 점점 작아지고 지쳐갑니다 (중간 레이어에서 집중도가 떨어짐).
이때, 중간 스타들이 등장해서 회장님이 잃어버린 집중력을 대신 채워줍니다. 마치 회장님이 잠시 쉬는 동안, 다른 사람들이 회의를 이끌어가는 것과 같습니다.

5. 결론: AI 가 똑똑해질수록 변하는 모습

이 연구는 AI 가 단순한 대화만 하는 수준을 넘어, 수학이나 논리 같은 복잡한 추론을 할 수 있도록 훈련될수록 이 '중간 스타' 현상이 더 뚜렷해진다는 것을 보여줍니다.

작은 AI: 회장님만 바라봄.
거대하고 똑똑한 AI (예: Qwen3, QwQ): 회장님도 중요하지만, 문장 중간중간에 등장하는 '중간 스타'들이 복잡한 문제를 해결하는 데 중요한 역할을 함.

요약

이 논문은 **"AI 가 똑똑해지면, 문장 중간중간에 의미 없는 단어들이 갑자기 '스타'가 되어 문장을 지탱한다"**는 사실을 발견했습니다. 이는 AI 가 복잡한 논리를 풀 때 내부적으로 어떻게 정보를 처리하고 집중력을 분산시키는지 이해하는 중요한 열쇠가 될 것입니다.

마치 복잡한 미로를 풀 때, 처음의 나침반 (회장님) 만 믿는 게 아니라, 미로 중간중간에 숨겨진 새로운 이정표 (중간 스타) 들을 발견해서 길을 찾는다고 생각하시면 됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: 이차적 어텐션 싱크 (Secondary Attention Sinks) 의 존재와 행동

이 논문은 대규모 언어 모델 (LLM) 에서 관찰되는 어텐션 싱크 (Attention Sinks) 현상의 새로운 차원을 규명합니다. 기존 연구에서 주로 주목받던 시퀀스 시작 토큰 (BOS, Beginning-of-Sequence) 이나 초기 층에서 생성되어 네트워크 전체에 걸쳐 유지되는 '주요 싱크 (Primary Sinks)'와 구별되는, **중간 층에서 발생하여 일정 기간 유지되는 '이차적 싱크 (Secondary Sinks)'**를 발견하고 그 형성 메커니즘, 특성, 영향을 체계적으로 분석했습니다.

1. 문제 정의 (Problem)

기존 연구의 한계: 어텐션 싱크는 주로 BOS 토큰과 같이 시퀀스 시작 부분에서 발생하며, 네트워크의 모든 층을 통과하며 높은 어텐션 가중치를 받는 현상으로 알려져 왔습니다. 최근 연구들 (Sun et al., 2024; Ruscio et al., 2025) 은 BOS 외의 다른 토큰도 싱크가 될 수 있음을 보였으나, 이들은 BOS 싱크와 유사하게 동일한 층에서 발생하고 네트워크 전체에 걸쳐 지속되는 것으로 여겨졌습니다.
새로운 현상: 저자들은 기존 연구와 근본적으로 다른 특성을 가진 **이차적 싱크 (Secondary Sinks)**를 발견했습니다. 이들은 BOS 싱크와 달리:
- 네트워크의 **중간 층 (Middle Layers)**에서 주로 발생합니다.
- 네트워크 전체를 통과하는 것이 아니라, 가변적인 수의 층 (Variable number of layers) 동안만 지속됩니다.
- 주요 싱크보다 적은 양의 어텐션 질량 (Attention Mass) 을 끌어모으지만, 여전히 통계적으로 유의미한 수준입니다.

2. 방법론 (Methodology)

저자들은 11 개의 다양한 모델 패밀리 (DeepSeek, Qwen2/2.5/3, QwQ, LLaMA-3.1, Phi-4 등) 를 대상으로 광범위한 실험을 수행했습니다.

데이터 및 모델: AIME24 및 Math 데이터셋에서 생성된 추론 추적을 사용하여 11 개의 모델 패밀리에서 어텐션 가중치를 분석했습니다.
싱크 식별 알고리즘:
- 각 층 $l$ 에서 BOS 토큰 ( $h^l_0$ ) 과 다른 토큰 ( $h^l_t$ ) 간의 **코사인 유사도 (Cosine Similarity)**를 계산했습니다.
- 유사도가 0.95 이상인 토큰을 어텐션 싱크로 정의하고, 이를 통해 주요 싱크와 이차적 싱크를 구분했습니다.
- $\ell_2$ -norm 분석을 통해 싱크 토큰의 히든 상태, 키 (Key), 값 (Value) 벡터의 크기를 일반 토큰과 비교했습니다.
인과적 형성 분석 (Causal Formation Analysis):
- MLP 모듈 분석: 특정 층 (예: DeepSeek-14B 의 22 층) 의 MLP 입력, 게이트, 출력 단계를 거쳐 토큰이 어떻게 싱크 방향으로 정렬되는지 추적했습니다.
- PCA 및 클러스터링: MLP 입력 벡터에 대한 주성분 분석 (PCA) 을 수행하여 싱크 방향을 추출하는 저차원 구조를 확인했습니다. 또한, 히든 상태와 MLP 출력의 t-SNE 클러스터링을 통해 일반 무의미 토큰과 미래의 싱크 토큰이 언제부터 분리되는지 분석했습니다.
- 토큰 스와핑 실험 (Token Swapping): 초기 층에서 미래의 싱크 토큰의 활성화 (Activation) 를 평균 무의미 토큰으로 교체하여, 싱크 형성이 어느 층에서 결정되는지 인과적으로 검증했습니다.

3. 주요 기여 및 발견 (Key Contributions & Findings)

가. 이차적 싱크의 정의와 계층화 (Sink Levels)

주요 싱크 (Primary Sinks): BOS 토큰과 동일하게 초기 층에서 발생하여 네트워크 전체에 걸쳐 지속됩니다.
이차적 싱크 (Secondary Sinks): 중간 층에서 발생하며, 생성된 층 ( $l_{start}$ $l_{s t a r t}$ ) 과 지속되는 층 수 (Lifetime) 에 따라 **싱크 레벨 (Sink Levels)**로 분류됩니다.
- 예: QwQ-32B 는 3 개의 레벨, Qwen3-14B 는 6 개의 레벨을 가집니다.
- 모델이 커질수록 싱크의 위치와 수명이 더 결정적이고 빈번하게 나타납니다.

나. 형성 메커니즘 (Formation Mechanism)

MLP 의 역할: 이차적 싱크는 특정 중간 층의 MLP 모듈에 의해 형성됩니다.
- MLP 는 여러 직교 방향 (Orthogonal Directions) 을 가진 토큰 표현을 해당 층의 주요 싱크 방향과 정렬된 단일 벡터로 변환합니다.
- $\ell_2$ -norm 의 중요성: MLP 출력 벡터의 $\ell_2$ -norm 크기가 이차적 싱크의 '싱크 점수 (Sink Score)'와 지속 시간을 결정합니다. 노름이 클수록 싱크 점수가 높고 더 오래 지속됩니다.
조기 결정: 싱크가 실제로 나타나는 층 (예: 22 층) 보다 훨씬 이전 (예: 19 층) 에 이미 일반 토큰과 미래 싱크 토큰이 클러스터링되어 구분되기 시작합니다. 이는 MLP 이전의 어텐션 모듈과 히든 상태가 싱크가 될 토큰을 미리 선별하고 있음을 시사합니다.

다. BOS 싱크와의 보상 관계 (Compensating Effect)

역상관 관계: BOS 싱크의 강도는 네트워크 중간 층에서 점차 약해지며 (약화), 이때 이차적 싱크가 등장합니다.
이는 이차적 싱크가 네트워크 깊이에 따른 정보 압축이나 BOS 싱크의 감소를 **보상 (Compensate)**하는 역할을 수행할 가능성을 시사합니다.

라. 모델 크기와 학습 데이터의 영향

모델 크기: 작은 베이스 모델에서는 이차적 싱크가 거의 관찰되지 않거나 약하지만, 모델 크기가 커질수록 (예: 32B 이상) 명확하게 나타납니다.
학습 데이터: 방대한 양의 수학 데이터로 추가 학습 (Post-training) 을 거친 모델 (예: Qwen-Math, QwQ) 에서 이차적 싱크 현상이 더 강하게 나타납니다. 이는 추론 능력 향상과 관련이 있을 수 있음을 시사합니다.

4. 결과 (Results)

다양한 모델에서의 검증: DeepSeek, Qwen 시리즈, LLaMA 등 11 개 모델 패밀리 중 Qwen 계열과 DeepSeek-R1-Distill 계열에서 이차적 싱크가 명확히 관찰되었습니다. 반면, CodeLlama 등 일부 모델에서는 관찰되지 않았습니다.
통계적 특성:
- 이차적 싱크는 의미론적으로 정보가 없는 토큰 (예: 공백, 숫자, 특수문자) 에서 빈번하게 발생합니다.
- 싱크의 지속 시간은 2 층에서 최대 22 층 (네트워크의 약 절반) 까지 다양하게 분포합니다.
- MLP 출력의 $\ell_2$ -norm과 싱크 점수/지속 시간 사이에는 로그 - 선형 (Log-linear) 및 단조 증가 관계가 존재합니다.

5. 의의 및 결론 (Significance)

어텐션 메커니즘에 대한 새로운 통찰: 어텐션 싱크가 단순히 BOS 토큰의 고유한 현상이 아니라, 네트워크의 깊이와 구조에 따라 다층적으로 발생하는 역동적인 현상임을 증명했습니다.
모델 최적화 및 KV 캐시: 이차적 싱크의 존재와 수명 (Lifetime) 은 KV 캐시 최적화 (KV-cache optimization) 및 모델 양자화 (Quantization) 전략에 중요한 시사점을 제공합니다. 특히 중간 층에서 발생하는 싱크를 고려한 새로운 압축 전략이 필요할 수 있습니다.
추론 능력과의 연관성: 수학 및 추론 데이터로 학습된 모델에서 이차적 싱크가 더 두드러진다는 점은, 이 현상이 모델의 추론 능력 (Reasoning Capability) 향상과 밀접하게 연관되어 있을 가능성을 제기합니다.
미래 연구 방향: 이차적 싱크가 생성되는 근본적인 원인 (Pre-training 단계에서의 기원) 과 텍스트 생성 품질 및 하위 작업 성능에 미치는 구체적인 영향을 규명하는 것이 향후 중요한 연구 과제로 남았습니다.

이 논문은 어텐션 싱크 현상을 단순한 아티팩트가 아닌, 모델의 깊이와 구조적 조직화를 이해하는 핵심 메커니즘으로 재해석하는 중요한 기여를 했습니다.