How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

이 논문은 대규모 언어 모델에서 의미 정보 없이도 입력 시퀀스의 첫 번째 토큰에 집중되는 '어텐션 싱크'가 P0 싱크 회로를 통해 어떻게 형성되고 학습 초기에 두 번째 레이어까지 집중되며 사전 학습 수렴 상태를 추적하는 신호가 될 수 있는지를 규명합니다.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근의 거대 언어 모델 (LLM, 예: 챗봇) 이 왜 무조건 입력 문장의 '첫 번째 단어'에 너무 집중하는지 그 비밀을 파헤친 연구입니다.

이 현상을 **'어텐션 싱크 (Attention Sink, 주의의 함정)'**라고 부르는데, 마치 블랙홀처럼 첫 단어가 모든 주의를 빨아들여 다른 중요한 단어를 무시하게 만드는 것처럼 보일 수 있습니다. 보통은 나쁜 현상으로 여겨졌지만, 이 논문은 "아니요, 사실은 모델이 스스로 만든 아주 똑똑한 '안전장치'입니다"라고 설명합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 풀어서 설명해 드릴게요.


1. 핵심 발견: "첫 번째 단어는 '보이지 않는 기둥'입니다"

우리가 글을 쓸 때, 문장 맨 앞에 특별한 표시 (예: [BOS] 토큰) 를 붙이는 경우가 많습니다. 예전 연구자들은 "아, 모델이 이 특별한 표시 때문에 첫 번째 단어만 보는구나"라고 생각했습니다.

하지만 이 논문은 **"틀렸습니다. 그 표시를 지워도 모델은 여전히 첫 번째 단어에 집중합니다"**라고 증명했습니다.

  • 비유: 식당에 들어갈 때 문 앞에 '손님 환영' 간판이 있다고 해서 손님이 그 간판만 보는 게 아닙니다. 손님이 문 앞에 모이는 이유는 건물의 구조 때문입니다. 이 모델도 문장 구조상 첫 번째 단어가 가장 안전하고 확실한 '기둥' 역할을 하도록 스스로 학습한 것입니다.

2. 작동 원리: "2 층짜리 작은 공장 (P0-싱크 회로)"

모델이 어떻게 첫 번째 단어를 알아보고 집중하게 만들었을까요? 연구진은 모델 내부에 **2 개의 층 (Layer) 으로 이루어진 아주 간단한 '공장'**이 있다는 것을 발견했습니다.

  • 비유:
    • 1 층 (식별 공장): 문장이 들어오자마자 "아! 이거 첫 번째 단어구나!"라고 빠르게 인식합니다.
    • 2 층 (증폭 공장): 인식된 첫 번째 단어를 "우리가 가장 중요하게 여겨야 할 사람"이라고 크게 외치며, 그 단어가 가진 정보의 크기 (노름, Norm) 를 부풀려 만듭니다.
    • 결과: 이렇게 부풀려진 첫 번째 단어는 모델 전체에서 가장 눈에 띄고, 다른 단어들이 그쪽으로 자연스럽게 끌려가게 됩니다.

이 과정은 단어의 의미 (예: '사과'라는 뜻) 와는 상관없이 오직 '위치 (첫 번째)'만 보고 작동합니다. 마치 "문장 맨 앞에 있는 사람은 무조건 대표로 뽑자"는 규칙처럼요.

3. 왜 필요한가요? "안정적인 닻 (Anchor)"

왜 모델이 이런 짓을 할까요? 바로 혼란을 막기 위해서입니다.

  • 비유: 배가 바다를 항해할 때, 파도 (새로운 정보) 가 계속 밀려오면 배가 흔들립니다. 이때 **닻 (첫 번째 단어)**을 단단히 박아두면 배가 흔들리지 않고 방향을 유지할 수 있습니다.
  • 모델에게 첫 번째 단어는 이동 중인 정보의 기준점 역할을 합니다. 첫 번째 단어가 너무 강하게 고정되어 있어야, 그 뒤에 오는 수많은 정보들을 안정적으로 처리할 수 있습니다. 만약 이 '닻'이 없다면, 모델은 긴 문장을 처리할 때 자꾸 방향을 잃고 엉뚱한 대답을 할 수 있습니다.

4. 학습 과정: "어린 시절의 성장 스토리"

연구진은 모델을 처음부터 가르치는 과정을 지켜보며 흥미로운 사실을 발견했습니다.

  1. 초기 (중간 층에서 시작): 학습 초기에는 모델이 중간 층에서 첫 번째 단어를 찾으려다 헷갈립니다.
  2. 중기 (일시적 혼란): 잠시 동안 두 번째 단어나 다른 단어에 집중하다가 다시 첫 번째 단어로 돌아옵니다.
  3. 최종 (1~2 층으로 정착): 학습이 끝날 무렵, 이 '첫 번째 단어 인식 공장'은 모델의 가장 앞쪽 (1~2 층) 으로 이동하여 완전히 정착합니다.
  • 비유: 어린아이가 처음에는 "누가 내 친구지?"라고 중반부에서 헤매다가, 나이가 들면서 "아, 내가 태어난 순간 (첫 번째) 이 가장 확실한 기준이야"라고 깨닫고 그 자리로 돌아오는 것과 같습니다.

5. 결론: "나쁜 버그가 아니라, 필수적인 기능"

이 논문은 결론적으로 이렇게 말합니다.

"우리가 보기에 모델이 첫 번째 단어만 보는 건 **버그 (오류)**처럼 보일 수 있지만, 사실은 모델이 스스로 만든 가장 효율적인 안전장치입니다. 이 '주의의 함정'이 없으면 모델은 긴 문장을 처리할 때 길을 잃고 망가집니다."

한 줄 요약:
거대 언어 모델은 문장의 첫 번째 단어를 '안정적인 닻'으로 삼아 스스로를 지탱하고 있습니다. 이는 모델의 설계 구조상 필연적으로 발생하는 현상이며, 오히려 모델이 더 똑똑하게 일하기 위해 필요한 필수 기능입니다.