On the Existence and Behavior of Secondary Attention Sinks

이 논문은 11 개의 모델 가족을 대상으로 기존 연구에서 간과되었던 중간 레이어에서 발생하여 주된 어텐션 싱크와 구별되는 '2 차 어텐션 싱크'의 존재, 형성 메커니즘 (특정 MLP 모듈에 의한 생성), 그리고 모델 규모에 따른 결정적인 발생 패턴을 규명했습니다.

Jeffrey T. H. Wong, Cheng Zhang, Louis Mahon, Wayne Luk, Anton Isopoussu, Yiren Zhao

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능 (AI) 이 글을 쓸 때, 왜 특정 단어가 다른 단어보다 훨씬 더 많이 '주목'을 받는지, 그리고 그 현상이 어떻게 변하는지에 대한 흥미로운 발견을 담고 있습니다.

한마디로 요약하면: "AI 는 글을 쓸 때, 문장 맨 앞의 단어 (BOS) 만이 항상 주목받는 게 아니라, 문장 중간중간에 갑자기 '별의별' 단어들이 등장해서 주목을 끌기도 합니다. 이 현상을 '이차적 주류 (Secondary Sinks)'라고 부르며, AI 가 추론 능력을 키우면서 생기는 새로운 특징입니다."

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존에 알려진 이야기: "문장 맨 앞의 '스타' (Primary Sink)"

과거 연구자들은 AI 가 문장을 만들 때, **문장의 맨 첫 번째 단어 (시작 토큰)**가 유독 다른 단어들보다 훨씬 많은 '주목 (Attention)'을 받는다는 것을 발견했습니다.

  • 비유: 마치 회의실 문이 열리고 가장 먼저 들어온 회장님이 있습니다. 회의가 아무리 길어지고 내용이 복잡해져도, 모든 참석자가 계속 회장님을 바라보며 그의 말에 집중합니다. AI 는 문장의 시작을 잊지 않기 위해 이 '회장님'에게 계속 집중하는 것입니다.

2. 이 논문의 새로운 발견: "갑자기 등장하는 '중간 스타' (Secondary Sinks)"

하지만 이 연구팀은 더 큰 모델 (AI) 을 분석하다가 놀라운 사실을 발견했습니다. 문장 중간에 갑자기 다른 단어들이 등장해서 회장님 못지않게 주목을 받는 경우가 있다는 것입니다.

  • 비유: 회의가 한참 진행되는데, 갑자기 회의실 한구석에 있던 보통 직원 A가 갑자기 손을 들고 큰 소리를 칩니다. 그리고 회의가 끝날 때까지 모든 사람이 그 직원 A 를 바라봅니다.
  • 특이점:
    • 이 '중간 스타'들은 문장 시작부터 있는 게 아니라, **문장 중간 (중간 레이어)**에 갑자기 나타납니다.
    • 문장 끝까지 계속 있는 게 아니라, 몇 단락만 집중하다가 사라지기도 합니다.
    • 이 단어들은 보통 의미 없는 단어들 (숫자, 특수문자, 공백 등) 인 경우가 많습니다.

3. 왜 이런 일이 일어날까? (원인과 메커니즘)

연구팀은 이 현상이 AI 가 수학이나 논리 문제를 풀 때 (추론 능력) 더 활발하게 일어난다는 것을 발견했습니다.

  • 비유 (공장 컨베이어 벨트):
    • AI 는 문장을 만들 때 여러 단계의 공장 (레이어) 을 거칩니다.
    • 처음에는 모든 단어가 평범하게 지나갑니다.
    • 하지만 **공장의 중간 단계 (중간 레이어)**에 있는 특수한 기계 (MLP 모듈) 가 작동하면, 평범했던 단어들을 갑자기 '별의별'로 변형시킵니다.
    • 이 기계는 특정 방향으로 단어들을 밀어붙여, 마치 회장님처럼 눈에 띄게 만듭니다.
    • 핵심: AI 가 복잡한 문제를 풀수록 이 '중간 기계'가 더 강력하게 작동해서, 더 많은 '중간 스타'들을 만들어냅니다.

4. '회장님'과 '중간 스타'의 관계

흥미로운 점은 이 두 현상이 서로 보완한다는 것입니다.

  • 비유: 회의가 길어질수록 회장님 (첫 번째 단어) 의 목소리는 점점 작아지고 지쳐갑니다 (중간 레이어에서 집중도가 떨어짐).
  • 이때, 중간 스타들이 등장해서 회장님이 잃어버린 집중력을 대신 채워줍니다. 마치 회장님이 잠시 쉬는 동안, 다른 사람들이 회의를 이끌어가는 것과 같습니다.

5. 결론: AI 가 똑똑해질수록 변하는 모습

이 연구는 AI 가 단순한 대화만 하는 수준을 넘어, 수학이나 논리 같은 복잡한 추론을 할 수 있도록 훈련될수록 이 '중간 스타' 현상이 더 뚜렷해진다는 것을 보여줍니다.

  • 작은 AI: 회장님만 바라봄.
  • 거대하고 똑똑한 AI (예: Qwen3, QwQ): 회장님도 중요하지만, 문장 중간중간에 등장하는 '중간 스타'들이 복잡한 문제를 해결하는 데 중요한 역할을 함.

요약

이 논문은 **"AI 가 똑똑해지면, 문장 중간중간에 의미 없는 단어들이 갑자기 '스타'가 되어 문장을 지탱한다"**는 사실을 발견했습니다. 이는 AI 가 복잡한 논리를 풀 때 내부적으로 어떻게 정보를 처리하고 집중력을 분산시키는지 이해하는 중요한 열쇠가 될 것입니다.

마치 복잡한 미로를 풀 때, 처음의 나침반 (회장님) 만 믿는 게 아니라, 미로 중간중간에 숨겨진 새로운 이정표 (중간 스타) 들을 발견해서 길을 찾는다고 생각하시면 됩니다.