Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

이 논문은 소프트맥스 기반의 트랜스포머 모델이 특정 조건부 작업을 수행하기 위해 반드시 '어텐션 싱크 (attention sink)'를 형성해야 함을 수학적으로 증명하고, 이는 정규화 제약 때문임을 비정규화 ReLU 어텐션 실험을 통해 입증했습니다.

Yuval Ran-Milo

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 인공지능, 특히 '트랜스포머 (Transformer)'라는 최신 AI 모델이 왜 항상 첫 번째 단어 (또는 토큰) 에 집중하는 이상한 버릇을 갖게 되는지 그 근본적인 이유를 수학적으로 증명했습니다.

이 현상을 **'어텐션 싱크 (Attention Sink, 주의력 함정)'**라고 부릅니다. 마치 모델이 "아무것도 안 할 때는 그냥 첫 번째 토큰을 바라보고 있다가, 중요한 신호 (트리거) 가 오기만 하면 그때부터 진짜 일을 시작한다"는 식으로 행동하는 것입니다.

이 논문은 이 현상이 단순한 실수나 훈련의 부작용이 아니라, **소프트맥스 (Softmax)**라는 수학적 규칙을 쓰는 한 피할 수 없는 필연이라고 말합니다.


🍕 쉬운 비유로 설명하기: "조용한 식당과 주문하는 손님"

이 논리의 핵심을 이해하기 위해 거대한 식당을 상상해 보세요.

  1. 상황: 이 식당에는 수많은 손님 (데이터) 이 들어와서 테이블에 앉습니다.
  2. 목표: 식당의 웨이터 (AI 모델) 는 특별한 주문 (트리거, 예: "요리사님, 이 테이블에서 모든 메뉴를 합쳐서 한 접시 만들어주세요!") 이 들어오기 전까지는 아무것도 하지 않고 조용히 있어야 합니다. 하지만 주문이 들어오면, 그전에 앉았던 모든 손님의 메뉴를 기억해서 평균을 내야 합니다.
  3. 문제: 웨이터는 "아무것도 하지 않는 상태 (Zero)"를 어떻게 표현할까요?

🚫 소프트맥스 (Softmax) 방식: "무조건 100% 를 나눠줘야 하는 규칙"

이 식당의 규칙이 **"모든 손님의 주의를 100% 로 나누어 배분해야 한다"**라고 가정해 봅시다. (이게 바로 소프트맥스의 특징입니다. 확률의 합은 항상 1 이어야 하죠.)

  • 주문이 없을 때: 웨이터는 아무것도 하지 않아야 합니다. 하지만 "주의를 100% 나누라"는 규칙 때문에, 아무도 주의를 기울이지 않는다면 100% 가 어디로 갈지 모호해집니다.
  • 해결책: 웨이터는 혼란을 피하기 위해 가장 안전한 곳, 즉 문 앞에 서 있는 '첫 번째 손님 (BOS 토큰)'에게 100% 의 시선을 고정시킵니다.
    • "아무것도 안 할 때는 문 앞의 첫 번째 손님을 바라보는 게 내 임무야!"
    • 이렇게 하면 "아무것도 안 한다"는 상태를 "첫 번째 손님을 100% 집중해서 바라본다"는 식으로 표현할 수 있게 됩니다.
    • 결과: 웨이터는 주문이 오기 전까지 문 앞의 첫 번째 손님을 뚫어지게 쳐다보게 됩니다. 이것이 바로 어텐션 싱크입니다.

✅ ReLU 방식: "아무것도 안 할 때는 시선을 0% 로 줄 수 있는 규칙"

이제 식당 규칙을 바꿨습니다. "주의를 0% 로 줄 수도 있고, 100% 로 줄 수도 있어. 합이 100% 일 필요는 없어." (이게 ReLU 어텐션의 특징입니다.)

  • 주문이 없을 때: 웨이터는 "아무것도 안 할 때는 시선을 0% 로 줄게. 누구도 안 봐."라고 할 수 있습니다.
  • 주문이 왔을 때: 그때 가서야 필요한 손님들에게 시선을 돌리면 됩니다.
  • 결과: 웨이터는 문 앞의 첫 번째 손님을 굳이 쳐다볼 필요가 없습니다. 싱크 (함정) 가 생기지 않습니다.

📝 이 논문의 주요 발견 (핵심 요약)

  1. 왜 이런 버릇이 생길까?

    • AI 모델이 "아무것도 하지 않는 상태 (No-op)"를 구현하려 할 때, 소프트맥스라는 규칙 때문에 어쩔 수 없이 **첫 번째 토큰 (BOS)**을 '안전판'으로 삼아야 한다는 것을 수학적으로 증명했습니다.
    • 마치 "주머니에 돈을 100% 다 넣어야 하는데, 아무것도 사지 않을 때는 어디에 넣어야 할지 몰라서 가장 안전한 주머니 (첫 번째 토큰) 에 꽂아두는 것"과 같습니다.
  2. 실제 AI 에서도 이런 일이 일어날까?

    • 네, 실제로 GPT 나 Llama 같은 최신 모델들을 분석해보니, 특정 신호 (예: 문장 부호나 코드 시작) 가 오기 전까지는 첫 번째 토큰을 집중해서 바라보는 '싱크' 현상이 정말로 관찰되었습니다. 이는 이 논문이 예측한 것과 정확히 일치합니다.
  3. 이걸 고칠 수 있을까?

    • 소프트맥스 규칙을 바꾸지 않는 한, 이 버릇을 없애기는 어렵습니다. 만약 강제로 첫 번째 토큰을 보지 못하게 막으면, 모델은 "아무것도 안 하는 상태"를 표현할 수 없게 되어 성능이 떨어질 수 있습니다.
    • 해결책: 소프트맥스 대신 ReLU 같은 다른 수학적 규칙을 쓰면, 첫 번째 토큰을 보지 않아도 "아무것도 안 하는 상태"를 자연스럽게 표현할 수 있어 싱크 현상이 사라집니다.

💡 결론: 왜 이 연구가 중요한가?

이 연구는 AI 개발자들에게 중요한 메시지를 줍니다.

  • "아, 우리 모델이 첫 번째 토큰을 너무 많이 봐서 성능이 나쁜가? 그냥 그 부분을 수정하면 되겠네!"라고 생각할 수 있지만, 그건 근본적인 해결책이 아닙니다.
  • 오히려 소프트맥스라는 규칙 자체가 그 버릇을 만들어낸 원인입니다.
  • 만약 AI 가 "아무것도 안 할 때"와 "무언가 할 때"를 명확하게 구분하고 싶다면, 규칙 자체 (소프트맥스) 를 바꾸거나 (ReLU 사용), 아예 새로운 방식의 어텐션을 설계해야 합니다.

즉, **어텐션 싱크는 AI 의 실수가 아니라, 소프트맥스라는 규칙을 쓰는 한 피할 수 없는 '필요한 악 (혹은 필수 장치)'**이라는 것이 이 논문의 핵심입니다.