Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

이 논문은 '중간 소실' 현상이 학습이나 위치 인코딩 이전에도 초기화 단계에서 이미 존재하는 인과적 디코더의 기하학적 속성임을 수학적으로 증명하고, 표준 학습만으로는 이 구조적 편향을 극복할 수 없음을 실험을 통해 확인했습니다.

Borun D Chowdhury

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최근 큰 화제가 된 **'중간 정보 실종 현상 (Lost in the Middle)'**에 대해 매우 흥미롭고 근본적인 새로운 해석을 제시합니다.

쉽게 말해, **"AI 가 긴 글을 읽을 때, 글의 '시작'과 '끝'은 잘 기억하지만, 정작 글의 '가운데'에 있는 중요한 정보는 잊어버리는 이유"**를 수학적으로 증명했습니다.

기존에는 "AI 가 학습을 잘못해서" 또는 "위치 정보를 나타내는 기술 (RoPE) 이 부족해서"라고 생각했지만, 이 논문의 저자는 **"아니요, AI 가 아예 태어날 때부터 (학습 전) 그런 구조를 가지고 태어났습니다"**라고 말합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🏗️ 비유: 거대한 도서관과 '중간 층'의 고립

AI 모델 (Transformer) 을 거대한 도서관이라고 상상해 보세요. 이 도서관은 24 층짜리 빌딩처럼 여러 층 (레이어) 으로 이루어져 있고, 책 (정보) 을 한 권씩 읽어가며 정보를 전달합니다.

1. 시작 (1 층) 의 '초능력' (Primacy Tail)

  • 상황: 도서관 1 층에 있는 책 (글의 첫 번째 단어) 은 모든 층으로 정보가 전달되는 가장 많은 통로를 가지고 있습니다.
  • 비유: 1 층에 있는 사람은 2 층, 3 층, 4 층... 모든 층의 사람들이 그 사람을 거쳐 가도록 되어 있습니다. 그래서 1 층의 정보는 기하급수적으로 증폭되어 상층부 (최종 답변) 에 강력하게 도달합니다.
  • 결과: AI 는 글의 시작 부분을 매우 잘 기억합니다.

2. 끝 (지붕) 의 '비상구' (Recency Anchor)

  • 상황: 도서관의 가장 마지막 층 (지붕) 에 있는 책 (글의 마지막 단어) 은 특별한 **비상구 (잔여 연결, Residual Connection)**가 있습니다.
  • 비유: 이 비상구는 다른 층들을 거치지 않고, 바로 지붕에서 최종 출력실로 **순간이동 (Teleportation)**할 수 있는 통로입니다.
  • 결과: AI 는 글의 끝 부분도 매우 잘 기억합니다.

3. 중간 (2~23 층) 의 '죽음의 계곡' (The Dead Zone)

  • 상황: 이제 1 층과 지붕 사이의 중간 층에 있는 책들을 생각해 보세요.
  • 비유:
    • 1 층처럼 모든 층을 거치는 '증폭' 효과도 없습니다.
    • 지붕처럼 바로 뛰어가는 '비상구'도 없습니다.
    • 중간 층의 정보는 **여러 층을 거치면서 조금씩 희석 (dilution)**됩니다. 마치 물이 긴 관을 통과하다 보면 물이 점점 줄어드는 것처럼, 정보가 중간에 오면 계승적으로 사라져 버립니다.
  • 결과: AI 는 글의 가운데에 있는 정보는 거의 못 봅니다. 수학적으로 이 확률은 **팩토리얼 (H-1)!**만큼 작아져서, 24 층짜리 빌딩에서는 중간 정보가 거의 0 에 수렴합니다.

🔍 이 논문의 핵심 발견 3 가지

1. "학습 전에도 이미 U 자 모양이다"

기존에는 "AI 가 학습을 하다가 실수를 해서 중간을 잊어버린다"고 생각했습니다. 하지만 이 논문의 저자는 아직 학습을 하나도 하지 않은 '태어날 때 (초기화)'의 AI를 실험해 보았습니다.

  • 결과: 학습을 전혀 하지 않은 AI 도 이미 시작과 끝은 강하고, 중간은 약한 U 자 모양을 가지고 있었습니다. 즉, 이는 학습의 실수가 아니라, AI 의 '건축 설계도' 자체에 있는 문제입니다.

2. "위치 표시 (RoPE) 는 무관하다"

많은 연구진이 "위치 정보를 나타내는 기술 (RoPE) 을 고치면 중간을 잘 볼 수 있겠다"고 생각하며 기술을 개선했습니다.

  • 결과: 하지만 저자는 "RoPE 를 아예 없애도, 혹은 바꿔도 U 자 모양은 변하지 않는다"고 증명했습니다. 위치 표시는 단지 '부수적인 요소'일 뿐, 진짜 원인은 **구조 (건축물 자체)**에 있습니다.

3. "학습을 해도 해결되지 않는다"

AI 를 수백 억 개의 데이터로 학습시켜도, 이 '중간 계곡'은 사라지지 않습니다.

  • 비유: AI 는 학습을 통해 중간에 있는 중요한 정보를 찾으려고 애쓰지만, 건축 구조상 정보가 중간으로 전달되기 너무 어렵기 때문에, AI 는 결국 "가장 쉬운 길"인 시작과 끝만 믿고 답을 찾습니다.

💡 결론: 왜 이 연구가 중요한가?

이 논문은 **"중간 정보를 잃어버리는 문제는 AI 가 아직 배운 게 없어서가 아니라, AI 가 태어날 때부터 가진 '결함'이다"**라고 말합니다.

  • 과거의 생각: "RoPE 기술을 고치거나, 더 많은 데이터를 주면 해결될 거야."
  • 이 논문의 주장: "아니요, 그건 증상만 다스리는 거예요. 근본적인 **건축 구조 (수학적 설계)**를 바꾸지 않으면, AI 는 영원히 중간 정보를 놓칠 수밖에 없습니다."

미래의 방향:
이제 우리는 AI 의 성능을 높이기 위해, 단순히 데이터를 더 주거나 위치 기술을 tweaking 하는 것을 넘어, **중간 정보가 희석되지 않도록 하는 새로운 학습 방법 (예: 중간 정보에 특별히 점수를 더 주는 손실 함수 등)**을 개발해야 합니다.

한 줄 요약:

"AI 가 긴 글을 읽을 때 중간을 잊어버리는 건, AI 가 멍청해서가 아니라 AI 의 '집' 구조가 중간은 무시하고 시작과 끝만 받아들이도록 설계되어 있기 때문입니다."