Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

이 논문은 대규모 언어 모델의 위치 인코딩을 의미 임베딩과 분리하여 '주의 중력장 (AGF)' 개념을 도입함으로써 뉴턴의 만유인력 법칙과 일치하는 이론적 틀을 제시하고 모델 최적화 및 해석 가능성 향상을 도모합니다.

Edward Zhang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "나이"와 "소득"을 더하는 기이한 일

기존의 AI 모델들은 문장의 순서를 나타내는 '위치 정보'와 단어의 뜻을 나타내는 '의미 정보'를 섞어서 사용했습니다.

  • 비유: 마치 "이 사람의 나이 (위치)"와 "월급 (의미)"을 더해서 하나의 숫자로 만들어버리는 것과 같습니다. "30 세 + 300 만 원 = 300,030"이 되어버리면, 나이는 나대로, 월급은 월급대로 이해하기가 어렵죠.
  • 결과: AI 가 문맥을 이해하는 데 혼란을 겪을 수 있습니다.

2. 해결책: "중력"을 도입하다 (AGF)

저자는 이 문제를 해결하기 위해 물리학의 '중력' 개념을 차용했습니다.

  • 핵심 아이디어: 두 단어 사이의 관계는 거리에 따라 달라집니다.
    • 가까이 있는 단어는 서로 강하게 끌어당깁니다 (강한 중력).
    • 멀리 있는 단어는 그 힘이 약해집니다 (약한 중력).
  • 비유: 지구에서 물체를 들어 올릴 때, 지면에서 멀어질수록 중력이 약해지듯, 문장에서도 단어가 멀어질수록 서로의 영향력이 자연스럽게 줄어듭니다.
  • 혁신: 기존 방법들은 이 '거리'를 단순히 숫자를 더하거나 빼는 방식으로 처리했지만, 이 논문은 **"중력 법칙 (거리의 제곱에 반비례)"**처럼 자연스럽게 힘을 약화시키는 방식을 제안합니다.

3. 핵심 발견: "왜 중력일까?" (통계와 경제학의 법칙)

왜 하필 중력 (중력의 법칙) 일까요? 저자는 언어의 본질을 분석하며 두 가지 이유를 듭니다.

  • A. 언어의 경제성 (짧을수록 자주 쓰임):

    • 사람들은 자주 쓰는 말은 짧게, 드물게 쓰는 말은 길게 표현합니다.
    • 비유: "사과"라는 말은 바로 옆에 있는 "빨간"이라는 수식어와 바로 연결되지만, "어제 내가 먹었던"이라는 긴 수식어는 훨씬 더 멀리 있는 "사과"와 연결됩니다.
    • 하지만 문장이 길어질수록, 그 긴 수식어가 핵심 단어와 연결될 확률은 기하급수적으로 줄어듭니다. 이는 마치 중력이 거리가 멀어질수록 약해지는 것과 똑같은 패턴 (멱함수 법칙) 입니다.
  • B. 학습 곡선과의 일치:

    • AI 가 학습할수록 성능이 오르는 곡선도 이 '중력 법칙'과 거의 일치합니다. 처음엔 빠르게 배우고, 나중엔 천천히 발전하는 모습은 우주의 법칙과 닮아 있습니다.

4. 더 큰 혁신: "의미"와 "위치"를 완전히 분리하다

이 논문은 단순히 중력 법칙을 적용하는 것을 넘어, 위치 정보를 계산하는 방식을 완전히 바꿉니다.

  • 기존 방식: 단어의 의미 (Value) 를 가져오기 전에, 위치 정보를 미리 섞어놓았습니다. (나쁜 비유: 요리할 때 재료를 다 섞은 후 소금기를 조절하는 것)
  • 새로운 방식 (PCM-V):
    1. 먼저 단어의 순수한 의미 (Value) 를 가져옵니다.
    2. 그다음, **중력 (위치 정보)**을 적용하여 그 의미를 조절합니다.
    • 비유: 요리할 때, 먼저 재료를 다듬고 (의미), 마지막에 소금기 (위치/중력) 를 살짝 뿌려 맛을 조절하는 것과 같습니다.
    • 효과: 이렇게 하면 AI 가 문장의 의미를 훨씬 더 정확하게 이해하게 되어, 번역이나 이해 작업의 정확도가 눈에 띄게 향상됩니다.

5. 결론: AI 는 우주의 법칙을 따르고 있었다

이 논문의 가장 큰 메시지는 **"AI 가 문장을 이해하는 방식은 우주의 물리 법칙 (중력) 과 통계적 법칙 (멱함수) 과 놀라울 정도로 일치한다"**는 것입니다.

  • 요약:
    1. 단어 사이의 관계는 '거리'에 따라 자연스럽게 약해져야 합니다 (중력).
    2. 위치 정보와 의미 정보를 분리해서 처리해야 AI 가 더 똑똑해집니다.
    3. 이 방식을 적용하면 기존 모델보다 더 정확하고 효율적인 AI 를 만들 수 있습니다.

한 줄 평:

"AI 가 문장을 읽을 때, 단어들이 서로 끌어당기는 '중력'을 계산하면 훨씬 더 똑똑해집니다. 마치 행성들이 궤도를 도는 것처럼, 단어들도 거리가 멀어질수록 서로의 영향력이 자연스럽게 줄어든다는 것을 발견한 것입니다."