Latent Semantic Manifolds in Large Language Models

이 논문은 LLM 의 은닉 상태를 피셔 정보 계량을 갖춘 잠재 의미 다양체로 해석하고, 어휘 이산화로 인한 표현 격차에 대한 기하학적 이론을 정립하여 다양한 모델에서 보편적인 구조와 스케일링 법칙을 실험적으로 검증했습니다.

Mohamed A. Mabrok

게시일 2026-03-25
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌍 핵심 비유: "거대한 바다와 작은 섬들"

이 논문의 핵심 아이디어는 다음과 같습니다.

  1. 연속적인 의미의 바다 (Latent Semantic Manifold):
    AI 모델의 내부에서는 단어들이 숫자 (벡터) 로 변환되어 고차원의 공간에 존재합니다. 이 공간은 마치 거대한 바다와 같습니다. 이 바다의 물결은 아주 미세하게 변할 수 있어, '사랑'과 '애정' 사이에는 무한히 많은 미세한 감정 차이가 존재할 수 있습니다. 이를 연속적인 의미의 바다라고 부릅니다.

  2. 작은 단어 섬들 (Finite Vocabulary):
    하지만 AI 가 우리에게 말을 할 때는 이 거대한 바다에서 **유한한 개수의 단어 (예: 5 만 개)**만 선택해서 말해야 합니다. 이는 마치 바다 위에 **작은 섬들 (단어들)**만 띄워놓고, 그 섬들만 밟고 건너는 것과 같습니다.

    • 비유: 바다 (연속적인 생각) 는 넓지만, 우리가 발을 디딜 수 있는 곳은 오직 섬 (단어) 뿐입니다.
  3. 보이지 않는 해안선 (Expressibility Gap):
    섬과 섬 사이에는 바다 (해안선) 가 있습니다. AI 가 섬 (단어) 을 선택할 때, 정확히 섬 한가운데에 발을 딛는다면 확신에 찬 말입니다. 하지만 두 섬 사이의 해안선 근처에 발이 걸려 있다면, AI 는 "어떤 단어를 써야 할지 망설이는" 상태가 됩니다.

    • 이 논문은 바로 이 해안선 근처의 모호한 영역을 수학적으로 분석했습니다.

🔍 이 논문이 발견한 3 가지 놀라운 사실

연구진은 6 가지 다른 크기의 AI 모델 (1 억 2 천만 개 파라미터부터 15 억 개까지) 을 분석하여 다음과 같은 사실을 증명했습니다.

1. "모래시계" 모양의 생각 공간 (Hourglass Pattern)

AI 가 문장을 처리할 때, 그 내부 공간의 복잡도 (차원) 는 일정하지 않습니다.

  • 시작: 문장을 읽기 시작하면 공간이 조금 넓어집니다.
  • 중간: 문장의 맥락을 이해하는 중간 단계에서 공간이 가장 넓어지고 복잡해집니다 (모래시계 윗부분).
  • 끝: 정답 (다음 단어) 을 선택할 때는 다시 좁아져서 깔끔하게 정리됩니다 (모래시계 아랫부분).
  • 비유: 마치 정보를 흡수할 때는 주머니를 크게 펴서 (확장) 모든 것을 담고, 정답을 고를 때는 주머니를 오므려 (수축) 가장 적합한 것만 꺼내는 것과 같습니다.

2. "진짜 바다"는 생각보다 훨씬 작다 (Low Dimensionality)

AI 내부 공간은 수천 차원 (매우 거대함) 으로 보이지만, 실제로 AI 가 사용하는 '의미 있는 공간'은 그중 1~3% 정도에 불과합니다.

  • 비유: 거대한 호텔 (고차원 공간) 을 빌렸는데, 실제로 사람이 살며 활동하는 방은 로비와 몇 개의 방 (저차원 매니폴드) 뿐이고, 나머지 97% 는 비어 있는 창고 같은 것입니다. AI 는 이 좁은 '살아있는 공간' 위를 움직이며 생각합니다.

3. "선형적인" 모호함의 법칙 (Linear Scaling Law)

가장 중요한 발견입니다. AI 가 단어를 선택할 때 얼마나 망설이는지 (해안선 근처에 있는지) 를 측정하는 지표가 있습니다.

  • 연구진은 "망설임의 정도"와 "해안선 근처에 있는 영역의 크기" 사이의 관계를 수학적으로 증명했습니다.
  • 결과: 망설임의 기준을 조금만 낮추면, 모호한 영역의 크기는 비례하여 선형적으로 증가했습니다.
  • 의미: "단어 (섬) 의 개수가 정해져 있는 한, AI 가 100% 확신할 수 없는 모호한 상황은 필연적으로 존재하며, 그 크기는 예측 가능한 법칙을 따릅니다."

💡 이 연구가 우리에게 주는 메시지

이 연구는 단순히 "AI 가 어떻게 작동하는가"를 설명하는 것을 넘어, AI 의 한계와 미래에 대한 중요한 통찰을 줍니다.

  1. 왜 AI 는 가끔 헷갈릴까?
    AI 가 헷갈리는 것은 단순히 지능이 부족해서가 아니라, 연속적인 생각 (바다) 을 불연속적인 단어 (섬) 로 번역할 때 필연적으로 생기는 손실 때문입니다. 이 '번역 오차'는 수학적으로 피할 수 없는 한계입니다.

  2. 더 큰 모델이 왜 더 잘할까?
    모델이 커질수록 (파라미터가 늘어날수록), AI 는 바다 위에 더 많은 섬을 띄우거나, 섬과 섬 사이의 경계를 더 선명하게 만들 수 있습니다. 연구에 따르면 큰 모델은 해안선 근처에 머무는 시간을 줄이고, 섬의 중심부로 더 확신 있게 발을 딛는 경향이 있습니다.

  3. 실제 활용 방안 (AI 개발자들에게)

    • 압축: AI 의 내부 공간이 생각보다 훨씬 작게 사용되고 있으므로, 불필요한 부분을 잘라내도 성능이 크게 떨어지지 않을 수 있습니다.
    • 학습 진단: AI 가 학습하는 동안 '모래시계' 모양이 제대로 만들어지는지, '해안선'이 너무 흐릿하지는 않은지 확인하면 학습 상태를 진단할 수 있습니다.
    • 답변 전략: AI 가 해안선 근처 (모호한 영역) 에 있을 때는 더 신중하게 답변을 생성하도록 유도할 수 있습니다.

📝 한 줄 요약

"거대 언어 모델은 거대한 '연속적인 의미의 바다' 위에서, 유한한 '단어 섬'들을 밟아 말을 만들어냅니다. 이 논문은 그 바다의 모양 (기하학) 을 분석하여, 왜 AI 가 가끔 망설이는지, 그리고 어떻게 하면 더 똑똑하고 효율적으로 만들 수 있는지에 대한 수학적 지도를 그려냈습니다."

이 연구는 AI 를 단순한 통계 기계가 아니라, 수학적 구조를 가진 복잡한 공간으로 이해함으로써, AI 의 능력을 더 깊이 이해하고 발전시키는 새로운 길을 열어줍니다.